övervakning av garderoben

Permalänk

övervakning av garderoben

tjena,

vad använder ni för system för övervakning av serverhälsan?
Har googlat runt och det finns ju massor som alla är bäst enligt dom själva :).

Det enda jag har egen erfarenhet av är Nagios och det är ju inte så kul även om det funkar.

Det jag är ute efter är både statistik och larm vid eventuella problem.

Permalänk
Medlem

Körde med denna ett tag på mina datorer, dock mest för att få en logg då nätet gick ner då jag hade lite strul ett tag.
Riktigt smidigt tyckte jag det var iaf, sedan är det gratis upp till 100 sensorer.

Visa signatur

Stuff and things!

Permalänk
Medlem
Skrivet av hjälpsam:

tjena,

vad använder ni för system för övervakning av serverhälsan?
Har googlat runt och det finns ju massor som alla är bäst enligt dom själva :).

Det enda jag har egen erfarenhet av är Nagios och det är ju inte så kul även om det funkar.

Det jag är ute efter är både statistik och larm vid eventuella problem.

Nagios gör exakt det där. OP5 är Nagios med slips kan man säga. Gratis upp till 20 noder.

Permalänk
Medlem

Frågorna är väl mer... Vad vill du övervaka? och hur?
Det är ju inte så att du gett oss så mycket information att gå på

Permalänk
Medlem

Tror många övervakar för mycket, för att det är kul och tufft, inte för att det behövs.
Min server har för närvarande runt ett år av upptid, trots att jag slutat att övervaka.

Det mesta som folk gillar att övervaka går att automatisera:
Blir hårdvaran för varm ska maskinen stängas av.
Brandväggsregler ska automatiskt blockera knepiga inloggningsförsök.
Applikationer ska konfas så de inte kan äta upp allt utrymme.
Tar utrymmet trots allt slut, ska applikationer sluta skriva, istället för att skapa mer problem.

Så vad är det du försöker göra egentligen, förutom att känna dig som en datahall?

Visa signatur

Arch | 1440p 165Hz IPS | 7800X3D | 1080ti | 64GB@6GHz | SN850 2TB

Permalänk
Medlem
Skrivet av sniglom:

Tror många övervakar för mycket, för att det är kul och tufft, inte för att det behövs.
Min server har för närvarande runt ett år av upptid, trots att jag slutat att övervaka.

Det mesta som folk gillar att övervaka går att automatisera:
Blir hårdvaran för varm ska maskinen stängas av.
Brandväggsregler ska automatiskt blockera knepiga inloggningsförsök.
Applikationer ska konfas så de inte kan äta upp allt utrymme.
Tar utrymmet trots allt slut, ska applikationer sluta skriva, istället för att skapa mer problem.

Så vad är det du försöker göra egentligen, förutom att känna dig som en datahall?

Såklart är det så. Men även nödvändigt. T.ex om en disk i en RAID går sönder, då vill man veta det.
Blir hårdvaran för varm vill jag veta det INNAN den stänger av sig så jag vet varför den stängde av sig och så jag kanske till och med kan förhindra att den stänger av sig.
Det finns måååååånga applikationer som inte slutar skriva när disken börjar ta slut, det vill man veta.
En specifik tjänst eller process kanske måste vara igång för att något ska fungera.
En viss fil kanske inte får vara med än ett antal minuter gammal, då har det missats grejer och man förlorar pengar.

Det handlar ju inte bara att övervaka. Man vill föra statistik också.

Permalänk
Medlem

Föredrar att övervaka för mycket än för lite

Permalänk

Jo lite snål med info var jag väl, och tycker nog ni har rätt i det mesta. Men övervakning är också en trygghet och en bekvämlighet. Vet jag att jag har en juste statistik på temperaturer och annat behöver jag inte bekymra mig utan det är ju bara att kolla statistiken så ser jag hur maskinerna mår.

Övervakningen är i hemmiljö med ett par olika servrar och andra datorer. Inga övervakningsbara switchar just nu.
Mina önskemål/krav är väl ungefär såhär:

statistik
---------
Linan in är uppe
Ett par specifika adresser på internet är nåbara
Logga anslutna klienter på wifi:t
temperatur på alla diskar och systemtemp på alla maskiner hemma
nivå på fritt utrymme på lagringservern
smart-status på alla diskar i alla maskiner
övervakning av ett fåtal tjänster/processer spritt på några olika servrar.
strömförbrukning

larm via mail (& gärna sms)
-------
linan in går ner (och tillbaka)
strömmen försvinner (och kommer tillbaka)
disk full
smart-fel
raid-fel

Kan jag få allt det är jag mer än nöjd, kan den dessutom presentera statistiken lite snyggt är det en klar bonus.

Datorer som ska övervakas är några win8/10 burkar, ingen windows server i dagsläget. Ett par linux och bsd servrar (mest Centos)
Powerware ups:er som jag "tror" att jag kan få ut mer än bara om det finns ström eller inte De är inte helt nya men har usb i alla fall :).

Totalt ett tiotal fysiska maskiner som är anslutet trådat.

@sniglom: Du har helt rätt i det du skriver, att man bör automatisera det viktigaste. Och jag är rätt övertygad om att jag har rätt bra ordning på den biten. Allt är inte gjort, men mycket är och mer är planerat. Men för att ta korrekta beslut behöver man fakta, och det enklaste sättet att skaffa den är övervakning. Övervakningen är också till för att se så automatiken fungerar som den ska.

Fördelen med en datahall är att folk har betalt för att jobba, här hemma blir det när tid finns så det är mycket som är halvfärdigt
Sen bor jag ute på landet och vi är inte bortskämda med att ha ström jämt (även om det blir bättre och bättre) så att få meddelande om el och nät störningar innebär också att jag vet ifall larmet fungerar eller inte.

Permalänk
Medlem

@hjälpsam: Vad gäller fritt utrymme tycker jag det är väldigt trevligt att bygga en graf av det.
Många vanliga användningsområden har en ganska stadig tillväxt av data, då kan man med enkelhet läsa ut från grafen;
"I nuvarande tempo kommer diskutrymmet att ta slut inom två månader, ska jag korrigera lagringen eller bygga ut min array?"

Sett alldeles för många som har en varning när det är 90% fullt och sedan en numerisk siffra för att visa mängden ledigt.
Det försvårar för dig som administratör att vara proaktiv!

Jag brukar använda programvaran rrd-tool för att bygga grafer, eftersom jag tycker den är enkel att knacka in nästan vilket värde som helst i, så länge man kan sin terminalmagi. http://oss.oetiker.ch/rrdtool/

Att se om linan är uppe eller nere har jag själv använt en extern tjänst som jag varit mycket nöjd med, https://www.pingdom.com/
Körde tidigare egna system för det, men då min server bara håller i en domän klarar jag mig fint på gratismodellen.

@HerrNilsson
Menade verkligen inte att man ska undvika övervakning, jag menar att många har en felaktig inställning till när och hur det ska användas. Har sett fler än en uppsättning där tusen saker övervakas, men ingen ger något värde i slutänden. Många verkar tro att ju fler övervakningspunkter jag har, desto bättre.

Jag anser att man ska försöka bygga upp en miljö som i största mån ska undvika att skapa situationer som kräver övervakningslarm. Det måste vara din utgångspunkt. Sedan ska övervakningen utgå från att hjälpa dig att vara proaktiv, så du kan ta tag i problem innan de hinner resultera i fel.

Jag kan exemplifiera vad jag menar med ditt citat här:

Skrivet av HerrNilsson:

Blir hårdvaran för varm vill jag veta det INNAN den stänger av sig så jag vet varför den stängde av sig och så jag kanske till och med kan förhindra att den stänger av sig.

Här skulle många nöja sig med att sätta en larmtemperatur, som de höftar fram. Kanske till och med för låg så den skickar false positives.

Vad jag vill göra är att skapa mer värde. Genom att bygga en graf över CPU-temperaturen istället för ett rent värde, så kan du över tid se om ett problem håller på att uppstå. Exempelvis att datorn sakta dammar igen eller garderoben inte är anpassad för sommaren. Genom att kasta ett getöga en gång i veckan är detta fel man kan ta hand om innan de uppstår.

Med rent varnande och larmande, så sitter du kanske på jobbet när datorn börjar bli tokvarm. Du vet inte varför, du vet inte hur länge det pågått och du kan inte göra något förrän om tre timmar när du kommit hem.

Skrivet av HerrNilsson:

Såklart är det så. Men även nödvändigt. T.ex om en disk i en RAID går sönder, då vill man veta det.

Om en disk dör i min array vill jag att den slutar att skriva och helst att maskinen stänger av sig eller åtminstone går till read-only. Härifrån skulle jag således redan få ett larm på att min maskin gått ner eller på att min tjänst rapporterar dålig hälsa. Självklart är det trevligt att få ett larm om RAID-arrayen med, men håller min array på att skadas när jag sover, kan det kännas rimligare att stoppa allt än att vänta på att jag ska vakna och ta ett beslut.

Skrivet av HerrNilsson:

Det finns måååååånga applikationer som inte slutar skriva när disken börjar ta slut, det vill man veta.

Absolut. Jag menar bara att man ska ha det som grundtänk i konfiguration och när man skriptar. Det är alltid trevligare att se till att schemalagda jobb och annat stannar och sköter sig än att man får larm och vet att man omedelbart måste skynda sig för annars skrivs data sönder.

Just detta var ett problem på min arbetsplats. IT-avdelningen hade larm vid nästan full disk på servrar som utvecklare använde till att köra långvariga jobb på. Eftersom övervakning traditionellt låg på IT-avdelningen men filerna på servrarna tillhörde utvecklarna skapade detta ofta problem. IT kunde inte röra filerna och utvecklarna såg inte övervakningssystemet förrän varningarna skickats ut. Men då hade de långvariga jobben ändå hunnit gå sönder efter timmar av körtid.

Lösningen blev att utvecklarna fick skriva om sina jobb, så de aldrig startade om det inte fanns tillräckligt mycket ledigt utrymme. Utvecklarna fick nästan omedelbar feedback efter de försökt starta jobbet och kunde därför direkt rensa bland sina filer och spara timmar. Istället som innan när IT fick ett disklarm, jobbet gick sönder för utvecklarna, IT säger till utvecklarna att rensa bland sina filer och jobbet får startas om.

Nu blir givetvis inte detta lika applicerbart när man är ensam admin, men du kan nog se fördelen i att fokusera runt hur man kör sina jobb snarare än att larma när fel uppstår.

Skrivet av HerrNilsson:

En specifik tjänst eller process kanske måste vara igång för att något ska fungera.

Visst, fast här är övervakning väldigt svårt, för det kräver att din process är skriven för att kunna svara på om den har hängt sig eller inte. Om vi bortser från det, så ser jag till att mina processer startas om automatiskt i fall de dör. Detta vill man självklart ha loggat (och kanske ett larm på), men det viktiga är ju att automatisera att processen går upp.

Skrivet av HerrNilsson:

En viss fil kanske inte får vara med än ett antal minuter gammal, då har det missats grejer och man förlorar pengar.

Självklart, men än en gång, här vill du ju utgå från att kunna vara proaktiv. Helst ska din applikation rapportera och varna om det här direkt när skrivning misslyckas och försöka hantera det. I nästa hand vill du ha kontinuerlig övervakning på filens ålder och trigga en varning när snittet är passerat med x%, så du har chans att fixa innan det är ett problem. I sista hand vill jag ha ett larm på att det skitit sig.

Visa signatur

Arch | 1440p 165Hz IPS | 7800X3D | 1080ti | 64GB@6GHz | SN850 2TB

Permalänk
Medlem

Håller med om vad sniglom säger.

Dock ang RAID så med vettig hårdvara sparkar kontrollern ut den trasiga disken och sätter den som failed.
Och har man en hotspare disk angiven så hoppar den in och rebuildar RAIDen och allt är tillbaka till grönt. Man kan i lugn och ro byta ut den failade disken.

Permalänk
Medlem
Skrivet av sniglom:

@hjälpsam: Vad gäller fritt utrymme tycker jag det är väldigt trevligt att bygga en graf av det.
Många vanliga användningsområden har en ganska stadig tillväxt av data, då kan man med enkelhet läsa ut från grafen;
"I nuvarande tempo kommer diskutrymmet att ta slut inom två månader, ska jag korrigera lagringen eller bygga ut min array?"

Sett alldeles för många som har en varning när det är 90% fullt och sedan en numerisk siffra för att visa mängden ledigt.
Det försvårar för dig som administratör att vara proaktiv!

Jag brukar använda programvaran rrd-tool för att bygga grafer, eftersom jag tycker den är enkel att knacka in nästan vilket värde som helst i, så länge man kan sin terminalmagi. http://oss.oetiker.ch/rrdtool/

Att se om linan är uppe eller nere har jag själv använt en extern tjänst som jag varit mycket nöjd med, https://www.pingdom.com/
Körde tidigare egna system för det, men då min server bara håller i en domän klarar jag mig fint på gratismodellen.

@HerrNilsson
Menade verkligen inte att man ska undvika övervakning, jag menar att många har en felaktig inställning till när och hur det ska användas. Har sett fler än en uppsättning där tusen saker övervakas, men ingen ger något värde i slutänden. Många verkar tro att ju fler övervakningspunkter jag har, desto bättre.

Jag anser att man ska försöka bygga upp en miljö som i största mån ska undvika att skapa situationer som kräver övervakningslarm. Det måste vara din utgångspunkt. Sedan ska övervakningen utgå från att hjälpa dig att vara proaktiv, så du kan ta tag i problem innan de hinner resultera i fel.

Jag kan exemplifiera vad jag menar med ditt citat här:
Här skulle många nöja sig med att sätta en larmtemperatur, som de höftar fram. Kanske till och med för låg så den skickar false positives.

Vad jag vill göra är att skapa mer värde. Genom att bygga en graf över CPU-temperaturen istället för ett rent värde, så kan du över tid se om ett problem håller på att uppstå. Exempelvis att datorn sakta dammar igen eller garderoben inte är anpassad för sommaren. Genom att kasta ett getöga en gång i veckan är detta fel man kan ta hand om innan de uppstår.

Med rent varnande och larmande, så sitter du kanske på jobbet när datorn börjar bli tokvarm. Du vet inte varför, du vet inte hur länge det pågått och du kan inte göra något förrän om tre timmar när du kommit hem.

Om en disk dör i min array vill jag att den slutar att skriva och helst att maskinen stänger av sig eller åtminstone går till read-only. Härifrån skulle jag således redan få ett larm på att min maskin gått ner eller på att min tjänst rapporterar dålig hälsa. Självklart är det trevligt att få ett larm om RAID-arrayen med, men håller min array på att skadas när jag sover, kan det kännas rimligare att stoppa allt än att vänta på att jag ska vakna och ta ett beslut.

Absolut. Jag menar bara att man ska ha det som grundtänk i konfiguration och när man skriptar. Det är alltid trevligare att se till att schemalagda jobb och annat stannar och sköter sig än att man får larm och vet att man omedelbart måste skynda sig för annars skrivs data sönder.

Just detta var ett problem på min arbetsplats. IT-avdelningen hade larm vid nästan full disk på servrar som utvecklare använde till att köra långvariga jobb på. Eftersom övervakning traditionellt låg på IT-avdelningen men filerna på servrarna tillhörde utvecklarna skapade detta ofta problem. IT kunde inte röra filerna och utvecklarna såg inte övervakningssystemet förrän varningarna skickats ut. Men då hade de långvariga jobben ändå hunnit gå sönder efter timmar av körtid.

Lösningen blev att utvecklarna fick skriva om sina jobb, så de aldrig startade om det inte fanns tillräckligt mycket ledigt utrymme. Utvecklarna fick nästan omedelbar feedback efter de försökt starta jobbet och kunde därför direkt rensa bland sina filer och spara timmar. Istället som innan när IT fick ett disklarm, jobbet gick sönder för utvecklarna, IT säger till utvecklarna att rensa bland sina filer och jobbet får startas om.

Nu blir givetvis inte detta lika applicerbart när man är ensam admin, men du kan nog se fördelen i att fokusera runt hur man kör sina jobb snarare än att larma när fel uppstår.

Visst, fast här är övervakning väldigt svårt, för det kräver att din process är skriven för att kunna svara på om den har hängt sig eller inte. Om vi bortser från det, så ser jag till att mina processer startas om automatiskt i fall de dör. Detta vill man självklart ha loggat (och kanske ett larm på), men det viktiga är ju att automatisera att processen går upp.

Självklart, men än en gång, här vill du ju utgå från att kunna vara proaktiv. Helst ska din applikation rapportera och varna om det här direkt när skrivning misslyckas och försöka hantera det. I nästa hand vill du ha kontinuerlig övervakning på filens ålder och trigga en varning när snittet är passerat med x%, så du har chans att fixa innan det är ett problem. I sista hand vill jag ha ett larm på att det skitit sig.

Jo jag är med på vad du menar. Med en vettig övervakningsmjukvara får du både graf och larm.
Det är ju därför jag vill ha larmet i tid så jag kan göra något åt det innan det blir ett problem. Även om det åtgärdas automatisk vill jag ju veta om det. Jag måste ju inte agera på larmet.

Som sagt, jag är helt med på att vara proaktiv och automatisera. Det jobbar jag med dagligen. Men i praktiken fungerar det inte alltid till 100%.

Skrivet av Danne:

Håller med om vad sniglom säger.

Dock ang RAID så med vettig hårdvara sparkar kontrollern ut den trasiga disken och sätter den som failed.
Och har man en hotspare disk angiven så hoppar den in och rebuildar RAIDen och allt är tillbaka till grönt. Man kan i lugn och ro byta ut den failade disken.

Precis. Men jag vill ju veta om att en disk är trasig så jag kan byta ut den.

Permalänk
Medlem

Håller helt med dig också HerrNilsson

Permalänk

är vi överrens om att det är bra att övervaka nu?

Permalänk
Medlem

Kolla på Centreon, en enkel/bra Nagios appliance.

Visa signatur

En server här, några servrar där.

Permalänk
Medlem

Jag kör Zabbix, kolla in det!

www.zabbix.com

Permalänk
Medlem

Op5 , SCOM

Permalänk
Medlem

PRTG, lätt att installera och confa. Kombinera det med Pushover till telefon/surfplatta så får man vet allt jämt

Visa signatur

.: Learn the system, Play the system, Break the system :.

Permalänk
Skrivet av moron:

Kolla på Centreon, en enkel/bra Nagios appliance.

Klart intressant, har ju en del erfarenheter av nagios och centreon ser helt klart ut som en positiv uppföljare.

Skrivet av Nreko:

Jag kör Zabbix, kolla in det!

Zabbix verkar väldigt intressant, tror till och med att jag träffade nån därifrån när jag var i Riga förra sommaren.
just nu känns det som mitt första val, men jag har ju inte provat dem ännu ;).

Skrivet av Redtooth:

Op5 , SCOM

scom går bort, även om det är en bra produkt så kostar det lite väl mycket för hemmabruk, inte minst resursmässigt.

Op5's hemsida är helt underbar, riktigt vacker, massa information som inte säger ett dugg . Jag är rätt nyfiken på det så kommer att testa den men jag är lite tveksam om det är rätt produkt för mig.
Begränsningen på den fria versionen är "20 devices", vet nån vad det innebär rent praktiskt? Är en fysisk server en 'device', eller går det åt flera 'devices' för att övervaka flera aspekter av en server?

Skrivet av Mr_Lazy:

PRTG, lätt att installera och confa. Kombinera det med Pushover till telefon/surfplatta så får man vet allt jämt

PRTG begränsning är 100 sensorer i den fria versionen, jag tror att det är på gränsen att det täcker behovet om det är en sensor per hdd, är det en sensor för samtliga hdd's på en maskin borde det däremot räcka. Nån som vet vilket som gäller?
Hur många sensorer använder ni som har PRTG för att övervaka en server ungefär?

Pushover verkar hur kul som helst, håll på att spåra ut helt och började pilla med det med en gång
Känns som man skulle kunna ha det till mycket kul.

Permalänk
Medlem
Skrivet av hjälpsam:

Klart intressant, har ju en del erfarenheter av nagios och centreon ser helt klart ut som en positiv uppföljare.

Zabbix verkar väldigt intressant, tror till och med att jag träffade nån därifrån när jag var i Riga förra sommaren.
just nu känns det som mitt första val, men jag har ju inte provat dem ännu ;).

scom går bort, även om det är en bra produkt så kostar det lite väl mycket för hemmabruk, inte minst resursmässigt.

Op5's hemsida är helt underbar, riktigt vacker, massa information som inte säger ett dugg . Jag är rätt nyfiken på det så kommer att testa den men jag är lite tveksam om det är rätt produkt för mig.
Begränsningen på den fria versionen är "20 devices", vet nån vad det innebär rent praktiskt? Är en fysisk server en 'device', eller går det åt flera 'devices' för att övervaka flera aspekter av en server?

PRTG begränsning är 100 sensorer i den fria versionen, jag tror att det är på gränsen att det täcker behovet om det är en sensor per hdd, är det en sensor för samtliga hdd's på en maskin borde det däremot räcka. Nån som vet vilket som gäller?
Hur många sensorer använder ni som har PRTG för att övervaka en server ungefär?

Pushover verkar hur kul som helst, håll på att spåra ut helt och började pilla med det med en gång
Känns som man skulle kunna ha det till mycket kul.

En "server" fysisk eller virtuell är en device, sedan kan du övervaka hur mycket underliggande prylar på den som helst.

Permalänk
Medlem
Skrivet av hjälpsam:

Klart intressant, har ju en del erfarenheter av nagios och centreon ser helt klart ut som en positiv uppföljare.

Zabbix verkar väldigt intressant, tror till och med att jag träffade nån därifrån när jag var i Riga förra sommaren.
just nu känns det som mitt första val, men jag har ju inte provat dem ännu ;).

scom går bort, även om det är en bra produkt så kostar det lite väl mycket för hemmabruk, inte minst resursmässigt.

Op5's hemsida är helt underbar, riktigt vacker, massa information som inte säger ett dugg . Jag är rätt nyfiken på det så kommer att testa den men jag är lite tveksam om det är rätt produkt för mig.
Begränsningen på den fria versionen är "20 devices", vet nån vad det innebär rent praktiskt? Är en fysisk server en 'device', eller går det åt flera 'devices' för att övervaka flera aspekter av en server?

PRTG begränsning är 100 sensorer i den fria versionen, jag tror att det är på gränsen att det täcker behovet om det är en sensor per hdd, är det en sensor för samtliga hdd's på en maskin borde det däremot räcka. Nån som vet vilket som gäller?
Hur många sensorer använder ni som har PRTG för att övervaka en server ungefär?

Pushover verkar hur kul som helst, håll på att spåra ut helt och började pilla med det med en gång
Känns som man skulle kunna ha det till mycket kul.

På min Synology NAS använder jag bara en sensor som heter RAID-status. Oavsett hur många diskar jag har så kommer den stå som Optimal eller Suboptimal om någon array är knas.

Visa signatur

.: Learn the system, Play the system, Break the system :.

Permalänk
Medlem

Jag ville köra PRTG för att få habil, gratis, netflow monitor. Men jag fastnade på att den måste köras på en Windows-host... Eller?

Visa signatur

En server här, några servrar där.

Permalänk

PRTG
japp körs under windows server.
"under Windows Server 2012 R2 having .NET Framework 4.0 or 4.5 installed."

Op5
Låter bra att varje server är en device, då borde inte begränsningen på 20st vara något problem

Permalänk
Medlem

När jag driftade ett gäng fysiska servrar på mitt gamla jobb använde jag https://www.observium.org/ Hyffsat smidigt att sätta upp och ska funka till typ alla OS.

Permalänk
Medlem
Skrivet av dlq84:

När jag driftade ett gäng fysiska servrar på mitt gamla jobb använde jag https://www.observium.org/ Hyffsat smidigt att sätta upp och ska funka till typ alla OS.

Observium har dock ingen alarmfunktion (senast jag kollade...). LibreNMS är en fork som har det dock...

Visa signatur

En server här, några servrar där.