övervakning av garderoben

2016-07-13 21:08

Permalänk

hjälpsam

Medlem

Registrerad: Mar 2016

●

övervakning av garderoben

tjena,

vad använder ni för system för övervakning av serverhälsan?
Har googlat runt och det finns ju massor som alla är bäst enligt dom själva :).

Det enda jag har egen erfarenhet av är Nagios och det är ju inte så kul även om det funkar.

Det jag är ute efter är både statistik och larm vid eventuella problem.

Rapportera Redigera

Citera flera Citera

2016-07-13 21:13

Permalänk

{SWEC}Rool82

Medlem ★

Plats: vem vet?
Registrerad: Jul 2001

●

Körde med denna ett tag på mina datorer, dock mest för att få en logg då nätet gick ner då jag hade lite strul ett tag.
Riktigt smidigt tyckte jag det var iaf, sedan är det gratis upp till 100 sensorer.

Visa signatur

Stuff and things!

Rapportera Redigera

Citera flera Citera

2016-07-13 21:21

Permalänk

HerrNilsson

Medlem ★

Registrerad: Sep 2006

●

Skrivet av hjälpsam:

tjena,

vad använder ni för system för övervakning av serverhälsan?
Har googlat runt och det finns ju massor som alla är bäst enligt dom själva :).

Det enda jag har egen erfarenhet av är Nagios och det är ju inte så kul även om det funkar.

Det jag är ute efter är både statistik och larm vid eventuella problem.

Gå till inlägget

Nagios gör exakt det där. OP5 är Nagios med slips kan man säga. Gratis upp till 20 noder.

Rapportera Redigera

Citera flera Citera (1)

2016-07-13 21:46

Permalänk

Danne

Medlem

Plats: Skåne
Registrerad: Jun 2002

●

Frågorna är väl mer... Vad vill du övervaka? och hur?
Det är ju inte så att du gett oss så mycket information att gå på

Rapportera Redigera

Citera flera Citera

2016-07-13 21:54

Permalänk

sniglom

Medlem ★

Plats: Göteborg
Registrerad: Jul 2001

●

Tror många övervakar för mycket, för att det är kul och tufft, inte för att det behövs.
Min server har för närvarande runt ett år av upptid, trots att jag slutat att övervaka.

Det mesta som folk gillar att övervaka går att automatisera:
Blir hårdvaran för varm ska maskinen stängas av.
Brandväggsregler ska automatiskt blockera knepiga inloggningsförsök.
Applikationer ska konfas så de inte kan äta upp allt utrymme.
Tar utrymmet trots allt slut, ska applikationer sluta skriva, istället för att skapa mer problem.

Så vad är det du försöker göra egentligen, förutom att känna dig som en datahall?

Visa signatur

Rapportera Redigera

Citera flera Citera (6)

2016-07-13 22:00

Permalänk

HerrNilsson

Medlem ★

Registrerad: Sep 2006

●

Skrivet av sniglom:

Tror många övervakar för mycket, för att det är kul och tufft, inte för att det behövs.
Min server har för närvarande runt ett år av upptid, trots att jag slutat att övervaka.

Det mesta som folk gillar att övervaka går att automatisera:
Blir hårdvaran för varm ska maskinen stängas av.
Brandväggsregler ska automatiskt blockera knepiga inloggningsförsök.
Applikationer ska konfas så de inte kan äta upp allt utrymme.
Tar utrymmet trots allt slut, ska applikationer sluta skriva, istället för att skapa mer problem.

Så vad är det du försöker göra egentligen, förutom att känna dig som en datahall?

Gå till inlägget

Såklart är det så. Men även nödvändigt. T.ex om en disk i en RAID går sönder, då vill man veta det.
Blir hårdvaran för varm vill jag veta det INNAN den stänger av sig så jag vet varför den stängde av sig och så jag kanske till och med kan förhindra att den stänger av sig.
Det finns måååååånga applikationer som inte slutar skriva när disken börjar ta slut, det vill man veta.
En specifik tjänst eller process kanske måste vara igång för att något ska fungera.
En viss fil kanske inte får vara med än ett antal minuter gammal, då har det missats grejer och man förlorar pengar.

Det handlar ju inte bara att övervaka. Man vill föra statistik också.

Rapportera Redigera

Citera flera Citera (2)

2016-07-13 22:11

Permalänk

Danne

Medlem

Plats: Skåne
Registrerad: Jun 2002

●

Föredrar att övervaka för mycket än för lite

Rapportera Redigera

Citera flera Citera (4)

2016-07-13 22:39

Permalänk

hjälpsam

Medlem

Registrerad: Mar 2016

●

Jo lite snål med info var jag väl, och tycker nog ni har rätt i det mesta. Men övervakning är också en trygghet och en bekvämlighet. Vet jag att jag har en juste statistik på temperaturer och annat behöver jag inte bekymra mig utan det är ju bara att kolla statistiken så ser jag hur maskinerna mår.

Övervakningen är i hemmiljö med ett par olika servrar och andra datorer. Inga övervakningsbara switchar just nu.
Mina önskemål/krav är väl ungefär såhär:

statistik
---------
Linan in är uppe
Ett par specifika adresser på internet är nåbara
Logga anslutna klienter på wifi:t
temperatur på alla diskar och systemtemp på alla maskiner hemma
nivå på fritt utrymme på lagringservern
smart-status på alla diskar i alla maskiner
övervakning av ett fåtal tjänster/processer spritt på några olika servrar.
strömförbrukning

larm via mail (& gärna sms)
-------
linan in går ner (och tillbaka)
strömmen försvinner (och kommer tillbaka)
disk full
smart-fel
raid-fel

Kan jag få allt det är jag mer än nöjd, kan den dessutom presentera statistiken lite snyggt är det en klar bonus.

Datorer som ska övervakas är några win8/10 burkar, ingen windows server i dagsläget. Ett par linux och bsd servrar (mest Centos)
Powerware ups:er som jag "tror" att jag kan få ut mer än bara om det finns ström eller inte De är inte helt nya men har usb i alla fall :).

Totalt ett tiotal fysiska maskiner som är anslutet trådat.

@sniglom: Du har helt rätt i det du skriver, att man bör automatisera det viktigaste. Och jag är rätt övertygad om att jag har rätt bra ordning på den biten. Allt är inte gjort, men mycket är och mer är planerat. Men för att ta korrekta beslut behöver man fakta, och det enklaste sättet att skaffa den är övervakning. Övervakningen är också till för att se så automatiken fungerar som den ska.

Fördelen med en datahall är att folk har betalt för att jobba, här hemma blir det när tid finns så det är mycket som är halvfärdigt
Sen bor jag ute på landet och vi är inte bortskämda med att ha ström jämt (även om det blir bättre och bättre) så att få meddelande om el och nät störningar innebär också att jag vet ifall larmet fungerar eller inte.

Rapportera Redigera

Citera flera Citera

2016-07-13 23:11

Permalänk

sniglom

Medlem ★

Plats: Göteborg
Registrerad: Jul 2001

●

@hjälpsam: Vad gäller fritt utrymme tycker jag det är väldigt trevligt att bygga en graf av det.
Många vanliga användningsområden har en ganska stadig tillväxt av data, då kan man med enkelhet läsa ut från grafen;
"I nuvarande tempo kommer diskutrymmet att ta slut inom två månader, ska jag korrigera lagringen eller bygga ut min array?"

Sett alldeles för många som har en varning när det är 90% fullt och sedan en numerisk siffra för att visa mängden ledigt.
Det försvårar för dig som administratör att vara proaktiv!

Jag brukar använda programvaran rrd-tool för att bygga grafer, eftersom jag tycker den är enkel att knacka in nästan vilket värde som helst i, så länge man kan sin terminalmagi. http://oss.oetiker.ch/rrdtool/

Att se om linan är uppe eller nere har jag själv använt en extern tjänst som jag varit mycket nöjd med, https://www.pingdom.com/
Körde tidigare egna system för det, men då min server bara håller i en domän klarar jag mig fint på gratismodellen.

@HerrNilsson
Menade verkligen inte att man ska undvika övervakning, jag menar att många har en felaktig inställning till när och hur det ska användas. Har sett fler än en uppsättning där tusen saker övervakas, men ingen ger något värde i slutänden. Många verkar tro att ju fler övervakningspunkter jag har, desto bättre.

Jag anser att man ska försöka bygga upp en miljö som i största mån ska undvika att skapa situationer som kräver övervakningslarm. Det måste vara din utgångspunkt. Sedan ska övervakningen utgå från att hjälpa dig att vara proaktiv, så du kan ta tag i problem innan de hinner resultera i fel.

Jag kan exemplifiera vad jag menar med ditt citat här:

Skrivet av HerrNilsson:

Blir hårdvaran för varm vill jag veta det INNAN den stänger av sig så jag vet varför den stängde av sig och så jag kanske till och med kan förhindra att den stänger av sig.

Gå till inlägget

Här skulle många nöja sig med att sätta en larmtemperatur, som de höftar fram. Kanske till och med för låg så den skickar false positives.

Vad jag vill göra är att skapa mer värde. Genom att bygga en graf över CPU-temperaturen istället för ett rent värde, så kan du över tid se om ett problem håller på att uppstå. Exempelvis att datorn sakta dammar igen eller garderoben inte är anpassad för sommaren. Genom att kasta ett getöga en gång i veckan är detta fel man kan ta hand om innan de uppstår.

Med rent varnande och larmande, så sitter du kanske på jobbet när datorn börjar bli tokvarm. Du vet inte varför, du vet inte hur länge det pågått och du kan inte göra något förrän om tre timmar när du kommit hem.

Skrivet av HerrNilsson:

Såklart är det så. Men även nödvändigt. T.ex om en disk i en RAID går sönder, då vill man veta det.

Gå till inlägget

Om en disk dör i min array vill jag att den slutar att skriva och helst att maskinen stänger av sig eller åtminstone går till read-only. Härifrån skulle jag således redan få ett larm på att min maskin gått ner eller på att min tjänst rapporterar dålig hälsa. Självklart är det trevligt att få ett larm om RAID-arrayen med, men håller min array på att skadas när jag sover, kan det kännas rimligare att stoppa allt än att vänta på att jag ska vakna och ta ett beslut.

Skrivet av HerrNilsson:

Det finns måååååånga applikationer som inte slutar skriva när disken börjar ta slut, det vill man veta.

Gå till inlägget

Absolut. Jag menar bara att man ska ha det som grundtänk i konfiguration och när man skriptar. Det är alltid trevligare att se till att schemalagda jobb och annat stannar och sköter sig än att man får larm och vet att man omedelbart måste skynda sig för annars skrivs data sönder.

Just detta var ett problem på min arbetsplats. IT-avdelningen hade larm vid nästan full disk på servrar som utvecklare använde till att köra långvariga jobb på. Eftersom övervakning traditionellt låg på IT-avdelningen men filerna på servrarna tillhörde utvecklarna skapade detta ofta problem. IT kunde inte röra filerna och utvecklarna såg inte övervakningssystemet förrän varningarna skickats ut. Men då hade de långvariga jobben ändå hunnit gå sönder efter timmar av körtid.

Lösningen blev att utvecklarna fick skriva om sina jobb, så de aldrig startade om det inte fanns tillräckligt mycket ledigt utrymme. Utvecklarna fick nästan omedelbar feedback efter de försökt starta jobbet och kunde därför direkt rensa bland sina filer och spara timmar. Istället som innan när IT fick ett disklarm, jobbet gick sönder för utvecklarna, IT säger till utvecklarna att rensa bland sina filer och jobbet får startas om.

Nu blir givetvis inte detta lika applicerbart när man är ensam admin, men du kan nog se fördelen i att fokusera runt hur man kör sina jobb snarare än att larma när fel uppstår.

Skrivet av HerrNilsson:

En specifik tjänst eller process kanske måste vara igång för att något ska fungera.

Gå till inlägget

Visst, fast här är övervakning väldigt svårt, för det kräver att din process är skriven för att kunna svara på om den har hängt sig eller inte. Om vi bortser från det, så ser jag till att mina processer startas om automatiskt i fall de dör. Detta vill man självklart ha loggat (och kanske ett larm på), men det viktiga är ju att automatisera att processen går upp.

Skrivet av HerrNilsson:

En viss fil kanske inte får vara med än ett antal minuter gammal, då har det missats grejer och man förlorar pengar.

Gå till inlägget

Självklart, men än en gång, här vill du ju utgå från att kunna vara proaktiv. Helst ska din applikation rapportera och varna om det här direkt när skrivning misslyckas och försöka hantera det. I nästa hand vill du ha kontinuerlig övervakning på filens ålder och trigga en varning när snittet är passerat med x%, så du har chans att fixa innan det är ett problem. I sista hand vill jag ha ett larm på att det skitit sig.

Senast redigerat 2016-07-14 00:09

Visa signatur

Rapportera Redigera

Citera flera Citera (5)

2016-07-14 08:10

Permalänk

Danne

Medlem

Plats: Skåne
Registrerad: Jun 2002

●

Håller med om vad sniglom säger.

Dock ang RAID så med vettig hårdvara sparkar kontrollern ut den trasiga disken och sätter den som failed.
Och har man en hotspare disk angiven så hoppar den in och rebuildar RAIDen och allt är tillbaka till grönt. Man kan i lugn och ro byta ut den failade disken.

Rapportera Redigera

Citera flera Citera

2016-07-14 09:17

Permalänk

HerrNilsson

Medlem ★

Registrerad: Sep 2006

●

Skrivet av sniglom:

@hjälpsam: Vad gäller fritt utrymme tycker jag det är väldigt trevligt att bygga en graf av det.
Många vanliga användningsområden har en ganska stadig tillväxt av data, då kan man med enkelhet läsa ut från grafen;
"I nuvarande tempo kommer diskutrymmet att ta slut inom två månader, ska jag korrigera lagringen eller bygga ut min array?"

Sett alldeles för många som har en varning när det är 90% fullt och sedan en numerisk siffra för att visa mängden ledigt.
Det försvårar för dig som administratör att vara proaktiv!

Jag brukar använda programvaran rrd-tool för att bygga grafer, eftersom jag tycker den är enkel att knacka in nästan vilket värde som helst i, så länge man kan sin terminalmagi. http://oss.oetiker.ch/rrdtool/

Att se om linan är uppe eller nere har jag själv använt en extern tjänst som jag varit mycket nöjd med, https://www.pingdom.com/
Körde tidigare egna system för det, men då min server bara håller i en domän klarar jag mig fint på gratismodellen.

@HerrNilsson
Menade verkligen inte att man ska undvika övervakning, jag menar att många har en felaktig inställning till när och hur det ska användas. Har sett fler än en uppsättning där tusen saker övervakas, men ingen ger något värde i slutänden. Många verkar tro att ju fler övervakningspunkter jag har, desto bättre.

Jag anser att man ska försöka bygga upp en miljö som i största mån ska undvika att skapa situationer som kräver övervakningslarm. Det måste vara din utgångspunkt. Sedan ska övervakningen utgå från att hjälpa dig att vara proaktiv, så du kan ta tag i problem innan de hinner resultera i fel.

Jag kan exemplifiera vad jag menar med ditt citat här:
Här skulle många nöja sig med att sätta en larmtemperatur, som de höftar fram. Kanske till och med för låg så den skickar false positives.