ESXi hänger sig oprovocerat?

Permalänk
Medlem

ESXi hänger sig oprovocerat?

Hej alla,

Jag har byggt en egen server som jag kört ESXi 5.5 på snart i ett halvår utan problem. Kör FreeNAS och en Win2012 maskin på denna.

De senaste dagarna har hosten börjat uppföra sig märkligt. Helt plötsligt blir båda VM's onåbara. Det upptäcker jag i regel genom att jag tittar på film som undervägs hänger sig (delas ut från FreeNAS).

WebGUI för Freenas är inte åtkomligt och ingen maskin svarar på ping. Routern (asus rt-n66u) ser inte ens maskinerna längre. Däremot har hosten kvar sitt ip. Vsphere returnerar 503 när jag försöker ansluta. SSH fungerar bra mot hosten och därigenom kan jag starta om (utan att behöva trycka på knappen) och allt är som vanligt i nån dag till, sen börjar samma visa igen.

Innan jag startade om nu sist plockade jag ut logfilerna från /scratch/log och /var/log men jag vet inte alls vart jag ska börja. Jag vet tidpunkten (plusminus nån minut) det inträffade.

Någon som har några tips alls? Jag har inte gjort några ändringar på servern alls. Har bara sett film/serier de senaste veckorna. Enda ändringen jag kan komma på är att jag uppdaterade firmwaren på routern (nätverksrelaterat problem?). Sen problemen började har jag uppdaterat esxi till och med juli-uppdateringen men problemen är dom samma.

Tack på förhand!

Permalänk
Medlem

Vad har du för hårdvara?

Vad använder du för vNICar? E1000 eller E1000e kan ju ge PSODs (eller kunde förr iaf) men de problemen borde du ju haft tidigare också isf och det här verkar ju inte riktigt vara PSOD - eller har du inte kollat consolen?

Kan det vara lagringen? Har du möjlighet att köra något testprogram?

Kör du ESXi från USB-sticka? Isf, har du styrt om loggarna så att dom inte lagras på stickan (tänkte om den skrivits sönder eller börjar bli full)?

Värmerelaterat?

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem
Skrivet av Micke O:

Vad har du för hårdvara?

Vad använder du för vNICar? E1000 eller E1000e kan ju ge PSODs (eller kunde förr iaf) men de problemen borde du ju haft tidigare också isf och det här verkar ju inte riktigt vara PSOD - eller har du inte kollat consolen?

Kan det vara lagringen? Har du möjlighet att köra något testprogram?

Kör du ESXi från USB-sticka? Isf, har du styrt om loggarna så att dom inte lagras på stickan (tänkte om den skrivits sönder eller börjar bli full)?

Värmerelaterat?

Hej och tack för svar!

Jag kör E1000 på alla maskiner. Jag lärde mig precis hur man kollar konsolen via SSH (kör headless), dvs via "dcui" så jag får testa det nästa gång det händer.

Diskarna har inget fel vad jag vet. Kör på denna hårdvara:

ASRock FM2A75M-ITX
Samsung SSD EVO Basic 840-Series 120GB
A-Data S102 Pro 16GB USB 3.0
AMD A8 5600K 3,6 Ghz FM2
Corsair 16GB (2x8GB) CL10 1600Mhz VENGEANCE LP RÖD

Kör USB'n för ESXi och SSD'n som datastore för VM's. Sen har jag ett kontrollerkort med ett gäng diskar på som jag kör passthrough till FreeNAS på (M1015)

Glömde nämna innan att jag testat att köra Memtest i några timmar utan att några fel hittades.

Har nog inte styrt om loggningen från USB till disk. Får Googla lite på det. Är inte värmerelaterat i alla fall. CPU ligger på 30 grader och idlar för det mesta.

Permalänk
Medlem

Då har du några grejer att prova

# Styr om syslog, tyvärr har jag inte min host igång och kan kolla exakt men googla på det. Du kommer förmodligen se att den hamnar på samma datastore som hypervisorn per default - obra om man kör SD-kort eller USB-pinne eftersom de riskerar att skrivas sönder...
# Byt från E1000 till VMXnet3, på Windows-burken ska det inte vara några problem utom att man kanske måste göra om sina nätverksinställningar men FreeNAS är jag osäker på hur den reagerar på ett sånt byte.
# Prova med en VM åt gången igång för att se vilken av dom (om någon) sänker host:en.

Edit: hur man styr om syslog

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem

Jag får fortfarande felmeddelande när jag styrt om scratch enl dessa:
http://www-01.ibm.com/support/docview.wss?uid=isg3T1013015
http://kb.vmware.com/selfservice/microsites/search.do?languag...

Däremot så skrivs det faktiskt där jag specat så jag antar att det fungerar? Sökvägen jag angivit går till DataStore (dvs SSD'n)

I själva syslog.log hittar jag följande vid aktuell tidpunkt (ca 13:30 UTC)
http://pastebin.com/VteSDJYv

Permalänk
Medlem

Du menar att den kraschar fortfarande? Eller vilket felmeddelande tänker du på, mera specifikt?

Ja, då bör det funka. Även om det i sig kanske inte orsakar problemet så är det bra för USB-pinnens hälsa framöver om den inte redan gjort det och därför bråkar

Tyvärr är jag ingen ESXi-logg-tolkningsguru och det är inte uppenbart för mig vad som är fel även om det var intressant läsning Skulle vara kul om någon annan hittade något som kan orsaka haveri där.

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem

Den har inte kraschat sen i eftermiddags. Dock har jag låtit bli att slå på Windows-maskinen till en början och kör bara FreeNAS ett tag och ser hur det går.

Läste en del skrämmande läsning om E1000 och Windows, så jag bytte till VMXNET3 och uppdaterade VMWare Tools. Verkar funka, men har som sagt stängt av maskinen. FreeNAS verkar inte ha stöd för VMXNET3 om man inte kompilerar det själv vilket jag än så länge inte hittat någon bra guide över.

Får jag inte ordning på problemet så tror jag att jag blåser burken och kör "bare metal" istället. De få virtuella maskiner jag kör kan jag köra på en NUC eller liknande.

Permalänk
Medlem
Skrivet av gregoff:

Den har inte kraschat sen i eftermiddags. Dock har jag låtit bli att slå på Windows-maskinen till en början och kör bara FreeNAS ett tag och ser hur det går.

Läste en del skrämmande läsning om E1000 och Windows, så jag bytte till VMXNET3 och uppdaterade VMWare Tools. Verkar funka, men har som sagt stängt av maskinen. FreeNAS verkar inte ha stöd för VMXNET3 om man inte kompilerar det själv vilket jag än så länge inte hittat någon bra guide över.

Får jag inte ordning på problemet så tror jag att jag blåser burken och kör "bare metal" istället. De få virtuella maskiner jag kör kan jag köra på en NUC eller liknande.

eller i vanliga Vmware Workstation

Visa signatur

.: Learn the system, Play the system, Break the system :.

Permalänk
Medlem

Använder du Freenas med passthrough som iSCSI-datastore för samma host?

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem

Hej,

Nej kör inte ISCSI alls. De diskar som Freenas använder är rena NFS/SMB utdelningar till övriga maskiner på nätverket.

Permalänk
Medlem

Har nu (för första gången på länge) gått mera än ett dygn sedan senaste hängningen. Misstänker att det var en kombo av någon systemuppdatering i Windows 2012 (hade autouppdatering påslaget) i kombo med E1000 som varit boven i dramat.

Återkommer om jag har fel. Tack alla för ert engagemang!

Permalänk
Medlem

Och där dog det igen....

Tittade i sysloggen och tittade närmare på följande:
2014-07-16T05:29:05Z jumpstart: RoutingInfo: Unable to restore VMkernel default gateway (10.0.0.1) :Unable to set VMkernel gateway address to 10.0.0.1 as there are no VMkernel interfaces on the same network with that IP address.

Onekligen verkar det vara något knas med nätverket i detta fall (eller?). Det enda jag kan komma på är att jag för nån vecka sen (kanske i samband med att felen började dyka upp) är att jag uppdaterade firmwaren på min router Asus RT N66U.

Har testat nu att sätta statiska ip'n och avaktivera ipv6 på ESXi. Får se om det hjälper. Annars om ngn annan har några tips tages detta tacksamt emot!

Permalänk
Medlem
Skrivet av gregoff:

Och där dog det igen....

Tittade i sysloggen och tittade närmare på följande:
2014-07-16T05:29:05Z jumpstart: RoutingInfo: Unable to restore VMkernel default gateway (10.0.0.1) :Unable to set VMkernel gateway address to 10.0.0.1 as there are no VMkernel interfaces on the same network with that IP address.

Onekligen verkar det vara något knas med nätverket i detta fall (eller?). Det enda jag kan komma på är att jag för nån vecka sen (kanske i samband med att felen började dyka upp) är att jag uppdaterade firmwaren på min router Asus RT N66U.

Har testat nu att sätta statiska ip'n och avaktivera ipv6 på ESXi. Får se om det hjälper. Annars om ngn annan har några tips tages detta tacksamt emot!

Du råkar inte ha någon annan router att testa med?

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem
Skrivet av Micke O:

Du råkar inte ha någon annan router att testa med?

Tyvärr...

Nu fick jag samma fel igen nu nyss trots att jag körde med statiska IP'n på ESXi och stängt av DHCP.

Kikade lite i routerns logg:

Jul 17 21:11:45 rc_service: httpd 336:notify_rc restart_net_and_phy
Jul 17 21:11:48 dnsmasq[335]: exiting on receipt of SIGTERM
Jul 17 21:11:52 stop_wan(): perform DHCP release
Jul 17 21:11:52 kernel: Attempt to kill tasklet from interrupt
.........

Känns lite smått som att det skulle vara relaterat till detta problem... Vet dock inte vad jag kan göra med problemet, förutom köpa ny router, eller backa ett par firmware versioner.

Permalänk
Medlem
Skrivet av gregoff:

Tyvärr...

Nu fick jag samma fel igen nu nyss trots att jag körde med statiska IP'n på ESXi och stängt av DHCP.

Kikade lite i routerns logg:

Jul 17 21:11:45 rc_service: httpd 336:notify_rc restart_net_and_phy
Jul 17 21:11:48 dnsmasq[335]: exiting on receipt of SIGTERM
Jul 17 21:11:52 stop_wan(): perform DHCP release
Jul 17 21:11:52 kernel: Attempt to kill tasklet from interrupt
.........

Känns lite smått som att det skulle vara relaterat till detta problem... Vet dock inte vad jag kan göra med problemet, förutom köpa ny router, eller backa ett par firmware versioner.

Borde iofs vara ganska lätt att testa - koppla bort host:en från routern och se om den överlever eller lyckas ta död på sig själv. Iofs har jag ju svårt att tro att routern skulle skjuta ner host:en.

En annan sak att prova om du har flera NICs, sätt mgmt-interfacet på en annan NIC (se bara till att den NICen inte sitter på internet...)

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem
Skrivet av Micke O:

Borde iofs vara ganska lätt att testa - koppla bort host:en från routern och se om den överlever eller lyckas ta död på sig själv. Iofs har jag ju svårt att tro att routern skulle skjuta ner host:en.

En annan sak att prova om du har flera NICs, sätt mgmt-interfacet på en annan NIC (se bara till att den NICen inte sitter på internet...)

Har bara ett NIC så det går tyvärr inte.

Provade nu att slänga in en annan firmware på routern (Merlin). Får se om det fungerar bättre.

Permalänk
Medlem

En long shot, men det kan ju funka att installera om ESXi. Datastoren kommer den hitta efteråt så dina gäster behöver du inte göra något med, är bara konfigurationen i ESXi som behöver göras om.

Permalänk
Medlem
Skrivet av Zakire:

En long shot, men det kan ju funka att installera om ESXi. Datastoren kommer den hitta efteråt så dina gäster behöver du inte göra något med, är bara konfigurationen i ESXi som behöver göras om.

Japp, men detta får bli en last resort. Är trots allt lite halvdrygt att behöva göra.

Permalänk
Medlem

Och där sket det sig igen, men denna gången fanns det inga rader alls vid tidpunkten i routerns log.

Det intressanta är att jag kunde logga in på vSphere Client (vilket inte varit möjligt de tidigare gångerna förrän jag startade om nätverket via DCUI) och min FreeNAS maskin var nedstängd.

Permalänk
Medlem

SUCK!

Varför kom jag inte på detta tidigare...

Mitt moderkort har kretsen RTL8111E som NIC. Detta stöds inte officiellt av ESXi 5.5 (som jag kör), men det finns drivare till 5.1 som jag tryckte in.

Detta var ett halvår sen och hade glömt att jag gjorde den manövern. Tydligen fungerade det sådär... (om det nu är det som strular vilket det troligen är).

Någon som känner att jag är på fel spår?

Permalänk
Medlem
Skrivet av gregoff:

SUCK!

Varför kom jag inte på detta tidigare...

Mitt moderkort har kretsen RTL8111E som NIC. Detta stöds inte officiellt av ESXi 5.5 (som jag kör), men det finns drivare till 5.1 som jag tryckte in.

Detta var ett halvår sen och hade glömt att jag gjorde den manövern. Tydligen fungerade det sådär... (om det nu är det som strular vilket det troligen är).

Någon som känner att jag är på fel spår?

Jag har ett M4A88TD-V EVO/USB3 med Integrerat RTL 8111E. Det saknar stöd i 5.5 men har haft (inofficiellt?) stöd tidigare. Jag har iofs uppgraderat från 5.0->5.1->5.5 och det fungerar utan problem. Använder det iofs bara till mgmt-interfacet men ändå.

Om du har fler USB-pinnar och inte så avancerad setup av ESXi så skulle du ju kunna prova att installera 5.0 eller 5.1 på den och sedan uppgradera.

Ett annat osupportat alternativ är ju att stänga av 8111E och stoppa i ett Intel NIC, finns även billiga desktop som funkar bra.

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem
Skrivet av Micke O:

Jag har ett M4A88TD-V EVO/USB3 med Integrerat RTL 8111E. Det saknar stöd i 5.5 men har haft (inofficiellt?) stöd tidigare. Jag har iofs uppgraderat från 5.0->5.1->5.5 och det fungerar utan problem. Använder det iofs bara till mgmt-interfacet men ändå.

Om du har fler USB-pinnar och inte så avancerad setup av ESXi så skulle du ju kunna prova att installera 5.0 eller 5.1 på den och sedan uppgradera.

Ett annat osupportat alternativ är ju att stänga av 8111E och stoppa i ett Intel NIC, finns även billiga desktop som funkar bra.

Det är just drivrutinen för 5.1 jag kör på samma nic som du beskriver. Har fungerat felfritt i ca ett halvår. har förvisso haft 2-3 hängningar under den tiden men då har jag trott att det var katten som trampat på reset-knappen. Sen nu blev det aningen mer frekvent. Läst om fler med samma nic som haft samma problem, dvs fungerat bra i några månader för att sen bete sig underligt.

Hade jag haft en pci-plats till så hade jag lagt in ett till nic, men den platsen är tagen av mitt raid-kort.

Får bli nytt MB eller så kör jag freenas utan virtualisering. Kommer att sakna att kunna skapa virtuella maskiner.

Permalänk
Medlem
Skrivet av gregoff:

Det är just drivrutinen för 5.1 jag kör på samma nic som du beskriver. Har fungerat felfritt i ca ett halvår. har förvisso haft 2-3 hängningar under den tiden men då har jag trott att det var katten som trampat på reset-knappen. Sen nu blev det aningen mer frekvent. Läst om fler med samma nic som haft samma problem, dvs fungerat bra i några månader för att sen bete sig underligt.

Hade jag haft en pci-plats till så hade jag lagt in ett till nic, men den platsen är tagen av mitt raid-kort.

Får bli nytt MB eller så kör jag freenas utan virtualisering. Kommer att sakna att kunna skapa virtuella maskiner.

Kan du inte backa och köra 5.0 eller 5.1? Om du inte exponerar den på Internet så spelar det väl ingen roll såvida du inte använder några nya features i 5.5?

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem
Skrivet av Micke O:

Kan du inte backa och köra 5.0 eller 5.1? Om du inte exponerar den på Internet så spelar det väl ingen roll såvida du inte använder några nya features i 5.5?

Bra fråga... har egentligen ingen aning om vad som skiljer 5.1 -> 5.5 åt. Känns bara som att 5.1 är gammalt och ouppdaterat men det kanske fungerar bra ändå?

Permalänk
Medlem
Skrivet av gregoff:

Bra fråga... har egentligen ingen aning om vad som skiljer 5.1 -> 5.5 åt. Känns bara som att 5.1 är gammalt och ouppdaterat men det kanske fungerar bra ändå?

Jadå, inge skit på den inte

Jag har för mig att man ändå måste ha vSphere/vCenter (läs: inte gratislicens) och dess webbgränssnitt för de roligaste nyheterna i 5.5. Den feta klienten (vSphere Client) är ju på väg ut verkar det som.

http://blogs.vmware.com/vsphere/2013/09/a-summary-of-whats-new-in-vsphere-5-5.html
http://www.vmware.com/files/pdf/vsphere/VMware-vSphere-Platform-Whats-New.pdf

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem

Nu blir det sista rycket. Nytt USB minne och nyinstallation på gång. Återkommer med resultat.

Misstänker att det gamla USB-minnet är sönderskrivet då jag hade loggskrivningen på stickan och inte på disken.

Permalänk
Medlem

Om man har en ensam host hemma med esx kan man gott ligga på 5.1. Förbättringarna i 5.5 verkar vara stöd för djupare strömsparläge och turbo på cpun. Förbättringar för virtuella grafikkort och presentation av pci-e enheter mot maskiner. Det är i större miljöer där man blandar in vcenter det händer saker.

Permalänk
Medlem
Skrivet av gregoff:

Bra fråga... har egentligen ingen aning om vad som skiljer 5.1 -> 5.5 åt. Känns bara som att 5.1 är gammalt och ouppdaterat men det kanske fungerar bra ändå?

5.1 fick en update för någon månad sen bara. En ganska stor sådan, krävdes uppdatering av VMware Tools
För att nyttja nya funktioner i 5.5 måste du ha vCenter och köra webbklienten.

Permalänk
Medlem
Skrivet av Zakire:

5.1 fick en update för någon månad sen bara. En ganska stor sådan, krävdes uppdatering av VMware Tools
För att nyttja nya funktioner i 5.5 måste du ha vCenter och köra webbklienten.

Känns som att 5.1 får bli nästa grej att testa. Ny USB pinne hjälpte inte tyvärr.

Permalänk
Medlem

Kan bekräfta även att hängningen händer även om inga maskiner är påslagna. Får se ikväll vilka framgångar 5.1 ger.

Jag börjar bli lite orolig för att problemet kanske ligger i mitt M1015 kort. Men om problemet ligger där så kanske det inte hade fungerat alls?