ESXi bootar om utan förvarning eller anledning

Permalänk
Medlem

ESXi bootar om utan förvarning eller anledning

Kör ESXi 6 med diverse vm som två ggr på kort tid (~1,5 månad) har bootat om/resettat,
I loggar m.m så ser jag ingen anledning till varför detta skulle ske. Båda ggr har varit vid olika tid på dygnet.

Komponenter i burken är som följer:
Moderkort: Asus Z9PA-D8
CPU: Intel Xeon E5-2670 (2st)
CPU-fläkt: Noctua NH-U9S (2st)
RAM: 64GB ECC (Samsung har jag för mig)
HDD: WD Red 3TB (6st)
SSD: 60GB & 256GB (kommer ej ihåg märke)
PSU: EVGA SuperNova 750 B1 NEX750B
UPS: Eaton 5P 850IR (~20% belastning)
+ diverse chassifläktar

Låter i mina öron nästan direkt som problem med nätagget, men det är inga tunga saker som har körts när den har "dött"
så frågan är om det är jag i min okunskap som har missat något uppenbart?
Eller det är så enkelt att jag måste byta nätagg? Är nog fortfarande garanti men kul att vara utan i flera veckor.

Alla förslag/svar uppskattas.
Mvh

Glömde nämna min UPS.
Visa signatur

// paran0id

Permalänk
Medlem

Kan strömmen gått i huset för någon kort stund, det brukar ju får datorer att start om? Kanske testa minnet? Hur har belastningen sett ut samt temperaturer under belastning?

Permalänk
Medlem

Glömde givetvis nämna att jag har en ups. Eaton 5P 850IR.
Belastningen på den ligger på ~20% Uppdaterar första inlägget med det.

De enda saker som var igång när den dog senast var Synology (xpenology), Domoticz, Plex, Transmission och 2-3 labb-vm.
M.a.o under 10% belastning om ens så mycket. CPU-temperatur ligger runt 40-45 grader.

Minnestest har jag inte gjort, får kanske försöka ta mig tiden att göra det.

Visa signatur

// paran0id

Permalänk
Medlem

Boota och gå in i BIOS, lämna servern på, hårdvaru/mjukvarufel visar sig. Om du har tid med det dvs. En server drar oftast ganska konstant kraft från PSU:n (om du inte använder GPU:er) tror inte att det är fel på den. Hade det varit det borde felet uppenbara sig oftare.

Permalänk
Medlem

På vilket sätt visar sig hårdvaru/mjukvarufel i bios?
Är inget kritiskt som körs på servern men väntar gärna inte uppåt en månad på eventuell omstart..
Ingen gpu, kör helt headless.

Skickades från m.sweclockers.com

Visa signatur

// paran0id

Permalänk
Medlem

@paran0id:
Om servern är stabil i BIOS - Mjukvarufel.
Om den inte är det, hårdvarufel.

Permalänk
Medlem

@paran0id:
Tyvärr är felsökning i detta läge inte kul. Du kan ev stressa systemets olika delar om du bootar ex Linux via USB för att eventuellt eliminera vissa faktorer men.. inte säkert att det ger önskat resultat heller.

Permalänk
Medlem

@Sins: Ah på så vis.
Felsökning överlag är inte särskilt roligt, men ett sånt här fel är riktigt trist.
Maskinen har rullat 24/7 i ca ett års tid utan omstart och nu dessa omstarter relativt nära inpå varandra.

Ska köra igång memtest när jag kommer hem från jobbet inatt. Har dock aldrig använt det förr. Hur lång tid kan det tänkas ta per pass med 64GB?

Skickades från m.sweclockers.com

Visa signatur

// paran0id

Permalänk
Medlem

Brukar oftast loggas när något sådant händer. Kan vara så att du har missat något i loggarna. Där finns en del att kolla i.

Permalänk
Medlem

@paran0id: jag tycker du ska syna kondingarna på moderkortet eftersom du säger att servern har gått 24/7 i ett år utan problem. Kanske någon del som håller på att ge sig.

Visa signatur

Asus Maximus VII | Intel 4770 3.2GHz | 16GB Kingston 2133MHz | Asus GTX770 2GB SLI | Corsair H70 | Intel PCI Express 256GB SSD | Seagate 2TB HDD

Permalänk
Medlem

@paran0id: Är alla komponenter ca 1 år gamla bara? Det låter konstigt att det skulle vara en kondensator som gett upp efter så kort tid... men inte omöjligt, så klart. Kör även något stresstest på CPU via OS på USB. Om du inte finner något fel på minnet och datorn kraschar under ett CPU-test kan det vara CPU eller PSU, mer troligt PSU kanske..

Permalänk
Medlem

@Danne: Vad jag kunde se i loggar så var det bara ett abrupt slut innan det står att den bootar. Men ska kolla en gång till.

@modaset: Värt en titt, men ska det verkligen ge sig efter så kort tid?

@Sins: Inhandlat i början av förra året, cpu/ram är från ebay, resten köptes nytt. Börjar med memtest ikväll som sagt så förhoppningsvis är det snabbt hittat.

Skickades från m.sweclockers.com

Visa signatur

// paran0id

Permalänk
Medlem

Har aldrig sett en spontanreboot på ESXi (har kört det sedan ESX 3.5 typ). En och annan PSOD har jag sett men aldrig spontanreboot. Har dock kört mindre miljöer med ett fåtal host:ar.

Gissar därför på hårdvara.

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem

byta ut minnen till ett par som du vet fungerar.

Visa signatur

.: Learn the system, Play the system, Break the system :.

Permalänk
Medlem
Skrivet av paran0id:

@Danne: Vad jag kunde se i loggar så var det bara ett abrupt slut innan det står att den bootar. Men ska kolla en gång till.

@modaset: Värt en titt, men ska det verkligen ge sig efter så kort tid?

@Sins: Inhandlat i början av förra året, cpu/ram är från ebay, resten köptes nytt. Börjar med memtest ikväll som sagt så förhoppningsvis är det snabbt hittat.

Skickades från m.sweclockers.com

Värt att titta men borde inte vara problemet eftersom komponenterna är så pass nya

Visa signatur

Asus Maximus VII | Intel 4770 3.2GHz | 16GB Kingston 2133MHz | Asus GTX770 2GB SLI | Corsair H70 | Intel PCI Express 256GB SSD | Seagate 2TB HDD

Permalänk
Avstängd

@paran0id:

Kanske dum fråga men det är inte så att din UPS skicka info till din ESXI att stänga av sig?

Visa signatur

Man är inte dum för att man har stavproblem.
Läs mer om min synfel Visual Snow
Om mig ----> #16970666

Permalänk

@superegg: om gpsen sönder signal för avstängning så ska det ske mjukt kan jag tycka? Dvs stänger av alla servrar snällt via vmwaretools

Visa signatur

..:: Workstation ::.. ..:: Asus P8Z77-v LX ::.. ..:: MSI GTX1060 6GB ::.. ..:: i5 3450 Ivy Bridge /w Antec KÜHLER H2O 620 Sluten Vattenkylning ::.. ..:: Corsair 16GB DDR3 600MHz/CL9/VENG ::.. ..:: NoName 650W ::.. ..:: Dell 24" 2408WFP ::.. ..:: Server ::.. ..:: AMD ..:: FX-8320 ::.. ..:: 16GB ::.. ..:: XFX HD6450 ::.. ..::250GB SSD Samsung 840 EVO::.. ..:: 3x 2TB wd black ::.. ..:: VCP6-DCV ::.. ..:: vmware esxi 6.7 ::..

Permalänk
Avstängd
Skrivet av tjossanmannen:

@superegg: om gpsen sönder signal för avstängning så ska det ske mjukt kan jag tycka? Dvs stänger av alla servrar snällt via vmwaretools

Har du den senaste http://pqsoftware.eaton.com/releases/changelog.php?

Jag har aldrig vart med om att ESXI har startat om sig men jag skulle nästan tro att UPS låg bakom det

Poängen är att den ska stänga av allt mjukt om den inte gör det så måste det vara något annat fel som ligger bakom det.

Har du uppdaterat Bios på moderkortet verka som att man måste använda sig av Dos för att kunna uppdatera Bios?

Visa signatur

Man är inte dum för att man har stavproblem.
Läs mer om min synfel Visual Snow
Om mig ----> #16970666

Permalänk
Medlem

@paran0id: Blir lite orolig över prollarna som du köpt via EBAY, vilken steppning är det på dem? ES?

Permalänk
Medlem

@Micke O: Har innan det här inte haft några som helst problem.

@Mr_Lazy: Jag har dessvärre inga andra ECC-minnen liggandes, men i värsta fall kan jag gå ner till 32GB om det visar sig att en eller flera stickor är dåliga.

@modaset: Alla kondingar ser fina ut, högkvalitetskomponenter av vad jag kunde se, inte den typiska designen med "krysset" på toppen.

@superegg: Har faktiskt varit lite dum/lat gällande min ups, den gör inte annat än skicka mail om strömmen går ner, meningen har varit att ta tag i det men tiden har inte funnits.
Bios är inte uppdaterat.

@Sins: Har gått igenom mina bilder från den tiden nu och hittar dessvärre ingen närbild på cpu. Däremot så är det mig veterligen enbart stepping C2 (SR0KX) som stödjer VT-d och det nyttjar jag, och nu när det är på tal så vill jag minnas att jag var glad för att jag fått tag på "rätt" stepping.

Har nu kört memtest i lite drygt 8h och inga fel är påträffade än. Jag kommer låta det stå igång i ett par timmar till då jag ändå ska var iväg större delen av dagen/kvällen. Har det inte dykt upp några fel efter det så tycker jag att jag borde kunna utesluta fel på minnena åtminstone.

Tack till er alla för alla tips/förslag än så länge, det uppskattas.

Skickades från m.sweclockers.com

Visa signatur

// paran0id

Permalänk
Avstängd
Skrivet av paran0id:

@superegg: Har faktiskt varit lite dum/lat gällande min ups, den gör inte annat än skicka mail om strömmen går ner, meningen har varit att ta tag i det men tiden har inte funnits.
Bios är inte uppdaterat.

Tack till er alla för alla tips/förslag än så länge, det uppskattas.

Skickades från m.sweclockers.com

Hehe jag känner själv att jag är lat har heller inte fixat min UPS.

Men prova att uppdatera Bios det finns 10 nya då måste dom ha fixat ett par bugar.

Visa signatur

Man är inte dum för att man har stavproblem.
Läs mer om min synfel Visual Snow
Om mig ----> #16970666

Permalänk
Medlem

Ett minnes fel borde väl göra att ESXi PSODar. Inte bootar om som sker för dig.

Det enda som jag kan tänka mig gör att en ESXi startar om, utan att PSODa är väl el (men jag har haft fel förr så osvuret är bäst). Så känns mer som något el-relaterat. Jag skulle försöka sätta i en annan PSU och koppla bort UPS för att se om det är någon av dom. Jag har aldrig, vad jag vet, haft bekymmer med kondningar så jag vet inte hur det skulle visa sig.

Du kanske ligger nära gränsen för vad din PSU klarar av och några diskar som startar spinna, kanske samtidigt som CPU används mycket?

Hittar du något annat konstigt i vmkernel.log?

Permalänk
Medlem

@superegg: Har kollat på bios nu, jag har tydligen den nyaste från dess att jag köpte moderkortet.

@grogt: Man kan tycka att det borde leda till PSOD. Just el är det första jag tänker på också, men den har inte legat ens i närheten av gränsen för vad den kan leverera och datorn har inte varit under belastning när det har skett. Har inte varit hemma och haft möjlighet att kolla närmre på loggen. Koppla bort UPS kan jag göra, men har för tillfället inget annat nätagg liggandes så det får i värsta fall beställas/köpas.

Memtest har stått igång i ca 24h nu utan error, det i kombination med att det som sagt borde leda till PSOD och inte reset tar jag som att felet borde ligga någon annanstans.

Får kolla loggar och lite annat imorgon, nu kallar nämligen sängen.

Visa signatur

// paran0id

Permalänk
Medlem

Har kollat en del på loggarna nu och ser som sagt inget annat än att den har resettat.

Normal omstart: (från igår)

heartbeat: up 10d9h23m9s, 4 VMs; [[35447 vmx 972996kB] [35533 vmx 1695744kB] [35658 vmx 4194304kB]] [[671939 sh 0%max] [671941 python 0%max] [671942 hostd-probe 0%max]] heartbeat: up 10d10h23m9s, 4 VMs; [[35447 vmx 972984kB] [35533 vmx 1695744kB] [35658 vmx 4194304kB]] [[674453 sh 0%max] [674455 python 0%max] [674456 hostd-probe 0%max]] bootstop: Host is powering off bootstop: Host has booted heartbeat: up 0d0h22m58s, 4 VMs; [[35455 vmx 745460kB] [35538 vmx 1005568kB] [35697 vmx 4194304kB]] [[36504 sh 0%max] [36505 sh 0%max] [36519 localcli 0%max]] heartbeat: up 0d1h22m58s, 4 VMs; [[35455 vmx 660936kB] [35538 vmx 1005568kB] [35697 vmx 4194304kB]] [[38980 sh 0%max] [38981 sh 0%max] [38996 localcli 0%max]]

Startat om av sig själv: (från senast den dog)

heartbeat: up 38d17h0m16s, 5 VMs; [[35919 vmx 4185756kB] [35763 vmx 4194304kB] [37708 vmx 7524352kB]] [[35763 vmx 0%max] [35919 vmx 0%max] [37708 vmx 0%max]] heartbeat: up 38d18h0m15s, 5 VMs; [[35919 vmx 4185756kB] [35763 vmx 4194304kB] [37708 vmx 7524352kB]] [[35763 vmx 0%max] [35919 vmx 0%max] [37708 vmx 0%max]] bootstop: Host has booted heartbeat: up 0d0h23m9s, 4 VMs; [[35533 vmx 716732kB] [35447 vmx 778436kB] [35658 vmx 4194304kB]] [[36442 sh 0%max] [36443 hostd-probe 0%max] [36459 logger 0%max]] heartbeat: up 0d1h23m8s, 4 VMs; [[35533 vmx 753592kB] [35447 vmx 792324kB] [35658 vmx 4194304kB]] [[38923 sh 0%max] [38924 python 0%max] [38940 logger 0%max]]

Hittade däremot detta, repeteras många ggr:

cpu6:32821)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439d805e5c40, 0) to dev "mpx.vmhba33:C0:T0:L0" on path "vmhba33:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE cpu6:32821)ScsiDeviceIO: 2629: Cmd(0x439d805e5c40) 0x1a, CmdSN 0x4f8e from world 0 to dev "mpx.vmhba33:C0:T0:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. cpu7:32822)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x9e (0x439d80618b40, 0) to dev "mpx.vmhba32:C0:T0:L0" on path "vmhba32:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE cpu7:32822)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439d80618b40, 0) to dev "mpx.vmhba32:C0:T0:L0" on path "vmhba32:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0. Act:NONE cpu7:32822)ScsiDeviceIO: 2645: Cmd(0x439d80618b40) 0x1a, CmdSN 0x4fab from world 0 to dev "mpx.vmhba32:C0:T0:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0. cpu7:32822)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x9e (0x439d88656e80, 0) to dev "mpx.vmhba32:C0:T0:L0" on path "vmhba32:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE cpu7:32822)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439d88656e80, 0) to dev "mpx.vmhba32:C0:T0:L0" on path "vmhba32:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0. Act:NONE cpu7:32822)ScsiDeviceIO: 2645: Cmd(0x439d88656e80) 0x1a, CmdSN 0x4fb1 from world 0 to dev "mpx.vmhba32:C0:T0:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0. cpu7:32822)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x9e (0x439d805fe800, 0) to dev "mpx.vmhba32:C0:T0:L0" on path "vmhba32:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE cpu7:32822)NMP: nmp_ThrottleLogForDevice:3178: Cmd 0x1a (0x439d805fe800, 0) to dev "mpx.vmhba32:C0:T0:L0" on path "vmhba32:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0. Act:NONE cpu7:32822)ScsiDeviceIO: 2645: Cmd(0x439d805fe800) 0x1a, CmdSN 0x4fb7 from world 0 to dev "mpx.vmhba32:C0:T0:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0.

Här är enheten i fråga:

usb.vmhba32-usb.0:0-mpx.vmhba32:C0:T0:L0 UID: usb.vmhba32-usb.0:0-mpx.vmhba32:C0:T0:L0 Runtime Name: vmhba32:C0:T0:L0 Device: mpx.vmhba32:C0:T0:L0 Device Display Name: Local USB Direct-Access (mpx.vmhba32:C0:T0:L0) Adapter: vmhba32 Channel: 0 Target: 0 LUN: 0 Plugin: NMP State: active Transport: usb Adapter Identifier: usb.vmhba32 Target Identifier: usb.0:0 Adapter Transport Details: Unavailable or path is unclaimed Target Transport Details: Unavailable or path is unclaimed Maximum IO Size: 122880

Försökt tyda vad felet kan vara, men med den tid jag har att lägga för tillfället är tyvärr markant mindre än vad jag själv hade önskat. Jag får ta lite då och då helt enkelt.

Som det står just nu så ska jag kolla över kylningen i chassit och se om jag kan få det mer effektivt och beställa hem ett nytt nätagg för att vara på säkra sidan gällande det, i värsta fall så har jag ett reserv sen. Är redundanta nätagg i ATX-format något att ha? Går dom att få tag på av oss vanliga dödliga som jobbar ihop sina pengar?

Visa signatur

// paran0id

Permalänk
Avstängd

@paran0id:

Vad använder du USB minnet till?

Visa signatur

Man är inte dum för att man har stavproblem.
Läs mer om min synfel Visual Snow
Om mig ----> #16970666

Permalänk
Medlem

@superegg: ESXi är installerat där, så bootar från usb.

Visa signatur

// paran0id

Permalänk

Kört med samma USB-minne hela tiden?

Testa med ett nytt friskt och se ifall det rullar stabilt igen.

Visa signatur

så mycket att vilja göra, så lite tid

Permalänk
Medlem

@sweloop64: Det har jag gjort ja, har inte ens tänkt tanken att det kan vara det som strular. Hur känsliga är usb-minnen för värme? Sitter nämligen precis intill moderkortets nord(?)brygga som blir rätt varm. Ska leta fram ett annat och testa.

Visa signatur

// paran0id

Permalänk
Medlem
Skrivet av paran0id:

Kör ESXi 6 med diverse vm som två ggr på kort tid (~1,5 månad) har bootat om/resettat,
I loggar m.m så ser jag ingen anledning till varför detta skulle ske. Båda ggr har varit vid olika tid på dygnet.

Komponenter i burken är som följer:
Moderkort: Asus Z9PA-D8
CPU: Intel Xeon E5-2670 (2st)
CPU-fläkt: Noctua NH-U9S (2st)
RAM: 64GB ECC (Samsung har jag för mig)
HDD: WD Red 3TB (6st)
SSD: 60GB & 256GB (kommer ej ihåg märke)
PSU: EVGA SuperNova 750 B1 NEX750B
UPS: Eaton 5P 850IR (~20% belastning)
+ diverse chassifläktar

Låter i mina öron nästan direkt som problem med nätagget, men det är inga tunga saker som har körts när den har "dött"
så frågan är om det är jag i min okunskap som har missat något uppenbart?
Eller det är så enkelt att jag måste byta nätagg? Är nog fortfarande garanti men kul att vara utan i flera veckor.

Alla förslag/svar uppskattas.
Mvh

Vad gäller USB:t är det väl inte omöjligt men när väl ESXI bootat kan du dra ut det och det kommer forsätta lira tills du rebootar så tror inte det är anledningen.

Stresstesta CPU och Minne med Prime i 24h eller kanske lite mer för att kolla så du inte har nån komponent som är instabil.

Visa signatur

Meshilicious, Amd 7950X3D, Asus X670E-I ,96 GB DDR5 6000,RTX4090 FE, Crucial 4TB Pcie5 m.2 / Corsiar Pcie4 4TB, Samsung 57" G9

Permalänk
Avstängd
Skrivet av paran0id:

@superegg: ESXi är installerat där, så bootar från usb.

Skulle misstänka att USB minnet inte mår så bra och då dom kostar nästan inget att köpa ny så skulle du kunna testa med en ny USB minne det borde lösta ditt problem.

Visa signatur

Man är inte dum för att man har stavproblem.
Läs mer om min synfel Visual Snow
Om mig ----> #16970666