Asrock C2750D4I + esxi 5.5 = PSOD

Permalänk
Medlem

Asrock C2750D4I + esxi 5.5 = PSOD

Jag kör esxi 5.5 på ett Asrock C2750D4I med 16GB ECC. Har kört ca 2 månader nu, men har problem med jag esxi kraschar slumpvis. Ibland efter en dag, ibland efter två veckor med olika felmeddelanden på den rosa dödsbilden.

Jag kör unraid med rdm-mappning till två diskar och en ubuntugäst.

Är det någon annan som kör denna konfiguration?
Misstänkte att det kanske var något fel på CPU:n, värmerelaterat så jag körde aida64, CPU-stresstest i ett gästsystem i 48 timmar utan att det kraschade, så det kan inte vara värmerelaterat. Det kraschade ca 8 timmar efter jag avslutat stresstestet. Krascherna kommer under låg belastning slumpmässigt.

Jag ser inga konstiga händelser i eventloggen när jag loggar in på BMC-/IPMI-interfacet, antar att det borde ge utslag här om det är minnesfel eller fel på annan hårdvara?

Någon som har förslag på hur jag kan gå vidare med felsökningen?
Som jag ser det så kan det antingen vara något fel på hårdvaran eller kompatibilitetsproblem med esxi.

Permalänk
Medlem

Du skriver inget om att du kollat RAM, det kanske kan vara en idé att köra memtest ett litet tag?

Visa signatur

Marantz NR1605, Rotel RB1090, Ino Audio piPs
SMSL SP200 THX Achromatic Audio Amplifier 888, SMSL M400, Audio-Gd NFB-11 (2015), Objective2+ODAC RevB, Audeze LCD-2 Rosewood, Monoprice M1060, ATH-M40x, Sennheiser HD660S, DROP X KOSS ESP/95X, Koss KPH30i, DROP X HiFiMan HE4XX

Permalänk
Medlem
Skrivet av backspace:

Du skriver inget om att du kollat RAM, det kanske kan vara en idé att köra memtest ett litet tag?

Jo, tanken har slagit mig att göra det för att kunna utesluta fel på RAM.
Men, Kör ju med ECC-minnen, så jag har antagit att ram-fel skulle visa sig i eventloggen i BMC-/IPMI-interfacet.
Är inte tanken med ECC-minnen att man inte skall behöva köra memtest?

Permalänk
Medlem

Korrigerade fel borde dyka upp i BMC loggen, skadar dock inte att boota memtest bara för att utesluta.
Det låter som att det skulle kunna vara drivrutiner som strular men då borde det finnas fler som har fått problem.

Visa signatur

AMD Ryzen 7950x3D | Asus ROG Strix B650E-E | 32GB G.Skill DDR5 6000Hz CL30 | ASUS TUF RX 7900 XTX OC | Cooler Master Tempest GP27U, Dell U2515H

Permalänk
Medlem

Du kör inte Win2012 maskiner? Finns en bugg som gör att man får PSOD när man kör E1000e nicsen på 2012 och belastar nicsen.

Permalänk

Kör en "export system logs" från vsphere client och kolla. Posta gärna sista raderna i vmkwarning.log här

Skickades från m.sweclockers.com

Visa signatur

Two types of people laugh at the law: those that break it and those that make it.

Permalänk
Medlem
Skrivet av vitek:

Du kör inte Win2012 maskiner? Finns en bugg som gör att man får PSOD när man kör E1000e nicsen på 2012 och belastar nicsen.

Nej, jag har inga aktiva windows-maskiner när det kraschar, senaste gången det kraschade körde jag bara en maskin med unraid.
Jag läste om E1000e-buggen och ändrade till vmnet på alla aktuella maskiner. Men det var ingenting i felmeddelandet som antydde att det skulle vara just den buggen. Står ju ganska utförligt vad man förväntas få för stack trace.

Jag får ju olika felmeddelanden varje gång.

Permalänk
Medlem

Kraschar den även utan VMar igång?

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem
Skrivet av Calle:

Korrigerade fel borde dyka upp i BMC loggen, skadar dock inte att boota memtest bara för att utesluta.
Det låter som att det skulle kunna vara drivrutiner som strular men då borde det finnas fler som har fått problem.

Jag har kört igång en memtest nu. Får låta den gå över natten.

Permalänk
Medlem
Skrivet av Micke O:

Kraschar den även utan VMar igång?

Det är svårt att veta, då skulle jag behöva låta den stå på i veckor utan att jag använder den.
Iom att den gått som längst i ca 2 veckor utan att krascha så är det enorma ledtider i alla tester jag gör.

Permalänk
Medlem
Skrivet av RulerOfHeck:

Kör en "export system logs" från vsphere client och kolla. Posta gärna sista raderna i vmkwarning.log här

Skickades från m.sweclockers.com

Verkar vara vettigare att kolla på detta innan jag kör memtest!
Skall se om jag lyckas få fram några loggfiler.

Permalänk
Medlem
Skrivet av cp_:

Verkar vara vettigare att kolla på detta innan jag kör memtest!
Skall se om jag lyckas få fram några loggfiler.

Jag har lyckats identifiera tiden för den senaste kraschen genom att vissa periodiska log entries i syslog (hostd probing is done. var 5:e minut) slutade genereras efter den tidpunkten.
Hittar dock inget runt den tidpunkten, varken i vmkwarnings eller vmkernel.

Permalänk
Medlem

Hittade varken något fel på minnet eller någon ledtråd i loggarna.
Provade installera xenserver för att se om det var något lurt med esxi. Xenserver kraschade också efter ca en vecka.

Jag skall reklamera moderkortet då jag misstänker att det är något fel på det, kan ju ha något med strömsparfunktionerna att göra. Har tidigare haft problem med både en processor och grafik-kort som kraschat när de går upp/ner i frekvens.

Under tiden så kör jag med ett annat moderkort i burken, om det är stabilt kan jag ju utesluta både nätdel och annan kringhårdvara.

Funderar sedan ändå att slänga ut esxi helt, det finns en del coola saker som händer på linux-sidan nu med btrfs, såg dessutom att Xen klarar av pci-passthrough utan vt-d-stöd för paravirtualiserade OS. Kanske borde skapa en tråd angående detta... Det sägs att 2014 blir året då btrfs ersätter ext4. Bara en sån grej att kunna utöka en raid 1 med en extra disk under drift och få ett utökat lagringsutrymme genom att balansera om, lite som unraid fast med speglad data istället för paritetsdisk.

Permalänk
Medlem

Senaste BIOS, 1.80?

Visa signatur

RIPE LIR

Permalänk
Medlem

Att man kör ECC eller inte spelar ingen roll om det blir fel på modulerna.
Minnestest göra oavsätt minnestyp.
Vi har haft servrar som har uppfört sig väldigt underligt och visat sig vara minnen.

Permalänk
Medlem
Skrivet av tomle:

Senaste BIOS, 1.80?

Ja, uppdaterade både bios och ipmi-programvaran.

Permalänk
Medlem
Skrivet av Danne:

Att man kör ECC eller inte spelar ingen roll om det blir fel på modulerna.
Minnestest göra oavsätt minnestyp.
Vi har haft servrar som har uppfört sig väldigt underligt och visat sig vara minnen.

Och det syns ingenting i BMC-loggen?
Hur länge körde du memtest innan fel på minnen visade sig?

Det är nya minnen och nytt moderkort.

Har kört server i princip helt utan belastning, vilket för mig tyder lite på att det kraschar när den frekveshoppar för att spara energi. Men det är min teori.

Permalänk

Använder du supportade stickor?
Kortet är känsligt så in i bara h*vete och startar knappt om det inte är rätt minnen i.

http://www.asrock.com/server/overview.asp?cat=Memory&Model=C2...

Permalänk
Medlem

Har skickat kortet på retur, får se om jag jag får det utbytt eller vad som händer. Antar att det blir svårt att testa för dem när det rör sig om intermittenta krascher.
Har aldrig behövt bry mig så mycket om minnessupportlistor tidigare. Kikade igenom listan, men hittade inget ECC-minner på 8GB som fanns i lager någonstans i Sverige, så jag köpte 2st 8GB kingston obuffrade ECC-minnen: KVR1333D3E9S/8G i ett kit på två (KVR1333D3E9SK2/16G).

KVR1333D3E9S/4G; 4GB-varianten i samma serie är med på support-listan.

Annars så är min erfarenhet att det oftast inte är några problem, så länge man håller sig till standard-minnen från någon av de stora tillverkarna. Har t.o.m. kört 8 GB i ett atom-moderkort som bara enligt manualen stödde 4GB minne. Det gick stabilt som förväntat; inga krascher.

Skrivet av kardanaxel:

Använder du supportade stickor?
Kortet är känsligt så in i bara h*vete och startar knappt om det inte är rätt minnen i.

http://www.asrock.com/server/overview.asp?cat=Memory&Model=C2...

Permalänk
Medlem
Skrivet av cp_:

Har skickat kortet på retur, får se om jag jag får det utbytt eller vad som händer. Antar att det blir svårt att testa för dem när det rör sig om intermittenta krascher.
Har aldrig behövt bry mig så mycket om minnessupportlistor tidigare. Kikade igenom listan, men hittade inget ECC-minner på 8GB som fanns i lager någonstans i Sverige, så jag köpte 2st 8GB kingston obuffrade ECC-minnen: KVR1333D3E9S/8G i ett kit på två (KVR1333D3E9SK2/16G).

KVR1333D3E9S/4G; 4GB-varianten i samma serie är med på support-listan.

Annars så är min erfarenhet att det oftast inte är några problem, så länge man håller sig till standard-minnen från någon av de stora tillverkarna. Har t.o.m. kört 8 GB i ett atom-moderkort som bara enligt manualen stödde 4GB minne. Det gick stabilt som förväntat; inga krascher.

Jag har ingen erfarenhet av just det här kortet (tyvärr, skulle gärna ha ett) men efter att ha ägnat en halv natt åt att felsöka en maskin jag byggde åt en kompis för sådär en 8 år sedan så köper jag numera aldrig minnen utan att konsultera QVL:en. I det fallet var det varken fel på minnet eller moderkortet - dom lirade bara dåligt ihop... Innan dess hade jag aldrig haft några problem heller - inte efter för den delen heller

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem

Jag fick kortet utbytt!
Det tog lite mer än två veckor utan att jag hörde något, men efter ett mail så skickades ett nytt kort.
Har nu kört det nya kortet i 16 dagar utan att det kraschat, vilket kan ses lite som ett rekord. Kanske är lite tidigt än att säga om det är helt stabilt, kan återkomma om en månad igen.
Men kanske kan vara intressant för någon att veta att detta kort fungerar med de minnen jag använder samt med esxi 5.5 med unraid som gäst med rdm-mappning.

Permalänk
Medlem

Det gick stabilt i ca 6 veckor innan det nya kortet kraschade.
Är det någon mer som har problem med detta moderkortet?

Permalänk
Medlem

Asrock C2750D4I och ACPI S3/4

Stöder inte Asrock C2750D4I ACPI S3 & 4 etc, dvs "hibernate" och liknande funktioner? Vet att det är tänkt som ett 24/7 serverkort, men ändå.

Står "ACPI 1.1 Compliance Wake Up Events" i specen men det verkar inte vara samma sak. Någon som vet om hibernate stöds och i så fall hur man får det att funka?

//KK

Permalänk

är det samma minnen du kör på det nya kortet ?
kör även en runda memtest.

Visa signatur

Game : Asus P8Z77-V Pro | Intel i7 3770k 4,3ghz OC | EVGA 1070 Founders | 16GB 2133mhz Corsair
Esxi 6.0 : ASRock 970 Extreeme 4 | AMD FX-8120 | 24GB RAM |NetXtreme II 1GB Dual Nic | Intel sasuc8i Raid 8P

Permalänk
Medlem

De 2 vanligaste orsakerna till krascher med detta kort just nu:

  1. Intel C2750 system är extremt strömsnålt vilket ställer extremt höga krav på nätaggregatet. Du behöver ett nätagg som kan klara 0 A belastning stabilt. Jag kör med Silverstone SFX ST45SF-G 450W. De andra Silverstone SFX aggen klarar inte 0 A.

  2. Bios / BMC har fortfarande lite barnsjukdomar på dessa kort och många får krascher. Den främsta orsaken är Intel C States. Prova att stänga av det i Bios. Om det fortfarande är instabilt, prova att stänga av SpeedStep också. Även nätagget kommer in här och du måste såklart ha ett nätagg som klarar C6/C7 States för att överhuvudtaget kunna använda C States med detta kort även efter att nya Biosen blir släppt.

Själv har jag behövt köra med C States avstängt sedan jag köpte kortet för att få systemet att bli stabilt. I förra veckan fick jag beta-firmwares på Bios och BMC av ASRock och nu fungerar systemet med C States påslaget också. De kommer släppa de nya Bios och BMC versionerna snart.

Visa signatur

Workstation: i7 2600K @ 4.2GHz - Zalman 9900 MAX | MSI P67A-GD65 B3 | Corsair XMS3 1600 (16GB) | MSI GTX 1070 Gaming X | Samsung 860 EVO 1TB | Antec P280 | Corsair HX 850W
Server: Atom C2750 (ASRock C2750D4I) | Kingston 2x8GB 1600 ECC | Intel S3500 160GB | 26TB WD Red | Silverstone DS380 | Silverstone SFX ST45SF-G

Permalänk
Medlem
Skrivet av Skynet-IRC:

är det samma minnen du kör på det nya kortet ?
kör även en runda memtest.

Ja, kör med samma minnen. Körde memtest på det gamla kortet, så minnena verkar vara hela.

Permalänk
Medlem
Skrivet av Jenus:

De 2 vanligaste orsakerna till krascher med detta kort just nu:

  1. Intel C2750 system är extremt strömsnålt vilket ställer extremt höga krav på nätaggregatet. Du behöver ett nätagg som kan klara 0 A belastning stabilt. Jag kör med Silverstone SFX ST45SF-G 450W. De andra Silverstone SFX aggen klarar inte 0 A.

  2. Bios / BMC har fortfarande lite barnsjukdomar på dessa kort och många får krascher. Den främsta orsaken är Intel C States. Prova att stänga av det i Bios. Om det fortfarande är instabilt, prova att stänga av SpeedStep också. Även nätagget kommer in här och du måste såklart ha ett nätagg som klarar C6/C7 States för att överhuvudtaget kunna använda C States med detta kort även efter att nya Biosen blir släppt.

Själv har jag behövt köra med C States avstängt sedan jag köpte kortet för att få systemet att bli stabilt. I förra veckan fick jag beta-firmwares på Bios och BMC av ASRock och nu fungerar systemet med C States påslaget också. De kommer släppa de nya Bios och BMC versionerna snart.

Jag kör med ett Corsair HX520. Det är markerat som "likely compatible" med haswell.
Stängde av speedstep och C-states efter den sensaste kraschen, får se om jag kan få mer än 6 veckors uptime nu. Det är ganska långa ledtider i de här testerna

Hur lång uptime har du lyckats få med detta kort?

Permalänk
Medlem

Känns inte som ett kort jag skulle valt, hehe

Permalänk
Medlem
Skrivet av cp_:

Jag kör med ett Corsair HX520. Det är markerat som "likely compatible" med haswell.
Stängde av speedstep och C-states efter den sensaste kraschen, får se om jag kan få mer än 6 veckors uptime nu. Det är ganska långa ledtider i de här testerna

Hur lång uptime har du lyckats få med detta kort?

Svårt att säga. Jag kör Windows Server och den startar ju om lite då och då när den installerat automatiska uppdateringar.
Måste nog skriva ett script för att ta reda på den egentliga uptimen utan krasch. Men jag tror inte jag haft en krasch sedan jag stängde av C States. Så jag gissar på ca 4 månader.
Nu med nya Biosen har jag en uptime på 4 dagar med C-States påslaget. Med den officiella Biosen (1.80) så hade jag som högst 12 timmar uptime så det verkar som att nya Bios fungerar.

Jag ser att HX520 är ett ganska gammalt agg. Jag skulle gissa på att man måste iaf ha 80 Plus Gold certifiering på ett "stort" nätagg för att få detta kort stabilt.
Värt att nämna att i första testet av Asus P9A-I så gick det inte så bra med nätagget:

Citat:

This platform was extremely sensitive to power and our standard thermal testbed’s 650w Seasonic unit did not have enough load to start. We added a PicoPSU 150XT to the platform and everything worked well. One does need to be slightly careful not to oversize PSUs with these platforms.

Så detta gäller alla Intel C2000-system.

Visa signatur

Workstation: i7 2600K @ 4.2GHz - Zalman 9900 MAX | MSI P67A-GD65 B3 | Corsair XMS3 1600 (16GB) | MSI GTX 1070 Gaming X | Samsung 860 EVO 1TB | Antec P280 | Corsair HX 850W
Server: Atom C2750 (ASRock C2750D4I) | Kingston 2x8GB 1600 ECC | Intel S3500 160GB | 26TB WD Red | Silverstone DS380 | Silverstone SFX ST45SF-G

Permalänk
Medlem

Vet ej om detta sagts redan, Kolla så att du inte har olika hastighet minnen, speciellt olika volt. Detta har lett till samma problem där hosten krashar vid belastning hos en kund till mig. Misstänker starkt att detta är minnes relaterat.