Hur upptäcka minnesproblem i drift?

Permalänk
Medlem

Hur upptäcka minnesproblem i drift?

Fick en liten fundering.
Jag har haft problem med min windows-server senaste månaderna (!).
Trött som jag varit så är det enda jag gjort ett mem-test med windows egna funktionalitet.
Detta har gått igenom ok (mycket märkligt, värdelöst test...)

Fick ett ryck för nån vecka sen och körde memtest86 från usb-minne, och givetvis var en sticka trasig...

Frågan är nu, hur gör man detta vettigast automatiserat?
Hur gör "folk" i stora serverhallar?
Alltså, hur upptäcker man automatiserat minnesfel? Tvivlar ju på att google bootar om sina servrar med en usbsticka memtest en gång i veckan för att se att allt minne är ok?

Permalänk
Medlem

Om servern inte är kritisk för drift så stängs denna server av och felsöks.
Om en server är kritisk för drift och larmar om fel så tas den ur drift för felsökning och låter en redundant server hoppa in i stället.

Om en server är drift kritisk finns det redundans iallafall i en perfekt värld....

Visa signatur

HDD 1: Surface Book 2 15" (W10 Enterprise)
HDD 2: RYZEN 5900X, 64GiB, 2TB SSD, 2080 Super (W10 Enterprise)
Colo: 3 x Dell R710 (proxmox)

Permalänk
Medlem
Skrivet av upl8447:

Om en server är kritisk för drift och larmar om hårdvarufel så tas den ur drift för felsökning och låter en redundant server hoppa in i stället. Om en server är drift kritisk finns det redundans iallafall i en perfekt värld....

Okey, så vad du säger är att i bättre servermoderkort så finns inbyggd funktionalitet för att varna för t ex minnesproblem?
Detta är alltså inget man löser i mjukvara?

Finns det någonting man själv kan köra (Windows Server...) som försöker hålla koll på detta, eller är hårdvara enda lösingen?
Jag var ju glad över mitt supermicro-mobo med ECC-minnen, enda tills jag insåg att det inte hjälper så mycket i fallet att själva minnet går sönder...

Edit: Jag tänker mig alltså nått såpass enkelt som memtest86, fast som går att köra under drift...
Har inte lyckats hitta nått sånt ännu, men det beror väl på att memtestet behöver kunna skriva fritt till minne utan just ett underliggande OS...
Frågan kvarstår ändå, finns det -nånting- som går att schemalägga för t ex en körning i veckan under drift, som iaf är bättre än ingenting?

Permalänk
Hedersmedlem

De enda större servrar jag haft kontakt med har haft inbyggd hårdvarudiagnostik under drift och man fick varningar att minnet var defekt och t o m exakt vilken modul som behövde bytas.

Visa signatur

W10, Intel 5820K, Asus X99-S, Crucial DDR4 2133MHz 32GB, Sapphire 290X Tri-X, Intel 730 SSD, WD Black+Green+HGST, Silverstone FT02, Corsair AX1200, Corsair K90, Logitech MX518, Eizo 2736w, Eaton 5115 UPS. Pixel 7 pro

Permalänk
Medlem
Skrivet av MultiMan:

De enda större servrar jag haft kontakt med har haft inbyggd hårdvarudiagnostik under drift och man fick varningar att minnet var defekt och t o m exakt vilken modul som behövde bytas.

Som MultiMan skriver så har servrar ofta inbyggd funktionallitet för detta.
HP har ILO som har koll på statusen hos hårdvaran den kopplar även bort den trasiga modulen så den inte utnyttjas..

Permalänk
Medlem

Och det är därför man ska hålla sig till rediga serverkomponenter

Permalänk
Medlem

Som tidigare nämnts så använder man IMPI.

https://en.wikipedia.org/wiki/Intelligent_Platform_Management...

HP's ILO Dell's iDRAC osv osv, dessa varnar när någon hårdvara börjar ge sig, kasst minne, smart fel på hårddisk dött nätagg osv.

Visa signatur

Every mammal on this planet instinctively develops a natural equilibrium with the surrounding environment; but you humans do not. Instead you multiply, and multiply, until every resource is consumed.
There is another organism on this planet that follows the same pattern... a virus.
CITERA CITERA CITERA

Permalänk
Medlem
Skrivet av mini-ryttge:

Som tidigare nämnts så använder man IMPI.

https://en.wikipedia.org/wiki/Intelligent_Platform_Management...

HP's ILO Dell's iDRAC osv osv, dessa varnar när någon hårdvara börjar ge sig, kasst minne, smart fel på hårddisk dött nätagg osv.

Njeao, sanning med modifikation.
Mitt supermicro-mobo har IPMI, men väldigt begränsat, jag kan mer eller mindre bara starta/stänga av, se temperaturer och köra en "remote desktop".

Jag får helt enkelt se till att köpa in bättre grejor nästa serverköp

Permalänk
Medlem
Skrivet av BasseBaba:

Njeao, sanning med modifikation.
Mitt supermicro-mobo har IPMI, men väldigt begränsat, jag kan mer eller mindre bara starta/stänga av, se temperaturer och köra en "remote desktop".

Jag får helt enkelt se till att köpa in bättre grejor nästa serverköp

Kan du se vilken spänning minnena får i bios eller hwmonitor ?
om de ligger lite under sitt specificerade värde så kan det vara vettigt och prova att höja det minsta steget du kan för att hamna över t ex 1.5v som minnena kräver och kanske ligger på 1.52v efter ändringen från 1.47v (om nu moderkortet bara tillåter 0.05v steg på spänningen)

Fick bluescreens när man fyllde upp alla minnesplatser i varierande tillfällen, men alla minnen testade ok i memtest när man körde 2 stycken och testade över alla 4 minnesplatser med endast 2 ifyllda.
Sedan kikade man i bios och såg att man låg under 1.5v i spänning.
(Det var inställt på 1.5v som det skulle men låg under denna spänning enligt bios och hwmonitor (vin1 värdet på mitt moderkort) då var det bara och höja 0.05v för att ligga på 1.52v och har bara fått bluescreen pga instabil överklockning på processorn en vända sedan 2012.)

Visa signatur

Ryzen 5 5600, MSI B450 Tomahawk Max, 2x8 gb kingston reaper 3200 mhz Gigabyte GTX 1660 Super OC och nätagg be quiet 700w SSD: 120 gb pny cs 900, Kingston Fury 1 tb, wd blue ssd 500gb

Permalänk
Medlem
Skrivet av mini-z1994:

Kan du se vilken spänning minnena får i bios eller hwmonitor ?
om de ligger lite under sitt specificerade värde så kan det vara vettigt och prova att höja det minsta steget du kan för att hamna över t ex 1.5v som minnena kräver och kanske ligger på 1.52v efter ändringen från 1.47v (om nu moderkortet bara tillåter 0.05v steg på spänningen)

Fick bluescreens när man fyllde upp alla minnesplatser i varierande tillfällen, men alla minnen testade ok i memtest när man körde 2 stycken och testade över alla 4 minnesplatser med endast 2 ifyllda.
Sedan kikade man i bios och såg att man låg under 1.5v i spänning.
(Det var inställt på 1.5v som det skulle men låg under denna spänning enligt bios och hwmonitor (vin1 värdet på mitt moderkort) då var det bara och höja 0.05v för att ligga på 1.52v och har bara fått bluescreen pga instabil överklockning på processorn en vända sedan 2012.)

Det låter som om några komponenter på moderkortet håller på att ge upp ifall de inte orkar hålla spänningen uppe med alla bankar fyllda.

Visa signatur

i7-8700k | ASUS ROG Strix Z370-F Gaming | 2x8+2x16GB Corsair Vengeance LPX 3200 | ASUS TUF RTX 3080 OC | Samsung 860 EVO 1TB | WD Black SN850 1TB | Intel 660p 2TB | Crucial MX500 4TB | Noctua NH-U14S | Fractal Design North | Seasonic Focus Plus Gold 650FX | ASUS Xonar Essence STX

Permalänk
Medlem
Skrivet av Micke O:

Det låter som om några komponenter på moderkortet håller på att ge upp ifall de inte orkar hålla spänningen uppe med alla bankar fyllda.

Moderkortet var så ur lådan när jag fick det skulle jag tro tillbaks när jag började bygga min burk 2010 men funkar än så länge och har hållt spänningen på 1.520 på minnena sen jag fyllde upp alla minnesplatserna 2012.

Visa signatur

Ryzen 5 5600, MSI B450 Tomahawk Max, 2x8 gb kingston reaper 3200 mhz Gigabyte GTX 1660 Super OC och nätagg be quiet 700w SSD: 120 gb pny cs 900, Kingston Fury 1 tb, wd blue ssd 500gb