Konstanta krascher trots att jag bytt ut nästan allt?!
Om ni inte orkar läsa all text, hoppa fram till Specs-delen.
Det innan är mer historia om hur det började och vad jag testat då, men problemen kvarstår med många delar utbytta.
Ber om ursäkt för längden, detta är en sammanfattning av allt jag gjort i typ 10 dagars tid.
Jag börjar på riktigt bli knäpp av detta, och kommer snart tro att datorn har en förbannelse, är hemsökt eller något i den stilen... hoppas att ni kan komma på något jag missat!
Problemet från början var krascher (antingen så fryste datorn helt med muspekare/num lock osv oresponsiva, eller så startade den om plötsligt, eller fick BSOD -- oftast DPC_WATCHDOG_VIOLATION), ffa vid idle. Åtminstone vid detta stadiet klarade den av alla stresstester jag körde, men startade ofta om bara om man gick på toa i två minuter. Problemet tycktes uppstå främst när den var lätt belastad.
De uppstod plötsligt, utan någon ändring till hårdvara, BIOS (hade inte uppdaterat, och inte ändrat inställningar) eller mjukvara (inga Windows-uppdateringar hade installerats på 14 dagar, och drivrutinerna var orörda sedan drygt 30 dagar).
Jag körde jag utan problem memtest86 4 pass (c:a 6 timmar), prime95 med AVX2/med bara AVX/utan AVX ett par timmar, OCCT LinPack 2x 30 minuter, CoreCycler (prime95 på en kärna i taget, växlande var 10e sek) 3+ timmar.
Felmeddelandena jag fick (i både Windows och Linux) pekade rätt starkt på processorn, med Machine Check Exceptions såsom Watchdog Timeout, någon cache hierarchy error (cache level 3) samt nån Interconnect Error (infinity fabric)?
I början nästan enbart watchdog timeout, sedan blev det flera olika sorters MCE. Har exakt info nedskriven om det är intressant, men problemen som är nu med ny CPU+MB tycks inte ge MCE längre.
Inga anmärkningsvärda temperaturer, spänningar eller liknande överhuvudtaget.
Om något så var det märkbar vdroop på "8-pin input voltage" på grafikkortet (ner mot 11.65 V vid hög GPU-last), men 12 V mätt på moderkortet var fortfarande OK även då, så det var nog främst förluster i 8-pin-kablarna. Har bytt nätagg + sladdar sedan detta -- och nätagget+GPU har funkat felfritt i nästan tre år innan detta.
Eftersom krascherna främst är i idle när GPUn drar ~20 W tror jag definitivt inte detta är problemet, speciellt inte med två olika nätagg och GPUer.
Efter mycket testade stängde jag av Global C-states i BIOS, samt även DF C-states, vilket verkade minska krascherna kraftigt, från minst varje timme (ofta 3-5 ggr/timme) till bara en krasch på två dygn. Nära, men inte acceptabelt.
Varje gång jag körde Load Optimized Defaults och nollställde C-states fortsatte den dock krascha ofta. Till slut hade jag (så vitt jag kan se!) uteslutit allt utom nätagg, processor och moderkort (se nedan för mer info om felsökning/uteslutning) och körde pga felen som starkt tydde på CPU en RMA på processorn, samt köpte en 5800X3D att ersätta den med under tiden (men sannolikt permanent).
Det löste problemen i typ två dygn, sedan har det fortsatt igen, precis lika kraftigt som förut. Kan inte installera om Windows för att installern oftast kraschar innan den är klar; när den hinner klar kraschar det nyinstallerade innan man når skrivbordet.
Specs från början:
Moderkort: Asus TUF B550M-Plus (Wi-Fi)
CPU: Ryzen 5800X
RAM: 2x16 GB + 2x 8 GB RAM, olika kits med custom timings, helt stabila i stresstest sedan Nov 2020
GPU: Asus TUF RTX 3080 10 GB (icke-LHR)
SSD: WD SN850 1 TB + Kingston NV1 2 TB
Kylning: Noctua NH-D15S, 120mm-fläktar bak+fram (nere), 140 mm fläkt fram (uppe)
Externt via USB: ljudkort (Roland Quad-Capture), mus (Logitech unifying receiver + MX Vertical), tangentbord (Wooting One)
Skärm: Acer XB271HU (1440p G-Sync) via DisplayPort, även testat med LG C1 via HDMI
Nätagg: Corsair RM650x (V1, köpt 2017)
Chassi: FD Define C
Specs nu, utbytta/ändrade saker i fetstil:
Moderkort: Asus ROG Strix B550-F Gaming
CPU: Ryzen 5800X3D
RAM: 8 GB Kingston HyperX nånting nånting (standard-inställningar, 2666 MHz)
GPU: Orörd, samma TUF RTX 3080, men jag har testat att sätta i ett annat identiskt kort från en kompis, samma krascher med det också. Det var med gamla moderkortet+processorn+minnet osv.
SSD: inga, har dem på skrivbordet och testar via USB-minne samt en gammal SATA-HDD
Externt: samma tangentbord och mus
Skärm: Oförändrat, testat både XB271HU och LG C1
Nätagg: Nytt Corsair RM650x (V3, från RMA av kompisens defekta V1) -- har kört NAS:en på detta en månad med noll problem, satte det i denna datorn igår
Chassi: FD Define C, men inga portar kopplade till moderkortet, enbart strömknapp + resetknapp + power LED
Moderkort, CPU, RAM, nätagg och SSDs är alltså utbytta sedan problemen började, och krascherna kvarstår.
Vad gäller de externa sakerna så har jag bekräftat att den kraschar (före moderkortsbytet åtminstone) även utan tangentbord, mus, ljudkort inkopplat. Samt att den kraschar med bara skärmen och med bara TVn inkopplad, så de är också uteslutna som ensamma felkällor.
Så är det mjukvara som är problemet? Nej, det bör jag ha uteslutit ganska kraftigt också.
1) Att återställa C: från backup en månad bakåt hjälpte inte. Backupen togs 2 veckor innan jag märkte några problem alls.
2) Den kraschar även i Linux (installerat på ena SSDn, installerade efter att strulet börjat som test).
3) Den kraschar även i Linux bootat från USB-minne (Linux Mint-installern)
4) Den kraschar även i Windows 11-installern (försökte installera W11 på en HDD för att utesluta SSDs även på nya moderkortet)
5) Den kraschar även i nyinstallerat Windows 11 på HDD (när man väljer region och sånt, har inte lyckats nå skrivbordet), när installern väl lyckats installera färdigt
Felsökning var i ungefär denna ordning (svårt att minnas, har hållt på all fritid i ett par dagar, men ett par timmar per dag sedan iaf 12 september):
* Stresstest av CPU och RAM, alla lyckades
* Testa med bara 2x16 GB RAM, sen bara 2x8 GB RAM, sedan en annat ensam 8 GB-sticka för att helt utesluta de 4
* Testa Linux istället för Windows för att utesluta mjukvara/drivrutiner
* Testa Linux från USB med SSDs urkopplade för att utesluta dem
* Load Optimized Defaults (RAM i 2133 MHz osv)
* Uppdatera till senaste BIOS och återigen köra Load Optimized Defaults
* Byta CPU till en ny 5800X3D -- vilket tog bort alla krascher i c:a 2 dygn, sedan började de igen.
* Byta nätagg (men inte sladdarna -- kollade extremt noga att de är kompatibla)
* Byta moderkort
* Byta alla sladdar till nätagget (inkl till väggen) -- här var det återigen lite lovande, från att krascha konstant lyckades jag ta en ny image-backup på C:, återställa en äldre, boota den och spela BG3 i 15-20 minuter, men sen började problemen igen. BG3 frös (musiken fortsatte), men datorn i sig fortsatte fungera.
* Återigen koppla ur SSDs och testa med en SATA-HDD, testa med Kingston 8 GB-stickan, osv.
Nu upplever jag att jag uteslutet varje enstaka komponent samt all mjukvara, och ändå kraschar den precis lika ofta.
Vad i hela friden har jag missat?
Det enda jag kan komma på just nu är om det gamla moderkortet eller nätagget skulle ha skadat min 5800X, sedan när jag bytte till 5800X3D så skadades efter ett par dagar även den, och därmed är datorn fortfarande ostabil med nytt nätagg+moderkort och så vidare pga att processorn återigen är defekt.
Det låter inte så troligt, men jag kan inte utesluta det, och jag har ingen annan förklaring som är mera trolig heller.
Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS