Konstanta krascher trots att jag bytt ut nästan allt?!

Permalänk
Hedersmedlem

Konstanta krascher trots att jag bytt ut nästan allt?!

Om ni inte orkar läsa all text, hoppa fram till Specs-delen.
Det innan är mer historia om hur det började och vad jag testat då, men problemen kvarstår med många delar utbytta.
Ber om ursäkt för längden, detta är en sammanfattning av allt jag gjort i typ 10 dagars tid.

Jag börjar på riktigt bli knäpp av detta, och kommer snart tro att datorn har en förbannelse, är hemsökt eller något i den stilen... hoppas att ni kan komma på något jag missat!

Problemet från början var krascher (antingen så fryste datorn helt med muspekare/num lock osv oresponsiva, eller så startade den om plötsligt, eller fick BSOD -- oftast DPC_WATCHDOG_VIOLATION), ffa vid idle. Åtminstone vid detta stadiet klarade den av alla stresstester jag körde, men startade ofta om bara om man gick på toa i två minuter. Problemet tycktes uppstå främst när den var lätt belastad.

De uppstod plötsligt, utan någon ändring till hårdvara, BIOS (hade inte uppdaterat, och inte ändrat inställningar) eller mjukvara (inga Windows-uppdateringar hade installerats på 14 dagar, och drivrutinerna var orörda sedan drygt 30 dagar).

Jag körde jag utan problem memtest86 4 pass (c:a 6 timmar), prime95 med AVX2/med bara AVX/utan AVX ett par timmar, OCCT LinPack 2x 30 minuter, CoreCycler (prime95 på en kärna i taget, växlande var 10e sek) 3+ timmar.

Felmeddelandena jag fick (i både Windows och Linux) pekade rätt starkt på processorn, med Machine Check Exceptions såsom Watchdog Timeout, någon cache hierarchy error (cache level 3) samt nån Interconnect Error (infinity fabric)?
I början nästan enbart watchdog timeout, sedan blev det flera olika sorters MCE. Har exakt info nedskriven om det är intressant, men problemen som är nu med ny CPU+MB tycks inte ge MCE längre.

Inga anmärkningsvärda temperaturer, spänningar eller liknande överhuvudtaget.

Klicka för mer information

Om något så var det märkbar vdroop på "8-pin input voltage" på grafikkortet (ner mot 11.65 V vid hög GPU-last), men 12 V mätt på moderkortet var fortfarande OK även då, så det var nog främst förluster i 8-pin-kablarna. Har bytt nätagg + sladdar sedan detta -- och nätagget+GPU har funkat felfritt i nästan tre år innan detta.
Eftersom krascherna främst är i idle när GPUn drar ~20 W tror jag definitivt inte detta är problemet, speciellt inte med två olika nätagg och GPUer.

Visa mer

Efter mycket testade stängde jag av Global C-states i BIOS, samt även DF C-states, vilket verkade minska krascherna kraftigt, från minst varje timme (ofta 3-5 ggr/timme) till bara en krasch på två dygn. Nära, men inte acceptabelt.

Varje gång jag körde Load Optimized Defaults och nollställde C-states fortsatte den dock krascha ofta. Till slut hade jag (så vitt jag kan se!) uteslutit allt utom nätagg, processor och moderkort (se nedan för mer info om felsökning/uteslutning) och körde pga felen som starkt tydde på CPU en RMA på processorn, samt köpte en 5800X3D att ersätta den med under tiden (men sannolikt permanent).

Det löste problemen i typ två dygn, sedan har det fortsatt igen, precis lika kraftigt som förut. Kan inte installera om Windows för att installern oftast kraschar innan den är klar; när den hinner klar kraschar det nyinstallerade innan man når skrivbordet.

Specs från början:

Moderkort: Asus TUF B550M-Plus (Wi-Fi)
CPU: Ryzen 5800X
RAM: 2x16 GB + 2x 8 GB RAM, olika kits med custom timings, helt stabila i stresstest sedan Nov 2020
GPU: Asus TUF RTX 3080 10 GB (icke-LHR)
SSD: WD SN850 1 TB + Kingston NV1 2 TB
Kylning: Noctua NH-D15S, 120mm-fläktar bak+fram (nere), 140 mm fläkt fram (uppe)
Externt via USB: ljudkort (Roland Quad-Capture), mus (Logitech unifying receiver + MX Vertical), tangentbord (Wooting One)
Skärm: Acer XB271HU (1440p G-Sync) via DisplayPort, även testat med LG C1 via HDMI
Nätagg: Corsair RM650x (V1, köpt 2017)
Chassi: FD Define C

Specs nu, utbytta/ändrade saker i fetstil:
Moderkort: Asus ROG Strix B550-F Gaming
CPU: Ryzen 5800X3D
RAM: 8 GB Kingston HyperX nånting nånting (standard-inställningar, 2666 MHz)
GPU: Orörd, samma TUF RTX 3080, men jag har testat att sätta i ett annat identiskt kort från en kompis, samma krascher med det också. Det var med gamla moderkortet+processorn+minnet osv.
SSD: inga, har dem på skrivbordet och testar via USB-minne samt en gammal SATA-HDD
Externt: samma tangentbord och mus
Skärm: Oförändrat, testat både XB271HU och LG C1
Nätagg: Nytt Corsair RM650x (V3, från RMA av kompisens defekta V1) -- har kört NAS:en på detta en månad med noll problem, satte det i denna datorn igår
Chassi: FD Define C, men inga portar kopplade till moderkortet, enbart strömknapp + resetknapp + power LED

Moderkort, CPU, RAM, nätagg och SSDs är alltså utbytta sedan problemen började, och krascherna kvarstår.
Vad gäller de externa sakerna så har jag bekräftat att den kraschar (före moderkortsbytet åtminstone) även utan tangentbord, mus, ljudkort inkopplat. Samt att den kraschar med bara skärmen och med bara TVn inkopplad, så de är också uteslutna som ensamma felkällor.

Så är det mjukvara som är problemet? Nej, det bör jag ha uteslutit ganska kraftigt också.
1) Att återställa C: från backup en månad bakåt hjälpte inte. Backupen togs 2 veckor innan jag märkte några problem alls.
2) Den kraschar även i Linux (installerat på ena SSDn, installerade efter att strulet börjat som test).
3) Den kraschar även i Linux bootat från USB-minne (Linux Mint-installern)
4) Den kraschar även i Windows 11-installern (försökte installera W11 på en HDD för att utesluta SSDs även på nya moderkortet)
5) Den kraschar även i nyinstallerat Windows 11 på HDD (när man väljer region och sånt, har inte lyckats nå skrivbordet), när installern väl lyckats installera färdigt

Felsökning var i ungefär denna ordning (svårt att minnas, har hållt på all fritid i ett par dagar, men ett par timmar per dag sedan iaf 12 september):

Klicka för mer information

* Stresstest av CPU och RAM, alla lyckades
* Testa med bara 2x16 GB RAM, sen bara 2x8 GB RAM, sedan en annat ensam 8 GB-sticka för att helt utesluta de 4
* Testa Linux istället för Windows för att utesluta mjukvara/drivrutiner
* Testa Linux från USB med SSDs urkopplade för att utesluta dem
* Load Optimized Defaults (RAM i 2133 MHz osv)
* Uppdatera till senaste BIOS och återigen köra Load Optimized Defaults
* Byta CPU till en ny 5800X3D -- vilket tog bort alla krascher i c:a 2 dygn, sedan började de igen.
* Byta nätagg (men inte sladdarna -- kollade extremt noga att de är kompatibla)
* Byta moderkort
* Byta alla sladdar till nätagget (inkl till väggen) -- här var det återigen lite lovande, från att krascha konstant lyckades jag ta en ny image-backup på C:, återställa en äldre, boota den och spela BG3 i 15-20 minuter, men sen började problemen igen. BG3 frös (musiken fortsatte), men datorn i sig fortsatte fungera.
* Återigen koppla ur SSDs och testa med en SATA-HDD, testa med Kingston 8 GB-stickan, osv.

Visa mer

Nu upplever jag att jag uteslutet varje enstaka komponent samt all mjukvara, och ändå kraschar den precis lika ofta.
Vad i hela friden har jag missat?

Det enda jag kan komma på just nu är om det gamla moderkortet eller nätagget skulle ha skadat min 5800X, sedan när jag bytte till 5800X3D så skadades efter ett par dagar även den, och därmed är datorn fortfarande ostabil med nytt nätagg+moderkort och så vidare pga att processorn återigen är defekt.
Det låter inte så troligt, men jag kan inte utesluta det, och jag har ingen annan förklaring som är mera trolig heller.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS

Permalänk
Medlem

Du borde testa med annan keyboard/mus (och inga annat inkopplat) och utan GPU.
Kanske helt utan chassi kablar och starta den med skruvmejsel.

Permalänk
Medlem

Microsofts dokumentation är för en gångs skull inte så dålig. Se slutet för vad du kan göra för att identifiera drivrutinen det är fel på. Det är i alla fall uppenbart att det är en interruptrutin som inte blir klar tillräckligt snabbt. Det i sin tur kan så klart bero på trasig hårdvara. Men det känns inte helt uteslutet att det beror på en drivrutin som inte har sin hårdvara kvar i burken.

Hur löd motsvarande felmeddelande under Linux? Får du fortfarande fel i Linux nu när du bytt ut det mesta av hårdvaran?

I övrigt håller jag med ovanstående. Eftersom det är en interrupt, försök utesluta även mus/tangentbord, speciellt om det är trådlöst, vilket skulle kunna påverkas utifrån.

Om datorn inte kraschar under lasttest kan det vara en ledtråd - du gör antagligen inte mycket annat under den tiden.

Det går inte heller att utesluta komplexa fel. Moderkort som pajar CPU som kortsluter moderkort som pajar CPU osv. Ren spekulation så klart.

Permalänk
Hedersmedlem

Tackar för svar!

Skrivet av Sinery:

Du borde testa med annan keyboard/mus (och inga annat inkopplat) och utan GPU.
Kanske helt utan chassi kablar och starta den med skruvmejsel.

Kan testa utan GPU senare, har ett USB-minne som bör hjälpa till där (rescue-USB till NASen som är gjort för att boota utan skärm och tillåta SSH via nätverket).

Utan tangentbord/mus har jag typ testat -- har bootat med dem i, satt igång videouppspelning och dragit ur allt utom ström och grafik, krasch efter typ 10 minuter där.
Ska testa byta ut mus+tangentbord om en stund, och samtidigt köra TVn som skärm, och koppla bort allt från chassit 100% (alltså även strömknappar och sånt), innan jag testar utan GPU.

Skrivet av KAD:

Microsofts dokumentation är för en gångs skull inte så dålig. Se slutet för vad du kan göra för att identifiera drivrutinen det är fel på. Det är i alla fall uppenbart att det är en interruptrutin som inte blir klar tillräckligt snabbt. Det i sin tur kan så klart bero på trasig hårdvara. Men det känns inte helt uteslutet att det beror på en drivrutin som inte har sin hårdvara kvar i burken.

Hur löd motsvarande felmeddelande under Linux? Får du fortfarande fel i Linux nu när du bytt ut det mesta av hårdvaran?

Tror inte jag fått några MCE i Linux (eller i Windows, alltså som visas av "WHEA-Logger") sedan byte av CPU, men kraschar gör den hejvilt. Processer får segfault och startar om sig, eller bara fryser. Firefox brukar frysa på nån minut eller två t ex, så man får en "not responding" efter ett tag.

Här är de jag sett (kanske inte alla typerna, men de flesta åtminstone), alla med originalhårdvaran då:

Klicka för mer information

Event 18, WHEA-Logger
A fatal hardware error has occured.
Reported by component: Processor Core
Error Source: Machine Check Exception
Error Type: Cache Hierarchy Error
Processor APIC ID: 0
ErrorSource 3
ApicId 0
MCABank 22
MciStat 0xbaa000000002010b
MciAddr 0x0
MciMisc 0xd0130fff00000000
ErrorType 9
TransactionType 2
Participation 256
RequestType 0
MemorIO 256
MemHierarchyLvl 3
Timeout 256
OperationType 256
Channel 256
Length 1163
RawData 435045521002FFFFFFFF040001000000020000008B04000027280400110917140000000000000000000000000000000000000000000000000000000000000000BDC407CF89B7184EB3C41F732CB57131FE6FF5E89C91C54CBA8865ABE14913BBB294D91A21E9D901020000000000000000000000000000000000000000000000A0010000C00000000003000001000000ADCC7698B447DB4BB65E16F193C4F3DB0000000000000000000000000000000001000000000000000000000000000000000000000000000060020000E00000000003000000000000B0A03EDC44A19747B95B53FA242B6E1D0000000000000000000000000000000001000000000000000000000000000000000000000000000040030000240100000003000000000000011D1E8AF94257459C33565E5CC3F7E80000000000000000000000000000000001000000000000000000000000000000000000000000000064040000270000000003000000000000A13248C3C302524CA9F19F1D5D7723FC000000000000000000000000000000000300000000000000000000000000000000000000000000007F010000000000000002010000030000100FA2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000007010000000000000000000000000000100FA200000810000B32D87EFFFB8B170000000000000000000000000000000000000000000000000000000000000000F50157A5EFE3DE43AC72249B573FAD2C01000000000000009F00C20600000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010008008001000000000000000000000000000000000000000000000000000003000000020000009911E41B21E9D9010000000000000000000000000000000000000000160000000B0102000000A0BA000000000000000000000000FF0F13D00A000000000000000070E113180000000000004D000000007D000000070000000000000000000000000000000000000000000000000010000000000000001000000000000000100000000000000010001B00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000000000000000000000FF00000000000000000000000000000000000000000000000000

SAMT samtidigt, samma sekund enligt loggen (jag tänker mig att det är en annan krasch, men att loggen läste dem från CPUn samtidigt bara?):

A fatal hardware error has occurred.

Reported by component: Processor Core
Error Source: Machine Check Exception
Error Type: Cache Hierarchy Error
Processor APIC ID: 6
ErrorSource 3
ApicId 6
MCABank 5
MciStat 0xbea0000000000108
MciAddr 0x1fff805a4801ac8
MciMisc 0xd0130fff00000000
ErrorType 9
TransactionType 2
Participation 256
RequestType 0
MemorIO 256
MemHierarchyLvl 0
Timeout 256
OperationType 256
Channel 256
Length 1163
RawData 435045521002FFFFFFFF040001000000020000008B04000027280400110917140000000000000000000000000000000000000000000000000000000000000000BDC407CF89B7184EB3C41F732CB57131FE6FF5E89C91C54CBA8865ABE14913BBB394D91A21E9D901020000000000000000000000000000000000000000000000A0010000C00000000003000001000000ADCC7698B447DB4BB65E16F193C4F3DB0000000000000000000000000000000001000000000000000000000000000000000000000000000060020000E00000000003000000000000B0A03EDC44A19747B95B53FA242B6E1D0000000000000000000000000000000001000000000000000000000000000000000000000000000040030000240100000003000000000000011D1E8AF94257459C33565E5CC3F7E80000000000000000000000000000000001000000000000000000000000000000000000000000000064040000270000000003000000000000A13248C3C302524CA9F19F1D5D7723FC000000000000000000000000000000000300000000000000000000000000000000000000000000007F010000000000000002010000000000100FA2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000600000000000000000000000000000000000000000000000000000000000000000000000000000007010000000000000600000000000000100FA200000810060B32D87EFFFB8B170000000000000000000000000000000000000000000000000000000000000000F50157A5EFE3DE43AC72249B573FAD2C03000000000000009F00020600000000C81A80A405F8FF0100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010008008001000000000000000000000000000000000000000000000000000003000000020000007074E61B21E9D901060000000000000000000000000000000000000005000000080100000000A0BEC81A80A405F8FF0100000000FF0F13D00A0000000600000000000000B00005000000004D00000000F9010000030000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001B00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000000000000000000000FF00000000000000000000000000000000000000000000000000

Avkodat:
MCE-Ryzen-Decoder-master $ python3 run.py 22 0xbaa000000002010b
Bank: Power Management, Interrupts, Etc. (PIE)
Error: Link Error: An error occurred on a GMI or xGMI link (GMI 0x2)
MCE-Ryzen-Decoder-master $ python3 run.py 5 0xbea0000000000108
Bank: Execution Unit (EX)
Error: Watchdog Timeout error (WDT 0x0)

Visa mer

Den ANDRA av dessa ("Bank 5: 0xbea0000000000108" = Watchdog Timeout error) är den jag fick mest i början, och den jag sett mest i Linux. Men det var nog som sagt bara med förra CPUn.

Har även fått flera av dessa (också med förra CPUn):

Klicka för mer information

A fatal hardware error has occurred.

Reported by component: Processor Core
Error Source: Machine Check Exception
Error Type: Bus/Interconnect Error
Processor APIC ID: 0
ErrorSource 3
ApicId 0
MCABank 27
MciStat 0xbaa000000000080b
MciAddr 0x0
MciMisc 0xd0130fff00000000
ErrorType 10
TransactionType 256
Participation 0
RequestType 0
MemorIO 2
MemHierarchyLvl 3
Timeout 0
OperationType 256
Channel 256
Length 1163
RawData 435045521002FFFFFFFF040001000000020000008B04000002350B00130917140000000000000000000000000000000000000000000000000000000000000000BDC407CF89B7184EB3C41F732CB57131FE6FF5E89C91C54CBA8865ABE14913BBED97F9D6EFEAD901020000000000000000000000000000000000000000000000A0010000C00000000003000001000000ADCC7698B447DB4BB65E16F193C4F3DB0000000000000000000000000000000001000000000000000000000000000000000000000000000060020000E00000000003000000000000B0A03EDC44A19747B95B53FA242B6E1D0000000000000000000000000000000001000000000000000000000000000000000000000000000040030000240100000003000000000000011D1E8AF94257459C33565E5CC3F7E80000000000000000000000000000000001000000000000000000000000000000000000000000000064040000270000000003000000000000A13248C3C302524CA9F19F1D5D7723FC000000000000000000000000000000000300000000000000000000000000000000000000000000007F010000000000000002040000030000100FA2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000007010000000000000000000000000000100FA200000810000B32F87EFFFB8B170000000000000000000000000000000000000000000000000000000000000000B3F8F31CB1C5A249AA595EEF92FFA63C01000000000000009E07C00604000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010008008001000000000000000000000000000000000000000000000000000003000000020000006BE538D8EFEAD90100000000000000000000000000000000000000001B0000000B0800000000A0BA000000000000000000000000FF0F13D00A00000000000000000500002E0001000000005D000000007D000000070000000000000000000000000000000000000000000000000010000000000000001000000000000000100000000000000010003B00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000000000000000000000FF00000000000000000000000000000000000000000000000000

Visa mer

Den ovan klarar inte MCE-decodern av, "bank"-värdet är högre än max den känner till.

Skrivet av KAD:

Det går inte heller att utesluta komplexa fel. Moderkort som pajar CPU som kortsluter moderkort som pajar CPU osv. Ren spekulation så klart.

Nej, utöver tangentbord/mus har jag svårt att tänka mig mycket annat vid detta laget. Nästan alla enstaka komponenter är ju utbytta utan ändring.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS

Permalänk
Medlem

Om det fortsätter att spöka när du byter ut var enskild komponent, kan det betyda att det är flera komponenter som spökar.
Skulle rekomendera att byta flera vitala komponenter typ moderkortet och CPU samtidigt och testa.

Permalänk
Medlem

Har du bytt ut grenuttaget? Prova byt ut detta om du har möjlighet. Dessa kan om de felaktiga ge "smutsig ström" som kan yttra sig i interrupts. Prova även med att köra monitorn och annan utrustning på separat uttag från datorn och se om det gör nån skillnad.

Det kan även vara så att nått är fel på chassit kanske kan det vara så att det blir spänningar på något sätt som påverkar funktionen på mobbot. Har du provat köra systemet utanför monterat på en moderkortslåda istället och se ifall problemet kvarstår?

Har du provat ändra Power managment Mode inställningen i Nvidias drivrutiner? Gå in under Manage 3D settings så ska du där hitta det alternativet. Välj där alternativet "Prefer Maximum Power". Detta kommer höja IDLE förbrukningen och kan i vissa fall lösa instabilitetsproblem vid IDLE.

Visa signatur

Nuvarande dator: CPU: Core i5 2500K @ 3.7GHz, CPU kylare: Zalman CNPS12X, GPU: Zotac GTX560Ti 2048MB, Moderkort: ASRock Z68 Extreme 3 Gen3, Minne: Corsair Vengeance LP 1600MHz (4X4GB)16GB Kit, Lagring: Samsung 840 EVO 250GB SSD, Western Digital Caviar Black 64MB Cache 1TB, Seagate Barracuda 256MB cache 2TB, Seagate Barrracuda 256MB cache 4TB Optisk läsare: DVD Brännare Sony Optiarc AD-7280S, Ljudkort: Asus Xonar DG, Chassi: HafX 942 Nvidia Edition, Nätaggregat: Corsair TX650 v1 650 Watt, OS Windows 10 Pro Svensk Version

Permalänk
Hedersmedlem

Har testat en massa blandade saker nu utan någon större framgång -- ett scenario (#3) har inte gett krasch ännu åtminstone.

1) Bytte ut tangentbord och mus, kopplade direkt till moderkortet. Ström, nätverkssladd (av misstag), mus, tangentbord, Windows-installer-minne inkopplat, samt SATA-HDDn.
Resultat: frös under boot. Ett försök till så bara snurrade den vid boot vääldigt länge, gav upp till slut. Ett sista försök, bootade OK och fick välja språk i installern och sedan startade den om.

Så just mitt vanliga tangentbord + mus verkar inte vara orsaken.

2) Bytte ur skärmen (DP) mot TVn (HDMI), drog ur alla saker som tillhör chassit -- ljud-frontpanel, USB-portar, power/reset-knappar och power LED. Startar med skruvmejsel på pinnarna. Kopplade även ur alla chassifläktar bara för att (men inte CPU-fläkten).
Resultat: BSOD (SYSTEM_SERVICE_EXCEPTION) efter att den stått på "Copying files: 100%" c:a en minut.

Så det verkar inte heller vara någon av de grejerna. Inte oväntat men man måste ju utesluta allt.

3) Kopplade ur HDD, tangentbord och mus helt. GPU kvar och kopplad till TV, annars bara ström inkopplat. Styr via nätverket.
Resultat: Klarade prime95 typ en kvart, samt 30 minuter till rätt idle. Fick ingen krasch här på den tiden, stängde av själv. Däremot fick jag en USB disconnect/reconnect i dmesg som verkar ha uppstått av sig själv. Fick även "no signal" på TVn till slut; satte i tangentbord och tryckte lite, fortfarande no signal. Koppla ur/i HDMI gav tillbaka bild.
Uppdatering: se längst ner i inlägget

4) Kopplade tillbaka HDD och testade Windows-installern igen, eftersom det ovan verkade stabilt.
Resultat: KMODE_EXCEPTION_NOT_HANDLED under boot.

5) Kopplade ur tangentbord+nätverk+HDD och bootade Windows-USBn med bara ström+HDMI+det minnet i.
Resultat: IRQL_NOT_LESS_OR_EQUAL under boot.

6) Byter ut Windows-USBt mot Macrium Reflect recovery-USB (också Windows-baserat, men utesluter att det är Windows-minnet som är trasigt, eller dess innehåll korrupt)
Resultat: KMODE_EXCEPTION_NOT_HANDLED under boot

7) Byter ut det USB-minnet mot memtest86. Detta är alltså fortfarande bara ström+HDMI+USB-minne.
Resultat: Bootade (vilket tar 5-6 min och alltid gjort det) och kördes 30 sek, sen frös bilden där.

Vet inte hur mycket detta säger, men tangentbord, mus, chassits anslutningar (ljud, USB, knappar, LED) och chassifläktar (heh) verkar ju inte påverka och därmed vara uteslutna.
Däremot skumt att den inte hängde sig från mitt Linux-recovery-USB. Får testa vidare och se om det bara var en fluke eller om det av någon anledning funkar.
Kan ju inte testa mina vanliga testlaster (webbläsare, spel, Windows-install) utan något grafiskt interface dock, så prime95/idle är två av de få saker jag kommit på att testa.

Uppdatering: Testade #3 igen efter allt annat nedan och då startade den om under boot. Nästa försök frös den under boot (1.6 sekunder in i kernel-booten), direkt efter "Switched to clocksource tsc".
Flera av krascherna i Windows förut har också verkat relateraterade till TSC och ticks och liknande.

Det börjar verkligen kännas som om det är CPUn igen, trots att jag har bytt ut den...
Speciellt eftersom det funkade fint med nya CPUn ett tag.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS

Permalänk
Hedersmedlem
Skrivet av Joakim Ågren:

Har du bytt ut grenuttaget? Prova byt ut detta om du har möjlighet. Dessa kan om de felaktiga ge "smutsig ström" som kan yttra sig i interrupts. Prova även med att köra monitorn och annan utrustning på separat uttag från datorn och se om det gör nån skillnad.

Kopplade datorn direkt till väggen när jag bytte strömsladd, så grendosan är förbikopplad. Fortsatte även köra kopplat så när jag använde TVn (som står på andra sidan rummet) så grendosan verkar inte kunna vara orsaken, om den inte stör ut hela elnätet, verkar galet.

Skrivet av Joakim Ågren:

Det kan även vara så att nått är fel på chassit kanske kan det vara så att det blir spänningar på något sätt som påverkar funktionen på mobbot. Har du provat köra systemet utanför monterat på en moderkortslåda istället och se ifall problemet kvarstår?

Har inte testat utanför chassit. Skriver upp det på listan men vet inte om jag vill testa just nu, väldigt bökigt. Och väldigt skumt om det ska börja strula utan att jag (nästan bokstavligt) ens rört vid chassit och om det kvarstått efter byte av nätagg+moderkort (dvs ommontering av allt utom fläktar).

Skrivet av Joakim Ågren:

Har du provat ändra Power managment Mode inställningen i Nvidias drivrutiner? Gå in under Manage 3D settings så ska du där hitta det alternativet. Välj där alternativet "Prefer Maximum Power". Detta kommer höja IDLE förbrukningen och kan i vissa fall lösa instabilitetsproblem vid IDLE.

Har inte någon Windows-install alls just nu. Förhoppningsvis är detta uteslutet iom att det händer i alla miljöer jag testat, men helt säkert är det ju inte.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS

Permalänk

Har du testat att byta bios version? Nu när du börjar närma dig lite hail mary situation.

Annars en apu fungera som felsökning, vet inte vilken som är den billigast i amd 3-5000 serien

Då kan du ju få bort gpu'n iaf för att utesluta

Har du testat gpu'n i en annan pcie?

Visa signatur

Intel i5 12600k OC 5.2GHz | Arctic Freezer II 240 | MSI Pro Z690 A | 2x 16Gb Corsair LPX 3200MHz | Asus Tuf 4070 Ti | Corsair Rm850x V3 | 2x 1Tb Samsung 980 m2 | 7x Noctua A14x25

Permalänk
Hedersmedlem
Skrivet av Swedishchef_90:

Har du testat att byta bios version? Nu när du börjar närma dig lite hail mary situation.

På första moderkortet ja, men inte på detta. Tänker att om mitt gamla inte är defekt så vill jag nog returnera det nya, så jag är tveksam till att flasha det.
Plus att det mycket väl kan krascha under flash. Sannolikt inte katastrof då det har BIOS Flashback, men ändå.

Skrivet av Swedishchef_90:

Annars en apu fungera som felsökning, vet inte vilken som är den billigast i amd 3-5000 serien

Då kan du ju få bort gpu'n iaf för att utesluta

Har du testat gpu'n i en annan pcie?

Hm jo, det är sant. Vore skönt att utesluta, men surt att köpa ännu fler grejer (som jag egentligen inte behöver i längden) för att felsöka.

Har inte testat annan slot, men jag har ju testat två moderkort.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS

Permalänk
Skrivet av Thomas:

På första moderkortet ja, men inte på detta. Tänker att om mitt gamla inte är defekt så vill jag nog returnera det nya, så jag är tveksam till att flasha det.
Plus att det mycket väl kan krascha under flash. Sannolikt inte katastrof då det har BIOS Flashback, men ändå.

Hm jo, det är sant. Vore skönt att utesluta, men surt att köpa ännu fler grejer (som jag egentligen inte behöver i längden) för att felsöka.

Har inte testat annan slot, men jag har ju testat två moderkort.

Sant att du redan bytt moderkort, har du någon vän/kompis/granne som kan låna dig en gpu för felsökning?

Visa signatur

Intel i5 12600k OC 5.2GHz | Arctic Freezer II 240 | MSI Pro Z690 A | 2x 16Gb Corsair LPX 3200MHz | Asus Tuf 4070 Ti | Corsair Rm850x V3 | 2x 1Tb Samsung 980 m2 | 7x Noctua A14x25

Permalänk
Hedersmedlem
Skrivet av Swedishchef_90:

Sant att du redan bytt moderkort, har du någon vän/kompis/granne som kan låna dig en gpu för felsökning?

Jo, ska ta det imorgon. Kan även låna CPU även om det är bökigt att behöva ta ur i hans, sätta in i min, och sen göra om det igen några timmar senare.
Har dock redan testat med hans GPU, men det var på förra moderkortet och med andra nätagget (samt med annat RAM, och säkert nån grej till), så det känns väl värt att göra om när det ändå är ganska enkelt.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS

Permalänk
Skrivet av Thomas:

Jo, ska ta det imorgon. Kan även låna CPU även om det är bökigt att behöva ta ur i hans, sätta in i min, och sen göra om det igen några timmar senare.
Har dock redan testat med hans GPU, men det var på förra moderkortet och med andra nätagget (samt med annat RAM, och säkert nån grej till), så det känns väl värt att göra om när det ändå är ganska enkelt.

Även om ram klarar memtest, har du testat enbart 2x ett par?

Visa signatur

Intel i5 12600k OC 5.2GHz | Arctic Freezer II 240 | MSI Pro Z690 A | 2x 16Gb Corsair LPX 3200MHz | Asus Tuf 4070 Ti | Corsair Rm850x V3 | 2x 1Tb Samsung 980 m2 | 7x Noctua A14x25

Permalänk
Hedersmedlem
Skrivet av Swedishchef_90:

Även om ram klarar memtest, har du testat enbart 2x ett par?

Jo, minne har jag uteslutit mest i princip. Har testat alla fyra stickor, bara 2x16, bara 2x8, och en ensam 8 GB (den jag har i just nu) som inte tillhör de stickorna jag brukar köra.
Skulle ju egentligen kunna sätta i alla igen, men jag försöker byta så mycket som möjligt samtidigt och ser vad jag INTE bytt ut när det fortfarande strular.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS

Permalänk
Medlem

Jag har lite svårt att följa vilka felmeddelanden som är aktuella med den uppsättning hårdvara/mjukvara du kör för tillfället, men huvudsaken är att du tittar på dessa och använder dem som en del i felsökningen, och det gör du uppenbarligen.

Om du har bytt allt i datorn, inklusive mjukvara, så får man nog till slut söka anledningarna utanför datorn.

ESD kan ta död på flera uppsättningar komponenter i rad, även om det känns extremt osannolikt. IKEA Markus-historien kan vara värd att hålla i minnet.

Strömförsörjningen (från väggen) kan vara en sak att titta på. Den kan ju förändras beroende på vad mer man kopplat in, eller till och med från nätet. Flytta datorn till annan plats eller, om du ändå har nytta av det, köp/låna en UPS?

Permalänk

Låter lite konstigt men vad har du för kontorsstol? Det är känt IKEAs Markus kan orsaka problem med elektronik

Permalänk
Medlem

Ett par tankar, Ryzen Zen 3 startar om i idle om du har för mycket negativ Curve Optimizer dom bara gör det, vissa auto OC val i vissa bios applicerar sådan utan att man vet om det.

Ett 650W agg kan vara för lite för RTX3080 som kan dra rejäla strömspikar emellanåt och orsaka shutdown

Fel på en disk kan orsaka många konstiga fel

Liksom fel på minne.

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Permalänk
Hedersmedlem
Skrivet av KAD:

Jag har lite svårt att följa vilka felmeddelanden som är aktuella med den uppsättning hårdvara/mjukvara du kör för tillfället, men huvudsaken är att du tittar på dessa och använder dem som en del i felsökningen, och det gör du uppenbarligen.

Egentligen så är det i nuvarande läge nog irrelevant vilka jag får. Har fått minst 5 olika sorters BSOD, processer kraschar med olika fel, datorn startar om eller fryser, och så vidare.
Det var främst med första CPUn som det verkade vara någon slags rim och reson i felmeddelandena, nu är det mest lite vad som helst. Vad gäller BSOD har jag sett minst dessa sista dagarna, skriver från minnet: CACHE_MANAGER, IRQ_NOT_LESS_OR_EQUAL, KMODE_EXCEPTION_NOT_HANDLED, SYSTEM_SERVICE_EXCEPTION, CRITICAL_SERVICE_FAILED, DPC_WATCHDOG_VIOLATION (har bara sett denna en gång med nya CPUn vad jag kan minnas, massor med gamla)

Skrivet av KAD:

ESD kan ta död på flera uppsättningar komponenter i rad, även om det känns extremt osannolikt.

Strömförsörjningen (från väggen) kan vara en sak att titta på. Den kan ju förändras beroende på vad mer man kopplat in, eller till och med från nätet. Flytta datorn till annan plats eller, om du ändå har nytta av det, köp/låna en UPS?

ESD borde väl dock inte vara någon nämnvärd risk när datorn "bara står" (dvs den borde inte ha bara dött av sig själv av ESD)? Visst att det kan komma in via USB-portar och så, men de brukar väl vara ganska välskyddade.

Strömförsörjningen har jag funderat på, men inte testat något med ännu. Kanske ska ta med datorn in till grannen och se eftersom hans funkar, men om inget helskumt hänt med mitt vägguttag så har vi väl i stort sett samma strömförsörjning i grunden. Värt att testa dock när det är relativt enkelt.

Skrivet av KAD:

IKEA Markus-historien kan vara värd att hålla i minnet.

Skrivet av aakerlind:

Låter lite konstigt men vad har du för kontorsstol? Det är känt IKEAs Markus kan orsaka problem med elektronik

Hmm jo, men detta känns också högst tveksamt. Har kört samma stol kanske två år nu, och problemen började för drygt en vecka sen.
Har en kontorsstol på hjul dock, typ noname. Har fått den så jag har inte koll, men det är ingen IKEA-stol åtminstone.
Problemen uppstår oavsett om stolen används eller inte iaf, om det är något övergående strul (störningar som orsakar krasch i stunden) som var misstanken.

Skrivet av the squonk:

Ett par tankar, Ryzen Zen 3 startar om i idle om du har för mycket negativ Curve Optimizer dom bara gör det, vissa auto OC val i vissa bios applicerar sådan utan att man vet om det.

Ett 650W agg kan vara för lite för RTX3080 som kan dra rejäla strömspikar emellanåt och orsaka shutdown

Fel på en disk kan orsaka många konstiga fel

Liksom fel på minne.

Kör inte curve optimizer (eller något annat, kör optimized defaults). Har uteslutit alla diskar och minnen (har dem inte ens i datorn nu).

Nätagg+GPU-kombo är en möjlighet, men känns också väldigt tveksamt iom att det inte borde dra såna spikar vid idle/vid boot, samt att jag (och en kompis) kört exakt samma GPU+CPU+nätagg sedan slutet av 2020 och ingen haft problem förrän jag fick detta.

Försökte testa utan GPU, men jag tror att moderkortet vägrar POST:a när det inte sitter någon i. Den kommer aldrig igång och VGA-lampan lyser på moderkortet. Med GPU i startar den oftast från USB-minnet OK (men kraschar förstås regelbundet).

Får ta och testa att åtminstone flytta över datorn och testa på annan plats, så är väl strömförsörjning någorlunda uteslutet.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS