Permalänk
Medlem

Memtest-strul på nya delar

Jag har nyligen köpt lite delar till ett nytt bygge och satt ihop.

I centrum är i7-6700k och Asus Z170 Pro Gaming. Till en början hade jag Corsair 2133 Vengeance minnen, men efter upprepade fel i memtest så reklamerade jag minnena och köpte nya (Vengeance 3000 denna gången, varför jag håller fast vid Corsair vet jag inte förutom att det "känns" bra).

Problemet är att jag får samma fel på samma adresser med de nya minnena! Dock bara om jag kör memtest multitrådat. Kör jag det singeltrådat på core 0 så är det inga problem efter ett dygns körande.

Det är alltid 32 "burst" fel om det händer något över sekventiella adresser. Alltid ett visst spann på logisk CPU 1, och ett annat spann på CPU 2. Dock händer det inte mer än några få gånger under ett 24-timmars pass.

Har jag fått en dålig CPU/cache? Eller vet ni något annat som kan vara problemet?

(Jag använder minnenas XMP-profiler för timings)

Permalänk
Medlem

Kollat efter skadade pins i CPU sockeln?

Visa signatur

Guide för felsökning av Bluescreen! (tack till m4goo2 som gjort denna)
Chassi: Antec Twelve Hundred | Moderkort: Asus z170-A | CPU: I7 6700K @ 4.7GHz | Corsair H80 | RAM-minnen: Corsair Vengeance LPX 16GB@2666MHz | GPU: MSI NVIDIA GTX 1070 Gaming G8 | Nätagg: EVGA SuperNova G2 750w | HDD: Samsung 850 EVO 500GB, OCZ Vertex3 120GB, 4x Seagate Barracuda Green 2TB, 1x Western Digital My Book 3TB, Western Digital My Book 4TB.

Permalänk
Entusiast

Konstigt.

Men det kan ju vara så enkelt att du har haft otur två gånger och fått minnen med samma problem.
Du har ju i alla fall rätt till ännu en reklamation och återförsäljaren du skickar tillbaka dem till borde ju kunna återskapa felkoderna i deras maskiner.

Visa signatur

Den digitala högborgen: [Fractal Design Meshify C] ≈ [Corsair RM850x] ≈ [GeForce RTX 3080] ≈ [AMD Ryzen 7 7800X3D ≈ [Noctua NH-U14S] ≈ [G.Skill Flare X5 32GB@6GHz/CL30] ≈ [MSI MAG B650 TOMAHAWK] ≈ [Kingston Fury Renegade 2 TB] ≈

Permalänk
Medlem

@Uzanar: Jo absolut Jag vill mest höra om någon har upplevt något liknande och vad som var fel då. Så jag inte skickar in processorn om det är minnet eller vice versa (innan var det samma återförsäljare (Webbhallen) för bägge, men sen hittade jag snabbt minne på rea hos Komplett så nu har jag två olika för att göra det svårare för mig själv

Permalänk
Hedersmedlem
Skrivet av TiasE:

Kollat efter skadade pins i CPU sockeln?

Detta har du alltså redan kollat @SweDragon?

Visa signatur

W10, Intel 5820K, Asus X99-S, Crucial DDR4 2133MHz 32GB, Sapphire 290X Tri-X, Intel 730 SSD, WD Black+Green+HGST, Silverstone FT02, Corsair AX1200, Corsair K90, Logitech MX518, Eizo 2736w, Eaton 5115 UPS. Pixel 7 pro

Permalänk
Medlem

@MultiMan: Jag kanske ska förtydliga lite. Felen är intermittenta och händer kanske var 3-de testpass i snitt, kanske var 5e-6e timme praktiskt sett (dvs. ungefär 1 på 1000000000 skrivningar). Hur skulle detta kunna bero på en trasig pinne när det dessutom är 100% stabilt vid enkeltrådig körning?

Jag ser inte hur något elektriskt problem skulle kunna ge detta felbeteende. Om det hade varit en strömpinne som gör att det blir för lite ström till processorn i undantagsfall så skulle knappast samma fåtal minnesadresser prickas intermittent med 100% precision. Om det hade varit en minneskanalspinne som var så böjd att jag kunde se det med blotta ögat så borde det vara ett mycket större spann och mer deterministiskt.

Permalänk
Medlem

Är det för att det är omständligt att montera om kylaren som du inte vill titta efter skadade pins?

Visa signatur

Speldator :[I] AMD 5600X - 16GB fläskigt ram - AMD 580RX - AOC 32" Wide
HTPC : i5 3450S - 8GB G.Skill - Streacom F8

Permalänk
Medlem
Skrivet av SweDragon:

@MultiMan: Jag kanske ska förtydliga lite. Felen är intermittenta och händer kanske var 3-de testpass i snitt, kanske var 5e-6e timme praktiskt sett (dvs. ungefär 1 på 1000000000 skrivningar). Hur skulle detta kunna bero på en trasig pinne när det dessutom är 100% stabilt vid enkeltrådig körning?

Jag ser inte hur något elektriskt problem skulle kunna ge detta felbeteende. Om det hade varit en strömpinne som gör att det blir för lite ström till processorn i undantagsfall så skulle knappast samma fåtal minnesadresser prickas intermittent med 100% precision. Om det hade varit en minneskanalspinne som var så böjd att jag kunde se det med blotta ögat så borde det vara ett mycket större spann och mer deterministiskt.

Hur många stickor kör du med? Du kan inte köra mer än max två stickor i 3000.

Får du memtestfel även om du sänker till 2666Mhz men behåller volt och timings?

Få 3000Mhz minnen att lira felfritt kan ibland vara knepigt, speciellt om dessa inte finns med på moderkortets kompatibilitetslista.
Bästa är att undvika att skaffa 3000 minnen, ofta för mycket strul med dessa, alt kör dom i ett snäpp lägre hastighet.

Visa signatur

Acer Predator Helios 300

Permalänk
Medlem

@ggustavsson: Jag kör med ett par 16gb stickor. Misstänkte att 3000mhz kunde vara optimistiskt, så jag har testkört med default timings för DDR4 på mitt moderkort (cas 15@2133mhz). Skulle varit nöjd om det funkade stabilt med den hastigheten vid det här laget men tyvärr är det exakt samma problem oavsett vilken hastighet jag kör i

@MoNkeY-05: Nej, det är för att jag inte ser någon poäng med dessa felsymtom. Nu kommer jag göra det ändå ikväll innan jag förmodligen reklamerar processorn. Jag lovar att berätta om jag hittar en böjd pinne så kan ni alla skratta åt mig

Permalänk
Medlem

@SweDragon: Jag är inte så säker på att det bara är otur.. sitter själv och har liknande problem med i7-6700k och Asus Z170 Pro Gaming samt Corsair minnen..
Corsair Vengeance LPX DDR4 PC21300/2666MHz CL16 2x8GB (CMK16GX4M2A2666C16)
Även i default bios inställningar och 2133mhz verkar det låsa sig sporadiskt och ge blåskärm, med/utan XMP-profil ej OC cpu.

Och vi verkar inte vara ensamma, det finns många inläggg på corsairs forum om diverse Corsair minnen som har problem med Asus z170 kort
http://forum.corsair.com/v3/showthread.php?t=149795

Corsair säger att dom känner till problemen och diskuterar med Asus, det har kommit många bios uppdateringar men inget verkar ha hjälpt.

Permalänk
Medlem
Skrivet av SweDragon:

Nu kommer jag göra det ändå ikväll innan jag förmodligen reklamerar processorn.

Vid minnesfel så brukar man vanligtvis misstänka minnena i första hand, och moderkortet i andra hand. Processorn kommer på en väldigt avlägsen tredje plats, eftersom det är väldigt sällsynt att en processor är trasig från fabrik eller går sönder utan misshandel. Även om det är väldigt sällsynt så kan du så klart ändå ha drabbats, men moderkortet är statistiskt sett en mycket troligare felkälla.

Permalänk
Medlem
Skrivet av spd:

@SweDragon: Jag är inte så säker på att det bara är otur.. sitter själv och har liknande problem med i7-6700k och Asus Z170 Pro Gaming samt Corsair minnen..
Corsair Vengeance LPX DDR4 PC21300/2666MHz CL16 2x8GB (CMK16GX4M2A2666C16)
Även i default bios inställningar och 2133mhz verkar det låsa sig sporadiskt och ge blåskärm, med/utan XMP-profil ej OC cpu.

Och vi verkar inte vara ensamma, det finns många inläggg på corsairs forum om diverse Corsair minnen som har problem med Asus z170 kort
http://forum.corsair.com/v3/showthread.php?t=149795

Corsair säger att dom känner till problemen och diskuterar med Asus, det har kommit många bios uppdateringar men inget verkar ha hjälpt.

Jag hade varit fine med om de körde grönt i 2133mhz vid det här laget. Problemen verkar mest vara vid högre hastighet i den tråden, men jag märker ingen skillnad vid 2133mhz och 3000mhz. Trist att du har samma problem Har du kört memtest med dina minnen på OC och stock speed och isåfall, får du något liknande det här (sällsynta fel som prickar samma adresser hela tiden https://www.dropbox.com/home/RMA%20-%20webbhallen ) ?

Skrivet av perost:

Vid minnesfel så brukar man vanligtvis misstänka minnena i första hand, och moderkortet i andra hand. Processorn kommer på en väldigt avlägsen tredje plats, eftersom det är väldigt sällsynt att en processor är trasig från fabrik eller går sönder utan misshandel. Även om det är väldigt sällsynt så kan du så klart ändå ha drabbats, men moderkortet är statistiskt sett en mycket troligare felkälla.

Jag håller med, därför jag lämnade in minnena först utan och tveka (förra gången jag byggde en ny dator var det problemet). Men jag ser inte hur det kan vara moderkortet när det fungerar 100% när jag kör enkeltrådat. Kan du förklara det för mig? Jag ser inte hur det skulle kunna vara något annat än cachen när det bara är specifika minnesaddresser för två specifika processorkärnor som ger fel nånsin med två set av minnen ( https://www.dropbox.com/home/RMA%20-%20webbhallen sådär ser det ut om och om igen när jag kör multitrådat). Det var dock några år sedan jag läste datorarkitektur nu och var aldrig särskilt djupgående så om du har en bättre specifik teori så vill jag gärna höra!

Permalänk
Inaktiv
Skrivet av spd:

@SweDragon: Jag är inte så säker på att det bara är otur.. sitter själv och har liknande problem med i7-6700k och Asus Z170 Pro Gaming samt Corsair minnen..
Corsair Vengeance LPX DDR4 PC21300/2666MHz CL16 2x8GB (CMK16GX4M2A2666C16)
Även i default bios inställningar och 2133mhz verkar det låsa sig sporadiskt och ge blåskärm, med/utan XMP-profil ej OC cpu.

Och vi verkar inte vara ensamma, det finns många inläggg på corsairs forum om diverse Corsair minnen som har problem med Asus z170 kort
http://forum.corsair.com/v3/showthread.php?t=149795

Corsair säger att dom känner till problemen och diskuterar med Asus, det har kommit många bios uppdateringar men inget verkar ha hjälpt.

Jag har bara skumläst, men har moderkortet stöd för hastigheten? Har du försökt återställa BIOS så att BIOS sätter en kompatibel hastighet på ram modulerna?

Permalänk
Medlem
Skrivet av SweDragon:

Jag håller med, därför jag lämnade in minnena först utan och tveka (förra gången jag byggde en ny dator var det problemet). Men jag ser inte hur det kan vara moderkortet när det fungerar 100% när jag kör enkeltrådat. Kan du förklara det för mig? Jag ser inte hur det skulle kunna vara något annat än cachen när det bara är specifika minnesaddresser för två specifika processorkärnor som ger fel nånsin med två set av minnen ( https://www.dropbox.com/home/RMA%20-%20webbhallen sådär ser det ut om och om igen när jag kör multitrådat). Det var dock några år sedan jag läste datorarkitektur nu och var aldrig särskilt djupgående så om du har en bättre specifik teori så vill jag gärna höra!

Jag har tyvärr inte koll på hur exakt minnet är kopplat till processorns minneskontroller, så jag kan inte förklara hur ett sånt här problem kan uppstå. Det kan mycket väl vara att något är fel på processorn som du säger, men jag har som sagt aldrig sett minnesfel som berott på processorn. Men någon gång ska väl vara den första

Intel har för övrigt ett diagnostikprogram för processorer. Jag har aldrig använt det själv, men det kan ju vara värt att ta en titt på.

Permalänk
Medlem
Skrivet av perost:

Jag har tyvärr inte koll på hur exakt minnet är kopplat till processorns minneskontroller, så jag kan inte förklara hur ett sånt här problem kan uppstå. Det kan mycket väl vara att något är fel på processorn som du säger, men jag har som sagt aldrig sett minnesfel som berott på processorn. Men någon gång ska väl vara den första

Intel har för övrigt ett diagnostikprogram för processorer. Jag har aldrig använt det själv, men det kan ju vara värt att ta en titt på.

Wow! Det där var ett skitbra tips! Och det finns som bootbart linuxtool Ska ladda hem och testa idag!

Permalänk
Medlem
Skrivet av SweDragon:

Jag hade varit fine med om de körde grönt i 2133mhz vid det här laget. Problemen verkar mest vara vid högre hastighet i den tråden, men jag märker ingen skillnad vid 2133mhz och 3000mhz. Trist att du har samma problem Har du kört memtest med dina minnen på OC och stock speed och isåfall, får du något liknande det här (sällsynta fel som prickar samma adresser hela tiden https://www.dropbox.com/home/RMA%20-%20webbhallen ) ?

Jag håller med, därför jag lämnade in minnena först utan och tveka (förra gången jag byggde en ny dator var det problemet). Men jag ser inte hur det kan vara moderkortet när det fungerar 100% när jag kör enkeltrådat. Kan du förklara det för mig? Jag ser inte hur det skulle kunna vara något annat än cachen när det bara är specifika minnesaddresser för två specifika processorkärnor som ger fel nånsin med två set av minnen ( https://www.dropbox.com/home/RMA%20-%20webbhallen sådär ser det ut om och om igen när jag kör multitrådat). Det var dock några år sedan jag läste datorarkitektur nu och var aldrig särskilt djupgående så om du har en bättre specifik teori så vill jag gärna höra!

Din dropbox länk funkade visst inte, men jag har mest testat prime95 tortyrtest innan och fått blåskärm/frysningar men nu efter bara 50 min memtest86 har jag redan 5 errors på hammer test, stryk det ökade till 6 errors nu medans jag skrev på en aktiv cpu.
Stog även "Note: RAM may be vulnerable to high frequency row hammer bit flips." men detta är i 2133,

Självklart har jag även testat clear CMOS, kontrollerat att dom är i samma nummerserie osv, så helt standard default inställningar tycker jag man kan förvänta sig att det ska fungera med minnen som är med i QVL listan och den har även med minnen med upp till DDR4 3466 (ej Corsair).

Tar nog och lämnar tillbaka dom idag och byter till annan tillverkare, corsair/asus z170 känns som en dålig kombo helt enkelt.

EDIT: 50 errors nu efter 1h10min, och det känns som det kommer öka.
EDIT2: Jag gav upp efter 1h24min med 279 och testade dra igång med alla cpu's aktiva, då ser man errors i mycket tidigare i test 9.
EDIT3: Det blev errors i testerna 4, 5, 6, 7, 9 med alla cpu kärnor.

fler errors
Permalänk
Medlem

@SweDragon: Först, förlåt i efterskott att jag hijackade din tråd men jag hoppas det här hjälper oss båda och andra med samma problem.

Nu har jag bytt Corsair minnena mot G.Skill Ripjaws 4 16GB (4x4GB) / 2400MHz / DDR4 / CL15 / F4-2400C15Q-16GRK
Jo det blev 4x4 istället för 2x8 men det fanns inget annat på lager, dammig kartong och timestamp 2014 på stickorna samt supermuppigt namn och design, och dessa är aningens slöare men jag tror inte jag märker någon skillnad och nu känns det som jag bara vill få allt att fungera, steamrean är ju nästan över!

Och memtest86 gick igenom utan problem med XMP (körde bara ett pass.. otålig)
har nu även klockat CPU till 4.5 och kör prime95, men att memtest86 gick igenom galant var en stor lättnad, kör ev ett längre pass inatt med CPU klockad för att vara säker.

Permalänk
Medlem
Skrivet av spd:

@SweDragon: Först, förlåt i efterskott att jag hijackade din tråd men jag hoppas det här hjälper oss båda och andra med samma problem.

Nu har jag bytt Corsair minnena mot G.Skill Ripjaws 4 16GB (4x4GB) / 2400MHz / DDR4 / CL15 / F4-2400C15Q-16GRK
Jo det blev 4x4 istället för 2x8 men det fanns inget annat på lager, dammig kartong och timestamp 2014 på stickorna samt supermuppigt namn och design, och dessa är aningens slöare men jag tror inte jag märker någon skillnad och nu känns det som jag bara vill få allt att fungera, steamrean är ju nästan över!

Och memtest86 gick igenom utan problem med XMP (körde bara ett pass.. otålig)
har nu även klockat CPU till 4.5 och kör prime95, men att memtest86 gick igenom galant var en stor lättnad, kör ev ett längre pass inatt med CPU klockad för att vara säker.

Härligt att det funkar nu för dig! Jag har dock inte haft lika brutala problem. Det är först efter 2-3 körningar (dvs 5-6 timmar) som det brukar visa sig något fel för mig.

Dropbox "hjälpte" mig när jag testade länken innan, sorry https://www.dropbox.com/sh/9mfh3ll6aypr8pa/AADfIspw7qRTSx6U9a...

Kanske ska kolla om jag kan låna några minnen av ett annat märke helt enkelt.

Permalänk
Medlem
Skrivet av SweDragon:

Dropbox "hjälpte" mig när jag testade länken innan, sorry https://www.dropbox.com/sh/9mfh3ll6aypr8pa/AADfIspw7qRTSx6U9a...

Vanliga ram defekter bruka bara påverka en eller ett fåtal bitar och det brukar vara samma bitar hela tiden. "Err-Bits" raden brukar därför ha ett regelbundet utseende. Dina Err-Bits ser helt slumpmässiga ut så jag gissar att det inte är vanlig bitröta i ram. Uppstår alltid felen på samma del av minnet? Är adresserna alltid precis i början av fysiska ram? I så fall gissar jag att det är bios som korruptar den delen av minnet. Eftersom du redan testat med olika minnen och Err-Bits är slumpmässigt så är det ännu mer troligt att det inte är minnena det är fel på.

Linux kerneln har olika trick för att arbeta sig runt bios ram korruption. Det kanske inte är så lätt att testa om man inte använt det innan men här är några linux kernel options att googla på.

Amount of low memory, in kilobytes, to reserve for the BIOS (X86_RESERVE_LOW)
Specify the amount of low memory to reserve for the BIOS.
The first page contains BIOS data structures that the kernel
must not use, so that page must always be reserved.
By default we reserve the first 64K of physical RAM, as a
number of BIOSes are known to corrupt that memory range
during events such as suspend/resume or monitor cable
insertion, so it must not be used by the kernel.
You can set this to 4 if you are absolutely sure that you
trust the BIOS to get all its memory reservations and usages
right. If you know your BIOS have problems beyond the
default 64K area, you can set this to 640 to avoid using the
entire low memory range.
If you have doubts about the BIOS (e.g. suspend/resume does
not work or there's kernel crashes after certain hardware
hotplug events) then you might want to enable
X86_CHECK_BIOS_CORRUPTION=y to allow the kernel to check
typical corruption patterns.

Check for low memory corruption (X86_CHECK_BIOS_CORRUPTION)

Periodically check for memory corruption in low memory, which
is suspected to be caused by BIOS. Even when enabled in the
configuration, it is disabled at runtime. Enable it by
setting "memory_corruption_check=1" on the kernel command
line. By default it scans the low 64k of memory every 60
seconds; see the memory_corruption_check_size and
memory_corruption_check_period parameters in
Documentation/kernel-parameters.txt to adjust this.
When enabled with the default parameters, this option has
almost no overhead, as it reserves a relatively small amount
of memory and scans it infrequently. It both detects corruption
and prevents it from affecting the running system.
It is, however, intended as a diagnostic tool; if repeatable
BIOS-originated corruption always affects the same memory,
you can use memmap= to prevent the kernel from using that
memory.

Permalänk
Medlem

@Emaku: Brukar såna här problem avhjälpas om man uppdaterar bios?

Det är alltid precis i början (0x31xxx nånstans är det högsta adressvärdet vilket dock är strax under 200kb, så det är över de 64kben som nämns ovan) , bara olika ställen beroende på vilken kärna som exekverar. Jag har kört mitt längsta test på en kärna nu idag och har inte fått något fel på 26 timmar så det verkar som att så länge som kärna 0 är den som exekverar testet så uppstår inga fel. Kan det fortfarande vara Biosen om det bara händer vid specifika kärnors exekvering?

Jag vill dual-boota datorn så linux settings kanske hjälper mig i linux, men frågan är om Windows klarar av att hantera detta?

Permalänk
Medlem
Skrivet av SweDragon:

Kan det fortfarande vara Biosen om det bara händer vid specifika kärnors exekvering?

Hmm, troligen inte. Bios kör ibland kod i system management mode för att hantera hotplugging, emulering av legacy devices och ibland power management. Det är inte omöjligt att kod körs pga thermal throttling och den koden ändrar minne den inte borde. Det kan förklara varför det bara händer när alla kärnor är igång men det är en långsökt förklaring.

Har datorn några symptom av korrupt ram förutom memtest fel? Linux har en kernel parameter för att exkludera vissa minnessegment från användning men det är en sista utväg om problemet inte kan lösas på annat vis. Windows vet jag inte vad man kan göra med. Om det finns nyare bios så testa det.

Permalänk
Medlem

@Emaku: Jag testade uppgradering av BIOS och körde nya tester, men fick tyvärr samma problem. Ska lämna in processorn till Webbhallen på deras teknikers inrådan för lite testkörning nu i veckan.

Jag har inte testat att köra ett fullt operativ på datorn för jag har en fungerande setup på min gamla just nu som jag vill kunna använda tills jag är trygg med att jag har fungerande delar. Men om de inte hittar något på processorn blir det väl till att flytta över och eventuellt leva utan fungerande dator ett tag för att kunna köra full diagnostik.

edit: Jag kollade på pinsen nu när jag tog ut processorn. Såg bra ut, men det var när att jag mulade till dem när jag skulle försöka sätta tillbaka den där förbaskade plastbiten. Givetvis finns det ingen instruktion hur man gör det! Jag antar att företagen vill att man ska sätta den fel så man klämmer pinnarna och inte kan få ut sin eventuella garanti

Pins = OK!
Permalänk
Medlem

Jahapp... Ibland är livet festligt. Jag fick bytt processorn, men killen i butiken kunde inte svara på om de kunde reproducera mitt problem. Kom hem och satte ivrigt i den nya processorn i datorn och fick precis samma fel igen. Det får bli att bygga ihop allt trots allt och flytta över windows och linux-diskarna och köra mer fullständiga tester. Men det lutar ju väldigt mycket om att det är något skit från biosen på moderkortet. Kanske det inte märks när man kör ett operativsystem. Jag hoppas på det för jag är extremt osugen på att RMA-a en sak till

Permalänk
Medlem
Skrivet av Emaku:

Hmm, troligen inte. Bios kör ibland kod i system management mode för att hantera hotplugging, emulering av legacy devices och ibland power management. Det är inte omöjligt att kod körs pga thermal throttling och den koden ändrar minne den inte borde. Det kan förklara varför det bara händer när alla kärnor är igång men det är en långsökt förklaring.

Har datorn några symptom av korrupt ram förutom memtest fel? Linux har en kernel parameter för att exkludera vissa minnessegment från användning men det är en sista utväg om problemet inte kan lösas på annat vis. Windows vet jag inte vad man kan göra med. Om det finns nyare bios så testa det.

Efter sju sorger och arton bedrövelser har jag nu ett körande system. Jag tror du hade rätt i din misstanke från början angående BIOS. Jag bytte processorn också, men det hjälpte inte. Så jag lade ner memtest och installerade Ubuntu och körde mprime i 24 timmar. Gick utan problem. Jag noterade också att i sysloggen så stod det att kärnan reserverade en minnesrymd som med råge innefattade områdena jag haft fel på (0x099999 om jag inte minns fel) så det verkar som om biosen får ha lite lekstuga.

Det var en massa strul att installera Windows 7 på mina nya grejor men det var relaterat till kända problem så det kan jag inte beskylla minnesproblem för. Har nu uppgraderat till Windows 10 också och det verkar flyta på bra så jag släpper det här nu!

För andra som har problem samma med Asus Z170 Pro och kör memtest multitrådat så hoppas jag att de kan besparas sig lite frustration iaf och köra andra testprogram först