Linus Torvalds skyller ECC-döden på Intel

Permalänk
Medlem

Det här är egentligen inte nyheter. Linus Torvalds har gått loss om Intel och deras segmentering med hjälp av ECC i åtminstone 10 år nu, om inte längre.

Hade faktiskt tänkt att köra ECC på nästa dator, men så hade jag svårt att hitta ett moderkort jag var nöjd med, och så blev det ett från MSI med obefintligt stöd och den idén hamnade i malpåse igen.

Visa signatur

5900X | 6700XT

Permalänk
Medlem

"kvällssagor *för* barn som tappats på huvudet några gånger för mycket", inte "av"

Permalänk
Föredetting
Skrivet av BeardedRobot:

"kvällssagor *för* barn som tappats på huvudet några gånger för mycket", inte "av"

Och så läser vi en gång till och funderar på kontext och placering av citationstecken.

Skrivet av mpat:

Det här är egentligen inte nyheter. Linus Torvalds har gått loss om Intel och deras segmentering med hjälp av ECC i åtminstone 10 år nu, om inte längre.

Hade faktiskt tänkt att köra ECC på nästa dator, men så hade jag svårt att hitta ett moderkort jag var nöjd med, och så blev det ett från MSI med obefintligt stöd och den idén hamnade i malpåse igen.

Kanske inte nyheter, men underhållning. Jag tycker vi alla förtjänar lite underhållning mellan varven.

Visa signatur

Internet of Things. Translation: Anything that connects to the internet, no matter how useless nor how much of a security risk it poses.

Permalänk
Medlem

Denna publikation har förvisso några år på nacken men tydligen är problemen med "single bit error" större än vad man tidigare antog.
"DRAM Errors in the Wild: A Large-Scale Field Study" http://www.cs.toronto.edu/~bianca/papers/sigmetrics09.pdf

"Conclusion 1:We found the incidence of memory errors and the range of error rates across different DIMMs to be much higher than previously reported.About a third of machines and over 8% of DIMMs in our fleet saw at least one correctable error per year. Our per-DIMM rates of correctable errors translate to an aver-age of 25,000–75,000 FIT (failures in time per billion hours of operation) per Mbit and a median FIT range of 778 –25,000 per Mbit (median for DIMMs with errors), while previous studies report 200-5,000 FIT per Mbit. The number of correctable errors per DIMM is highly variable, with some DIMMs experiencing a huge number of errors, compared to others. The annual incidence of uncorrectable errors was1.3% per machine and 0.22% per DIMM."

Visa signatur

"Linux är endast baserat på mIRCwar" - Perra

Permalänk
Hjälpsam

@Meantek

Jag har skrivit lite om ECC för AMD.
https://www.sweclockers.com/forum/trad/1575579-ecc-minne-ford...
https://www.sweclockers.com/forum/trad/1501304-ecc-minne-till...

Har själv goda erfarenheter.

Edit.

https://www.pugetsystems.com/labs/articles/Advantages-of-ECC-...

Visa signatur

AMD Ryzen 7 5700X | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/51gntq | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/gwcxfs
HTPC | https://valid.x86.fr/gqtxws |

Permalänk
Hjälpsam
Skrivet av Yoshman:

Utmaningarna med ECC minnen för konsumenter är flera

  • även om det volymerna var samma blir ändå ECC dyrare då man måste ha 12,5 % fler minneskretsar för en viss kapacitet, den skillnaden förstärks idag av att volymerna av icke-ECC är långt högre

  • ECC är (marginellt, ~2 %) långsammare än icke-ECC, alla timings identiska

  • ECC skulle vara en kalldusch för att RAM-överklockare, finns en anledning varför JEDEC timings verkar helt vansinniga sett till vad vi typiskt använder i våra desktops, som exempel: lägsta CAS för JEDEC specificerade DDR4-3200 är CL20, vilket också är vad man hittar på ECC minnen men finns det ens icke-ECC med CL20 i butik? "Stabil" RAM-överklockning ligger nog väldigt mycket i betraktarens öga...

  • De är något dyrare, det stämmer men prisskillnaden, är inte avskräckande stor, om man letar lite.

  • 2% är egentligen skit samma.

  • För överklockare är inte ECC något, bara att hålla med, men de flesta överklockar inte och de flesta oem-tillverkare, använder redan Jedec specade minnen.

Vill lägga till punkter i din lista, det finns en del fallgropar vad gäller hårdvara.

  • Alla moderkort stödjer inte ECC, Asus och Asrock är bäst, MSI sämst, Gigabyte där emellan.

  • Man kan inte använda Registrerade eller Buffrade minnen.

Citat:

Enligt minnestillverkarna själva (vilket inte inkluderar Intel) är dagens icke-ECC ungefär lika tillförlitliga som ECC med samma lagringskapacitet var för 5-10 år sedan, det så klart under förutsättning att man håller sig till JEDEC-officiella timings.

En väldigt viktig punkt här är "samma lagringskapacitet", för sannolikheten att man drabbas av ett minnesfel som ECC kan rädda en ifrån ökar rätt linjärt med mängden RAM i systemet.

Gissar att den ökande tillförlitligheten under senare tid rätt mycket bottnar i att mängden RAM i en typisk dator ökar rätt marginellt. Siktar man på en arbetsstation med >100 GB RAM bör man nog väldigt mycket överväga ECC!!!

Som sagt, "samma lagringskapacitet".

Visa signatur

AMD Ryzen 7 5700X | Saphire RX 5700 Pulse XT (Silent Mode) | 64 GB Kingston ECC | https://valid.x86.fr/51gntq | Stockkylaren | Bitfenix Whisper M 750W.
AMD Ryzen 9 5900X | AMD RX 5700 | 64 GB Micron ECC | https://valid.x86.fr/gwcxfs
HTPC | https://valid.x86.fr/gqtxws |

Permalänk
Medlem
Skrivet av cyklonen:

Men det beror ju bara på att den som konstruerat ZFS har byggt det hela utifrån att minnet förväntas vara av ECC-typ, vilket är bra dumt.

Det görs väll av en anledning gissar jag. Lika dumt eller odumt som att öht konstruera icke ECC-minnen från första början

Visa signatur

.: Learn the system, Play the system, Break the system :.

Permalänk
Master of Overkill

Vi kör ECC på alla workstations och laptop workstations + server ofc.

Dock inte lätta laptop för går inte få typ och dom används bara som remote för datorn dom har på jobbet så gör inget.

Visa signatur

CASE CaseLabs SMA8-A + CaseLabs Nova X2M CPU 9900k @5.3GHz (No AVX) 7950X3D @5.7GHz GPUs RTX 3090 FE + RTX 3080 FE RAM 2x32GB Corsair Dominator Platinum 3533MHz CL13 + 2x32GB 6000MHz CL30 Dominator Titanium PSU EVGA T2 1600W + Corsair SFF 750W SSD Corsair Force MP700 Pro M.2 NVMe 2.0 Gen 5 2TB, 2x Samsung 990 Pro 2TB M.2 Headphones Audeze Maxwell + Audeze LCD-2 + Moon Cable DAC/AMP Schiit Magni&Modi Screen LG 48CX 4K 120Hz HDR + ASUS ROG SWIFT PG258Q 240Hz
Motherboard ASUS ROG Crosshair X670E Hero + ASUS ROG Strix Z390-I Watercooling 560+480+480+280+360. 240+240

Permalänk
Medlem

Jag tycker det är bra att satsa på att värna om hållbarheten för datorer istället för Intels modell "kom och släng" efter varannat halvår

Permalänk
Avstängd

Jag kör med ECC till mitt SAN, ECC är något som är bra men kanske inte för dom som överklocka.

Visa signatur

Man är inte dum för att man har stavproblem.
Läs mer om min synfel Visual Snow
Om mig ----> #16970666

Permalänk
Medlem
Skrivet av cyklonen:

Men det beror ju bara på att den som konstruerat ZFS har byggt det hela utifrån att minnet förväntas vara av ECC-typ, vilket är bra dumt.

Inte så dumt om man vill undvika att felaktig data sparas på disk när man får bit-fel som inte upptäcks...

Sen utvecklades ZFS av Sun och alla deras maskiner kördes med ECC förstås.

Visa signatur

Amd o Apple

Permalänk
Medlem
Skrivet av cyklonen:

Gnällgubben igång igen. Fattar inte att han får så mycket uppmärksamhet.

Det skulle ju kunna vara det som är problemet, just sayin'.

Visa signatur

Citera mig för svar.
Arch Linux

Permalänk
Avstängd
Skrivet av lillaankan_i_dammen:

*edit
Ecc, ÈSD skydd, versionshantering, backup, fat, sat-tester och allt vad det heter, det är bara folk med dåligt självförtroende som håller på med sådant.

Ja usch bara oseriösa datoranvändare har backuper.

Permalänk
Medlem
Skrivet av cyklonen:

Gnällgubben igång igen. Fattar inte att han får så mycket uppmärksamhet.

Han tog bara fram linux, ett av världens mest använda... så, nä, fattar inte att folk ger honom uppmärksamhet. Karln må vara en gnällspik, men han har förändrat IT som vi känner det.

Visa signatur

Amd o Apple

Permalänk
Medlem
Skrivet av Mindfighter:

Han tog bara fram linux, ett av världens mest använda... så, nä, fattar inte att folk ger honom uppmärksamhet. Karln må vara en gnällspik, men han har förändrat IT som vi känner det.

Och git, också världens mest använda.

Permalänk
Medlem

Waaaaa!! Linus gnäller på mitt favvoföretag Intel. Nä nu jävlar. Vem är snubben ens. Bara för att han grundat och fortsätter bidra till en an tidernas mest betydelsefulla operativsystemskärnor ska han fan inte tro att han är något. Linux liksom. Vem fan kör det? Är väl bara finniga 30-åringar som fortfarande bor hemma hos Mamma ändå? Jävla Messerschmitt asså!

OBS!

Då vissa medlemmar haft svårt att uppfatta min ironiska och sarkastiska ton i vissa inlägg på sistonne vill jag påpeka att ovan är just ironi och sarkasm. Jag raljerar alltså över hur löjliga en del kommentarer i den här tråden låter. Nu när du vet det så går det bra att skratta. Tyckte du inte det var roligt så delar vi inte samma humor och det är OK. Man får ha olika sorters humor.

Nedan är seriöst menat och inget skämt eller ironi/sarkasm:

Jag har aldrig riktigt förstått hur ECC fungerar. Vad är meningen med felkorrigerande minne om man ändå måste kolla efter fel? Är grejen bara att man kan kolla efter fel till skillnad från vanligt minne? Eller, om det är felkorrigerande, vad är då poängen med att behöva verifiera att det inte blivit fel?

Inget för mig personligen då jag gillar att klocka mitt minne så mycket det går tills jag personligen tycker det är stabilt nog, men för de som vill ha det så är det dumt av Intel att kräva serverplattform. Det förlorar de sannolikt en del kunder på. Kan AMD ha det på sina mainstream-plattformar så borde Intel också klara det. De är ju ett mycket större företag än AMD.

Visa signatur

ozzed.net Min egenkomponerade 8-bit musik. Gillar du musiken från gamla klassiska NES eller Gameboy och liknande är det värt ett besök. :) Jag finns också på Spotify, Bandcamp, Jamendo, Youtube, och du kan även följa mig på Twitter och Facebook.
Vet du att du har fel? Signalera detta tydligt med Argumentationsfel och gärna Whataboutism.

Permalänk
Medlem
Skrivet av Ozzed:

Jag har aldrig riktigt förstått hur ECC fungerar. Vad är meningen med felkorrigerande minne om man ändå måste kolla efter fel?

Som kontrollsiffra i OCR nummer, säkerställa att en bit som flippar fångas. Dubbelfel fångas inte då, men är ju mer osannolikt. Oftast påverkar ju inget av att en bit flippar p.g.a. Jordstrålning eller spänningsdipp o.s.v. men kör man banksystem t.ex. är det ju liyte jobbigt om en bit flippar och ett belopp ändras... Sen har man ju förstås mer kontroller i banksystem men välj att förstå tanken med ECC.

Visa signatur

Amd o Apple

Permalänk
Medlem
Skrivet av Mindfighter:

Som kontrollsiffra i OCR nummer, säkerställa att en bit som flippar fångas. Dubbelfel fångas inte då, men är ju mer osannolikt. Oftast påverkar ju inget av att en bit flippar p.g.a. Jordstrålning eller spänningsdipp o.s.v. men kör man banksystem t.ex. är det ju liyte jobbigt om en bit flippar och ett belopp ändras... Sen har man ju förstås mer kontroller i banksystem men välj att förstå tanken med ECC.

Jag är med så långt att det finns paritet och felkontroll och allt det där. Men sist jag läste om ECC så stog det också att man aktivt måste övervaka om fel har registrerats, och det känns i så fall lite som en brandvarnare som man måste stå vid när det brinner för att se att den piper. Men jag har säkert missat något fundamentalt.

Men förstår absolut nyttan om det är "mer felsäkert än vanligt minne och sedan kan man somna om", typ, men det är inte så det verkar fungera.

Förstår också helt och fullt att det såklart inte går klocka dessa minnen då större e-penis eller lite fler FPS i något random spel är det man prioriterar i system där det är aktuellt. :

Visa signatur

ozzed.net Min egenkomponerade 8-bit musik. Gillar du musiken från gamla klassiska NES eller Gameboy och liknande är det värt ett besök. :) Jag finns också på Spotify, Bandcamp, Jamendo, Youtube, och du kan även följa mig på Twitter och Facebook.
Vet du att du har fel? Signalera detta tydligt med Argumentationsfel och gärna Whataboutism.

Permalänk
Medlem
Skrivet av Ozzed:

Jag har aldrig riktigt förstått hur ECC fungerar. Vad är meningen med felkorrigerande minne om man ändå måste kolla efter fel? Är grejen bara att man kan kolla efter fel till skillnad från vanligt minne? Eller, om det är felkorrigerande, vad är då poängen med att behöva verifiera att det inte blivit fel?

ECC är ”one bit correct, two bits detect” - en bit fel fixas självt men loggas, två bitar fel visar sig som ett fel (och leder normalt sett till en krasch). Ett ”soft error” (en bit fel, något som kan korrigeras) är ett tecken på att något är fel med minnet, vilket gör att man bör undersöka det och sannolikt byta ut en DIMM innan datorn börjar krascha.

Citat:

Kan AMD ha det på sina mainstream-plattformar så borde Intel också klara det. De är ju ett mycket större företag än AMD.

Klart att de kan, det finns där i kislet - de stänger bara av det. När jag senast köpte Intel (Haswell) stängde Intel bara av det på de fyrkärniga - de tvåkärniga Core i3 hade det faktiskt på, så att man kan trycka i en sån i ett servermoderkort och få ECC att fungera. Ville man ha en fyrkärnig med ECC fick man köpa en Xeon, som var exakt samma kisel fast utan ECC avstängt.

Visa signatur

5900X | 6700XT

Permalänk
Medlem

Konstlad segmentering är ett ok som alltid tål att synas. Sedan så blir felkorrigering allt mer intressant ju större minnen blir, vare sig det rör sig om arbetsminne eller lagringsminne.
Hoppas att det stämmer att DDR5 har det inbyggt som standard och att det inte är lätt att stänga av bara för segmenterings skull. Stabilitetsproblem i arbetsminne kan vara ett lurigt helvete.

Permalänk
Medlem

ECC fångar och rättar enkla bitflip men kan bara varna men inte rätta om det blir mer än 1 bitfel per ord - sedan är det upp till bios och OS att hantera och vad man gör när man får en icke rättningsbart fel (kernel panic ??, krasch och dump av applikation som använder minnesområdet för att hindra att den felaktiga biten processas vidare)

Med ECC-minnen får man koll på om man har problem med bitflipp och hur ofta - utan ECC - inte en aning och säkert > 90% av felen kommer heller inte att märkas för att det inte träffar någon del i RAM där någon kod körs (>90% av en program är kod som aldrig körs, som all felhanteriing och funktioner som ligger i beredskap för att kanske användas i dynamiska objekt) och med stor sannolikhet flushas bort innan det ställer till med skada - dock problematiskt om felen hamnar senare i CAD-filer eller processer där felen förstärks i alla uträkningarna som görs efter som simulationer där man använder föregående data för att göra ny data iterativt.

I bild och mediafler behöver det inte betyda att någon ser det med en pixel som avviker i färg som resultat, men bitflip i fel ställe i kompressionen för en JPEG så ser vi den berömda gröna linjen och resten av bilden borta, de flesta som använt kamera med SD-minne en tag och några tusen bilder gjorda känner nog igen sig... - för det är resultat från enstaka bitflip till många byte som läses ut fel från SD eftersom SD-minne inte har någon felhantering vid fel och låter data med fel slippa ut utan att mottagaren får reda på det - till skillnad från SATA-diskar som ger IO-fel i dom lägena då de vägrar att lämna ifrån sig felaktig data (det går att komma åt detta med vissa bakvägar)

RAM-fel fångas inte upp när man hämtar eller lämnar filer till media då CRC-värden mm. är något som skalas av när det laddas in och som läggs på igen när det skickas ut på media igen - men inget som skyddar innehållet från fel i själva behandlingen inne i datorns RAM och det enda sättet att förbättra detta är att använda just ECC-minne.

Permalänk
Medlem
Skrivet av Ozzed:

Jag är med så långt att det finns paritet och felkontroll och allt det där. Men sist jag läste om ECC så stog det också att man aktivt måste övervaka om fel har registrerats, och det känns i så fall lite som en brandvarnare som man måste stå vid när det brinner för att se att den piper. Men jag har säkert missat något fundamentalt.

Det rättas ju själv, sen behöver du ett os som loggar det om du vill se antal bit-fel, men det är ju inget som du agerar aktivt på, på egen hand.

Visa signatur

Amd o Apple

Permalänk
Medlem

I linux finns det register man kan kika på hur många fel som inträffat i datorer som har ECC-minnen - många serverjärns BIOS har också aktiviteter när för många rättningsbara fel inträffar så kopplar den om den trubbliga stickan till en reserv-minnersticka istället och kör på denna i fortsättningen, ofta helt automagiskt och vare sig OS eller program märker något. sådana modekort har 9 RAM-hållare istället för 8-RAM-hållare per propp etc. då en är i 'spare' - reserv-minne.

Permalänk
Medlem
Skrivet av Ozzed:

Jag är med så långt att det finns paritet och felkontroll och allt det där. Men sist jag läste om ECC så stog det också att man aktivt måste övervaka om fel har registrerats, och det känns i så fall lite som en brandvarnare som man måste stå vid när det brinner för att se att den piper. Men jag har säkert missat något fundamentalt.

Men förstår absolut nyttan om det är "mer felsäkert än vanligt minne och sedan kan man somna om", typ, men det är inte så det verkar fungera.

Förstår också helt och fullt att det såklart inte går klocka dessa minnen då större e-penis eller lite fler FPS i något random spel är det man prioriterar i system där det är aktuellt. :

Det är relevanta frågor.
Ja, du har rätt, du måste övervaka om ECC-fel uppstår, på servrar hamnar det oftast som en notifiering i BMC och från där skickas det till övervakningssystem, supportsystem eller mail, det saknas ju dock på vanliga datorer.
Men det du får på en vanlig dator är ändå att enstaka bit-fel korrigeras så skillnaden mot idag är att du inte vet om att det blivit fel ibland (om du inte upplever en krash) medans med ECC så kan du i princip veta att det inte blir något fel på datan och krascher undviks.

Ensaka random bit-fel kan ju inträffa utan det är något fel på minnena och då behöver man heller inte reagera på det, men skulle det uppstå flera fel så kan man ju misstänka att minnet är defekt och behöver bytas och då är det bra att veta att fel uppstått vilket är lite klurig info att få fram på vanliga datorer till skillnad från servrar.

Angående överklocking av ECC-minnen, dessa går att klocka likt vanliga minnen, men man får kanske inte lika bra resultat som de bäst binnade minnena.

Visa signatur

kill -s SIGCHLD `pidof Kenny`
bash: Oh my god, they killed Kenny
init: You Bastards

Permalänk
Skrivet av edson:

Hur mår han?

haha, denna kommentaren fick mig att skratta

Permalänk
Datavetare
Skrivet av Ratatosk:
  • De är något dyrare, det stämmer men prisskillnaden, är inte avskräckande stor, om man letar lite.

  • 2% är egentligen skit samma.

  • För överklockare är inte ECC något, bara att hålla med, men de flesta överklockar inte och de flesta oem-tillverkare, använder redan Jedec specade minnen.

Vill lägga till punkter i din lista, det finns en del fallgropar vad gäller hårdvara.

  • Alla moderkort stödjer inte ECC, Asus och Asrock är bäst, MSI sämst, Gigabyte där emellan.

  • Man kan inte använda Registrerade eller Buffrade minnen.

Som sagt, "samma lagringskapacitet".

Personligen håller jag Linus Torvalds väldigt högt, han har gjort stordåd för datorvärlden!

Men i just det här fallet gnäller han faktiskt på något som är relevant för en väldigt liten och nischad andel användare. Ser absolut hur ECC är värdefullt för honom, kikar själv lite på att sätta ihop en 5950X maskin med 64 GB RAM som byggserver. Där finns en poäng med ECC, framförallt då kompileringsprestanda är i praktiken oberoende av hastighet på RAM.

För den genomsnittlige SweC medlemmen är värdet av ECC i bästa fall noll, i värsta är det är negativt! Om man idag inte har problem med att datorn uppleves instabil, varför skulle man då vilja betala mer för en finess som man inte har någon nytta av och om datorn primärt används för spel faktiskt är negativt (givet tillräckligt snabb GPU)?

Skrivet av Ozzed:

Kan AMD ha det på sina mainstream-plattformar så borde Intel också klara det. De är ju ett mycket större företag än AMD.

ECC "stöd" har flera dimensioner, är faktiskt rätt komplicerat...

Börjar vi med funktionen, ett system med ECC kan köras en (minst) tre olika lägen

  • datorn har ECC-RAM men ECC funktionen används inte, detta kräver fortfarande stöd för ECC-RAM

  • ECC läget är helt dolt för OS, minnena kommer automatiskt rätta fel som uppstår i max en bit

  • ECC läget är synligt för OS, single-bit errors rättas automatiskt men rapporteras också. Fel som inte kan rättas loggas och man kan sätta en policy för vad som ska hända, typiskt bör systemet endera haltas eller automatiskt starta om

Nästa dimension är garantier och validering

  1. Systemet vägrar fungera med ECC RAM (i.e. man är garanterad att ECC-stöd helt saknas)

  2. Systemet accepterar ECC RAM, men finns inga garantier från HW-tillverkarna att funktionen är korrekt (funktionen är aldrig validerad och man kan som kund inte klaga om det inte fungerar)

  3. Systemet har validerat stöd för ECC RAM

Intel har bara variant 1. och 3. medan AMD har konfigurationer i alla tre fallen. Så det folk kallar att "stödja ECC" på "vanliga" Ryzen är helt i 2. D.v.s. lite som att köpa ett brandlarm från AliExpress, det kan fungera men produkten är inte validerad och testad enligt EUs regelverk.

Är därför det finns en poäng med Ryzen Pro (samt Epyc och TR med officiellt ECC stöd), dessa system hamnar i 3. Alla Intel system, även i3 och Pentium med ECC stöd, ligger också i kategori 3.

2. är i väldigt nära 100 % av fallen bättre än inget skydd alls, men grejen med det läget är att man har inga rättigheter mot tillverkaren om det visar sig att ECC inte fungerar och man vet egentligen inte exakt vad som fungerar och vad som inte fungerar. Stödet kan också skilja sig mellan olika BIOS-versioner då moderkortstillverkarna lär sällan lägga resurser på en funktion de inte har någon direkt skyldighet att leverera.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Meantek:

Och så läser vi en gång till och funderar på kontext och placering av citationstecken.

Eureka!

Permalänk
Medlem
Skrivet av cyklonen:

Men det beror ju bara på att den som konstruerat ZFS har byggt det hela utifrån att minnet förväntas vara av ECC-typ, vilket är bra dumt.

Nej!

Dom som konstruerat, samt användare av ZFS har däremot förstått nödvändigheten då ram minne utan ECC är orsak till tysta/dolda fel som förblir oupptäckta.

Tanken är enkel, det man arbetar med är i ram minne, om det då blir ett bitfel i ram minnet och det sen sparas till masslagring så transporteras bitfelet till masslagring oupptäckt. = Där finns inte en chans i världen att upptäcka felet innan det gör skada.
En skada som uppkommer några dagar senare eller månader senare när en medarbetare eller du själv öppnar filen för fortsatt arbete, för att sen spara den och felet har plötsligt fortplantat sig så flera månaders arbete är borta.

Därav att skaparna/användarna av ZFS rekommenderar (kräver) ECC minne, dom vill röja undan orsaken till fel som filsystem ALDRIG kan upptäcka.

Det är då ECC minne är guld värt oavsett om du kör FAT, FAT32, exFAT, NTFS, HFS+, ZFS, HPFS, NTFS med flera...
Alla filsystem med felkorrektion oavsett slag förlitar sig på att det som skickas för skrivning är felfritt, finns inget annat sätt då filsystem INTE kan (inte ska) påverka applikationens funktion.

Felet fångas INNAN det når filsystemet och kan göra en spridd skada, visst ditt arbete för den senaste timman är borta, men vad gör det i förhållande till månader eller års arbete som blir förstört.

Visst backup finns, men sannolikheten att felet sen länge blivit transporterat till backup är rätt stor. Då är backup inget värd!

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Permalänk
Medlem
Skrivet av mpat:

ECC är ”one bit correct, two bits detect” - en bit fel fixas självt men loggas, två bitar fel visar sig som ett fel (och leder normalt sett till en krasch). Ett ”soft error” (en bit fel, något som kan korrigeras) är ett tecken på att något är fel med minnet, vilket gör att man bör undersöka det och sannolikt byta ut en DIMM innan datorn börjar krascha.

Klart att de kan, det finns där i kislet - de stänger bara av det. När jag senast köpte Intel (Haswell) stängde Intel bara av det på de fyrkärniga - de tvåkärniga Core i3 hade det faktiskt på, så att man kan trycka i en sån i ett servermoderkort och få ECC att fungera. Ville man ha en fyrkärnig med ECC fick man köpa en Xeon, som var exakt samma kisel fast utan ECC avstängt.

Skrivet av Mindfighter:

Det rättas ju själv, sen behöver du ett os som loggar det om du vill se antal bit-fel, men det är ju inget som du agerar aktivt på, på egen hand.

Skrivet av houze:

Det är relevanta frågor.
Ja, du har rätt, du måste övervaka om ECC-fel uppstår, på servrar hamnar det oftast som en notifiering i BMC och från där skickas det till övervakningssystem, supportsystem eller mail, det saknas ju dock på vanliga datorer.
Men det du får på en vanlig dator är ändå att enstaka bit-fel korrigeras så skillnaden mot idag är att du inte vet om att det blivit fel ibland (om du inte upplever en krash) medans med ECC så kan du i princip veta att det inte blir något fel på datan och krascher undviks.

Ensaka random bit-fel kan ju inträffa utan det är något fel på minnena och då behöver man heller inte reagera på det, men skulle det uppstå flera fel så kan man ju misstänka att minnet är defekt och behöver bytas och då är det bra att veta att fel uppstått vilket är lite klurig info att få fram på vanliga datorer till skillnad från servrar.

Angående överklocking av ECC-minnen, dessa går att klocka likt vanliga minnen, men man får kanske inte lika bra resultat som de bäst binnade minnena.

Skrivet av Yoshman:

Personligen håller jag Linus Torvalds väldigt högt, han har gjort stordåd för datorvärlden!

Men i just det här fallet gnäller han faktiskt på något som är relevant för en väldigt liten och nischad andel användare. Ser absolut hur ECC är värdefullt för honom, kikar själv lite på att sätta ihop en 5950X maskin med 64 GB RAM som byggserver. Där finns en poäng med ECC, framförallt då kompileringsprestanda är i praktiken oberoende av hastighet på RAM.

För den genomsnittlige SweC medlemmen är värdet av ECC i bästa fall noll, i värsta är det är negativt! Om man idag inte har problem med att datorn uppleves instabil, varför skulle man då vilja betala mer för en finess som man inte har någon nytta av och om datorn primärt används för spel faktiskt är negativt (givet tillräckligt snabb GPU)?

ECC "stöd" har flera dimensioner, är faktiskt rätt komplicerat...

Börjar vi med funktionen, ett system med ECC kan köras en (minst) tre olika lägen

  • datorn har ECC-RAM men ECC funktionen används inte, detta kräver fortfarande stöd för ECC-RAM

  • ECC läget är helt dolt för OS, minnena kommer automatiskt rätta fel som uppstår i max en bit

  • ECC läget är synligt för OS, single-bit errors rättas automatiskt men rapporteras också. Fel som inte kan rättas loggas och man kan sätta en policy för vad som ska hända, typiskt bör systemet endera haltas eller automatiskt starta om

Nästa dimension är garantier och validering

  1. Systemet vägrar fungera med ECC RAM (i.e. man är garanterad att ECC-stöd helt saknas)

  2. Systemet accepterar ECC RAM, men finns inga garantier från HW-tillverkarna att funktionen är korrekt (funktionen är aldrig validerad och man kan som kund inte klaga om det inte fungerar)

  3. Systemet har validerat stöd för ECC RAM

Intel har bara variant 1. och 3. medan AMD har konfigurationer i alla tre fallen. Så det folk kallar att "stödja ECC" på "vanliga" Ryzen är helt i 2. D.v.s. lite som att köpa ett brandlarm från AliExpress, det kan fungera men produkten är inte validerad och testad enligt EUs regelverk.

Är därför det finns en poäng med Ryzen Pro (samt Epyc och TR med officiellt ECC stöd), dessa system hamnar i 3. Alla Intel system, även i3 och Pentium med ECC stöd, ligger också i kategori 3.

2. är i väldigt nära 100 % av fallen bättre än inget skydd alls, men grejen med det läget är att man har inga rättigheter mot tillverkaren om det visar sig att ECC inte fungerar och man vet egentligen inte exakt vad som fungerar och vad som inte fungerar. Stödet kan också skilja sig mellan olika BIOS-versioner då moderkortstillverkarna lär sällan lägga resurser på en funktion de inte har någon direkt skyldighet att leverera.

Tack för förklaringen Känner mig en smula mindre ovetande nu.

Visa signatur

ozzed.net Min egenkomponerade 8-bit musik. Gillar du musiken från gamla klassiska NES eller Gameboy och liknande är det värt ett besök. :) Jag finns också på Spotify, Bandcamp, Jamendo, Youtube, och du kan även följa mig på Twitter och Facebook.
Vet du att du har fel? Signalera detta tydligt med Argumentationsfel och gärna Whataboutism.

Permalänk
Medlem

Han har helt rätt, som alltid.

Jag skulle köra ECC i alla mina maskiner om det bara fanns uttalat och verifierat stöd för det. I nuläget är det bara min huvudserver som har ECC, och eftersom det minst skitdyra alternativet för ECC-stöd i en hemmaserver länge har varit Intels lågpris-Xeon så är det en sådan jag har + ett Supermicro-moderkort.

Alla (?) Ryzen har väl ECC-stöd, men AMD garanterar inte funktionaliteten (förutom för Pro-serierna) och det är svårt att hitta moderkort som explicit har stöd för ECC också (och då menar jag inte bara att det går att använda ECC-minnen, utan att ECC-funktionaliteten faktiskt ska användas och självklart fungera).

Enligt min åsikt borde ECC-minnen vara standard även för konsumentbruk. För länge sedan.

Visa signatur

9950X3D | 5080