Allt från Computex 2023

Ure, Unrecoverable Read Error. Har dagens hårddiskar dålig kvalite i förhållande till storlek?

Permalänk
Inaktiv

Ure, Unrecoverable Read Error. Har dagens hårddiskar dålig kvalite i förhållande till storlek?

Hej jag kollade på ThioJoeTech yoyubekanal om varför Raid 5 är obsolete och man ej längre bör använda den:
https://www.youtube.com/watch?v=A2OxG2UjiV4

Argumentet är följande att de flesta konsument hårddiskar har ett lågt URE värde. (URE = Unrecoverable Read Error)
Där en vanlig konsument hdd oåterkalleligt fel är 1 per 10^14.

Om man då tar en 8TB hdd som den nedanför, är det då rätt att tolka att rent statisk att om man har två såna hårddiskar fyllda med data så skulle man ha 1 Unrecoverable Read Error för en bit på dessa, det är ju enligt mig katastrofalt dåligt.
https://www.komplett.se/product/838521/datorutrustning/haardd...

Sedan visst beroende på vad det finns för data där är skadan olika, filmer, bilder, textfiler och lite annat är toleranta. Olika exekverbara binärfiler brukar inte må sa bra att bitfel..

Jag hittade ett forum där de diskuterade saken lite.
https://forum.synology.com/enu/viewtopic.php?t=96171

Men vad tror/vet ni, är dagens hårddiskar så himla dåliga och man egentligen minst skulle behöva köra raid 6 som ThioJoeTech sa? Sedan finns det hddd med oåterkalleligt fel på 1 per 10^15 att köpa, vilket innebär att man kanske kan skippa raid 6?

Raid i sin tur skapar en massa problem, inte minst om ens raidkort skulle gå sönder. Jag blev lite mörkrädd av att se ThioJoeTech kanal och frågar för att få veta så jag kan sova om i ro..

/Johan

Permalänk
Medlem
Skrivet av anon159643:

Hej jag kollade på ThioJoeTech yoyubekanal om varför Raid 5 är obsolete och man ej längre bör använda den:
https://www.youtube.com/watch?v=A2OxG2UjiV4

Argumentet är följande att de flesta konsument hårddiskar har ett lågt URE värde. (URE = Unrecoverable Read Error)
Där en vanlig konsument hdd oåterkalleligt fel är 1 per 10^14.

Om man då tar en 8TB hdd som den nedanför, är det då rätt att tolka att rent statisk att om man har två såna hårddiskar fyllda med data så skulle man ha 1 Unrecoverable Read Error för en bit på dessa, det är ju enligt mig katastrofalt dåligt.
https://www.komplett.se/product/838521/datorutrustning/haardd...

Sedan visst beroende på vad det finns för data där är skadan olika, filmer, bilder, textfiler och lite annat är toleranta. Olika exekverbara binärfiler brukar inte må sa bra att bitfel..

Jag hittade ett forum där de diskuterade saken lite.
https://forum.synology.com/enu/viewtopic.php?t=96171

Men vad tror/vet ni, är dagens hårddiskar så himla dåliga och man egentligen minst skulle behöva köra raid 6 som ThioJoeTech sa? Sedan finns det hddd med oåterkalleligt fel på 1 per 10^15 att köpa, vilket innebär att man kanske kan skippa raid 6?

Raid i sin tur skapar en massa problem, inte minst om ens raidkort skulle gå sönder. Jag blev lite mörkrädd av att se ThioJoeTech kanal och frågar för att få veta så jag kan sova om i ro..

/Johan

Helt klart. Har skadade RAR filer, filmer och bilder som bevis på att dessa bit-fel sker. Har man tur är backupen oskadad, men ofta sker felet utan att du märker det och sen gör du ny backup på en skadad fil. Har mist filer genom året pga detta... trots friska diskar.

HDDna är dock inte "sämre" på detta än de var förr, tror tom de är bättre (även om livslängden/hållbarheten på själva enheten är sämre), utan problemet är att när du har 10^14 på en 10GB HDD är problemet inget problem. Det är då osannolikt att RAID 5 duger bra.

Problemet är att dagens HDD är så pass stora att mängden data de läser, snabbt kommer upp i just 10^14. Så oddsen för felet är samma, men du köper "många fler lotter" så att säga. Det börjar därför bli mer och mer vanligt med ECC korrigerande filsystem som ZFS (freebsd), BTRF (linux) och ReFS (Windows). Grunden med dem är förbättrat skydd mot bla fel och korruption av data.

Problemet med RAID 5 ligger i att när en disk rasar, och du bygger upp den nya ersättningsdisken, så läser du trots allt väldigt stor mängd data, och all denna är utsatt för dessa fel, utan någon chans att hitta dem.

RAID 6 börjar även den nå farozonen, då om en disk havererar, så är oddsen för haveri av en andra disk under den tunga lasten rätt stor när man pratar kanske tex 50TB data. Och dör en disk till, är du tillbaka på ruta ECC fel igen...

Enterprise diskar har högre ECC nivå 10^15-16 iaf, och SSDer av bra kvalitet kan ha 10^17, vilket minskar risken för dessa fel, men eliminerar så klart inte dem.

Permalänk
Inaktiv

@Paddanx: Tackar för ett mycket bra svar, både detaljrikt och enkelt förklarat!

Så då är det ens filsystem som börjar bli till gammalt och nu förstår jag varför alla pratar ZFS överallt. ReFS ska jag själv testa så fort som jag får tid.

Sedan att man inte nödvändigtvis upptäcker felet är allvarligt. Jag skulle dock tro att för den stora skaran konsumenter idag som fyller en 8TB och ett fel skulle uppstå, så är chansen liten att felet uppstår i något ställe som det ens spelar någon större roll. Värre är det för oss som har mer kritisk arbete och att vi inte ens nödvändigtvis får veta var felet finns.

Detta med att använda crc checkar på mina filer gjorde jag jämnt på början av 2000 talet och man borde kanske göra om det.

Permalänk
Avstängd
Skrivet av anon159643:

Där en vanlig konsument hdd oåterkalleligt fel är 1 per 10^14.

Nej, det betyder att hårddisken kan garantera MINST 10^14 läsningar innan det blir ett oåterkalleligt fel, den kanske läser 10^15
eller 10^16 eller 10^25 bitar innan det blir fel

Permalänk
Avstängd

en 8TB disk jag har:

Total data Read since installation: 53 000 000 MB
Totla Write since installation: 17 000 000

Reported Uncorrectable errors: 0

borde vara helt omöjligt om dom garanterat läser fel varje 10^14 bit

Permalänk
Avstängd
Skrivet av kaXe:

en 8TB disk jag har:

Total data Read since installation: 53 000 000 MB
Totla Write since installation: 17 000 000

Reported Uncorrectable errors: 0

borde vara helt omöjligt om dom garanterat läser fel varje 10^14 bit

älskar att man inte ens kan redigera inlägg längre

Permalänk
Medlem
Skrivet av Paddanx:

Helt klart. Har skadade RAR filer, filmer och bilder som bevis på att dessa bit-fel sker. Har man tur är backupen oskadad, men ofta sker felet utan att du märker det och sen gör du ny backup på en skadad fil. Har mist filer genom året pga detta... trots friska diskar.

HDDna är dock inte "sämre" på detta än de var förr, tror tom de är bättre (även om livslängden/hållbarheten på själva enheten är sämre), utan problemet är att när du har 10^14 på en 10GB HDD är problemet inget problem. Det är då osannolikt att RAID 5 duger bra.

Problemet är att dagens HDD är så pass stora att mängden data de läser, snabbt kommer upp i just 10^14. Så oddsen för felet är samma, men du köper "många fler lotter" så att säga. Det börjar därför bli mer och mer vanligt med ECC korrigerande filsystem som ZFS (freebsd), BTRF (linux) och ReFS (Windows). Grunden med dem är förbättrat skydd mot bla fel och korruption av data.

Problemet med RAID 5 ligger i att när en disk rasar, och du bygger upp den nya ersättningsdisken, så läser du trots allt väldigt stor mängd data, och all denna är utsatt för dessa fel, utan någon chans att hitta dem.

RAID 6 börjar även den nå farozonen, då om en disk havererar, så är oddsen för haveri av en andra disk under den tunga lasten rätt stor när man pratar kanske tex 50TB data. Och dör en disk till, är du tillbaka på ruta ECC fel igen...

Enterprise diskar har högre ECC nivå 10^15-16 iaf, och SSDer av bra kvalitet kan ha 10^17, vilket minskar risken för dessa fel, men eliminerar så klart inte dem.

Mycket bra inlägg, ang. s.k. Bit-röta (eng. Data rot alt. Bit rot)
Misstänker att många som vill bygga NAS idag inte har en susning om hur viktigt det är med "rätt" filsystem för att motverka just detta problem. Att enbart köra med RAID-nivåer är inte tillräckligt för att garantera integriteten på fil-nivå.

Visa signatur

Tower: ace Battle IV | CPU AMD Phenom II X2 BE unlocked 4cores@3,2GHz | RAM 8GB DDR2@800MHz | MB ASUS M4A785-M | GFK AMD Radeon HD 6850 1GB | HDD Kingston SSD Now 60GB (/) Seagate 2TB(/home) | OS Ubuntu 20.04 LTS
-Numera titulerad: "dator-hipster" då jag har en AMD GPU och dessutom kör Linux.

Permalänk
Inaktiv
Skrivet av kaXe:

Nej, det betyder att hårddisken kan garantera MINST 10^14 läsningar innan det blir ett oåterkalleligt fel, den kanske läser 10^15
eller 10^16 eller 10^25 bitar innan det blir fel

Jag försöker hitta den korrekta definitionen, men gör det ej.
Men jag antar att det är så att tillverkaren inte sätter Ure värdet som ett medelvärdet på hur bra hårddiskarnas kvalité är i genomsnitt, utan de garanterar att varje hårddisk bör ha ett Ure på ett visst värde.

Detta innebär att Ure felet redan kan uppstå precis första biten man läser, det skulle även kunna uppstå andra även om sannolikheten för att det inträffar är minimal.

Skillnaden på min tolkning är att jag tolkar det som skriv som ett slitage värde, där tillverkaren säger att de först 14TB data som du läser ut garanterar vi ej har några fel, men sedan efter det så skulle ett fel kunna uppstå.

Där min tolkning är att felet kan uppstå precis när som helst, men räkna med ett fel var 14TB i genomsnitt.

Jag hittade en som diskuterade samma sak som mig:
https://subnetmask255x4.wordpress.com/2008/10/28/sata-unrecov...

Sedan kan man slänga ut hur mycket pengar som helst på bra filsystem, stora raidarrayer etc och glömma att man har en SBS som sköter om systemet. hehe
Nå det verkar som att Microsoft kommer satsa på ReFS.

Permalänk
Skrivet av anon159643:

Om man då tar en 8TB hdd som den nedanför, är det då rätt att tolka att rent statisk att om man har två såna hårddiskar fyllda med data så skulle man ha 1 Unrecoverable Read Error för en bit på dessa, det är ju enligt mig katastrofalt dåligt.

Du har gjort samma misstag som diskuteras i tråden du länkade till...
Sannolikheten att ha >0 fel på 2×8TB om felen i snitt dyker upp var 1014 bit är
1-(1-10-14)16*1012*8≈72%
EDIT: Formeln innehöll ett fel tidigare, men resultatet var korrekt.
Fortfarande rysligt, men inte fullt så illa.

Skrivet av anon159643:

Men vad tror/vet ni, är dagens hårddiskar så himla dåliga och man egentligen minst skulle behöva köra raid 6 som ThioJoeTech sa?

Jag har labbat lite för att ta reda på om hårddisktillverkarnas specifikationer motsvarar verkligheten. Det verkar de inte göra -- verklig tillförlitlighet är bättre än spec.

Rättat formel.
Permalänk
Medlem
Skrivet av Hieronymus Bosch:

Du har gjort samma misstag som diskuteras i tråden du länkade till...
Sannolikheten att ha >0 fel på 2×8TB om felen i snitt dyker upp var 1014 bit är
1-(1-10-14)16*1012*8≈72%
EDIT: Formeln innehöll ett fel tidigare, men resultatet var korrekt.
Fortfarande rysligt, men inte fullt så illa.

Jag har labbat lite för att ta reda på om hårddisktillverkarnas specifikationer motsvarar verkligheten. Det verkar de inte göra -- verklig tillförlitlighet är bättre än spec.

Problemet är inte sannolikheten att få ett läsfel på 2 diskar samtidigt, det är att få ett läsfel på 1 disk GIVET att din RAID redan är degraderad eftersom 1 av dina 3 diskar redan har fallerat.

Scenariot är som följer: Man har en RAID 5 med 3 diskar (pariteten beräknas bara över 3 diskar iaf, oavsett storlek på RAID) och du förlorar 1 disk. I det här läget har du 2 diskar med data utan paritetsdisk. I praktiken innebär detta en RAID 0 (med nackdelarna från både en RAID 0 och en RAID 5 utan någon av deras fördelar).

Om jag förstått det hela rätt så är dessa 10-14 rapporterade från tillverkaren BER, bit error ratio, dvs antalet fel per inläst mängd data och låt oss anta att det garanterade värdet överensstämmer med verkligt värdet (med största säkerhet är det mindre än 1*10-14, men större än 1*10-15, men man kommer inte ange 2,76*10-14 i specifikationen). Under dessa förutsättningar så kommer du i snitt råka ut för 1 Bit Error (BE) efter ca 12TB läsning.

Sannolikheten för ett BE är dock Poisson fördelad vilket innebär att vi inte rakt av kan räkna ut sannolikheten för ett läsfel helt och hållet genom att approximera sannolikheten för ett skrivfel med läsmängdens proportion mot 12TB (då ju sannolikheten att få ett läsfel EFTER 24TB är högre än sannolikheten att få ett läsfel före 0, vilket inte kan inträffa). Så som BER är beräknad, dvs. att i 50% av fallen skall ha minst ett läsfel efter 1014 bits, så innebär det att antalet förekomster av läsfel per 1014 är ca 1,36. (sätt Pk = 0,5 och lös ut lambda i formlerna på Wikin.). För att förstå varför så kan vi titta på länken ovan, där de har ett exempel med just lambda = 1. Det ger sannolikheten för 0 som 36,8% och sannolikheten för 1 resp 2 som 0,36,8 och 18,4% > 50%

Vad händer då med data i några olika scenarier?
Om vi får ett läsfel på en singledisk händer inte mycket. Systemet känner inte till något annat, för någon praritet finns inte. Inträffar felet i en komprimerad fil kan vi förlora data, händer det i en bildfil får en pixel en något annorlunda färg.
Samma sak på en RAID0. Systemet vet inget bättre, så läser glatt in felet.
RAID 1: Förvisso speglas data mellan diskarna, men ingen paritet beräknas och bara en disk blir läst åt gången, så systemet kommer vara opåverkat
RAID 5: Systemet får veta att det skall vara både en etta och en nolla och kan inte avgöra vilket som är rätt. Vi får ett URE (unrecoverrable read error, vilken disk är datadisk och vilken disk är paritetsdisk?)
RAID 6: Systemet får veta att 2 av 3 diskar säger att det skall vara en "1". Systemet är säkert tills en av de 2 diskarna fallerar.

Vilket osökt för mig in på sannolikheten för en diskcrash när GIVET att vi redan haft en crash från en disk av samma tillverkare och sannolikt från samma Batch med diskar (dvs, alla ingående delar är tillverkade samtidigt och har antagligen samma fel)... Om ALLT annat är lika mellan diskarna (inklusive driftmiljö, drifttimmar och laster), Hur sannolikt är det att disk nummer 2 i våran tänkte RAID6 ovan överlever processen med att bygga om RAIDen?

Permalänk
Medlem
Skrivet av anon159643:

@Paddanx: Tackar för ett mycket bra svar, både detaljrikt och enkelt förklarat!

Så då är det ens filsystem som börjar bli till gammalt och nu förstår jag varför alla pratar ZFS överallt. ReFS ska jag själv testa så fort som jag får tid.

Sedan att man inte nödvändigtvis upptäcker felet är allvarligt. Jag skulle dock tro att för den stora skaran konsumenter idag som fyller en 8TB och ett fel skulle uppstå, så är chansen liten att felet uppstår i något ställe som det ens spelar någon större roll. Värre är det för oss som har mer kritisk arbete och att vi inte ens nödvändigtvis får veta var felet finns.

Detta med att använda crc checkar på mina filer gjorde jag jämnt på början av 2000 talet och man borde kanske göra om det.

Säger så här. Om det är saker du bryr dig om, helt klart. Inte kul när ens digitala bilder får ränder eller färgfel, tro mig. Sen går man till backupen och hämtar och ser exakt samma fel. Jag har mao missat det, diskens ECC har missat det och den är förstörd.

Att lagra det perfekt är kanske inte något som är kritiskt på ens spel, eller ens OS. De kan laga sig själva, checksumma och lite annat. Men att lagra viktiga saker bara med tex RAR och lägga in checksummor mm, eller bara MD5 checksummor på sakerna, så du har en chans att laga felen, samt enkelt testa för dem är rätt underskattat. Inte minst innan man tar bort en gammal backup för att verifiera att den man ersätter den med är frisk.

Skrivet av kaXe:

en 8TB disk jag har:

Total data Read since installation: 53 000 000 MB
Totla Write since installation: 17 000 000

Reported Uncorrectable errors: 0

borde vara helt omöjligt om dom garanterat läser fel varje 10^14 bit

Både ja och nej.

Som ovan säger, det är typ min värde på modellen. Det är mao värsta fall scenario, och det kan vara betydligt bättre. Sen har du även sk tysta bit-felen. De fel som flippar en enda bit, som HDDns ECC missar. Du ser dem aldrig förrän du öppnar filen. Var så jag upptäckte detta problem, och läste på.

Skrivet av anon159643:

Jag försöker hitta den korrekta definitionen, men gör det ej.
Men jag antar att det är så att tillverkaren inte sätter Ure värdet som ett medelvärdet på hur bra hårddiskarnas kvalité är i genomsnitt, utan de garanterar att varje hårddisk bör ha ett Ure på ett visst värde.

Detta innebär att Ure felet redan kan uppstå precis första biten man läser, det skulle även kunna uppstå andra även om sannolikheten för att det inträffar är minimal.

Skillnaden på min tolkning är att jag tolkar det som skriv som ett slitage värde, där tillverkaren säger att de först 14TB data som du läser ut garanterar vi ej har några fel, men sedan efter det så skulle ett fel kunna uppstå.

Där min tolkning är att felet kan uppstå precis när som helst, men räkna med ett fel var 14TB i genomsnitt.

Jag hittade en som diskuterade samma sak som mig:
https://subnetmask255x4.wordpress.com/2008/10/28/sata-unrecov...

Sedan kan man slänga ut hur mycket pengar som helst på bra filsystem, stora raidarrayer etc och glömma att man har en SBS som sköter om systemet. hehe
Nå det verkar som att Microsoft kommer satsa på ReFS.

Tänker inte gräva mer, då jag ser att fler än mig redan gett kanonbra svar här, men du har rätt i när du säger att det kan ske när som helst. Från första "biten" som läses. Oddsen är i teorin lika genom allt, men i praktiken är oddsen större allt eftersom data har legat på disken kanske 1år, och den börjar gå sliten och varm.

När du mao pressar vad den fysiskt kan klara av "perfekt", och ECC nivån måste börja rätta till fel, det är då man ofta se dessa fel. Notera dock att diskar idag är så nära fysikens gräns att barnsjukdomar med dåliga sektorer är vanligt för helt nya diskar.

Det @Gruarn säger i slutet med hur dessa fel sker när tex en RAID är degraderad, skadad är stora problemet. Du har RAID 5 för att skydda mot fel, och en disk dör, och din data är nu i stor risk, både från en till krasch och även från bit-felen/URE felen.

Ett ECC skyddande filsystem har ofta möjligheten att hjälpa till ett lager till här, genom att kunna se felet och antingen begära datan flera gånger tills det blir rätt, eller att själv korrigera det, även utan RAID/paritet skyddet. Faran här ligger i om du kör utan ECC RAM tex, då det finns en liten chans att din data kan bli förstörd pga filsystemet "tror" att det är skadat och rättar ett fel som inte finns pga felaktig bit i datan som ligger i RAM. Så även detta är inte 100%... inget är, tyvärr.

Sen att idioten som använder datorn och även kryptovirus är större risk ändrar inte saken, helt klart

Permalänk
Medlem

Intressant ämne helt klart. Börjar kännas som att det snart är svårare att lagra informationen än att skydda den från externa olyckor. En annan tanke är vad som händer vid själva skrivningen. För där skulle felet kunna uppstå på ett annat sätt vilket innebär att informationen på disken helt klart skulle kunna vara 100% rätt, även med någon form av paritet eller checksumma. Helt enkelt vad händer om vi skriver en etta men disken skapar en nolla på "ytan"? Resultatet skulle vara fel i innehållet, men ändå rätt så att säga.

Något som också börjar bli intressant är hur man ska tänka när man helt går över SSD. Hur ska man tänka där? En mekanisk disk som havererar fysiskt går att plocka isär och skivorna går att läsa med specialutrustning och ta tillbaka innehållet. Men hur blir det för en SSD eftersom det ligger på ett kretskort? Känns inte som att man skulle kunna byta ut en enstaka komponent eller flytta delarna till ett nytt kort.

Hittade några intressanta video att titta på.

Visa signatur

Server: Fractal design Define 7 XL | AMD Ryzen 7 5800X 8/16 | ASUS ROG CROSSHAIR VIII DARK HERO | 64GB Corsair @ 3000MHz | ASUS Radeon RX 460 2GB | Samsung 960 PRO 512 GB M.2 | 2x 2TB Samsung 850 PRO SSD | 6x Seagate Ironwolf Pro 10TB
WS: Phantex Entoo Elite | AMD Ryzen Threadripper 1950X 16/32 | ASUS Zenith extreme | 128GB G.Skill @ 2400MHz | ASUS Radeon HD7970 | 3x 2TB Samsung 960PRO M.2 | 6x Seagate Ironwolf Pro 10 TB
NEC PA301W 30" @ 2560x1600 | Linux Mint 21.1 Cinnamon

Permalänk
Medlem

3-2-1-regeln är väl den regel som man i normalfallet kommer undan med.
3 kopior
2 olika media
1 offsite-kopia

Det är google som har myntat regeln om 3 kopior. Givet problemen med RAID-paritet etc så är det viktiga att man har 3 kopior. Har man dessa 3 kopior på minst 2 olika media så är det ytterst osannolikt att alla båda typerna av media får problem samtidigt och om en kopia är lagrad någon annanstans än hemma är det mindre sannolikt att båda ställena skulle t.ex. brinna upp samtidigt.

Det finns absolut inget fel med att en av dess kopior är på en RAID, men det gäller att veta VARFÖR man har en RAID. Det finns några anledningar:
1. Du kan inte köpa en HDD som är så stor som du behöver
2. Du vill säkerställa att data är tillgängligt när du försöker nå det
3. Du har ett antal HDD du vill använda som var och en inte är tillräcklig för att vara användas
4. Du vill öka prestanda

Lägg märke till att backup inte är en anledning, även om #2 är nära, men vad är skillnaden? Orsaken till att man använder RAID är för att minska risken för katastrofala fel. Helt enkelt, genom att ha fler diskar som servar samma data kan man lägga upp lösningen så att man klarar att en enskild disk går ner, men man kommer inte ner till 0 risk och man introducerar andra felkällor.
Det blir samma sak när man tar nästa steg och introducerar filkluster, och det är också just för att minska risken att ALLA lagringsplatser går ner samtidigt. Fast då gäller det ju att man inte får problem med klustret, för då införde man felkällor istället...

Permalänk
Skrivet av Gruarn:

Problemet är inte sannolikheten att få ett läsfel på 2 diskar samtidigt, det är att få ett läsfel på 1 disk GIVET att din RAID redan är degraderad eftersom 1 av dina 3 diskar redan har fallerat.

Jag angav bara sannolikheten att få >0 URE, oberoende av anledningen till att data läses från disk.

Skrivet av Gruarn:

Scenariot är som följer: Man har en RAID 5 med 3 diskar (pariteten beräknas bara över 3 diskar iaf, oavsett storlek på RAID) och du förlorar 1 disk. I det här läget har du 2 diskar med data utan paritetsdisk. I praktiken innebär detta en RAID 0 (med nackdelarna från både en RAID 0 och en RAID 5 utan någon av deras fördelar).

Ja, när redundansen försvinner så kommer ytterligare fel att medföra dataförlust. Inget konstigt.
Däremot blir jag fundersam över

Skrivet av Gruarn:

(pariteten beräknas bara över 3 diskar iaf, oavsett storlek på RAID)

Vilken RAID5-implementation pratar vi om här? Det gäller definitivt inte alla.

Skrivet av Gruarn:

Om jag förstått det hela rätt så är dessa 10-14 rapporterade från tillverkaren BER, bit error ratio, dvs antalet fel per inläst mängd data och låt oss anta att det garanterade värdet överensstämmer med verkligt värdet (med största säkerhet är det mindre än 1*10-14, men större än 1*10-15, men man kommer inte ange 2,76*10-14 i specifikationen). Under dessa förutsättningar så kommer du i snitt råka ut för 1 Bit Error (BE) efter ca 12TB läsning.

Min fetning. Jag tror att det värde för UER som anges i specen ligger några tiopotenser bortom faktisk felfrekvens hos en i övrigt frisk disk. Som andra varit inne på är siffran i specen nog mer att betrakta som ett gränsvärde för diagnosticering av dåliga diskar än ett representativt värde.

Skrivet av Gruarn:

Så som BER är beräknad, dvs. att i 50% av fallen skall ha minst ett läsfel efter 1014 bits, så innebär det att antalet förekomster av läsfel per 1014 är ca 1,36. (sätt Pk = 0,5 och lös ut lambda i formlerna på Wikin.).

Var hittar du att sannolikheten skulle vara 50% efter 1014 lästa bits? Specar anger sannolikheten för UER per läst bit, vanligtvis angiven som 1/1014, 10-14 eller liknande.
Sannolikheten att läsa N bits felfritt blir således (1-(1/1014)N. P=0.5 inträffar redan efter 8,7 TB lästs.

Skrivet av Gruarn:

Vilket osökt för mig in på sannolikheten för en diskcrash när GIVET att vi redan haft en crash från en disk av samma tillverkare och sannolikt från samma Batch med diskar (dvs, alla ingående delar är tillverkade samtidigt och har antagligen samma fel)... Om ALLT annat är lika mellan diskarna (inklusive driftmiljö, drifttimmar och laster), Hur sannolikt är det att disk nummer 2 i våran tänkte RAID6 ovan överlever processen med att bygga om RAIDen?

Absolut - om man tittar lite närmre på ett stort antal diskar framgår att läst mängd data har låg korrelation till hur felfrekvensen hos diskar påverkas (den tydligaste markören verkar helt enkelt vara att disken är av en viss modell eller är gammal. Drifttid, nyttjandegrad och temperatur spelar mycket mindre roll.)

Permalänk
Inaktiv
Skrivet av Gruarn:

3-2-1-regeln är väl den regel som man i normalfallet kommer undan med.
3 kopior
2 olika media
1 offsite-kopia

Det är google som har myntat regeln om 3 kopior. Givet problemen med RAID-paritet etc så är det viktiga att man har 3 kopior. Har man dessa 3 kopior på minst 2 olika media så är det ytterst osannolikt att alla båda typerna av media får problem samtidigt och om en kopia är lagrad någon annanstans än hemma är det mindre sannolikt att båda ställena skulle t.ex. brinna upp samtidigt.

Det finns absolut inget fel med att en av dess kopior är på en RAID, men det gäller att veta VARFÖR man har en RAID. Det finns några anledningar:
1. Du kan inte köpa en HDD som är så stor som du behöver
2. Du vill säkerställa att data är tillgängligt när du försöker nå det
3. Du har ett antal HDD du vill använda som var och en inte är tillräcklig för att vara användas
4. Du vill öka prestanda

Lägg märke till att backup inte är en anledning, även om #2 är nära, men vad är skillnaden? Orsaken till att man använder RAID är för att minska risken för katastrofala fel. Helt enkelt, genom att ha fler diskar som servar samma data kan man lägga upp lösningen så att man klarar att en enskild disk går ner, men man kommer inte ner till 0 risk och man introducerar andra felkällor.
Det blir samma sak när man tar nästa steg och introducerar filkluster, och det är också just för att minska risken att ALLA lagringsplatser går ner samtidigt. Fast då gäller det ju att man inte får problem med klustret, för då införde man felkällor istället...

Bra inlägg.
Några detaljer, även om man har 50 kopior så kan felet ha uppstått för väldigt länge sedan och man borde versionshantera. Nu beror det helt på vad man jobbat med, men för oss som är utvecklare så faller detta ganska naturligt. Då kan man dessutom se om någon ändring ar skett, problemet är att detta ofta kräver handpåläggning.
Så 3 kopior räcker inte alltid.

Den vanliga orsaken jag tror raid är på stationära datorer är nog punkt 2, även om jag skulle formulera det åt att systemet ej få gå ner. Jag bytte nyligen en hårddisk på en väldigt enkel budget raid 1 server och fakturerade runt 10 000kr för detta. (lång resa fram och tillbaka o.s.v, naturligt hade varit att anlita en IT person i samma del av landet.
Förutom driftbortfallet så hade kostnaden för mig att återskapa servern med resa nog gått på 80 000kr. (en massa komtester skulle få göras)

När arbetskostnaden är så fruktansvärt dyr så gäller det inom IT se till att minimera dessa kostnader och raid 1 kan vara väldigt kostnadsbesparande. Sedan börjar det komma fina verktyg för att backupera datorer som skulle kunna ersätta viss raidning, t.ex Veeam backup/endpoint etc.

Nå det är viktigt att tänka på flera sätt när det gäller säkerhet, vanligt är dock att såna som mig som inte på något sätt är en IT person gör IT syssla och då blir det som det blir. Angående raidkort så är hela internet fullt av personer som har skaffat jättebra raidlösningar och de känner sig så trygga, sedan pajar raidkortet och de kan inte hitta en likadan raidkort.
Och självklart så är raidkorten inte standardiserade så de har jättestora problem att återhämta informationen. Hade de däremot skippat allt vad raid heter, ja då hade de kunnat läsa ut datan nu.

Permalänk
Medlem
Skrivet av anon159643:

Nå det är viktigt att tänka på flera sätt när det gäller säkerhet, vanligt är dock att såna som mig som inte på något sätt är en IT person gör IT syssla och då blir det som det blir. Angående raidkort så är hela internet fullt av personer som har skaffat jättebra raidlösningar och de känner sig så trygga, sedan pajar raidkortet och de kan inte hitta en likadan raidkort.
Och självklart så är raidkorten inte standardiserade så de har jättestora problem att återhämta informationen. Hade de däremot skippat allt vad raid heter, ja då hade de kunnat läsa ut datan nu.

Njae det där är en modiferad sanning. Jag hade raidkortshaveri för någon vecka sedan och hade då som tur var en annan modell liggandes, men från samma tillverkare. I dokumentationen från Adaptec står det också klart och tydligt att i princip alla modeller (3xxx-8xxx serierna är kompatibla med varandra) delar samma metodik för att beräkna roterande paritet. Så helt kört är det inte. Dock är ju inte raid av någon sort tänkt att vara en backuplösning som vi alla vet, utan bara till för att optimera upptid.

Permalänk
Medlem

Intressant, det är inte ofta man hamnar i en diskussion om en sådan här obskyr teknikalitet och det är uppenbart att alla man diskuterar med förstår både statistiken, tekniken och implikationerna trots att alla ingående delar definitivt är överkurs inom respektive område.

@Hieronymus Bosch:

  • för varje enskild bit data så används bara 3 diskar för lagring och paritet. Hur diskarna sedan är delade för att täcka upp för varandra skiftar ju från implementation till emplementation

  • Om det sanna medelvärdet ligger på -14 eller -15 spelar inte så stor roll när man planerar sin RAID. Man går på de garanterade värdena. Men du har rätt i att jag borde inte benämnt det som det verkliga värdet när det egentligen gäller vilken nivå tillverkaren är bekväm att garantera

  • Bit Error Ratio är ju definitionsmässigt antalet läsfel genom mängden läst data, så att säga att det är snittet givet mängden data eller sannolikheten per läst bit borde väl vara mer eller mindre samma sak? Delar vi 1014 med 1,36 hamnar vi på i princip samma 8,36TB. Vi kommer till samma resultat genom 2 olika sätt att räkna.

  • Backblaze har en del intressanta rapporter kring tillförlitlighet hos hårddiskar också, även om jag inte hittar den specifika jag tänker på såhär dags

@anon159643
Som ekonom har jag (egentligen mina kollegor) ingen förståelse för hur du kan kalla dig utvecklare och samtidigt hävda att du inte är IT, men som f.d. Operations Manager förstår jag precis:) I slutändan handlar allt om förtroende i de här situationerna.

Den riktigt intressanta frågan här är dock den som @Oldcomputer ställer: Hur tusan skall man gå till väga för att skydda sina data ordentligt, om vi nu är några stycken i den här diskussionen som har hyggligt koll på frågesställningen?

Permalänk
Medlem
Skrivet av krigelkorren:

Mycket bra inlägg, ang. s.k. Bit-röta (eng. Data rot alt. Bit rot)
Misstänker att många som vill bygga NAS idag inte har en susning om hur viktigt det är med "rätt" filsystem för att motverka just detta problem. Att enbart köra med RAID-nivåer är inte tillräckligt för att garantera integriteten på fil-nivå.

Gör RAM med ECC något för att motverka detta ?
Sedan vad är bästa filsystemet som går att köra från Windows.. fungerar exempelvis ZFS om det nu är bättre ?

Permalänk
Rekordmedlem

De filer man verkligen vill arkivera/skydda kan man skapa paritetsfiler till, det ger ett extra lager av kontroll och återställningsmöjlighet på filnivå oavsett hur lagringssystemet är uppbyggt.
https://multipar.eu/

Visa signatur

Ryzen 5 2400G, Asus ROG STRIX B350-F Gaming, 500GB Samsung 970EVO NVMe M.2 och en väldig massa masslagring. Seasonic Focus+ Gold 650W, Antec P 180 med Schyte o Sharkoon fläktar via en t-balancer, Tittar på en Acer ET430Kbmiippx 43" 4K
Främre ljudkanalerna återges via Behringer DCX2496, högtalare Truth B3031A, Truth B2092A Har också Oscilloskop, mätmikrofon och en Colorimeter.

Permalänk
Medlem
Skrivet av OldComputer:

Något som också börjar bli intressant är hur man ska tänka när man helt går över SSD. Hur ska man tänka där? En mekanisk disk som havererar fysiskt går att plocka isär och skivorna går att läsa med specialutrustning och ta tillbaka innehållet. Men hur blir det för en SSD eftersom det ligger på ett kretskort? Känns inte som att man skulle kunna byta ut en enstaka komponent eller flytta delarna till ett nytt kort.

Man kan, och det görs också, både low tech och high-tech. Men ofta är det enklare att helt enkelt laga SSDn/USBn osv. Att byta ut komponenter görs ju på HDD nivå med att byta hela kretskortet och lödda om chipet som behövs flyttas.

Det kostar dock multum att läsa en skiva "för hand" och det lär vara samma om du ska läsa ett NAND chip för hand, men specs finns, så tekniskt sett borde även det vara möjligt.

Fördelen med SSD är ju att allt är elektronik. Så mekanisk skada är mer osannolik, och så länge NAND chippen är intakta så bör resten går att byta, då all data, inkl LBA översättningstabeller mm lagras i dessa. Har du dock en fet repa i HDD plattan så är det betydligt värre...

Nackdelen är att om du tar bort data på en SSD med TRIM är du körd. Data:n raderas väldigt snabbt och sen finns typ 0% chans att återhämta den. På en HDD tas det ju inte bort, så där är det relativt enkelt. Ut säkerhetssynpunkt dock är detta en fördel, då du slipper göra 3 timmars överskrivning på en SSD

Skrivet av Alpha77:

Gör RAM med ECC något för att motverka detta ?
Sedan vad är bästa filsystemet som går att köra från Windows.. fungerar exempelvis ZFS om det nu är bättre ?

Mja.. i teorin, ja, men oddsen att din fil ligger öppnad i ett program, får bit flipp och programmet inte märker något fel, spottar ur "error" är låg.

Det farliga med ZFS och liknande filsystem är om du saknar ECC RAM, då när den läser data (och inte vet vad det är den läser), kör checksumman som ligger i RAM och verifierar den. Skulle paritetssumman vara fel i RAM, kommer den ju tro att det är fel på vad disken läste, trots att felet är i checksumman. Resultatet är friskt innehåll på disk, ersätts med skadat innehåll till samma disk, och din data är förstörd.

Oddsen för båda dessa är åter ganska låg, men om man tänker så här:
- Vanligt RAM + vanligt filsystem + ingen RAID = inget skydd alls. RAM-fel, disk-fel, bit-fel... allt kan ske.

- Vanligt RAM + vanligt filsystem + Paritets RAID = skydd mot hårdvarufel från disk, både bitröta och sektor-skador, risk för RAM fel, samt fel vid RAID uppbyggnad om inte tillräcklig paritet finns.

- Vanligt RAM + ECC filsystem + ingen RAID = skydd mot bitröta, sektor fel men inte diskfel, samt risk för skada med RAM fel mot ECC filsystem.

- Vanligt RAM + ECC filsystem + Paritets RAID = skydd mot hårdvarufel från disk, både bitröta + sektor fel + skydd mot bit-fel vid RAID haveri av sämre RAID, men risk för skada mot RAM fel.

- ECC RAM + vanligt filsystem + Partitets RAID = skydd mot RAM fel, skydd mot hårdvarufel från disk, både bitröta och sektor-skador.

- ECC RAM + ECC filsystem + ingen RAID = skydd mot bitröta, sektor fel men inte diskfel, samt skydd mot RAM fel så ECC fel på filsystemet är nästan omöjligt att ske. Detta med backup (med ECC filsystem) räcker långt.

- ECC RAM + ECC filsystem + Paritets RAID = skydd mot hårdvarufel från disk, både bitröta + sektor fel + skydd mot bit-fel vid RAID haveri av sämre RAID, samt skydd mot RAM fel så ECC fel på filsystemet är nästan omöjligt att ske.

Det är mao ett val, vad du mest är rädd för och vad du mest fruktar. ECC RAM i sig själv hjälper inte mot bit/sektor fel på disk, därför tog jag inte med de två. Det är bara för att minska risken för krasch av systemet om bit-flipp sker i RAM.

Tex om du har ECC filsystem på backup disken och vanliga systemet, så du har en liten chans att laga ev bitröta, men accepterar att diskar kan krascha så RAID inte är till nytta så kan du klara dig väldigt långt på bra ECC filsystem, så länge du är försiktig mot RAM felen genom att inte anta att en "kopia" är korrekt tills du själv verifierat den. Fler kopior/backuper är bra det med så klart.

Versionshantering är helt klart ett plus dock, och fler kopior är också kritiskt. Tänk följande:
Du inskaffar RAID, ECC RAM och kör ECC filsystem. Och får ett kryptovirus... vad bör du nu? Jo du hämtar backupen så klart... Om den inte har ECC skydd i filsystemet, så fick du nu bitröta på nått ställe... och sen återställer du allt, tar ny backup och där åkte bit-felet in i den nya backupen.... vad gör du nu?

Permalänk
Medlem
Skrivet av Alpha77:

Gör RAM med ECC något för att motverka detta ?
Sedan vad är bästa filsystemet som går att köra från Windows.. fungerar exempelvis ZFS om det nu är bättre ?

RAM med ECC är en grundförutsättning för att ZFS, BTRFS och ReFS skall fungera som det är tänkt.
ECC skyddar mot korruption när data hanteras i RAM. Något som vanligt RAM (icke-ECC) inte gör. Därav kör i princip all serverhårdvara med ECC då det kan bli ödesdigert med datakorruption för ex. databaser mm.
Windows är inte lika flexibelt med olika filsystem som ex. Unix/Linux men ReFS är Microsofts egen motsvarighet tänkt att erbjuda liknande funktionalitet som ZFS/BTRFS.
ReFS används bland annat i Windows Server 2012, dock i en tidig version.

Visa signatur

Tower: ace Battle IV | CPU AMD Phenom II X2 BE unlocked 4cores@3,2GHz | RAM 8GB DDR2@800MHz | MB ASUS M4A785-M | GFK AMD Radeon HD 6850 1GB | HDD Kingston SSD Now 60GB (/) Seagate 2TB(/home) | OS Ubuntu 20.04 LTS
-Numera titulerad: "dator-hipster" då jag har en AMD GPU och dessutom kör Linux.

Permalänk
Medlem
Skrivet av krigelkorren:

Windows är inte lika flexibelt med olika filsystem som ex. Unix/Linux men ReFS är Microsofts egen motsvarighet tänkt att erbjuda liknande funktionalitet som ZFS/BTRFS.
ReFS används bland annat i Windows Server 2012, dock i en tidig version.

Det är ju bra om Windows kommer ikapp, även om Windows börjar kännas mindre seriöst med deras one OS fits all modell.

Paddanx ska titta mer nogrant på din post lite senare, men tack för infon!

Permalänk
Medlem

@Paddanx:

@Elghinnarisa tipsade mig om en läsvärd artikel kring non-ECC och ZFS som går in i hur ZFS fungerar och varför man inte bör vara rädd för att skriven data på disk blir korrumperad pga felaktigt RAM. Om jag förstår det som står korrekt så det liten risk att data påverkas av just detta problem.
Däremot sägs ingenting om vad som händer när man skriver data första gången, när det inte finns några andra kopior att jämföra med och där kan jag tänka mig att ECC-RAM har en märkbar fördel fram vanligt RAM, i ett data-integritetsperspektiv.

Permalänk
Medlem
Skrivet av Gruarn:

@Paddanx:

@Elghinnarisa tipsade mig om en läsvärd artikel kring non-ECC och ZFS som går in i hur ZFS fungerar och varför man inte bör vara rädd för att skriven data på disk blir korrumperad pga felaktigt RAM. Om jag förstår det som står korrekt så det liten risk att data påverkas av just detta problem.
Däremot sägs ingenting om vad som händer när man skriver data första gången, när det inte finns några andra kopior att jämföra med och där kan jag tänka mig att ECC-RAM har en märkbar fördel fram vanligt RAM, i ett data-integritetsperspektiv.

Det är lite som att spela odds...

Är oddsen stor att bit-fel på just den bilden du är rädd om, kommer ske och förstöra den?
Är oddsen stor att just din HDD kommer få läsfel/rasa utan hoppa att rädda datan?
Är oddsen stor att du får bit-fel på just det RAM segmentet som har checksumman/filen och att de "matchar"?
Är oddsen stor att du gör en scrubbing precis när dessa fel sker?
Är oddsen stor att just RAM felet skulle ske precis när du skriver all kritisk data?
Troligen inte...

Som sagt, på varje forum om ZFS (eller liknande) så kan du hitta någon som råkat ut för detta, precis som någonstans kan du hitta nån som vunnit stort på lotto. Mao... man kan inte ignorera det helt, även om det troligen aldrig lär ske dig.

Samtidigt kan man också säga som artikeln du länkade att oddsen är extremt små, och ZFS kommer ändå ha bättre chans att inte få fel, än andra filsystem. Sen huruvida oddsen är sämre på första skrivning vs ny skrivning vågar jag inte svara på. Skulle säga att eftersom du måste ha backup oavsett, och även där helst ett ECC filsystem, så ta hellre ECC filsystem + vanligt RAM än utan ECC filsystem.

Oddsen finns att alla stjärnor och planeter ställer sig på rakan och du mister massor med data, utan att veta om det, men att detta skulle bero på RAM fel vs skadad sektor på disken är kanske viktigare att tänka på. Mao... skydda för de mest tänkbara sakerna först, sen bättre på vad du kan är nog det mest vettiga. Kan du ha ECC-RAM, varför inte? Kan du inte? Låt bli. Kan du ha fler kopior på din data, ha det.

Det du dock bör göra är att verifiera att ditt RAM monteras med ESD-armband och att det genomgår ordentlig testning... för om du ger den defekt RAM från dag 1, så är oddsen rätt dåliga för din data oavsett.

Finns dock folk som går så långt att de litar mer på skadade HDD med sektor-fel osv med en RAID-Z2/Z3 än på helt nya diskar med RAID 1 och NTFS. Så jag tror att du klarar dig bra utan ECC RAM i hemma servern. Ha en bra backup bara...

Permalänk
Medlem

@Paddanx:
Jag tror att vi här närmar oss pudelns kärna. Jag tror att många som börjar fundera i de här banorna kommer från att ha sin data på en NAS (och/eller lokal HDD) och har börjat fundera på hur skyddade deras data egentligen är om t.ex. NASen skulle gå ner. Härifrån är det lätt att börja titta på de enskilda delarna.
1: Hur får jag största möjliga säkerhet mot att förlora data om en disk går ner? -> RAID6
2: Hur får jag största möjliga säkerhet att min data är komplett? -> ZFS (odjå, min tänkta RAID 6 måste bli en RAIDZ2!)
3: Hur får jag största möjliga säkerhet i ZFS? -> ECC-RAM
4: Hur får jag största möjliga säkerhet mot att förlora data när mina zpooler försvinner? -> klustrad lagring (om man är hostingentusiast:P)

Felet man gör är att man förlorar överblicken genom att gräva ner sig i detaljer:
1: Skaffa en backup! RAID6/Z2 kan vara ett sätt att säkerställa den funktionaliteten, men kan också innebära ett lager av hantering som gör att tröskeln att rätta till fel blir högre.
2: ZFS är ett jättebra sätt att se till att lagrad data är intakt, men är lösningen som byggs en back up, eller ett system för att tillgängliggöra datan? (ej samma sak)
3: ECC-ram kan ge EXTRA säkerhet, men det är inte valet av RAM som avgör om tillgänglighetslösningen/backuplösningen står och faller.
4: Genom att i steg 1 ha branchat ut finns datan redan tillgänglig på olika platser.

M.a.o. Om man börjar från 0:
1. Skaffa (minst) en back up. Kan vara en USB-ansluten HDD med NTFS. Har man 3 back upper kan man egentligen sluta här.
2. ZFS som primärkälla till backupperna är bättre än NTFS, så även utan ECC-ram är det lämpligt att skapa en central lagringsyta som sedan kan replikeras (även om det kan vara klokt att använda en icke-ZFS volym som back up också, utifall att...)
3. För extra säkerhet, använd ECC.

PLANERA för att saker går sönder istället för att försöka förutse varje möjlighet till att saker kan gå sönder. Det kommer att kosta mindre, ta mindre tig i anspråk och blir säkrare. 100% felsäkerhet finns inte i alla fall.

Och så den klassiska bilanalogin: Några av de största landvinningarna inom krocksäkerhet inom bilindustrin kom när ingenjörerna erkände att bilar, trots att de inte är designade för att göra det, krockar och ställde frågan: Vad vill jag skall hända då?

Permalänk
Medlem
Skrivet av Gruarn:

*Bra info*

Håller med.

Skrivet av Gruarn:

100% felsäkerhet finns inte i alla fall.

Och så den klassiska bilanalogin: Några av de största landvinningarna inom krocksäkerhet inom bilindustrin kom när ingenjörerna erkände att bilar, trots att de inte är designade för att göra det, krockar och ställde frågan: Vad vill jag skall hända då?

Håller med där också...

"Lastbil ska ha kört mot rött – krockade med i tåg i Malmö"
http://www.sydsvenskan.se/2017-01-30/lastbil-har-kort-in-i-ta...

Mao... om du själv är en idiot och inte förstår säkerhetsproblemet och tar det från grunden, kommer inte ZFS, RAID, Backup eller rött ljus att hjälpa dig ändå

Permalänk
Medlem
Skrivet av Paddanx:

Säger så här. Om det är saker du bryr dig om, helt klart. Inte kul när ens digitala bilder får ränder eller färgfel, tro mig. Sen går man till backupen och hämtar och ser exakt samma fel. Jag har mao missat det, diskens ECC har missat det och den är förstörd.

Att lagra det perfekt är kanske inte något som är kritiskt på ens spel, eller ens OS. De kan laga sig själva, checksumma och lite annat. Men att lagra viktiga saker bara med tex RAR och lägga in checksummor mm, eller bara MD5 checksummor på sakerna, så du har en chans att laga felen, samt enkelt testa för dem är rätt underskattat. Inte minst innan man tar bort en gammal backup för att verifiera att den man ersätter den med är frisk.

Både ja och nej.

Som ovan säger, det är typ min värde på modellen. Det är mao värsta fall scenario, och det kan vara betydligt bättre. Sen har du även sk tysta bit-felen. De fel som flippar en enda bit, som HDDns ECC missar. Du ser dem aldrig förrän du öppnar filen. Var så jag upptäckte detta problem, och läste på.

Jag tycker alltid det är svårt att veta vilket av de 2 olika felen som avses när man pratar om sånt här. Men jag antar det mesta i (början av) tråden behandlar fallet att man får fel som HDDns CRC upptäcker. Och det borde väl bara vara i fallet att du får ett bitfel som stämmer överens med CRC som en checksumma för filsystemet hjälper? Annars kommer ju disken att berätta för dig att det inte gick att läsa. Och du kommer veta felet oavsett filsystem.

---

På ett lite annat tema. Varför kör inte diskarna med någon bättre felkod än än uråldrig CRC, SHA1 t ex? Är det av prestandaskäl? Eller har jag legat gömd under en sten för länge så det faktiskt har hängt något på detta område de senaste åren?

Permalänk
Skrivet av Glyph:

Jag tycker alltid det är svårt att veta vilket av de 2 olika felen som avses när man pratar om sånt här. Men jag antar det mesta i (början av) tråden behandlar fallet att man får fel som HDDns CRC upptäcker. Och det borde väl bara vara i fallet att du får ett bitfel som stämmer överens med CRC som en checksumma för filsystemet hjälper? Annars kommer ju disken att berätta för dig att det inte gick att läsa. Och du kommer veta felet oavsett filsystem.

Ja, om vi bara pratar feldetektion. Redundans i ovanliggande lager (checksumma i filsystem, redundans i RAID, mm) kan fortfarande hjälpa till med felkorrigering.

Skrivet av Glyph:

På ett lite annat tema. Varför kör inte diskarna med någon bättre felkod än än uråldrig CRC, SHA1 t ex?

CRC må vara uråldrig, men i och med övergången till 4K-sektorer gjordes checksummorna på disken om. 4Kn-formatterade hårddiskar har ca 100 bytes checksumma per sektor, vilket ger möjlighet att korrigera fler fel och detektera fler läsfel än tidigare.
SHA1 är dessutom inte avsett för felkorrigering, bara feldetektering (att ursprungsmeddelandet inte ska kunna härledas ur en hash är ett av målen med SHA1) och har en massa andra dyra egenskaper (kollisionsresistens, lavineffekt).

Skrivet av Glyph:

Är det av prestandaskäl? Eller har jag legat gömd under en sten för länge så det faktiskt har hängt något på detta område de senaste åren?

Det har hänt ganska mycket inom CRC-svängen det senaste decenniet, främst genom tillgången till mer beräkningskraft för att välja bra polynom att basera CRC-funktionen på.

Permalänk
Medlem
Skrivet av Glyph:

---

På ett lite annat tema. Varför kör inte diskarna med någon bättre felkod än än uråldrig CRC, SHA1 t ex? Är det av prestandaskäl? Eller har jag legat gömd under en sten för länge så det faktiskt har hängt något på detta område de senaste åren?

Idag har snurrdiskarna väldigt mycket bättre system än 'simpel' CRC - det är Reed-Solomo-kodning och LDPC på motsvarande 9% av den synliga datamängden i redudans. Detta är inget som en användare ser något alls av.

Men gränssnittet utåt via SATA/IDE m.m så meddelas det som ett CRC-fel när hela den egentliga felrättnings-infrastrukturen har misslyckats med att felrätta och idag så är det alltid minst 8 st 512-bytessektorer i rad som skiter sig samtidigt när det skiter sig då den egentliga sektorstorleken ligger på 4 KByte internt i disken (det gjordes ett skifte runt 2010 hos alla disktillverkare och man övergav 512-bytessektorn internt och bara emulerar det istället från 4 KB sektorer)

Det är samma sak med läsfel på en BR/DVD-skiva - det kallas CRC-fel i programmet när det inte kan läsa men det är väldigt omfattande nivåer av felrättning bakom en sådan skiva med RS-kod interleavat i ett par omgångar och i BR har man dessutom Vinterbi-faltningsavkodare för att öka signal/brusförhållandet ytterligare några snäpp när man har svårlästa partier på skivan (igengrisade med fingeravtryck, repor etc.)

En enstaka oupptäckt bitomslag förekommer inte i en dataström från en modern hårddisk, DVD eller en bandbackup - antingen är det korrekt eller så är det minst 4 kB data som skiter sig på en gång och då med trummor och trumpeter som talar om att det har skitit sig (CRC-fel, IO-fel etc.). När man anger 1 bit fel per 1*10^14 bitar data så handlar det i verkligheten om 1 felaktig 4KB-sektor av 1*10^14 antal lästa korrekta 4 kB-sektorer.

I bandbackup brukar man ange risken för fel ligger på 1 bit per 1*10^14 bitar (och här är det också antalet sektorer som räknas precis som med HD eftersom felen alltid kommer i hela sektorer - inte bitvis) medans risken för ett _oupptäckt_ fel ligger på 1 bit per 1*10^24 korrekta bitar - dvs. sannolikheten är 10 miljarder gånger mindre att man skulle få en 'silent' error som ej upptäcks vid avläsning än att man skulle få ett läsfel med varningsrutor och felhantering.

Hårddiskars och bandbackuppers felrättning har följt varandra över åren och det var väldigt länge sedan som hela kontrollen sköttes av en enda CRC-summa på varje sektor - man får gå till floppydiskar och gamla ST506-diskar för att hitta så simpel felkontroll.

Det betyder att Hårddiskar, Bandbackupper, Optisk media vid läsning rättar massor av fel hela tiden vid normal användning, tusentals till hundratusentals fel i sekunden konstant haglande. Detta gäller också SSD och när det börja tappa prestanda vid läsning så är det indikation att Viterbi/LDPC-algoritmen måste köras allt fler och fler varv innan korrekt data dyker upp och gjorde man inte detta så skulle man få massiva mängder med bittfel redan på enstaka kB läsning.

För att illustrera lite hur det kan se ut så tar jag exempel från DVD hur det kan se ut:

Detta är tagen från en DVD+RW-skiva skriven 2004, datakvalitén är excellent trots att skiva är bra bit över 10 år gammal när denna test gjordes (2015) - en nypressad DVD från butiken ser inte mycket bättre än vad den här gör. - det ironiska är att DVD+/-RW skivor ansågs som opålitliga per default runt 2005... man brukar ange att PIE inte bör vara mer än 80 och PIF över 4 direkt efter när skivan är nybränd om den är tänkt för långtids arkivförvaring - DVD+RW uppfyller detta villkor med råge, 10 år senare

Sedan en klassisk DVD-R med mörkblå/lila färglager skriven från ungefär samma tid som DVD+RW-skivan (det är en av de sämre i min samling - riktigt så illa är det inte på de flesta DVD+/-R med 'färg' från samma tidpunkt) - och det ironiska var att de ansågs mycket mer pålitliga än DVD+/-RW...

Bittfelsantalet är ungefär 1000 ggr högre för DVD-R-skivan än DVD+RW-skivan efter typ 13 års lagring och illustrerar egentligen båda ändarna av skalan när mediat är som bäst och när media är som sämst precis innan det börja ge läsproblem och allt långsammare avläsning (dvs. skivan varvar ned)

Båda skivorna är fortfarande läsbara med högsta hastighet utan nedvarvning på en bra DVD-läsare/brännare med helt felfri data.

CD/DVD Läsare av den här typen brukar minska hastigheten på rotationen när PIF går över 1200-1500 (max nivå för garanterat mindre än 32 fel på data ut efter rättning i första lagrets felrättning) och/eller PIE mer än 32 (max 32 fel in för att datat skall vara rättningsbart till 0 fel i andra lagret felrättning, BluRay har dubblat beloppen på båda) - då vid lägre hastighet brukar '(fas)bruset' minska och dekodrarna kan börja läsa igen.

(Hårddiskarna har idag ganska snarlika avancerade felrättningsmetoder som man använder på DVD/BR med flera nivåer RS-kodning och nu senare LDPC-kodning)

DVD-R i andra bilden kan nog anses vara på gränsen av sin livstid men fortfarande på 'rätt' sida då varvtalet inte sjönk när man gjorde en genomläsning. Om DVD-R(W) skivor tappar varvtal när man läser/testar med max avläsningshastighet - då oftast i slutet, så är det en indikation att skivan bör brännas om eller vart fall skapa en image-kopia (ISO) som sekundärkopia på denna då inom några år kan den bli problematisk att läsa. DVD+RW däremot (första bilden) - den håller många år till i förvaring.

Dvs. vid avläsning med maxhastighet på DVD:n och det ser ut liknande

så kan man somna om i vart fall 5 år till för skivorna utan att oroa sig

medans:

så bör man nog fundera på att bränna om skivan eller vart fall ta en iso-image av denna inom ett par år i alla fall.

De sista två testerna går att göra med alla DVD-läsare, medans de två första bilderna ovan går bara att göra med vissa brännare med vissa serier av media-chip i sig (optiarc, mediatech och vissa TSST efter att hacka i registret)

---

Alla mer tätpackade media som CD/DVD/BR-skivor, magnetband, hårddiskar, flashminnen - all media bokstavligen - alla dessa har mer eller mindre hög nivå med bitfel vid avläsning innan processning och felrättning.

Ja, undantag är nog just Floppydisk och ST506-diskar och gamla 9-spårs band (de hade faktiskt paritet) där ett bitfel ger CRC-error om det inte gick att läsa med flera omläsningsförsök (vilket också är en form av felrättning) - redan på QIC40 och QIC80-backupbandmaskinerna som kom i slutet av 80-talet så förstod man att man var tvungen att ha felrättning - närmare bestämt så var 3 sektorer av 32 sektorer Reed-Solomo-kod för att man skulle kunna förlora vilken som helst (och i vissa fall upp till 3) av de 32 sektorerna och ändå felrätta innehållet korrekt. På den tiden räknade man att det var 1 fel per 1*10^4 lästa bitar när bandet var i slutet av sin livstid. - och det har egentligen inte ändrat sig speciellt mycket sedan dess även på modern media inklusive blu-ray och inuti Hårddiskar räknar man fortfarande med 1 fel per 1*10^4 lästa bitar i designen.

----

Det finns en anledning till varför man kör med ECC/RS/LDPC är att dessa system är väldigt mycket bättre på att hitta fel över längre strängar med data. CRC har ju svagheten att det är ganska många kombinationer av bit-korruption som kan ge samma CRC-summa som en rätt sekvens och risken är större ju längre sträng, medans en RS/LDPC-kodning så är det mer åt Sha5-hållet att det är ganska glest mellan (teoretiska) kombinationer som kan ge 'krockar' med samma 'summa' och misstolka som korrekt data.

Svagheterna om man misstänker/har erfarit bitswap ligger snarare på minnesfel i diskkontrollern, i överföringen (DMA) som 'bara' skyddas med CRC, minnesfel i datorn mm. och därav pratet om ECC-minne i burken.

Det finns en media/minnesform som inte har den omfattade minnesskydd med felrättning och att automagiskt meddela läsproblem som skrivits ovan - gamla FLASH-minne, SD-minne och många USB-minne (och även väldigt många Flash-baserade embedded-minnen i utrustning - några har säkert hört om Nexus 7 och brickning vid uppdatering till senare version av Firmware, det är typisk flash-relaterat problem när felrättningen inte längre räcker till på chipnivå)

Förvisso finns det en viss felrättning lokalt på Nand-flashen-chipet (Vinterbi/LDCP) men dessa har ingen kanal att meddela uppåt till överliggande lager när det skiter sig - därför kan en SD-minne leverera korrupt data utan att det finns något i HW som reagerar på det...

Permalänk
Medlem

@xxargs:
Det där var riktigt intressant att läsa. Har du några tips på hur jag skulle kunna sätta mig in i ämnet själv? Några bra lästips? Den här typen av information finns inte så lättåtkomlig, iaf inte för mig som nu på området.