S.M.A.R.T error i NAS?

Permalänk
Medlem

S.M.A.R.T error i NAS?

Går det att fixa eller är det bara att köpa en ny?

Jag kör dessutom RAID 0, vilket skall innebära att allt försvinner`? Men jag ser fortfarnade Data!

Kört disc doctor på min asustor as3202t och den säger felaktiga block.

Vad gör jag?

Permalänk
Medlem

Smart är bara en varning, den kan stanna när som helst eller tugga vidare i flera år.
Vissa diskar varnar inte alls utan bara slocknar. En grov sammanställning av hälsan kan man säga.

Kopiera över så mycket du bara kan till en annan plats och byt ut den disken (om inte båda) som bjuder på varningar.

EDIT: jag brukar använda äldre diskar med "fel" som torrent diskar tills dom stannar helt.. Alltså slit och släng med material jag har råd att förlora.

Visa signatur

CPU: 5600x
GPU: 3080
RAM: 32GB

Sluta gömma din identitet, skaffa en till istället

Permalänk
Medlem

Till och börja med var är det för varning - det behövs mer info.

Är det post 05 i SMART pga. för många reallokerade sektorer så börja det vara bråttom att göra backup om det inte redan finns en uppdaterad sådan, räkna med problem om backuppen skall skapas från början då det ganska säkert hittar läsfel på diskarna när du börja kopiera ut datat - medans har du med tex rsync. redan till 98% på backupdisk så är det inte så mycket att göra backup på och kanske navigerar mellan blindskären med dåliga sektorer.

Är det temperaturen den gnäller på, så är det inte lika stressigt mer än att man kanske skall undersöka varför disken ligger över 50-55 grader C väldigt länge... någon fläkt kan ju ha stannat eller går med onödigt låg varvtal.

Jbod kan man pyssla med på backupdiskar (och ihopkopplade tex. med BTRFS som filsystem) och då helst i två upplagor, JBOD skall man aldrig använda på en skarp NAS utan alltid i minst RAID5 på minst 3 diskar eller på 2 tillräckligt stora diskar på RAID1 - det är också orsaken varför man aldrig köper en NAS med bara 2 diskplatser, utan minst 4 diskplatser även om man till en början bara köper 2-3 diskar.

Hade du en vanlig dator med Linux hade du kunnat jacka in en tillräckligt stor 3'e disk på extern USB-disk och börjat konverteringen till en RAID-5 även om de andra 2 diskarna är interna men på köpeNAS brukar det vara hinder för det och man måste hacka själv på lågnivå och ofta kommer i konflikt med dess webb-GUI efter det...

Nu med JBOD kan du heller inte byta den krånglande disken utan du måste göra full backup/tömma hela RAID:en - byta disken, sätta upp en ny volym och sedan ladda tillbaka alla filerna igen. Du kan inte hoppas att filerna finns kvar på ena disken när du byter den andra - så fungerar det inte utan det är allt eller intet.

Permalänk
Medlem

Sorry, missade att bifoga bild. Fel på en del sektorer. Har fått ok på garantin dock?

<a href='https://www.bildtagg.se/bild/yaqxk8s6havcekx99h898t' target='_blank'><IMG src='https://www.bildtagg.se/file/yaqxk8s6havcekx99h898t' /></a>

Permalänk
Medlem

Du missade några rader i slutet som kan vara viktiga - förstora alltid rutan så att du är säker på att få med alla rader

vart fall på post 05 verkar du ha fått 1 st reallokerad sektor efter 21000 timmar - inget jag direkt skulle bli upphetsad över då dessa värden bara fylls på när data skrivs på disken och avser alltså sektorer som inte blivit godkänd under skrivprocessen och reallokerats bort - du har alltså inte förlorat någon data.

Det som är mer oroande är post 187 som säger 14 felaktigt lästa sektorer (dvs 14 misslyckande läsningar - inte antal sektorer då det kan vara på samma sektor) och det man skulle vilja se är post 197 (C5h) "count pending sectors" som du inte fick med, om dess värde är stor (mer än ensiffrigt) visar det på flertal sektorer som den bedömmer som "veka" (inte samma sak som fellästa) - och dessa skulle behövas skrivas om med ny skrivning då de antingen blir bra igen (post 197 (C5h) räknar ned mot noll) eller blir reallokerade (dvs att post 05 ökar i antal) .

Sammanfattning:

05 ökar för varje sektor som misslyckas vid skrivning trots upprepande försök och reallokeras - den räknar antal reallokerade sektorer.

187 (BBh) ökar för varje misslyckad läsning som ECC inte kunde rätta (kan vara på en och samma sektor) och kan sedan resultera i att 05 ökar i värde när sektorn sedan skrivs med ny data och om skrivningen misslyckas att det då reallokeras.

Den typen av felläsning bör ge IO-fel på disken och någon program gnölar - om inte, har den ändå på något sätt lyckats rätta data så att det som läses ut från disken har varit felfri. Det med ECC kan vara lite knepigt då detta kan finnas på flera nivåer där om första nivån misslyckas (och försöken räknas i antal) så kan nästa nivå lyckas - tex. med upprepande omläsning och till slut levererar korrekt data ändå..

197 (C5h) ökar för sektorer som 'känns' osäkra vid läsning - tex. när man kör scrub och läser igenom hela diskytan - det innebär oftast inte att man förlorat någon data. Värdet går ned i antal när sagda sektorer skrivs om med ny data.

---

En NAS-programs SMART-kriterie för att varna/larma är inte satt på samma nivå som disktillverkarnas egna - tex. 05-värdet är fortfarande '100' när 1 sektor reallokeras men tröskelvärdet är satt vid '10' (vilket kan vara först vid flera tusen sektorer reallokerats) för att det skall anses fel av garantinivå av disktillverkaren.

Ofta får man köra av tillverkaren deras egna testprogram för att kunna skaffa en speciell kod om det är fel enligt det programmet och omfattas av garanti - inte att en NAS övervakningsprogram larmar då de är satt mycket känsligare.

NAS-övervakningsprogram är överkänsliga och larmar tidigt för minsta ändring är att man erfarenhetsmässigt vet att diskar som börja visa problem tidigt (men 21000 timmar är inte tidigt) - fortsätter att ge mer problem ganska fort med tiden men det gäller inte alltid och disk med 1-2 reallokerade sektorer tidigt i sin livstid kan hålla 40 - 80 tusen timmar ändå.

Det man skall titta på är inte att diskar ger fel då och då, utan hur ofta och om det blir mindre tid mellan gångerna - dessvärre brukar inte övervakningsprogrammen vara designade för detta utan hoppar högt och skriker katastrof vid redan första felet.

Diskar är bundna att få enstaka fel då och då under sin livstid av rent 'termodynamiska orsaker' och termisk brus som finns över allt + störningar från tex. strömförsörjning och att det blir ett fel per 1*10^14 bit läst (ungefär 1 fel per 11 TiB data läst) för konsumentdiskar upp till 1*10^16 bit läst (ungefär 1 fel per 1100 TiB läst) för enterprise-diskar är inte mer än vad tillverkarna lovar.

Så är diskar gamla så kommer de ha plocka på sig ett antal fel som tex. att post 05 ökar med enstaka antal, även läsfel som ökat post 01 och liksom 197 med pending sektor (för diskar som främst läses men skrivs lite) - det hör liksom liksom till.

Det man skall ha koll på är om feltakten med nya fel kommer allt tätare med tiden och förbereda för diskbyte och hålla dina backupper tätt uppdaterade - det olyckliga är att med JBOD kan man inte byta disk i disk-set utan man måste tömma den först (eller göra kopior) - byta disken och sedan ladda tillbaka allt igen medans RAID med paritet (RAID1, RAID5/6) så kan man göra diskbyte utan att man behöver tömma RAID:en på data och det självläker när nya disken har monterats in.

Permalänk
Medlem

XXARGS- Tack för extremt utförligt svar, Så pass så jag inte riktigt vet vad jag skall göra.
Jag har fått en del felmedellande som du såg, jag kan göra en ny sökning MEN jag har bara möjlighet att göra en sökning på NAS-övervakningen.

Jag har fått ok av Komplett att skicka in disken så frågan är vad jag gör nu? Tror du att de byter ut den under garantin?

Mina alternativ är alltså 1. Skicka in på garantin 2. Formaterar och hoppas på att SMART försvinner.

Vad tycker ni?

Permalänk
Vila i frid
Skrivet av gubel:

Formaterar och hoppas på att SMART försvinner.

SMART-felet kommer inte att försvinna. Den infon lagras i hårddisken och är inget du kan påverka.

Byt disken på garantin.

Permalänk
Medlem

Copy all of the data (if that is your only set of data) to another place before sending in the drive. I've seen people forgetting to do it

SMART is like a story you tell to a doctor when you visit him, explaining where it hurts, etc. It might be something small which will heal fast, but it could also mean that there is a bigger problem in the background. In general, all SMART errors should be considered a warning and precautions taken with the data.

If possible, maybe get Komplett to give you back the money and buy two bigger drives and run them in mirror. That will reduce the chance of one failing drive wiping everything you have. And you can buy a USB docking station and use the old (still working drive) as additional backup.

Visa signatur

If it's not broken, don't fix it.