ZFS: "Too many errors" men "0 errors" enligt scrub

Permalänk

ZFS: "Too many errors" men "0 errors" enligt scrub

Hej

Jag skulle i fredags påbörja en uppgradering utav min filservers lagringsutrymme, byta ut alla (4) 500 GB diskar mot 1.5 TB diskar. Men har nu stött på ett litet problem.
Operativsystem: Nexenta 2 (= OpenSolris + Ubuntu).
Filsystem: ZFS (en zpool bestående utav två raidz1 stripes).
zpool: tank

Första disken som skulle bytas ut är c2t0d0 och en ny disk skulle kopplas in på samma SATA port.

Utförande:

# zfs set readonly=on tank # zpool offline c2t0d0 # halt (Omstart av systemet där den gamla disken plockas bort och den nya sattes i.) # format (verifierade att den nya disken hittades och hette c2t0d0) # zpool replace tank c2t0d0 Efter ett tag när replace:en var färdig kollade jag statusen # zpool status tank pool: tank state: ONLINE scrub: resilver completed after 7h33m with 0 errors on Fri Aug 28 22:32:13 2009 config: NAME STATE READ WRITE CKSUM tank ONLINE 0 0 0 raidz1 ONLINE 0 0 0 c1t0d0 ONLINE 0 0 0 c1t1d0 ONLINE 0 0 0 c2t0d0 ONLINE 0 0 0 349G resilvered c2t1d0 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 c3t0d0 ONLINE 0 0 0 c3t1d0 ONLINE 0 0 0 c6d1 ONLINE 0 0 0 c5d1 ONLINE 0 0 0 errors: No known data errors Därefter påbörjade jag en scrub (så som ZFS Administration Guide föreslår att man bör göra) # zpool scrub tank # zpool status tank pool: tank state: DEGRADED status: One or more devices has experienced an unrecoverable error. An attempt was made to correct the error. Applications are unaffected. action: Determine if the device needs to be replaced, and clear the errors using 'zpool clear' or replace the device with 'zpool replace'. see: http://www.sun.com/msg/ZFS-8000-9P scrub: scrub in progress for 0h0m, 0.07% done, 9h4m to go config: NAME STATE READ WRITE CKSUM tank DEGRADED 0 0 0 raidz1 DEGRADED 0 0 0 c1t0d0 ONLINE 0 0 0 c1t1d0 ONLINE 0 0 0 c2t0d0 DEGRADED 0 0 378 too many errors c2t1d0 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 c3t0d0 ONLINE 0 0 0 c3t1d0 ONLINE 0 0 0 c6d1 ONLINE 0 0 0 c5d1 ONLINE 0 0 0 errors: No known data errors

"too many errors" va fan! Resilver statusmeddelandet sa ju att allt gick bra?

Jag var strax efter tvungen att stänga av servern då den står i min garderob och min flickvän vill inte höra den hela natten igenom. (# zpool scrub -s tank; halt)

Morgonen där efter så startade jag datorn igen och påbörjade en ny scrub.

# zpool scrub tank Lät den köra tills den blev klar och följande är vad den visade: # zpool status -v tank pool: tank state: DEGRADED status: One or more devices has experienced an unrecoverable error. An attempt was made to correct the error. Applications are unaffected. action: Determine if the device needs to be replaced, and clear the errors using 'zpool clear' or replace the device with 'zpool replace'. see: http://www.sun.com/msg/ZFS-8000-9P scrub: scrub completed after 6h54m with 0 errors on Sat Aug 29 19:06:24 2009 config: NAME STATE READ WRITE CKSUM tank DEGRADED 0 0 0 raidz1 DEGRADED 0 0 0 c1t0d0 ONLINE 0 0 0 c1t1d0 ONLINE 0 0 0 c2t0d0 DEGRADED 0 0 2.63M too many errors c2t1d0 ONLINE 0 0 0 raidz1 ONLINE 0 0 0 c3t0d0 ONLINE 0 0 0 c3t1d0 ONLINE 0 0 0 c6d1 ONLINE 0 0 0 c5d1 ONLINE 0 0 0 errors: No known data errors

Nu så undrar jag vad jag kan göra? Borde inte ZFS kunna fixa till datan till de där 2.63 MiB felaktiga checksummorna eller är det checksummorna som är fel och datan som är korrekt? Borde inte ZFS fixa det automagiskt åt mig då? Något annat jag kan göra för att fixa det. "action:" fältet ifrån status utskriften ber ju mig antingen "clear":a eller köra en ny "replace". Är någon av de valen mitt bästa val?

Jag har kvar den utbytta 500 GB disken som det inte är något fel på. Så i värsta fall så kan jag sätta i den igen (behöver min filserver och vill helst inte stressa den med en disk nere ).

Väldigt tacksam ifall ni kan hjälpa mig att fixa detta!
rastersize

Visa signatur

Permalänk
Medlem

Ett långskott som antagligen inte ger något: Boota på en OpenSolaris Live (tex 2009-06) skiva och kör scrub.

Permalänk
Avstängd

Jag har läst om något liknande problem på opensolaris.org forum för någon månad sen. Och kontentan var att allting var bra, man kunde bortse från felen. Allt var alltså bra. Men jag kommer inte ihåg alla detaljer eftersom det inte angick mig. Posta där, om din fråga, eller läs igenom gamla trådar där.

Dock har du ju kvar 500GB disken.

Permalänk

hej!

Jag är nyfiken på hur det gick för dig tillslut?
Har du fått ordning på det hela?
Vad gjorde du för att återgärda felet!?

Visa signatur

Intel Core 2 Duo E6600@3.0GHz | Asus P5B Deluxe | Corsair XMS2 PC6400 4GB | XFX GeForce 8800GTX 630M 768MB GDDR3 |Seagate Barracuda 500GB NCQ 16MB SATA2 | Seagate Barracuda ES.2 1TB SATA2 32MB 7200RPM | Western Digital Caviar SE16 500GB SATA2 16MB 7200RPM |
Creative SoundBlaster X-Fi Fatal1ty | Eizo 24'' S2431WK | iPower 600 Watt Extreme edition | Windows Vista Business 64 Bitar SP1

Permalänk
Citat:

Ursprungligen inskrivet av Goliath2000
hej!

Jag är nyfiken på hur det gick för dig tillslut?
Har du fått ordning på det hela?
Vad gjorde du för att återgärda felet!?

Jag satte tillbaka 500 GB disken då jag inte hade tid att fixa med problemet just då. Nu, från och med imorgon, borde jag ha väldigt mycket mer tid så vi får se om jag ger mig på det igen, har dock planer på att byta ut ganska mycket i servern och då kanske även uppgradera till raidz2 kanske väntar på det istället. Servern funkar som vanligt (dvs. inte riktigt så som jag vill men den funkar i alla fall ) nu i alla fall.

Men återkommer nog med en tråd gällande köpa hårdvara för en ny bättre ZFS baserad filserver.
Främsta anledningen är att jag vill byta ut mitt moderkort som jag misstänker har börjat falera, köra med ECC minne och byta upp mig till raidz2 (det var inte roligt med en disk nere, var mest konstant rädd att förlora hela zpoolen). Men mer om det senare.

Visa signatur

Permalänk
Avstängd

Det verkar som denna bugg kan yttra sig på två olika sätt. Ena sättet är ofarligt, men producerar error msgs. Det andra sättet kan korrupta data om du har otur, men detta kan hända endast om du har ett udda antal diskar i din raidz1. Du går alltså säker eftersom du har jämnt antal diskar.

http://www.solarisinternals.com/wiki/index.php/ZFS_Troublesho...

Permalänk
Citat:

Ursprungligen inskrivet av saddam
Det verkar som denna bugg kan yttra sig på två olika sätt. Ena sättet är ofarligt, men producerar error msgs. Det andra sättet kan korrupta data om du har otur, men detta kan hända endast om du har ett udda antal diskar i din raidz1. Du går alltså säker eftersom du har jämnt antal diskar.

http://www.solarisinternals.com/wiki/index.php/ZFS_Troublesho...

Nasty!
Båda mina raidz1:or kör med fyra diskar i alla fall. Bra att veta. Blir inga array:er med udda antal diskar för mig i alla fall.

Visa signatur

Permalänk
Citat:

Ursprungligen inskrivet av saddam
Det verkar som denna bugg kan yttra sig på två olika sätt. Ena sättet är ofarligt, men producerar error msgs. Det andra sättet kan korrupta data om du har otur, men detta kan hända endast om du har ett udda antal diskar i din raidz1. Du går alltså säker eftersom du har jämnt antal diskar.

http://www.solarisinternals.com/wiki/index.php/ZFS_Troublesho...

Hur blir det om man disconnectar en av hårddiskarna så man får udda antal diskar! från t.ex 6 till 5 som är ONLINE. kan man köra scrub utan att det börjar dyka upp en massa checksum error?

Visa signatur

Intel Core 2 Duo E6600@3.0GHz | Asus P5B Deluxe | Corsair XMS2 PC6400 4GB | XFX GeForce 8800GTX 630M 768MB GDDR3 |Seagate Barracuda 500GB NCQ 16MB SATA2 | Seagate Barracuda ES.2 1TB SATA2 32MB 7200RPM | Western Digital Caviar SE16 500GB SATA2 16MB 7200RPM |
Creative SoundBlaster X-Fi Fatal1ty | Eizo 24'' S2431WK | iPower 600 Watt Extreme edition | Windows Vista Business 64 Bitar SP1

Permalänk
Avstängd

Inte en aning.

Men jag läste att man ska ha otur om man råkar ut för den buggen. Dock kör jag 5 diskar i mitt raidz1 utan problem. Men jag har inte gjort något med den, bara läst och skrivit. I b124 så ska den buggen vara borta. Och de lägger till regressionstester i ZFS testsvit, som garanterar att denna bugg inte dyker upp igen, vilket är bra.

Permalänk
Medlem

Uhh vad orolig man blir nu. Har 5 diskar i en raidz1 och fick fel för ett par veckor sedan innan jag kände till denna buggen. Bytte SATA-kabel till den disken som den pekade ut som felaktig och körde en scrub. Har inte fått några fel efter det. Ska man ta det lugnt med att skriva och läsa till raiden kanske?

Visa signatur

Datorer - M1 MacBook Pro 14"
Hörlurssystem - Scarlett 4i4 / Objective2 / Beyerdynamic DT 770
Ljudsystem - NAD C356BEE > DALI Mentor 6
Bilpark - Porsche 718 Spyder

Permalänk
Avstängd

Boota om till en tidigare build i GRUB istället, så slipper du alla problem. Jag bootar om till b117, som jag har i GRUB. Om du inte har några tidigare builds, boota om till OpenSolaris 2009.06.

Permalänk
Medlem
Citat:

Ursprungligen inskrivet av saddam
Boota om till en tidigare build i GRUB istället, så slipper du alla problem. Jag bootar om till b117, som jag har i GRUB. Om du inte har några tidigare builds, boota om till OpenSolaris 2009.06.

Jag har inga tidigare för de är borttagna... Ja, jag ångrar mig nu att jag tog bort dem.

Visa signatur

Datorer - M1 MacBook Pro 14"
Hörlurssystem - Scarlett 4i4 / Objective2 / Beyerdynamic DT 770
Ljudsystem - NAD C356BEE > DALI Mentor 6
Bilpark - Porsche 718 Spyder

Permalänk
Avstängd

Va? Har du tagit bort ALLTING i GRUB förutom den senaste aktuella builden? Jag visste inte ens att det gick att göra. Men det går alltså?

Permalänk
Medlem

Grub kan man ju alltid redigera manuellt.
Har för mig den finns under /rpool/boot/grub/main.lst

Visa signatur

01001000 01100001 01110010 00100000 01100100 01110101 00100000 01110100 01110010 10000110 01101011 01101001 01100111 01110100 00111111 00100000 00111010 00101001

Permalänk
Medlem
Citat:

Ursprungligen inskrivet av saddam
Va? Har du tagit bort ALLTING i GRUB förutom den senaste aktuella builden? Jag visste inte ens att det gick att göra. Men det går alltså?

Nej men de tidigare "snapshotsen" eller vad det heter med Time Slide.

Visa signatur

Datorer - M1 MacBook Pro 14"
Hörlurssystem - Scarlett 4i4 / Objective2 / Beyerdynamic DT 770
Ljudsystem - NAD C356BEE > DALI Mentor 6
Bilpark - Porsche 718 Spyder

Permalänk
Avstängd

Nu förstår jag inte riktigt hur du menar. Som jag förstått det, rätta mig någon om jag har fel: Time Slide är för att snapshotta din egna user katalog, och de snapshotsen syns inte i GRUB. Olika användare har olika desktops och har olika snapshots. Time slider snapshottar endast din enskilda /home katalog. Kalle har en egen time slider som snapshotar /home/kalle. Och lisa har en egen time slider som bara snapshotar /home/lisa. etc. Time slider snapshotar ingenting annat än en enda user directory i /home i taget.

Om du patchar/uppgraderar systemet så skapas automatiskt en snapshot (som heter BE - Boot Environment) utav /, dvs det är en snapshot utav alla andra systemkataloger som hör till OSOL. Och den snapshoten syns i GRUB. Det är inte Time Slider inblandat här, den aktiveras aldrig.

Så om du raderar snapshots i Time slider, så har du inte rört systemets filer.

De olika BE ska synas i GRUB om du bootar om. Har du testat att boota om? Ser du i GRUB, när du bootar om de olika BE?:

opensolaris2009.06
snv117
snv117-1
snv117-2

Om du gör det, så är det bara att välja vilken build du vill boota om till. Det har inget med time slider att göra.

Permalänk
Medlem
Citat:

Ursprungligen inskrivet av saddam
Nu förstår jag inte riktigt hur du menar. Som jag förstått det, rätta mig någon om jag har fel: Time Slide är för att snapshotta din egna user katalog, och de snapshotsen syns inte i GRUB. Olika användare har olika desktops och har olika snapshots. Time slider snapshottar endast din enskilda /home katalog. Kalle har en egen time slider som snapshotar /home/kalle. Och lisa har en egen time slider som bara snapshotar /home/lisa. etc. Time slider snapshotar ingenting annat än en enda user directory i /home i taget.

Om du patchar/uppgraderar systemet så skapas automatiskt en snapshot (som heter BE - Boot Environment) utav /, dvs det är en snapshot utav alla andra systemkataloger som hör till OSOL. Och den snapshoten syns i GRUB. Det är inte Time Slider inblandat här, den aktiveras aldrig.

Så om du raderar snapshots i Time slider, så har du inte rört systemets filer.

De olika BE ska synas i GRUB om du bootar om. Har du testat att boota om? Ser du i GRUB, när du bootar om de olika BE?:

opensolaris2009.06
snv117
snv117-1
snv117-2

Om du gör det, så är det bara att välja vilken build du vill boota om till. Det har inget med time slider att göra.

Hm okej, har inte så stor koll, vilket du verkar ha MEN! När man uppdaterar OpenSolaris så skapar den ju snapshot som heter OpenSolaris-1, OpenSolaris-2 osv som du säger. Och just de syndes också i Time Slider vilket jag tog bort. Därför trodde jag de var samma för att de hade samma namn. För de låg på ca: 4-6GB styck och jag har inget sparat i min /home-katalog. Blir bara mer förvirrad

Visa signatur

Datorer - M1 MacBook Pro 14"
Hörlurssystem - Scarlett 4i4 / Objective2 / Beyerdynamic DT 770
Ljudsystem - NAD C356BEE > DALI Mentor 6
Bilpark - Porsche 718 Spyder

Permalänk
Avstängd

Aha, men då låter det som att Time Slider även tillåter att man raderar BE. Det trodde jag inte. Då har jag alltså fel. Det enklaste är väl om du bootar om. Ser du bara ett alternativ så stämmer det du säger, att man kan radera BE. Tack för informationen! Det visste jag inte.