ARECA 1230 - Fel checksum med ext4

Permalänk
Medlem

ARECA 1230 - Fel checksum med ext4

Min filserver har ett Areca 1230 som RAID kort. När jag för 1 dag sedan startade om servern så startade den inte. Jag kopplade in tangentbord och skärmen för att se vad som var fel.

Servern hade stannat vid boot av Areca Bioset. Det var tydligen en array som var nere. Ibland glappar kablarna på RAID kortet så jag tryckte på alla och vips så gjorde den en rebuild.

Problemet är nu att jag inte kan mounta min ext4 volym och får bara felmeddelanden. Någon som har varit med om detta innan? Eller har andra tips så skulle det uppskattas.

mount /dev/sdb1 /mnt/ARRAY2

mount: wrong fs type, bad option, bad superblock on /dev/sdb1, missing codepage or helper program, or other error In some cases useful info is found in syslog - try dmesg | tail or so

dmesg | tail

[387487.454442] EXT4-fs (sdb1): ext4_check_descriptors: Checksum for group 4001 failed (51483!=58645) [387487.454625] EXT4-fs (sdb1): group descriptors corrupted!

Som jag kan förstå av felmeddelandet så är det group 4001 (Superblock) som har fel i checksumman. Där checksumman skall bli 58645 och den blir 51483?

Permalänk
Medlem

Dono, men efter att googlat lite på ditt error-meddelande:
http://linuxexpresso.wordpress.com/2010/03/31/repair-a-broken...

Kan det vara något?

Permalänk
Medlem

Jag testar med att köra en kontroll av filsystemet med

fsck.ext4 -v -y /dev/sda1

Återkommer med resultat.

Permalänk
Medlem

Servern håller fortfarande på och jobbar. Den har hållit på i snart 20 timmar. Någon som har erfarenheter av hur lång tid det kan ta med 10 TB?

Permalänk
Medlem

Enkelt svar: LÅNG TID

Det sker i olika stadier och ju mer data desto längre tid tar det. Körde på en disk med 320 GB disk och hade 2x4x2 CPUer det tog ca 8 Timmar (men då var det å andra sidan ca 12 Miljoner filer att gå igenom pointers för). Du kan nog lungt räkna med ett par dagar till beroende på hur långt du kommit (steg 2?).

Visa signatur

One shall not shout when there is a forum!

Permalänk
Medlem
Skrivet av spixx^orginalet:

Enkelt svar: LÅNG TID

Det sker i olika stadier och ju mer data desto längre tid tar det. Körde på en disk med 320 GB disk och hade 2x4x2 CPUer det tog ca 8 Timmar (men då var det å andra sidan ca 12 Miljoner filer att gå igenom pointers för). Du kan nog lungt räkna med ett par dagar till beroende på hur långt du kommit (steg 2?).

Tack för svaret. Den är uppe i 48 timmar nu på 100% CPU load. Lär bli 4-5 dagar detta.

Permalänk
Medlem

Om du har otur skriver den något på skärmen? Kan vara pga att den räknar om checksumsen

Visa signatur

One shall not shout when there is a forum!

Permalänk
Medlem

Du kan köra deras CLI,
t.ex. ./cli vsf info
alternativt rsf info om det är raidsettet undertill som fallerat.
ftp://ftp.areca.com.tw/RaidCards/AP_Drivers/Linux/CLI/

Kör du RAID5 eller 6 borde du istället köra en konsistenscheck av hela datat.

Kolla också arecans logg med parametrarna 'event info'

Permalänk
Medlem
Skrivet av Jimi84:

Du kan köra deras CLI,
t.ex. ./cli vsf info
alternativt rsf info om det är raidsettet undertill som fallerat.
ftp://ftp.areca.com.tw/RaidCards/AP_Drivers/Linux/CLI/

Kör du RAID5 eller 6 borde du istället köra en konsistenscheck av hela datat.

Kolla också arecans logg med parametrarna 'event info'

Jag antar att det är ext4 filsystemet som har problem med checksumman eftersom det står det vid montering.
Eventuellt kan det vara något med arrayerna men i webbgränssnittet står det inget fel.

Permalänk
Medlem

Håller med Jimi84, även jag skulle gjort ett extra konsistenscheck och kollat loggarna i Areca innan man försöker reparera filsystemet. Att du körde fsck med -y flaggan är ganska riskabelt.

Permalänk
Avstängd

Men jag har hört från flera Linux experter (typ, RedHat folk, etc) som säger att fsck aldrig konsistenscheckar själva datat. fsck bara kontrollerar metadatat. Efter att fsck sagt att allt är bra, så kanske datat fortfarande är korrupt. Nån som hört samma sak?

Permalänk
Medlem

Beror förstås vilket filsystem man kör fsck på, btrfs kan konsistenschecka.

Skickades från m.sweclockers.com

Permalänk
Avstängd

Jag har precis hört att btrfs INTE kan konsistenschecka. Det är enda skälet till att btrfs inte är default filsystem i senaste fedora. Det finns ingen fsck till btrfs än.

Permalänk
Medlem

Formulerade mig dåligt från mobilen, man kommer kunna konsistenschecka btrfs. Det finns fsck för btrfs men den är långt från att vara klar, t.ex. går den bara att köra offline och saknar vettiga flaggor.

Permalänk
Avstängd

Alla Linux filsystem konsistencheckar endast metadatat och journal loggen. Själva datat checkas inte. Menar du att btrfs kommer att checka även själva datat? Måste du ta btrfs filsystemet off-line och avmontera för att checka? ZFS kan checka medan ZFS filystemet är igång och kör.

Permalänk
Medlem
Skrivet av saddam:

Alla Linux filsystem konsistencheckar endast metadatat och journal loggen. Själva datat checkas inte. Menar du att btrfs kommer att checka även själva datat? Måste du ta btrfs filsystemet off-line och avmontera för att checka? ZFS kan checka medan ZFS filystemet är igång och kör.

https://btrfs.wiki.kernel.org/index.php/Main_Page

Där finns lite mer info om vad som finns, och vad som kommer finnas.

Visa signatur
Permalänk
Avstängd

Ok, det ser ut som en ambitiös önskelista. Hoppas det inte tar alltför många år innan allt är färdigimplementerat. Sen, när btrfs släpps i v1.0 så kommer det ta 5-10 år innan de flesta buggar är borta. Det tar typ ett decennium innan sysadmins menar att de kan börja lita på ett filsystem i sina serverhallar. ZFS är typ 10 år gammalt idag, och har fortfarande buggar. Men visst, jag är nyfiken på btrfs och kommer testa när det släpps i v1.0. Även trots att Linux hackers skrivit att btrfs är "broken by design".

Permalänk
Medlem
Skrivet av Limpa:

Jag antar att det är ext4 filsystemet som har problem med checksumman eftersom det står det vid montering.
Eventuellt kan det vara något med arrayerna men i webbgränssnittet står det inget fel.

Beror helt på vad det är för RAID nivå, Arecan beter sig helt annorlunda om du kör RAID0/1 eller 5/6. Man bör ALLTID börja och kolla det undre lagret att det är friskt, vad händer om du börjar reparera filsystemet om konsistensen för raidsettet är kass?--> mer korrupt data.

Är event-loggen helt tom? Vad berodde crashen på? De hänger sig oftast inte vid boot om inte en disk är riktigt kass, men och andra sidan gör man en powercycle så finns risken att den kassa disken tas upp av raidsettet igen då Areca lagrar ingen metadata alls på själva disken.

Permalänk
Medlem

Vad menar du med att metadata inte sparas på diskarna för Areca? Ungefär som mdadm kör dom med någon typ av superblock. Jag kan t.ex. byta kontrollerkort och få mitt raidset upptäckas med namn och allt. Dessutom, om en disk markeras som dåligt ska den vanligtvis upptäckas som en separat ofullständig volym om den autoaktiveras vid nästa reboot.

Permalänk
Medlem

Du har rätt, menade att de har inte någon logg över vad som hänt med själva disken, t.e.x faller en disk från ett RAIDset finns risken att den accepteras in på nytt (efter REBOOT) på gott och ont, men en disk som rapporterar att den mår bra men i verkligheten ger ut nåt annat gör inte saken bättre. T.ex. tillfälliga firmware problem, t.ex. WD har haft en del krångel.

Areca skiter i små SMART-fel de är mer fokuserade på hur disken beter sig för stunden, men failar också en dålig disk vid minsta misstag, något som mdadm inte gör utan kör dem i botten.

Permalänk
Medlem

Nu är den äntligen färdig! Det tog ungefär 200 timmar.

Filsystemet och en disk var korrupt. Det verkar som att Areca har skickat ut en disk ur arrayen under tiden fsck kördes.
Frågan är bara varför filsystemet var korrupt, har inte pillat med det någonting. Arrayen har körts i ungefär 1 år utan problem.
Funderar på att gå över till något annat filsystem eftersom man inte kan ha större volymer än 14TB på ext4 (har jag för mig). Några tips?

Permalänk
Avstängd

Här har vi lite läsning för den som är intresserad av hårdvaruraid och data korruption:
http://en.wikipedia.org/wiki/RAID#Problems_with_RAID

Permalänk
Medlem

Över 16TB stöd finns i e2fsprogs sedan mer än en månad tillbaka om man vågar köra 1.42-WIP-0702. Skulle gissa att dom släpper en stabil version ganska snart.

Alternativet är väl typ xfs, dock skulle jag inte påstå att det är mera pålitligt än ext4. Typ såna saker som att fsck slukar 1GB minne per 1TB data när man ska kontrollera mot fel..

saddam kommer vilja övertyga dig att köra zfs, vilket inte är något fel på förutom att ditt Areca kontrollerkort kommer kännas bortkastat. Om du vill samtidigt fortsätta köra linux är det smidigast att exportera zfs från en separat maskin.

Permalänk
Medlem
Skrivet av fyx:

Över 16TB stöd finns i e2fsprogs sedan mer än en månad tillbaka om man vågar köra 1.42-WIP-0702. Skulle gissa att dom släpper en stabil version ganska snart.

Alternativet är väl typ xfs, dock skulle jag inte påstå att det är mera pålitligt än ext4. Typ såna saker som att fsck slukar 1GB minne per 1TB data när man ska kontrollera mot fel..

saddam kommer vilja övertyga dig att köra zfs, vilket inte är något fel på förutom att ditt Areca kontrollerkort kommer kännas bortkastat. Om du vill samtidigt fortsätta köra linux är det smidigast att exportera zfs från en separat maskin.

Just det, 16TB med e2fsprogs var det. Kommer antagligen gå över till xfs eller jfs. På min andra server kommer jag nog använda XFS med FreeBSD eller Debian med mdadm.

Permalänk
Avstängd
Skrivet av fyx:

saddam kommer vilja övertyga dig att köra zfs, vilket inte är något fel på förutom att ditt Areca kontrollerkort kommer kännas bortkastat. Om du vill samtidigt fortsätta köra linux är det smidigast att exportera zfs från en separat maskin.

Japp!
ZFS finns ju till flera OS. Testa nåt annat OS och vidga dina vyer lite! Och se till att säkra dina data!

PS. Sälj hw-raid kortet medan det fortfarande är efterfrågan på såna. Senare kommer btrfs som också är mjukvaruraid, som inte heller behöver något kort. Då blir det svårare att sälja kort.

Permalänk
Medlem

Har inte påstått något annat, men faktum kvarstår att det inte finns några andra alternativ om vill ha båda världarna. Det närmaste är ZFS on Linux, men med tanke på att det första releasen med stöd för montering känns det inte riktigt klart.

Att tro att HW-raid kommer försvinna är ganska naivt, beror helt på vilka behov som finns. Möjligen att det blir ovanligare i entusiastkretsar.

Permalänk
Medlem

raid5 samt zraid-3!

Visa signatur

One shall not shout when there is a forum!

Permalänk
Avstängd
Skrivet av fyx:

Att tro att HW-raid kommer försvinna är ganska naivt, beror helt på vilka behov som finns. Möjligen att det blir ovanligare i entusiastkretsar.

Vidare diskussion i
#11305363
Om du är intresserad.