OpenSolaris 2009.06 är här!

2010-09-11 00:56

Medlem ★

Plats: Borås
Registrerad: Okt 2002

●

Känns som ZFS ändå ger en extra trygghet. Jag vågar använda hårddiskar jag inte fullt ut litar på eftersom jag förhoppningsvis märker när de börjar ge fel. Har t.ex. kört ZFS mirror på två tveksamma hårddiskar som systemdisk under ett par år. Visade sig att de inte gav några problem med ZFS trots att de tidigare gav problem i NTFS (jag misstänker att dessa problemen orsakades av glappande kablar eller något sådant). Använde dem i ZFS mirror just för att jag var osäker på dessa diskarna. Jag har även försökt provocera fram fel t.ex. genom att rycka ur ena disken under drift men dessa fel som orsakades av detta reparerades utan problem av ZFS när jag kopplade in disken igen.

Var väl någon som hade problem med glappande SATA-kablar och fick en del fel (tror de var tidigare i denna tråden) och som fick det felfritt igen efter att bytt kablarna. ZFS verkar bra på att detektera småfel som man annars kanske inte hade upptäckt. Dessa småfel kan i längden orsaka större fel om man inte upptäcker dem innan det är för sent. Då är det ju bra att ZFS klagar så fort det börjar bli fel.

Rapportera Redigera

Citera flera Citera

2010-09-11 02:32

Permalänk

jookeer

Medlem ★

Plats: Stockholm
Registrerad: Jan 2003

●

Okki!

1. Har man g:la sunkdiskar som NTFS inte "vill ha" så kan man med trygghet köra dom i ZFS, förutsatt Raidz? Låter en aning farligt då en disk som börjar få hårda fel inom kort brukar totalkrascha.

2. Har man glappkontakt som NTFS och ICHxR får arrayen att "Faila" så fixar ZFS detta? Det är ju inte diskens fel att kontakterna glappar men kan i vissa fall ge korrupta data och dess klarar även andra än Raiidz att upptäcka och fixa mha en rebuild.

3. Sk. silent corruption loggas inte av ZFS, ej heller av något annan RAID-implementation, så här har vi inga praktiska användarerfarneheter utan är hänvisade till sk. "forskare" som drar sina slutsatser av statistiska teorier i analogi med att det är bättre att tro på Gud än inte tills dess vi VET om Gud existerar och gör han/hon det så handlar det inte längre om tro utan om vetande och isf riskerar all världens religioner att krascha och mänskligheten med dem.

4. Att ZFS/Raidz upptäcker att en disk i arrayen faller bort är inte alls unikt för ZFS, alla seriösa RAID-implementationer gör detta. Min erfarenhet av detta från Windows är att om detta beror på glappkontakt och man fixar detta så tvingas det fram en total rebuild som tar tid. Mitt knep för att undvika rebuild är att i ICHxR avRaida alla diskar i arrayen, omboota, Raida in dom igen, återladda MBR, och vips är saken "biff" sas. Kan man göra så i ZFS?

Visa signatur

http://projectcamelotportal.com/ http://www.earthfiles.com/
http://divinecosmos.com/start-here/davids-blog/1023-financial...
http://www.coasttocoastam.com/ http://mkaku.org/home/
http://mufon.com/ http://beforeitsnews.com/

Rapportera Redigera

Citera flera Citera

2010-09-11 11:27

Permalänk

saddam

Avstängd

Plats: Sthlm
Registrerad: Nov 2008

●

1. Jag tror inte man med "trygghet" kan köra sunkdiskar eftersom alla diskar kanske kraschar snart. Men om de inte skulle krascha så skulle jag utan tvekan kunna köra sunkdiskar med ZFS. Men det måste vara raidz, förstås.

2. ZFS detekterar alla fel och talar om att du har problem. Det märker du när du begär status rapport "zpool status".

pool: TempStorage
state: ONLINE
status: The pool is formatted using an older on-disk format. The pool can
still be used, but some features are unavailable.
action: Upgrade the pool using 'zpool upgrade'. Once this is done, the
pool will no longer be accessible on older software versions.
scrub: none requested
config:

NAME STATE READ WRITE CKSUM
TempStorage ONLINE 0 0 0
c7d0p4 ONLINE 0 0 0 <---------------- här detekteras bl.a. silent corruption

errors: No known data errors" <-------------- här detekteras bl.a. silent corruption

Skälet till att ZFS kan detektera felen är att det är end-to-end checksums. Dvs, ZFS jämför alltid början med slutresultatet. Dvs, datat i RAM och datat på disk - blev det lika? Det sker en jämförelse mellan kedjans början och kedjans slut, dvs end-to-end. Andra filsystem jämför inte end-to-end. De skickar ned data från RAM till disk kontrollern - och litar på att det går bra. Men antag att det är BIOS buggar i disk kontrollern? Det finns flera lager i lagringsstacken, grovt finns: RAM ned till kort, kort ned till disk. Egentligen finns det många fler lager. Det var nån studie från... CISCO(?) som visade att packade data kan komprimeras och dekomprimeras runt 7 gånger på väg ned till disk, från RAM. Det kan bli fel när data passerar olika lager. Men ZFS jämför hela tiden RAM mot slutresultatet. End-to-end. Ingen annan gör just detta, dvs kontroll mellan olika lager från början till slut.

3. Nej, silent corruption loggas inte av ZFS, men du när du skriver "zpool status" så ser du alla fel som uppstod och som reparerades (inkl fel med silent corruption). De s.k. "forskarna" du pratar om: de forskar i datavetenskap och har artificiellt introducerat massa fel i ZFS. Dvs, error injection på olika knepiga sätt - och ZFS detekterade alla fel utan problem (pga end-to-end checksums). Men ZFS lyckades inte reparera alla felen pga forskarlaget inte körde raidz.

I andra studier så har XFS, JFS, ReiserFS, etc inte ens lyckats detektera alla fel som injicerades. Än mindre reparera felen. Det viktigaste är att detektera felen - för hur ska du annars känna till att det finns något att reparera?

Mao, anser jag inte att dessa forskningsresultat är värdelösa. ZFS är robust mot många fel och detekterar alla fel som provocerades fram - men forskarna visade att om man korruptar datat i RAM så är ZFS chanslös. Men det är naturligt - ZFS garanterar bara att det som får in, skrivs ned korrekt. ZFS kontrollerar inte om datat som ska sparas ned är korrekt. Så forskarnas slutsats är att man MÅSTE köra ECC RAM tillsammans med ZFS. Därför att RAM är svagaste länken i kedjan. När väl ZFS fått tag i datat så är det säkert. Men innan ZFS fått tag i datat så behöver du ECC. (Det visar sig att inte ens ECC är 100% säkert, det finns bättre RAM-tekniker, men det är dyrare).

Jag har länkat till dessa forskningsartiklar tidigare. Det är bara att läsa dem.

4. ZFS bygger aldrig om allting i onödan. ZFS bygger endast om de data som fattas. Mao kan det gå snabbt att reparera raidet. Mao, så har du inte samma problem i ZFS: där du bygger om hela disken från scratch.

Senast redigerat 2010-09-11 11:33

Rapportera Redigera

Citera flera Citera

2010-09-11 22:04

Permalänk

ronnylov

Medlem ★

Plats: Borås
Registrerad: Okt 2002

●

1) Jag körde två diskar speglade så förhoppningsvis kraschar de inte samtidigt båda två. Spegling, alltså zfs mirror är ett bra alternativ till raidz. Jag vet att även hederlig raid1 ger samma skydd mot krasch men det känns som att man har någorlunda koll när det börjar bli fel när man kör ZFS tycker jag. Visst jag hade problem med en av diskarna innan jag körde ZFS och körde hårddisktillverkarens reprationsprogram som hittade någon skadad sektor och reparerade (reallokerade) den. Sedan dess hade jag inga mer problem med den disken och jag påstår inte att det är pga ZFS den inte havererade sedan utan jag menar att jag tack vare ZFS mirror kände att jag vågade fortsätta använda disken utan att det skulle orsaka någon större skada om den havererade.

2) Jag vet inte vad ICHxR fixar, Jag körde disken med NTFS ensam innan. Kör man ZFS mirror så kan den reparera skadade filer genom att läsa från den andra disken (precis som en raid1 också skulle kunna fixa detta). Jag tror dock att ZFS är bättre på att reparera och detektera vilka filer som skadats.

3) Finns säkert en viss (troligen ganska låg) sannolikhet att ett fel råkar slumpa sig så att det inte skulle påverka checksumman och således inte bli detekterat av ZFS. Jag har inte forskat om hur stor den sannolikheten är.

4) ZFS brukar försöka att reparera felen så snart det är möjligt, alltså det blir resilver om en disk som fallit bort på grund av glapp kommer tillbaka igen och som saddam beskrivit så kan denna resilver gå ganska snabbt. Man kan se att det har förekommit om man kollar zpool status men man kan inte se exakt när det insträffade eller vad som orsakade det. Om reparation inte var möjlig så kan man se vilka filer som påverkats av felet som har blivit upptäckta. Men för att upptäcka alla existerande fel får man köra zpool scrub emellanåt så att diskarna söks igenom.

På det hela taget sår man känslan av att det är ganska robust och säkert att köra ZFS.

Rapportera Redigera

Citera flera Citera

2010-09-12 10:27

Permalänk

Arctunix

Medlem

Registrerad: Dec 2004

●

Skrivet av ronnylov:

3) Finns säkert en viss (troligen ganska låg) sannolikhet att ett fel råkar slumpa sig så att det inte skulle påverka checksumman och således inte bli detekterat av ZFS. Jag har inte forskat om hur stor den sannolikheten är.

OpenSolaris 2009.06 är här!

Externa nyheter