Permalänk
Avstängd

ZFS soft errors?

Hejsan.

Jag har nyligen satt upp en ESXi 5 server där jag kör PCI-passthrough av mitt nya LSI 9211-8i till en OpenIndiana VM + napp-it.

Lagringsdiskarna är kopplade till LSI-kortet som är flashat med 13.00.57.00 IT firmware. OpenIndiana är installerat på en lokal disk i ESXi.

Under OI har jag skapat 3st mirrors med 2st 1.5TB WDDEars diskar i varje mirror och lagt alla mirrors i en pool. Det finns även en fristående 3TB disk kopplad till LSI-kortet som är en pool för sig själv. Partitionerna är aligned med Ashift: 12 för att ge bäst prestanda med 4k diskar. ZFS version 28.

Mirror-poolen är utdelad via NFS tillbaka till ESXi där jag kör 2 ytterligare VM's.
3TB poolen är bara mountad i OpenIndiana, inget program förutom systemet själv skriver data till den poolen.

När jag kollade igenom loggarna idag såg jag att det hade uppstått soft errors på alla diskar som är ansluta via LSI-kortet:

Jun 30 22:51:04 nas scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g50014ee25b9931f4 (sd2): Jun 30 22:51:04 nas Error for Command: Error Level: Recovered Jun 30 22:51:04 nas scsi: [ID 107833 kern.notice] Requested Block: 0 Error Block: 0 Jun 30 22:51:04 nas scsi: [ID 107833 kern.notice] Vendor: ATA Serial Number: WD-WCAW Jun 30 22:51:04 nas scsi: [ID 107833 kern.notice] Sense Key: Soft_Error Jun 30 22:51:04 nas scsi: [ID 107833 kern.notice] ASC: 0x0 (), ASCQ: 0x1d, FRU: 0x0

iostat -En | grep -i errors c4t0d0 Soft Errors: 0 Hard Errors: 0 Transport Errors: 0 c3t0d0 Soft Errors: 0 Hard Errors: 5 Transport Errors: 0 c2t50014EE25B9931F4d0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0 c2t50014EE25A5DEE39d0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0 c2t50014EE6557A98E1d0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0 c2t50014EE204587AAEd0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0 c2t50014EE0ACA97C00d0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0 c2t50014EE001FE9979d0 Soft Errors: 5 Hard Errors: 0 Transport Errors: 0 c2t50014EE2AEE931FDd0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0

c3t0d0 är den virtuella cd-romen och jag har ingen aning om varför den hard hard errors men det spelar ingen roll då den ändå inte används.

ZFS-poolen verkar må bra i övrigt och jag kan fortfarande komma åt all data så det verkar inte vara något jättefarligt men jag är ändå nyfiken på orsaken till soft errors? Bör jag oroa mig om det uppstår fler gånger? Jag använder tyvärr inte ECC minne om det kan ha med saken att göra.

Någon som har tips på hur man kan felsöka vidare för att få mer information om vad som orsakade soft-errors i burken? Typ speciella logg-filer eller något användbart kommando.

Edit:

Kollade i Linuxprofessorns blog och hittade ett inlägg specifikt om vissa wdd ears diskar

När jag kollar mina diskar med smart visar det sig att jag har två av dessa rackare
Device Model: WDC WD15EARS-00Z5B1
Firmware Version: 80.00A80

Finns det något sätt man kan benchmarka just de två diskarna efter att jag skapat poolen?

Visa signatur

Information wants to be free.
Internet: 1Gbit/1Gbit LAN/WiFi: Cisco/Meraki
Laptop: Dell XPS 9550 4K touch HTPC: Raspberry Pi 3 LibreELEC
Desktop: WIP

Permalänk
Avstängd

Så länge zfs inte klagar så är det lugnt. ZFS är ju känsligare än det mesta. Du får köra "scrub" och "zpool status" med jämna mellanrum. Men jag skulle gräva mera i detta, tills man gått till botten med detta. Poängen med ZFS är ju att dina data ska vara säkra, och "soft errors" låter ju som en potentiell felkälla. I värsta fall, om du inte får svar här, så kanske du kan testa hardforum.com där finns många kunniga zfs människor.

Permalänk
Avstängd

När jag skapade poolerna satte jag även upp scrubbing som körs veckovis.

Körde även en manuell scrub utan problem ett par dagar efter jag skapat poolerna.

Inatt fick jag nya soft errors får bli en tråd på hardforum.

Vet du om man kan bencha enstaka diskar i en pool med t.ex. bonnie++?

Visa signatur

Information wants to be free.
Internet: 1Gbit/1Gbit LAN/WiFi: Cisco/Meraki
Laptop: Dell XPS 9550 4K touch HTPC: Raspberry Pi 3 LibreELEC
Desktop: WIP

Permalänk
Avstängd

Man brukar bencha enstaka diskar med "dd". Man läser massa data från en disk och skickar datat till /dev/null.

Permalänk

just den disken med just den firmwaren är ju en klassisk felkälla, har själv haft otroligt mycket problem med såna diskar. hur som helst är de inget att lita på, byt ut snarast är mitt tips. har själv en RAID-Z2 med sex diskar, två av dem var exakt av den modellen. poolen bråkade otroligt mycket, byte av de två diskarna löste problemet. sedan dess fungerar allt utmärkt.

Visa signatur

Arbetsstation: Macbook Pro Retina 15", Core i7 2,6 GHz, 16 GB RAM, 512 GB SSD
NAS: Synology 1812+ har numera ersatt min filserver
Blog: http://www.nickebo.net/
Twitter: @linuxprofessor
Övrigt: Linux/UNIX/OpenVMS, ZFS, lagring och systemövervakning

Permalänk
Avstängd
Skrivet av linuxprofessor:

just den disken med just den firmwaren är ju en klassisk felkälla, har själv haft otroligt mycket problem med såna diskar. hur som helst är de inget att lita på, byt ut snarast är mitt tips. har själv en RAID-Z2 med sex diskar, två av dem var exakt av den modellen. poolen bråkade otroligt mycket, byte av de två diskarna löste problemet. sedan dess fungerar allt utmärkt.

Japp, utbyte av dem ligger i pipen efter semestern

Har dock inte fått fler soft errors sen min senaste post. Har du råkat ut för soft errors nån gång?

Visa signatur

Information wants to be free.
Internet: 1Gbit/1Gbit LAN/WiFi: Cisco/Meraki
Laptop: Dell XPS 9550 4K touch HTPC: Raspberry Pi 3 LibreELEC
Desktop: WIP

Permalänk
Skrivet av WetWilly:

Japp, utbyte av dem ligger i pipen efter semestern

Har dock inte fått fler soft errors sen min senaste post. Har du råkat ut för soft errors nån gång?

minns faktiskt inte vad det var för errors, men många va de

Visa signatur

Arbetsstation: Macbook Pro Retina 15", Core i7 2,6 GHz, 16 GB RAM, 512 GB SSD
NAS: Synology 1812+ har numera ersatt min filserver
Blog: http://www.nickebo.net/
Twitter: @linuxprofessor
Övrigt: Linux/UNIX/OpenVMS, ZFS, lagring och systemövervakning

Permalänk
Avstängd

Många errors? Visade SMART något? Du förlorade inga data?

Permalänk
Avstängd

Hittade orsaken till de soft errors jag upplever, SMART.

https://www.illumos.org/issues/1787

Då vet jag att det inte är något farligt iaf.

Visa signatur

Information wants to be free.
Internet: 1Gbit/1Gbit LAN/WiFi: Cisco/Meraki
Laptop: Dell XPS 9550 4K touch HTPC: Raspberry Pi 3 LibreELEC
Desktop: WIP

Permalänk
Skrivet av saddam:

Många errors? Visade SMART något? Du förlorade inga data?

Den disken med den firmwaren har problem med load cycles eller va det är. Så ja, SMART visade såklart alldeles för högt sådant värde.

Förlorade inga data nej, men passade på att kopiera allt till annat ställe och bygga om RAIDen till en RAID-Z2 när jag satte in nya diskar.

Visa signatur

Arbetsstation: Macbook Pro Retina 15", Core i7 2,6 GHz, 16 GB RAM, 512 GB SSD
NAS: Synology 1812+ har numera ersatt min filserver
Blog: http://www.nickebo.net/
Twitter: @linuxprofessor
Övrigt: Linux/UNIX/OpenVMS, ZFS, lagring och systemövervakning