ZFS soft errors?
Hejsan.
Jag har nyligen satt upp en ESXi 5 server där jag kör PCI-passthrough av mitt nya LSI 9211-8i till en OpenIndiana VM + napp-it.
Lagringsdiskarna är kopplade till LSI-kortet som är flashat med 13.00.57.00 IT firmware. OpenIndiana är installerat på en lokal disk i ESXi.
Under OI har jag skapat 3st mirrors med 2st 1.5TB WDDEars diskar i varje mirror och lagt alla mirrors i en pool. Det finns även en fristående 3TB disk kopplad till LSI-kortet som är en pool för sig själv. Partitionerna är aligned med Ashift: 12 för att ge bäst prestanda med 4k diskar. ZFS version 28.
Mirror-poolen är utdelad via NFS tillbaka till ESXi där jag kör 2 ytterligare VM's.
3TB poolen är bara mountad i OpenIndiana, inget program förutom systemet själv skriver data till den poolen.
När jag kollade igenom loggarna idag såg jag att det hade uppstått soft errors på alla diskar som är ansluta via LSI-kortet:
Jun 30 22:51:04 nas scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g50014ee25b9931f4 (sd2):
Jun 30 22:51:04 nas Error for Command: Error Level: Recovered
Jun 30 22:51:04 nas scsi: [ID 107833 kern.notice] Requested Block: 0 Error Block: 0
Jun 30 22:51:04 nas scsi: [ID 107833 kern.notice] Vendor: ATA Serial Number: WD-WCAW
Jun 30 22:51:04 nas scsi: [ID 107833 kern.notice] Sense Key: Soft_Error
Jun 30 22:51:04 nas scsi: [ID 107833 kern.notice] ASC: 0x0 (), ASCQ: 0x1d, FRU: 0x0
iostat -En | grep -i errors
c4t0d0 Soft Errors: 0 Hard Errors: 0 Transport Errors: 0
c3t0d0 Soft Errors: 0 Hard Errors: 5 Transport Errors: 0
c2t50014EE25B9931F4d0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0
c2t50014EE25A5DEE39d0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0
c2t50014EE6557A98E1d0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0
c2t50014EE204587AAEd0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0
c2t50014EE0ACA97C00d0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0
c2t50014EE001FE9979d0 Soft Errors: 5 Hard Errors: 0 Transport Errors: 0
c2t50014EE2AEE931FDd0 Soft Errors: 4 Hard Errors: 0 Transport Errors: 0
c3t0d0 är den virtuella cd-romen och jag har ingen aning om varför den hard hard errors men det spelar ingen roll då den ändå inte används.
ZFS-poolen verkar må bra i övrigt och jag kan fortfarande komma åt all data så det verkar inte vara något jättefarligt men jag är ändå nyfiken på orsaken till soft errors? Bör jag oroa mig om det uppstår fler gånger? Jag använder tyvärr inte ECC minne om det kan ha med saken att göra.
Någon som har tips på hur man kan felsöka vidare för att få mer information om vad som orsakade soft-errors i burken? Typ speciella logg-filer eller något användbart kommando.
Edit:
Kollade i Linuxprofessorns blog och hittade ett inlägg specifikt om vissa wdd ears diskar
När jag kollar mina diskar med smart visar det sig att jag har två av dessa rackare
Device Model: WDC WD15EARS-00Z5B1
Firmware Version: 80.00A80
Finns det något sätt man kan benchmarka just de två diskarna efter att jag skapat poolen?
Information wants to be free.
Internet: 1Gbit/1Gbit LAN/WiFi: Cisco/Meraki
Laptop: Dell XPS 9550 4K touch HTPC: Raspberry Pi 3 LibreELEC
Desktop: WIP