SMART error på hårddisk. Behöver jag oroa mig?

2019-09-03 22:21

Permalänk

Apro

Medlem

Plats: Uppsala
Registrerad: Okt 2007

●

SMART error på hårddisk. Behöver jag oroa mig?

Fick precis ett par mail från min server. Först detta igår 07:21

This message was generated by the smartd daemon running on:

   host name:  *****
   DNS domain: [Empty]

The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], 2 Currently unreadable (pending) sectors

Device info:
WDC WD30EFRX-68EUZN0, S/N:WD-WCC4N1KH8K8N, WWN:5-0014ee-20ec8aa12, FW:82.00A82, 3.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
Another message will be sent in 24 hours if the problem persists.

och sedan detta igår 10:51

This message was generated by the smartd daemon running on:

   host name:  *****
   DNS domain: [Empty]

The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], 2 Offline uncorrectable sectors

Device info:
WDC WD30EFRX-68EUZN0, S/N:WD-WCC4N1KH8K8N, WWN:5-0014ee-20ec8aa12, FW:82.00A82, 3.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
Another message will be sent in 24 hours if the problem persists.

Detta upprepades som utlovat idag efter 24 h. Blir såklart lite orolig när man ser sånt här, men när jag kör diagnostics så tycker jag inte något sticker ut. Visar sig t.om. att detta är den disk jag har som spare i min Linux Raid 6, vilket gör att det känns ännu konstigare. Den borde ju inte ha något belastning på sig. Någon idé om hur jag kan verifiera ytterligare?

sudo mdadm -D /dev/md0:

/dev/md0:
           Version : 1.2
     Creation Time : Tue May  8 09:42:53 2018
        Raid Level : raid6
        Array Size : 5860268032 (5588.79 GiB 6000.91 GB)
     Used Dev Size : 2930134016 (2794.39 GiB 3000.46 GB)
      Raid Devices : 4
     Total Devices : 5
       Persistence : Superblock is persistent

     Intent Bitmap : Internal

       Update Time : Tue Sep  3 20:58:21 2019
             State : clean
    Active Devices : 4
   Working Devices : 5
    Failed Devices : 0
     Spare Devices : 1

            Layout : left-symmetric
        Chunk Size : 512K

Consistency Policy : bitmap

              Name : ****
              UUID : *****
            Events : 9442

    Number   Major   Minor   RaidDevice State
       0       8       33        0      active sync   /dev/sdc1
       1       8       49        1      active sync   /dev/sdd1
       2       8       65        2      active sync   /dev/sde1
       3       8       81        3      active sync   /dev/sdf1

       4       8       16        -      spare   /dev/sdb

sudo smartctl --attributes --log=selftest /dev/sdb:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-58-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       21
  3 Spin_Up_Time            0x0027   100   253   021    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       3
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1914
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       3
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       11248
194 Temperature_Celsius     0x0022   109   105   000    Old_age   Always       -       41
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       2
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       2
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       36

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

Rapportera Redigera

Citera flera Citera

2019-09-04 02:48

Permalänk

enoch85

Medlem

Plats: Skåne
Registrerad: Feb 2013

●

Ta det säkra före det osäkra - byt disken.

Visa signatur

Citera för svar

Stora Owncloud/Nextcloud-tråden: http://www.sweclockers.com/forum/122-server/1212245-officiell...
Jobb: Datacenter Manager
Grundare: https://www.hanssonit.se

Rapportera Redigera

Citera flera Citera (4)

2019-09-04 04:15

Permalänk

Taskman

Medlem ★

Plats: Hooden
Registrerad: Aug 2005

●

@apro att den ger S.M.A.R.T betyder inte att den kommer rasa idag, imorgon eller ens nästa vecka men som sagt innan så rekommenderas du helt klart ta en backup av vad du behöver och sedan byta ut disken. Du kan få problem med saker som skrivs till disken, att den inte kan läsa vissa sectorer korrekt etc. vilket kommer skapa huvudbry framöver.
Jag hade bytt den så snart det bara gått och är den fortfarande inom garantitiden så kommer du förmodligen få disken utbytt också.

Visa signatur

Notebook: ASUS UX482EG i7-1165G7 / 32 GB / 1 TB
Nintendo Switch/New 3DS XL - 1006-2151-2466

Rapportera Redigera

Citera flera Citera (1)

2019-09-04 08:22

Permalänk

Apro

Medlem

Plats: Uppsala
Registrerad: Okt 2007

●

Vad är det SMART ser som inga verktyg jag kör från command line ser?

sudo badblocks -v -s /dev/sdb > ./badsectors.txt
Checking blocks 0 to 2930266583
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found. (0/0/0 errors)

Ja jag får nog byta ut den, men det känns väldigt lustigt att min spare-disk, den disk som sitter i för att hoppa in när de andra går sönder, har börjat faila....

Rapportera Redigera

Citera flera Citera

2019-09-04 08:35

Permalänk

krigelkorren

Medlem ★

Plats: gbg
Registrerad: Nov 2007

●

Skrivet av Apro:

Vad är det SMART ser som inga verktyg jag kör från command line ser?

sudo badblocks -v -s /dev/sdb > ./badsectors.txt
Checking blocks 0 to 2930266583
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found. (0/0/0 errors)

Ja jag får nog byta ut den, men det känns väldigt lustigt att min spare-disk, den disk som sitter i för att hoppa in när de andra går sönder, har börjat faila....

Gå till inlägget

Testat smartmontools?
Kanske kan ge en liten fingervisning om vad som börjat bråka.

https://www.smartmontools.org/

Debian/Ubuntu:
sudo apt install smartmontools

Visa signatur

Tower: ace Battle IV | CPU AMD Phenom II X2 BE unlocked 4cores@3,2GHz | RAM 8GB DDR2@800MHz | MB ASUS M4A785-M | GFK AMD Radeon HD 6850 1GB | HDD Kingston SSD Now 60GB (/) Seagate 2TB(/home) | OS Ubuntu 20.04 LTS
-Numera titulerad: "dator-hipster" då jag har en AMD GPU och dessutom kör Linux.

Rapportera Redigera

Citera flera Citera (1)

2019-09-04 08:45

Permalänk

_niko_

Medlem ★

Plats: Göteborg
Registrerad: Jan 2011

●

Diskar får alltid förr eller senare sektorer som inte kan läsas men markeras dom som dåliga så används dom inte och andra nyttjas ist.

"Modern disks have a pool of spare sectors that can be swapped with damaged sectors. All modern hard disk drives have a spare sector pool. This is used when bad sectors develop during the normal life of the hard disk and any new bad sectors are 'replaced' with good ones from the spare sector pool."

Jag skulle säga att det är ett relativt vanligt beteende.
En av mina diskar i raid-setet har oxå ett par kassa sektorer men inget som rapporteras på annat sätt än väldigt hårdvarunära.
Har man backup på sin viktiga data så kör allafall jag vidare tills min controller tycker att jag ska byta disk

Visa signatur

WS: R7 5800X, 32GB, Suprim X 3080, Acer X38P+Acer XB271HU
FS: HPE ML110 Gen10 Xeon Silver, Qnap TS-h973AX ~100TB
NW: Fortigate, Ruckus, Zyxel XS1930HP 10Gb

Rapportera Redigera

Citera flera Citera

2019-09-04 08:46

Permalänk

xxargs

Medlem ★

Registrerad: Aug 2016

●

Post 196 och 197 är fel som kommer att försvinna när dess sektorer skrivs om med ny data - hade det varit aktiv i RAID och fått läsfel så hade RAID redan skrivit över med ny data och felen försvunnit (och om inte lyckats och istället reallokerar så hade post 5 ökat i antal) - det är sådan som sker vid scrub när det besöker områden på disken som annars aldrig accessas..

Jag skulle inte oroa mig allt för mycket om dessa försvinner när man skrivit disken från sektor noll till sektor slut med tex 'dd' - medans ökar post 5 mer än enstaka sektorer per år och blir mer än låg tvåsiffrigt - då är det indikation på att det är dags att byta disken...

du har ju dessutom RAID 6 _och_ spare-disk (hot spare förmodar jag) så det är ingen katastrof om en disk börja bli krasslig.

vilken disk som går sönder i en raid (inkluderat hot spare) går inte att planera då det är slumpmässigt vilka som ger upp först.

när du har så hög Raid-level gissar jag att du också kör scrub, dock vet jag inte om hot spare följer med i den svängen men kan vara där som felet fångades upp medans den inte uppdateras eftersom den inte är en del av RAID (ännu) - har hot-spare disken någonsin skrivits med data ??

En sak till - du har väl ofta uppdaterade backupper på allt som är på din RAID - RAID är inte backup! - om inte så är det dags att titta över det - antingen externa USB-diskar som förvaras _off_line_ (alltså alla sladdar urdragna och diskarna flyttad till förvaring mellan backupperna) eller en molntjänst.

Rapportera Redigera

Citera flera Citera

2019-09-04 21:33

Permalänk

Apro

Medlem

Plats: Uppsala
Registrerad: Okt 2007

●

Jag vet faktiskt varken om jag har hot spare eller scrub påslaget. Det var för länge sen jag satte upp allt, och rullar på för bra, för att jag ska komma ihåg. Hur kan jag verifiera det?

Har för mig att jag använde disken ett litet tag innan den blev spare, men inte helt hundra på det.

All in all är jag inte jätteorolig för tillfället, men kommer kanske byta ut den ändå inom snar framtid. Däremot skulle jag vilja få checken som mailar mig 2 ggr om dan att hålla tyst tills den hittar något nytt fel. Någon som vet hur jag åstadkommer det?

Självklart har jag andra backuper på allt viktigt!

Rapportera Redigera

Citera flera Citera

SMART error på hårddisk. Behöver jag oroa mig?

SMART error på hårddisk. Behöver jag oroa mig?

Externa nyheter

Spelnyheter från FZ