SMART error på hårddisk. Behöver jag oroa mig?

Permalänk
Medlem

SMART error på hårddisk. Behöver jag oroa mig?

Fick precis ett par mail från min server. Först detta igår 07:21

This message was generated by the smartd daemon running on: host name: ***** DNS domain: [Empty] The following warning/error was logged by the smartd daemon: Device: /dev/sdb [SAT], 2 Currently unreadable (pending) sectors Device info: WDC WD30EFRX-68EUZN0, S/N:WD-WCC4N1KH8K8N, WWN:5-0014ee-20ec8aa12, FW:82.00A82, 3.00 TB For details see host's SYSLOG. You can also use the smartctl utility for further investigation. Another message will be sent in 24 hours if the problem persists.

och sedan detta igår 10:51

This message was generated by the smartd daemon running on: host name: ***** DNS domain: [Empty] The following warning/error was logged by the smartd daemon: Device: /dev/sdb [SAT], 2 Offline uncorrectable sectors Device info: WDC WD30EFRX-68EUZN0, S/N:WD-WCC4N1KH8K8N, WWN:5-0014ee-20ec8aa12, FW:82.00A82, 3.00 TB For details see host's SYSLOG. You can also use the smartctl utility for further investigation. Another message will be sent in 24 hours if the problem persists.

Detta upprepades som utlovat idag efter 24 h. Blir såklart lite orolig när man ser sånt här, men när jag kör diagnostics så tycker jag inte något sticker ut. Visar sig t.om. att detta är den disk jag har som spare i min Linux Raid 6, vilket gör att det känns ännu konstigare. Den borde ju inte ha något belastning på sig. Någon idé om hur jag kan verifiera ytterligare?

sudo mdadm -D /dev/md0:

/dev/md0: Version : 1.2 Creation Time : Tue May 8 09:42:53 2018 Raid Level : raid6 Array Size : 5860268032 (5588.79 GiB 6000.91 GB) Used Dev Size : 2930134016 (2794.39 GiB 3000.46 GB) Raid Devices : 4 Total Devices : 5 Persistence : Superblock is persistent Intent Bitmap : Internal Update Time : Tue Sep 3 20:58:21 2019 State : clean Active Devices : 4 Working Devices : 5 Failed Devices : 0 Spare Devices : 1 Layout : left-symmetric Chunk Size : 512K Consistency Policy : bitmap Name : **** UUID : ***** Events : 9442 Number Major Minor RaidDevice State 0 8 33 0 active sync /dev/sdc1 1 8 49 1 active sync /dev/sdd1 2 8 65 2 active sync /dev/sde1 3 8 81 3 active sync /dev/sdf1 4 8 16 - spare /dev/sdb

sudo smartctl --attributes --log=selftest /dev/sdb:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-58-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 21 3 Spin_Up_Time 0x0027 100 253 021 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 3 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1914 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 3 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 0 193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 11248 194 Temperature_Celsius 0x0022 109 105 000 Old_age Always - 41 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 2 198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 2 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 36 SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t]

Permalänk
Medlem

Ta det säkra före det osäkra - byt disken.

Visa signatur

Citera för svar

Stora Owncloud/Nextcloud-tråden: http://www.sweclockers.com/forum/122-server/1212245-officiell...
Jobb: Datacenter Manager
Grundare: https://www.hanssonit.se

Permalänk
Medlem

@apro att den ger S.M.A.R.T betyder inte att den kommer rasa idag, imorgon eller ens nästa vecka men som sagt innan så rekommenderas du helt klart ta en backup av vad du behöver och sedan byta ut disken. Du kan få problem med saker som skrivs till disken, att den inte kan läsa vissa sectorer korrekt etc. vilket kommer skapa huvudbry framöver.
Jag hade bytt den så snart det bara gått och är den fortfarande inom garantitiden så kommer du förmodligen få disken utbytt också.

Visa signatur

Desktop: Moderkort: ASUS STRIX B350-I Gaming | CPU: AMD R7 3700X | RAM: 2x16GB Corsair 3600MHz CL16 | GFX: Radeon RX 6950 XT Red Devil | OS: Windows 11 Pro x64 | Monitor: ASUS PG279Q & ASUS PB278Q

Notebook: ASUS UX482EG i7-1165G7 / 32 GB / 1 TB
Nintendo Switch/New 3DS XL - 1006-2151-2466

Permalänk
Medlem

Vad är det SMART ser som inga verktyg jag kör från command line ser?

sudo badblocks -v -s /dev/sdb > ./badsectors.txt Checking blocks 0 to 2930266583 Checking for bad blocks (read-only test): done Pass completed, 0 bad blocks found. (0/0/0 errors)

Ja jag får nog byta ut den, men det känns väldigt lustigt att min spare-disk, den disk som sitter i för att hoppa in när de andra går sönder, har börjat faila....

Permalänk
Medlem
Skrivet av Apro:

Vad är det SMART ser som inga verktyg jag kör från command line ser?

sudo badblocks -v -s /dev/sdb > ./badsectors.txt Checking blocks 0 to 2930266583 Checking for bad blocks (read-only test): done Pass completed, 0 bad blocks found. (0/0/0 errors)

Ja jag får nog byta ut den, men det känns väldigt lustigt att min spare-disk, den disk som sitter i för att hoppa in när de andra går sönder, har börjat faila....

Testat smartmontools?
Kanske kan ge en liten fingervisning om vad som börjat bråka.

https://www.smartmontools.org/

Debian/Ubuntu:
sudo apt install smartmontools

Visa signatur

Tower: ace Battle IV | CPU AMD Phenom II X2 BE unlocked 4cores@3,2GHz | RAM 8GB DDR2@800MHz | MB ASUS M4A785-M | GFK AMD Radeon HD 6850 1GB | HDD Kingston SSD Now 60GB (/) Seagate 2TB(/home) | OS Ubuntu 20.04 LTS
-Numera titulerad: "dator-hipster" då jag har en AMD GPU och dessutom kör Linux.

Permalänk
Medlem

Diskar får alltid förr eller senare sektorer som inte kan läsas men markeras dom som dåliga så används dom inte och andra nyttjas ist.

"Modern disks have a pool of spare sectors that can be swapped with damaged sectors. All modern hard disk drives have a spare sector pool. This is used when bad sectors develop during the normal life of the hard disk and any new bad sectors are 'replaced' with good ones from the spare sector pool."

Jag skulle säga att det är ett relativt vanligt beteende.
En av mina diskar i raid-setet har oxå ett par kassa sektorer men inget som rapporteras på annat sätt än väldigt hårdvarunära.
Har man backup på sin viktiga data så kör allafall jag vidare tills min controller tycker att jag ska byta disk

Visa signatur

WS: R7 5800X, 32GB, Suprim X 3080, Acer X38P+Acer XB271HU
FS: HPE ML110 Gen10 Xeon Silver, Qnap TS-h973AX ~100TB
NW: Fortigate, Ruckus, Zyxel XS1930HP 10Gb

Permalänk
Medlem

Post 196 och 197 är fel som kommer att försvinna när dess sektorer skrivs om med ny data - hade det varit aktiv i RAID och fått läsfel så hade RAID redan skrivit över med ny data och felen försvunnit (och om inte lyckats och istället reallokerar så hade post 5 ökat i antal) - det är sådan som sker vid scrub när det besöker områden på disken som annars aldrig accessas..

Jag skulle inte oroa mig allt för mycket om dessa försvinner när man skrivit disken från sektor noll till sektor slut med tex 'dd' - medans ökar post 5 mer än enstaka sektorer per år och blir mer än låg tvåsiffrigt - då är det indikation på att det är dags att byta disken...

du har ju dessutom RAID 6 _och_ spare-disk (hot spare förmodar jag) så det är ingen katastrof om en disk börja bli krasslig.

vilken disk som går sönder i en raid (inkluderat hot spare) går inte att planera då det är slumpmässigt vilka som ger upp först.

när du har så hög Raid-level gissar jag att du också kör scrub, dock vet jag inte om hot spare följer med i den svängen men kan vara där som felet fångades upp medans den inte uppdateras eftersom den inte är en del av RAID (ännu) - har hot-spare disken någonsin skrivits med data ??

En sak till - du har väl ofta uppdaterade backupper på allt som är på din RAID - RAID är inte backup! - om inte så är det dags att titta över det - antingen externa USB-diskar som förvaras _off_line_ (alltså alla sladdar urdragna och diskarna flyttad till förvaring mellan backupperna) eller en molntjänst.

Permalänk
Medlem

Jag vet faktiskt varken om jag har hot spare eller scrub påslaget. Det var för länge sen jag satte upp allt, och rullar på för bra, för att jag ska komma ihåg. Hur kan jag verifiera det?

Har för mig att jag använde disken ett litet tag innan den blev spare, men inte helt hundra på det.

All in all är jag inte jätteorolig för tillfället, men kommer kanske byta ut den ändå inom snar framtid. Däremot skulle jag vilja få checken som mailar mig 2 ggr om dan att hålla tyst tills den hittar något nytt fel. Någon som vet hur jag åstadkommer det?

Självklart har jag andra backuper på allt viktigt!