S.M.A.R.T test - Avbryts i förtid

Permalänk

S.M.A.R.T test - Avbryts i förtid

Halloj,

Försökte mig på ett långt SMART test av HDD genom Truenas.
Det är 2 diskar i mirror, ena disken går igenom perfekt.

Den andra disken avbryter testet efter 10-20 minuter. (borde ta 4-5 timmar att genomföra)
Öpnnar jag logger står det "SMART overall-health self-assessment test result: PASSED"

Men samtidigt framkommer det att 90% remaining av testet.
jag får Raw_Read_Error_Rate på 20, vad det innebär vet jag inte. Men value och worst skiljer knappt.

I övrigt har jag inte märkt att disken fungerar dåligt, är det dags att kassera den eller är detta inget att bry sig om?

=== START OF INFORMATION SECTION === Model Family: Western Digital Red Device Model: WDC WD30EFRX-68EUZN0 Serial Number: WD-WCC4N4TH6ZXF LU WWN Device Id: 5 0014ee 2b83fc71d Firmware Version: 82.00A82 User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-2 (minor revision not indicated) SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Mon Apr 4 17:04:16 2022 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 121) The previous self-test completed having the read element of the test failed. Total time to complete Offline data collection: (39060) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 392) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x703d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 199 051 Pre-fail Always - 20 3 Spin_Up_Time 0x0027 179 178 021 Pre-fail Always - 6016 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 52 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 071 071 000 Old_age Always - 21476 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 52 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 48 193 Load_Cycle_Count 0x0032 149 149 000 Old_age Always - 154814 194 Temperature_Celsius 0x0022 116 115 000 Old_age Always - 34 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 2 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 90% 21476 281930288 # 2 Conveyance offline Completed: read failure 90% 21474 284286944 # 3 Short offline Completed: read failure 10% 21474 287070240 # 4 Short offline Completed: read failure 10% 21474 287070240 # 5 Extended offline Completed: read failure 90% 21452 281930288 SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

Permalänk
Medlem

Står ju i klartext att du haft läsfel under testet..

Innan den slängs så hade jag testat att skriva nollor över disken och sen göra testet igen.
Kolla antalet dåliga sektorer före och efter.

Visa signatur

En del av mina bildlänkar hostas på egen maskin, är bildlänkarna trasiga, ha tålamod.

Permalänk
Medlem
Skrivet av KjellTimell:

Halloj,

Försökte mig på ett långt SMART test av HDD genom Truenas.
Det är 2 diskar i mirror, ena disken går igenom perfekt.

Den andra disken avbryter testet efter 10-20 minuter. (borde ta 4-5 timmar att genomföra)
Öpnnar jag logger står det "SMART overall-health self-assessment test result: PASSED"

Men samtidigt framkommer det att 90% remaining av testet.
jag får Raw_Read_Error_Rate på 20, vad det innebär vet jag inte. Men value och worst skiljer knappt.

I övrigt har jag inte märkt att disken fungerar dåligt, är det dags att kassera den eller är detta inget att bry sig om?

=== START OF INFORMATION SECTION === Model Family: Western Digital Red Device Model: WDC WD30EFRX-68EUZN0 Serial Number: WD-WCC4N4TH6ZXF LU WWN Device Id: 5 0014ee 2b83fc71d Firmware Version: 82.00A82 User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-2 (minor revision not indicated) SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Mon Apr 4 17:04:16 2022 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 121) The previous self-test completed having the read element of the test failed. Total time to complete Offline data collection: (39060) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 392) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x703d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 199 051 Pre-fail Always - 20 3 Spin_Up_Time 0x0027 179 178 021 Pre-fail Always - 6016 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 52 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 071 071 000 Old_age Always - 21476 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 52 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 48 193 Load_Cycle_Count 0x0032 149 149 000 Old_age Always - 154814 194 Temperature_Celsius 0x0022 116 115 000 Old_age Always - 34 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 2 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 90% 21476 281930288 # 2 Conveyance offline Completed: read failure 90% 21474 284286944 # 3 Short offline Completed: read failure 10% 21474 287070240 # 4 Short offline Completed: read failure 10% 21474 287070240 # 5 Extended offline Completed: read failure 90% 21452 281930288 SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

"Completed: read failure" låter ju inte jättelovande, dessutom med olika adresser angivna i LBA_of_first_error

Någonting är nog skumt. Du skulle t.ex. kunna köra tillverkarens testverktyg om du vill försöka luska mer i det.

Annars kanske en ZFS scrub skulle kunna tänkas säga någonting...?

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem
Skrivet av evil penguin:

"Completed: read failure" låter ju inte jättelovande, dessutom med olika adresser angivna i LBA_of_first_error

Någonting är nog skumt. Du skulle t.ex. kunna köra tillverkarens testverktyg om du vill försöka luska mer i det.

Annars kanske en ZFS scrub skulle kunna tänkas säga någonting...?

Först ska man nog se till att backupen är fräsch, så inte andra disken ger sig under tiden också.

Jag hade nog testat att svepa disken helt med DD och fylla med zero och se vad som händer.

Först zero fill sen läsa av den med DD och skicka alla data till null.

Så får man en känsla över vad disken pysslar med sen kanske.

Visa signatur

En del av mina bildlänkar hostas på egen maskin, är bildlänkarna trasiga, ha tålamod.

Permalänk

För en som gör detta för första gången, är det Badblocks man kollar fåliga sektorer med? Har prövat badblocks i TrueNAS shell och fick följande;

/dev/sdb is apparently in use by the system; it's not safe to run badblocks!

Permalänk

Skriva nollor verkade inte fungera så bra heller.
Gjorde ett smart test därefter som visade samma resultat som innan.

Har ett skärmklipp från consolen men det verkar jag inte kunna bifoga här på SC?

Nåväl, det blir väl att beställa två nya diskar och ersätta även den som fungerar. Dessa har 5,5 år på nacken.

Edit; Intressant att 4Tb diskar är billigare än 3Tb.
Är det WD Red Plus med CMR som är way to go fortfarande? Eller finns det andra bra/bättre NAS-diskar?

Permalänk
Medlem

Jag har 2st Seagate IronWolf 4tb 5900rpm i zfs.

De har gått nåra tusen timmar mer än dina..

Tycker de fungerar bra. Tysta och svala. Skulle faktiskt vara bra om de gick några grader varmare i min server faktiskt.

Har inte hört att de skulle ha några problem.

Sen är det ok att byta en disk i taget, fördelen är att du minskar risken att få två diskar med liknande problem från samma tillverkningsbatch

Visa signatur

En del av mina bildlänkar hostas på egen maskin, är bildlänkarna trasiga, ha tålamod.