Unsafe shutdowns ssd

Permalänk

Unsafe shutdowns ssd

I smart har jag fåt en hel del unsafe shutdowns. Är det normalt? Ligger på flera dussin nu. Jag har stängt av fast startup.

Vad är det som är fel? Det är inte första ssdn som har fått en hel del sådana.

Permalänk
Medlem

Hur stänger du av datorn? - inte för att det hjälper nämnvärt mer att om du aldrig stänger av..

Många OS och BIOS gör fel och kollar inte eller koordinerar med SSD/NVMe om den är klar när den fimpar strömmen och då får man då och då sådana tillfällen när SSD höll på något internt just när spänningen försvann.

Du har säkert hört/läst historier varför laptopen/datorn inte startar en morron och all data är försvunnen och det skulle kosta enormt mycket för en dataräddningsfirma att få fram datat igen - och det är av just den orsaken, problemet är att det händer för sällan med fatala haverier för att någon på OS/moderkort eller tillverkarna av flashlagring på konsumentnivå skall bry sig om att göra något åt det då det till 999 av 1000 gånger inte blir något problem...

Med andra ord se till att hålla dina backupper av dina viktiga data på annan media/molnet ofta uppdaterade, det gäller i princip all lagring med flashminnen och det inte har vidtagits extra (kostsamma) steg för att undvika det.

Det fins anledning varför enterprise-versioner av SSD (SATA/SAS) har kondensatorbanker för att klara sig igenom dessa plötsliga ej koordinerade strömavbrott (och även externa USB-diskar som Samsung T7 med jättebanken kondensatorer för att det inte skall bli fel om USB-sladden glappar på strömsidan eller rycks ut plötsligt utan förvarning)

Permalänk
Skrivet av xxargs:

Hur stänger du av datorn? - inte för att det hjälper nämnvärt mer att om du aldrig stänger av..

Många OS och BIOS gör fel och kollar inte eller koordinerar med SSD/NVMe om den är klar när den fimpar strömmen och då får man då och då sådana tillfällen när SSD höll på något internt just när spänningen försvann.

Du har säkert hört/läst historier varför laptopen/datorn inte startar en morron och all data är försvunnen och det skulle kosta enormt mycket för en dataräddningsfirma att få fram datat igen - och det är av just den orsaken, problemet är att det händer för sällan med fatala haverier för att någon på OS/moderkort eller tillverkarna av flashlagring på konsumentnivå skall bry sig om att göra något åt det då det till 999 av 1000 gånger inte blir något problem...

Med andra ord se till att hålla dina backupper av dina viktiga data på annan media/molnet ofta uppdaterade, det gäller i princip all lagring med flashminnen och det inte har vidtagits extra (kostsamma) steg för att undvika det.

Det fins anledning varför enterprise-versioner av SSD (SATA/SAS) har kondensatorbanker för att klara sig igenom dessa plötsliga ej koordinerade strömavbrott (och även externa USB-diskar som Samsung T7 med jättebanken kondensatorer för att det inte skall bli fel om USB-sladden glappar på strömsidan eller rycks ut plötsligt utan förvarning)

Kör stationär dator. Jag stänger av med powerknappen på chassit. Jag använder inte sleep mode andra S* lägen varken i BIOS eller i Windows.

Permalänk
Skrivet av Dinkefing:

Kör stationär dator. Jag stänger av med powerknappen på chassit. Jag använder inte sleep mode andra S* lägen varken i BIOS eller i Windows.

använd knappen i startmenyn för att stänga av.

alternativt i komandotolken

shutdown.exe /s

stänger ner systemet.

att hålla in knappen på shassit bara bryter ju strömmen så inte konstigt att den spottar ur sig felkoder om att den inte stängt ner korrekt.

Visa signatur

ASUS B550-f-Gaming, R9 5800X3D, HyperX 3200Mhz cl16 128Gb ram, rtx 3070ti.
[Lista] De bästa gratisprogrammen för Windows
[Diskussion] De bästa gratisprogrammen för Windows

Permalänk
Skrivet av Rouge of Darkness:

använd knappen i startmenyn för att stänga av.

https://i.imgur.com/HXcFepd.png

alternativt i komandotolken

shutdown.exe /s

stänger ner systemet.

att hålla in knappen på shassit bara bryter ju strömmen så inte konstigt att den spottar ur sig felkoder om att den inte stängt ner korrekt.

Jag får ursäkta! Skrev fel i förra inlägget. Jag stänger givetvis av genom att använda Windows. Stänga av. Jag startar däremot datorn med powerknappen.

Permalänk
Medlem
Skrivet av Rouge of Darkness:

använd knappen i startmenyn för att stänga av.

https://i.imgur.com/HXcFepd.png

alternativt i komandotolken

shutdown.exe /s

stänger ner systemet.

att hålla in knappen på shassit bara bryter ju strömmen så inte konstigt att den spottar ur sig felkoder om att den inte stängt ner korrekt.

Ett enkelt tryck på powerknappen i windows är standard att göra samma sak som att gå på start->stäng av.
Hen skrev aldrig att hen höll in knappen. Men du har helt rätt att man inte ska hålla inne knappen. Men går utmärkt att stänga av med ett enkelt tryck, det skickar ett normalt "stäng av datorn" kommando till windows

Sen om man som jag har barn så kan man stänga av så knappen inte gör nånting.
Eller ändra så den försätter datorn i viloläge...men det är ju bara dumt

Man kan välja vad som ska hända när man trycker på strömbrytaren.
-Gör ingenting
-Strömsparläge
-Stäng av
-Stäng av skärmen

Visa signatur

5700x3D | RTX 3080 | 2 TB M.2 | 32 GB RAM

Permalänk
Medlem
Skrivet av Dinkefing:

I smart har jag fåt en hel del unsafe shutdowns. Är det normalt? Ligger på flera dussin nu. Jag har stängt av fast startup.

Vad är det som är fel? Det är inte första ssdn som har fått en hel del sådana.

Låter som att nätaggregatet inte mår bra. speciellt om det inträffat på flera diskar, men finns flera alternativ också.

Kolla att elkablar sitter rätt, att inte I/O-panelen har jordfel (du upptäcker det när du tar på en metalldel av chassit och känner ström när du tar på en usb-kontakt i I/O-panelen) och att instickskort är helt insatta.

Ett annat alternativ är att moderkortet är så tungt belastat av en fläkt att det böjs och kommer i kontakt med chassit på fel ställen (jordfel). Det här ger vanligen datafel, men kan även ge skumma uttryck som inte direkt kan tolkas som förstörd data. Detta är svårtolkat och man behöver ofta gå igenom komponent för komponent. Att montera om och installera om kan ofta lösa sådana här problem.

Det vanligaste misstaget man gör när data har förstörts på grund av jordfel som inträffat på grund av kontakt med chassi / dålig kabel etc. är att man bara monterar om datorn. Detta tar bort felet men redan korrumperad data återställs inte. Beroende på hur data har ändras och hur mycket och vilken fil ger väldigt olika resultat. Här behöver man ofta rensa diskarna och skriva om alla filer.

Har själv varit med om ett chassi som hade "för tung" kylare. vilket gjorde att moderkortet vek sig. Detta påverkade data som skrevs, men inte det som lästes. Vilket gjorde att det var svårt att se felet. Efter byte av chassit så var samtliga diskar, även säkerhetskopior fel, eftersom man då läste och skrev korrekt, men data var fel från början.

Visa signatur

Server: Fractal design Define 7 XL | AMD Ryzen 7 5800X 8/16 | ASUS ROG CROSSHAIR VIII DARK HERO | 64GB Corsair @ 3000MHz | ASUS Radeon RX 460 2GB | Samsung 960 PRO 512 GB M.2 | 2x 2TB Samsung 850 PRO SSD | 6x Seagate Ironwolf Pro 10TB
WS: Phantex Entoo Elite | AMD Ryzen Threadripper 1950X 16/32 | ASUS Zenith extreme | 128GB G.Skill @ 2400MHz | ASUS Radeon HD7970 | 3x 2TB Samsung 960PRO M.2 | 6x Seagate Ironwolf Pro 10 TB
NEC PA301W 30" @ 2560x1600 | Linux Mint 21.3 Cinnamon

Permalänk
Medlem
Skrivet av OldComputer:

.
.
.
Har själv varit med om ett chassi som hade "för tung" kylare. vilket gjorde att moderkortet vek sig. Detta påverkade data som skrevs, men inte det som lästes. Vilket gjorde att det var svårt att se felet. Efter byte av chassit så var samtliga diskar, även säkerhetskopior fel, eftersom man då läste och skrev korrekt, men data var fel från början.

Intressant problem och jag funderat på hur fasen kunde det ske - både SATA och PCIe använder checksummor i sin överföring och något där borde ha reagerat tycker jag.

Nu vet jag inte vilken OS eller filsystem, men är det NTFS så fins det absolut inget alls som kan hinta om data blev felskrivet, men kör man filsystem som BTRFS och ZFS så hade problemen förmodligen upptäckts när man återläser den skrivna datat, då all data och metadata har checksumma , ext4 kanske hade reagerat på om det skulle bli fel på metadatat för filerna då de har en checksumma på den delen men inte på själva datamängden.

i windows är det bara ReFS som har möjlighet med integritetskontroll på metadata och data - om det är påslaget vill säga, ofta är det inte av prestandaskäl för de få som fortfarande använder det.

Permalänk
Medlem
Skrivet av xxargs:

Intressant problem och jag funderat på hur fasen kunde det ske - både SATA och PCIe använder checksummor i sin överföring och något där borde ha reagerat tycker jag.

Nu vet jag inte vilken OS eller filsystem, men är det NTFS så fins det absolut inget alls som kan hinta om data blev felskrivet, men kör man filsystem som BTRFS och ZFS så hade problemen förmodligen upptäckts när man återläser den skrivna datat, då all data och metadata har checksumma , ext4 kanske hade reagerat på om det skulle bli fel på metadatat för filerna då de har en checksumma på den delen men inte på själva datamängden.

i windows är det bara ReFS som har möjlighet med integritetskontroll på metadata och data - om det är påslaget vill säga, ofta är det inte av prestandaskäl för de få som fortfarande använder det.

Det upptäcktes av Linux och filsystemen (BTRFS) hamnade i skrivskyddat läge. Felet försvann när jag monterade om moderkortet i nytt chassi. I alla fall enligt tester av RAM som då godkändes av memtest86 i 48 timmars test. (skrek innan konstant). Vilken typ av fel är svårt att avgöra men sista TB på alla hårddiskar var rena bajset vilket utspritt på 6 diskar med minst 3 uppsättningar så vid en återställning kunde tester garantera att 99% av filerna var intakta, förutsatt att dom inte hade exakt samma fel. Sedan finns en annan maskin med exakt samma innehåll också. Man fick blåsa diskarna så man var säker på att innehållet var rent.

Litar dock inte på det moderkortet längre, i alla fall inte skarpt.

Visa signatur

Server: Fractal design Define 7 XL | AMD Ryzen 7 5800X 8/16 | ASUS ROG CROSSHAIR VIII DARK HERO | 64GB Corsair @ 3000MHz | ASUS Radeon RX 460 2GB | Samsung 960 PRO 512 GB M.2 | 2x 2TB Samsung 850 PRO SSD | 6x Seagate Ironwolf Pro 10TB
WS: Phantex Entoo Elite | AMD Ryzen Threadripper 1950X 16/32 | ASUS Zenith extreme | 128GB G.Skill @ 2400MHz | ASUS Radeon HD7970 | 3x 2TB Samsung 960PRO M.2 | 6x Seagate Ironwolf Pro 10 TB
NEC PA301W 30" @ 2560x1600 | Linux Mint 21.3 Cinnamon

Permalänk
Medlem

Jag har haft minnesfel som har åstadkommit den typen av problem - dvs. fel som kunnat hittas med memtest86 - en del konstanta, andra fladdrar då och då, och det var samma här att det var BTRFS vid läsning som sa ifrån, som hintade om att det var ett bekymmer.

Skadade bara ett fåtal filer av backuptyp så ingen skada skedd, men utan detta så hade det kunna pågå lång tid utan att man förstått att filerna skadats och fått korruption under skrivning - typ först när man återläste komprimerade filer och det stanna halvvägs igenom med CRC-fel inom arkivet - då de klassiska filsystemen har ingen upptäcktsförmåga alls när sådant sker.

Läxan av det är när man har man lagring av mer känslig slag så kör man det på servrar som använder ECC-minne, då jag tror att inte ens ZFS klarar sig helskinnat om själva ramminnet börja krångla, men det viktiga med dessa filsystem (ZFS, BTRFS) är att de börja skrika när det blir fel, dock inte medans datat skrivs, utan först senare när det läses. Så är det kritiskt så bör man också köra en 'scrub' ganska ofta för att just läsa strukturerna och finna de som inte längre stämmer överens med sektorinnehållet och dess checksumma. Det är också hemska fel då om de tex. synkas mot molntjänst så blir filerna i molntjänsten också pajade.

Med din beskrivning tror jag huvudproblemet för dig inte var överföringarna mot diskarna som var problemet - utan att dina ramminnen började paja och korrupera datat medans du skrev den trasig TB-delen av filerna.

Hade det varit överföringsstrul på SATA/PCIe-snörena så hade du förmodligen fått reda på det, och om felet hade passerat obemärkt i överföringen så pratar vi om 1-2 bitfel per år vid kontinuerlig körning på max fart över SATA-bussen med den CRC32 som används där, med CRC32C som polynom som tex. SAS-bussen använder så tar det 1000 gånger längre tid mellan tillfällena, förmodligen något liknande på PCIe-bussen (har inte koll på vilken CRC-checksummepolynom eller hur många bit de använder där).

Metadatat på ext4, all data på BTRFS och CRC på SAS-bussen använder CRC32C som checksumma-polynom, medans ZFS har länge använt (vet inte vad som är default idag, men förhoppningsvis något annat än) fletcher som algoritm, vilket är helt hål i huvudet om avsikten var att fånga fel som missas av CRC32 som används av SATA-bussen.

Som analogi med checksummealgoritm som ett filterpapper som fångar skräp i ett flöde är CRC32 som ett kaffefilter i att fånga små partiklar, medans fletcher är ett glest fisknät - medans CRC32C är filter i klass för renrum inom IC-tillverkning... fletcher kan ju teoretiskt fånga ett fel som CRC32 i SATA-bussen missar, men då blir det att vänta lääääääänge...

Permalänk
Skrivet av xxargs:

Jag har haft minnesfel som har åstadkommit den typen av problem - dvs. fel som kunnat hittas med memtest86 - en del konstanta, andra fladdrar då och då, och det var samma här att det var BTRFS vid läsning som sa ifrån, som hintade om att det var ett bekymmer.

Skadade bara ett fåtal filer av backuptyp så ingen skada skedd, men utan detta så hade det kunna pågå lång tid utan att man förstått att filerna skadats och fått korruption under skrivning - typ först när man återläste komprimerade filer och det stanna halvvägs igenom med CRC-fel inom arkivet - då de klassiska filsystemen har ingen upptäcktsförmåga alls när sådant sker.

Läxan av det är när man har man lagring av mer känslig slag så kör man det på servrar som använder ECC-minne, då jag tror att inte ens ZFS klarar sig helskinnat om själva ramminnet börja krångla, men det viktiga med dessa filsystem (ZFS, BTRFS) är att de börja skrika när det blir fel, dock inte medans datat skrivs, utan först senare när det läses. Så är det kritiskt så bör man också köra en 'scrub' ganska ofta för att just läsa strukturerna och finna de som inte längre stämmer överens med sektorinnehållet och dess checksumma. Det är också hemska fel då om de tex. synkas mot molntjänst så blir filerna i molntjänsten också pajade.

Med din beskrivning tror jag huvudproblemet för dig inte var överföringarna mot diskarna som var problemet - utan att dina ramminnen började paja och korrupera datat medans du skrev den trasig TB-delen av filerna.

Hade det varit överföringsstrul på SATA/PCIe-snörena så hade du förmodligen fått reda på det, och om felet hade passerat obemärkt i överföringen så pratar vi om 1-2 bitfel per år vid kontinuerlig körning på max fart över SATA-bussen med den CRC32 som används där, med CRC32C som polynom som tex. SAS-bussen använder så tar det 1000 gånger längre tid mellan tillfällena, förmodligen något liknande på PCIe-bussen (har inte koll på vilken CRC-checksummepolynom eller hur många bit de använder där).

Metadatat på ext4, all data på BTRFS och CRC på SAS-bussen använder CRC32C som checksumma-polynom, medans ZFS har länge använt (vet inte vad som är default idag, men förhoppningsvis något annat än) fletcher som algoritm, vilket är helt hål i huvudet om avsikten var att fånga fel som missas av CRC32 som används av SATA-bussen.

Som analogi med checksummealgoritm som ett filterpapper som fångar skräp i ett flöde är CRC32 som ett kaffefilter i att fånga små partiklar, medans fletcher är ett glest fisknät - medans CRC32C är filter i klass för renrum inom IC-tillverkning... fletcher kan ju teoretiskt fånga ett fel som CRC32 i SATA-bussen missar, men då blir det att vänta lääääääänge...

Är det det som orsakar alla mina problem? Att jag kör NTFS? För att återkomma till min ursprungsfråga.