Vilken SSD som cache till raid?

Permalänk

Vilken SSD som cache till raid?

Hej!

Hoppas tråden hamnar rätt nu.

Bakgrund; Har precis slopat mina HW-raid kort till förmån för 2x9211-8i IT och BTRFS/ZFS. Alla överföringar jag pratar om är mellan två VMar med vmxnet3/10gbit.

Setup: Hårdvaran i signaturen, ESXi 6.5 som host-os, två VMar med varsitt kontrollerkort (9211-8i) i passthrough + vmxnet3 + mtu9000 + vSwitch med mtu 9000. VMarna har jag länge labbat med olika os och problemet/resultatet har varit detsamma, men med FreeNAS som sämst resultat. Kör "main-storage VM" på 5x4TB WD Red i raid6 eller motsvarande och "backup-storage VM" på 8x2TB WD Green i raid5/6 eller motsvarande. Båda VMarna har 4 x vCPU och 8-16GB RAM.

Problemet: Jämfört med HW-raid6/5 så är mjukvaruraid olidligt långsamt i denna setupen med enbart mekaniska diskar.
Problemet är alltså att med HBA och mjukvaruraid så är raiderna/poolerna väldigt långsamma mot vad dem kan vara. Får ut 150MB/s ur dem vid stora överföringar. Med FreeNAS så landar det på ca 50MB/s...

Lösning: SSD-cache/slog? Men vilken? Vet att Intels DC S3700 är bland dem bästa SSDerna man kan ha som cache/slog men svårt att hitta några till ett vettigt pris. Har en Samsung 850 Pro 256GB, skulle den skrivas sönder alldeles för fort?

Tacksam för hjälp!

Edit: Testerna genomförs genom att kopiera allt innehåll från "main" till "backup" via nfs4. Ser spikar i trafiken som når ca 600MB/s, men dem spikarna är så pass kortvariga att dem inte registreras i överföringshastigheten. Den hastighet jag ser i kopieringen är 130-140MB/s i bästa fall.

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk

Har jag missat någon info som behövs så får ni hojta till

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk
Medlem

Du säger att du har en Samsung EVO kör på den, varför inte? Det ska ju vara en Cache disk när den pajar så pajar den.

Visa signatur

Supermicro X9SRI-F | Xeon E5-2690 v2 | 128GB 1600MHz RDIMM | Dell Perc H200 (9211-8i IT) | Windows Server 2016 DataCenter med Hyper-V

Permalänk
Avstängd

@BerraBing:

Om du kör med NFS måste du ha en slog disk.

Jag har själv skrivit till deras forum då jag använder själv FreeNAS som ett SAN med NFS3 så skriver dom att man måste ha en slog för att få bättre prestanda.

I morgon ska jag installera min slog disk.

Edit: Dom skriv även att man ska köra Raid 10 om man ska hålla på med vm för att öka iops.

Visa signatur

Man är inte dum för att man har stavproblem.
Läs mer om min synfel Visual Snow
Om mig ----> #16970666

Permalänk
Medlem

Intel Optane 900p 280 GB hade jag tänkt köpa som SLOG device till mitt kommande ZFS bygge, inte direkt billig, men då den har så ruggigt hög endurance vågar jag köra med bara en.
Gjorts lite jämförelser här : https://www.servethehome.com/exploring-best-zfs-zil-slog-ssd-intel-optane-nand/ och det ser ut som den spöar en P3700 som ju är en riktigt bra disk.

Sedan kan man ju labba med L2ARC SSDer också, men där kan man nog använda sig av något billigare då det bara är läscache som inte spelar så stor roll om den går sönder.

Permalänk
Skrivet av Calby:

Du säger att du har en Samsung EVO kör på den, varför inte? Det ska ju vara en Cache disk när den pajar så pajar den.

Jo det är sant, men är ju ingen höjdare om man skriver sönder den i förtid... Använder den just nu till annat.

Skickades från m.sweclockers.com

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk

Tack alla som svarat!
Men en sak, jag har inte sagt att jag ska köra freenas. Så häng inte upp er på att jag skrev slog. Om det nu inte kallas slog i alla OS?
Troligtvis blir det btrfs i någon form då jag inte gillar freenas.

Så frågan gäller en cache-disk till en raid? oavsett om det är zfs eller btrfs...
Och då ställde jag frågan om man skriver sönder en 850 Pro?

Skickades från m.sweclockers.com

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk
Skrivet av ddelin:

Intel Optane 900p 280 GB hade jag tänkt köpa som SLOG device till mitt kommande ZFS bygge, inte direkt billig, men då den har så ruggigt hög endurance vågar jag köra med bara en.
Gjorts lite jämförelser här : https://www.servethehome.com/exploring-best-zfs-zil-slog-ssd-intel-optane-nand/ och det ser ut som den spöar en P3700 som ju är en riktigt bra disk.

Sedan kan man ju labba med L2ARC SSDer också, men där kan man nog använda sig av något billigare då det bara är läscache som inte spelar så stor roll om den går sönder.

Har inte kollat på den disken, men den lär ju kosta en bra bit mer än en S3700..?
Blir troligtvis inte freenas för min del dock då jag inte gillar det utan tycker bättre om btrfs.

Skickades från m.sweclockers.com

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk
Avstängd

Skulle köra på en Crucial MX500 1TB eller 2 TB, håller för 360 respektive 720 TBW.

Du måste själv lista ut hur mycket som kommer skrivas till disken per dag så kan du räkna ut livslängden, men kom ihåg att TBW är väldigt konservativa siffror

Visa signatur

2600x||16GB @3000Mhz 14-14-10-14-32-46||Vega 64||1TB SSD||HX1000 plat||FD R6 TG vit||CH VII||H100i V2||SST-ARM22SC||SG 32" QHD 144 Hz VA|| https://folding.extremeoverclocking.com/team_summary.php?s=&t...

Permalänk

BTRFS har inte stöd för motsvarande ZLOG eller L2ARC. Du har inte testat ZFS på ren free/openBSD eller någon linux-dist som har ZFS i repos?

Visa signatur

Citera så hittar jag tillbaka!

Permalänk
Medlem

Finns det någon direkt anledning till att du byter från hårdvaruraid med bättre prestanda? Och vilken prestanda är du ute efter? Finns det någon inställning för motsvarande write through cache i Freenas? Skulle tro att en cachedisk endast kommer till nytta om du har många användare samt läser och skriver mer data än du har RAM.

Permalänk
Medlem
Skrivet av BerraBing:

Har inte kollat på den disken, men den lär ju kosta en bra bit mer än en S3700..?
Blir troligtvis inte freenas för min del dock då jag inte gillar det utan tycker bättre om btrfs.

Skickades från m.sweclockers.com

Ja den ligger på strax under 4000 kr vilket ju är dyrare än dom minsta S3700 diskarna, men prestanda och write endurance är ju i en annan liga också.
Btrfs har ju som sagts tidigare inte stöd för log/cache diskar, och om det är lika långsamt som ZFS när du kör NFS med VM:ar på blir det nog inte så kul, och då det också är COW är det väl stor risk för det, men jag har inte testat själv.

EDIT: Såg nu att även S3700:an har riktigt bra uthållighet, 1,8PBW för 100GB modellen, hade för mig att man var tvungen att gå på P3700 om man skulle få så hög uthållighet.

Permalänk
Medlem
Skrivet av BerraBing:

Hej!

Hoppas tråden hamnar rätt nu.

Bakgrund; Har precis slopat mina HW-raid kort till förmån för 2x9211-8i IT och BTRFS/ZFS. Alla överföringar jag pratar om är mellan två VMar med vmxnet3/10gbit.

Setup: Hårdvaran i signaturen, ESXi 6.5 som host-os, två VMar med varsitt kontrollerkort (9211-8i) i passthrough + vmxnet3 + mtu9000 + vSwitch med mtu 9000. VMarna har jag länge labbat med olika os och problemet/resultatet har varit detsamma, men med FreeNAS som sämst resultat. Kör "main-storage VM" på 5x4TB WD Red i raid6 eller motsvarande och "backup-storage VM" på 8x2TB WD Green i raid5/6 eller motsvarande. Båda VMarna har 4 x vCPU och 8-16GB RAM.

Problemet: Jämfört med HW-raid6/5 så är mjukvaruraid olidligt långsamt i denna setupen med enbart mekaniska diskar.
Problemet är alltså att med HBA och mjukvaruraid så är raiderna/poolerna väldigt långsamma mot vad dem kan vara. Får ut 150MB/s ur dem vid stora överföringar. Med FreeNAS så landar det på ca 50MB/s...

Lösning: SSD-cache/slog? Men vilken? Vet att Intels DC S3700 är bland dem bästa SSDerna man kan ha som cache/slog men svårt att hitta några till ett vettigt pris. Har en Samsung 850 Pro 256GB, skulle den skrivas sönder alldeles för fort?

Tacksam för hjälp!

Edit: Testerna genomförs genom att kopiera allt innehåll från "main" till "backup" via nfs4. Ser spikar i trafiken som når ca 600MB/s, men dem spikarna är så pass kortvariga att dem inte registreras i överföringshastigheten. Den hastighet jag ser i kopieringen är 130-140MB/s i bästa fall.

840 PRO ska klara iaf 700-800 TB data innan den ens får slitna sektorer, och i ett endurance test pallade den med hela 2,4PB skriven data innan den la av. Så den klarar en hel del...

Det är dessutom MLC NAND, så du har enklare att få optimal nivå. Kan du så begränsa dens "storlek" till ca 50-75% av disken (128-192GB) som är optimalt för MLC, så dens bakgrunds algoritmer har gott om celler att flytta runt, så hålls WAf under kontroll.

Så jag skulle säga, eftersom du har en 840 PRO liggande, använd den.

Skulle du behöva en ersättare, titta på 850 PRO, då den ska också klara stora mängder skrivningar. Alt så titta på beg marknaden. Ibland finns S3700 eller Samsungs SM-diskar till salu, och de har näsan alltid enormt med liv kvar (då de är svåra att slita ut). 850 PRO har samma NAND som dessa, men sämre binnat bara. Men de klarar PB efter PB med skrivning. SM863 tex, 960GB disk har garantinivå på 6,16TB...

Jag hade dock inte satt någon TLC disk till detta jobb... så inga EVO, inga MX300/MX500, ingen Intel 545s, WD 3D SSD eller liknande. TLC kräver större OP för att jobba effektivt (66%+), samt de klarar inte av så hårt jobb. Du vill ha en MLC disk... minst.

@Esseboy MX500 är uselt alt. TLC NAND gör att du får enormt med slitage utan TRIM optimerad skrivning. NANDet klarar dessa TBW för klientbruk, inte cache bruk. Och för att kompensera kommer du från en 512GB disk bara kunna använda ca 170-200GB utrymme, annars kommer du få problem med cellrotation och dykande prestanda. Du behöver en disk utan SLC cache, som kan skriva direkt till MLC NAND för optimal livslängd och prestanda.

Permalänk
Skrivet av Tejprullen:

BTRFS har inte stöd för motsvarande ZLOG eller L2ARC. Du har inte testat ZFS på ren free/openBSD eller någon linux-dist som har ZFS i repos?

Okej, det visste jag inte. Men är nog i störst behov utav skriv-cache, har inte BTRFS stöd för det?
Nej har inte testat ZFS på ren linux-dist än. Inte hittat något som verkar smidigt...

Skrivet av MsSmith:

Finns det någon direkt anledning till att du byter från hårdvaruraid med bättre prestanda? Och vilken prestanda är du ute efter? Finns det någon inställning för motsvarande write through cache i Freenas? Skulle tro att en cachedisk endast kommer till nytta om du har många användare samt läser och skriver mer data än du har RAM.

Ja, framförallt två saker;
Vid HW-ras är det jobbigt med hw-raid + jag vill läsa SMART och all annan info från diskarna.
Bonus är ju att med enkelt HBA så kan man köra många olika spexiga OS.

Jag skulle vilja uppnå något i närheten av 400MB/s som jag fick med HW-raid.

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk
Skrivet av Paddanx:

840 PRO ska klara iaf 700-800 TB data innan den ens får slitna sektorer, och i ett endurance test pallade den med hela 2,4PB skriven data innan den la av. Så den klarar en hel del...

Det är dessutom MLC NAND, så du har enklare att få optimal nivå. Kan du så begränsa dens "storlek" till ca 50-75% av disken (128-192GB) som är optimalt för MLC, så dens bakgrunds algoritmer har gott om celler att flytta runt, så hålls WAf under kontroll.

Så jag skulle säga, eftersom du har en 840 PRO liggande, använd den.

Skulle du behöva en ersättare, titta på 850 PRO, då den ska också klara stora mängder skrivningar. Alt så titta på beg marknaden. Ibland finns S3700 eller Samsungs SM-diskar till salu, och de har näsan alltid enormt med liv kvar (då de är svåra att slita ut). 850 PRO har samma NAND som dessa, men sämre binnat bara. Men de klarar PB efter PB med skrivning. SM863 tex, 960GB disk har garantinivå på 6,16TB...

Jag hade dock inte satt någon TLC disk till detta jobb... så inga EVO, inga MX300/MX500, ingen Intel 545s, WD 3D SSD eller liknande. TLC kräver större OP för att jobba effektivt (66%+), samt de klarar inte av så hårt jobb. Du vill ha en MLC disk... minst.

@Esseboy MX500 är uselt alt. TLC NAND gör att du får enormt med slitage utan TRIM optimerad skrivning. NANDet klarar dessa TBW för klientbruk, inte cache bruk. Och för att kompensera kommer du från en 512GB disk bara kunna använda ca 170-200GB utrymme, annars kommer du få problem med cellrotation och dykande prestanda. Du behöver en disk utan SLC cache, som kan skriva direkt till MLC NAND för optimal livslängd och prestanda.

Hej och tack för utförligt svar!

Det är en 850 Pro jag har som jag kanske kan använda, inte 840 Pro.
Gällande TLC, tack! jag har förstått detta av dina tidigare inlägg här på SC.

Så du tycker att jag kan köra på min 850 Pro utan att vara rädd för att skriva sönder den?

Fick en uppenbarelse idag för övrigt, när jag tänkte efter lite...
Dem överföringarna jag har testat med än så länge har varit på 7.5TB data, finns ju ingen cache som kan öka prestandan på den mängden dara..!
Däremot har jag lärt mig något nytt också idag, med raid5/6 så får man tydligen ingen ökad skrivhastighet bara läshastighet?
Så ska nog först börja med att köra target i raid10 och kolla hastigheterna då...

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk
Medlem
Skrivet av BerraBing:

Ja, framförallt två saker;
Vid HW-ras är det jobbigt med hw-raid + jag vill läsa SMART och all annan info från diskarna.
Bonus är ju att med enkelt HBA så kan man köra många olika spexiga OS.

Jag skulle vilja uppnå något i närheten av 400MB/s som jag fick med HW-raid.

Ja ok, verkar rimligt. Att du inte kommer upp i några 400MB/s förvånar mig dock, det hade jag med min dåvarande rigg som var en AMD Phenom 940 (tror jag den hette) och 8GB ram, tolv diskar i Raidz2.

Permalänk
Skrivet av MsSmith:

Ja ok, verkar rimligt. Att du inte kommer upp i några 400MB/s förvånar mig dock, det hade jag med min dåvarande rigg som var en AMD Phenom 940 (tror jag den hette) och 8GB ram, tolv diskar i Raidz2.

Ja jag fattar ingenting?! 😂
4 xeon-kärnor, 16GB ram, 8 diskar i raid borde ge mer än 140MB/s med regelbundna dippar ner till 30MB/s?
Är det någon inställning i freenas som jag borde ha ändrat?

Nu kommer jag nog inte köra på freenas på main-storage ändå, men kanske på backupen om man kunde bli av med alla problemen där.

Måste kolla upp det där med raid 10 vs 5/6 där jag läst att man inte får högre skrivhastigheter med raid 5/6. Men tyckte jag fick det med mitt hw-raid kort. Blir inte klok på detta...

Skickades från m.sweclockers.com

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk
Medlem
Skrivet av BerraBing:

Ja jag fattar ingenting?! 😂
4 xeon-kärnor, 16GB ram, 8 diskar i raid borde ge mer än 140MB/s med regelbundna dippar ner till 30MB/s?
Är det någon inställning i freenas som jag borde ha ändrat?

Nu kommer jag nog inte köra på freenas på main-storage ändå, men kanske på backupen om man kunde bli av med alla problemen där.

Måste kolla upp det där med raid 10 vs 5/6 där jag läst att man inte får högre skrivhastigheter med raid 5/6. Men tyckte jag fick det med mitt hw-raid kort. Blir inte klok på detta...

Skickades från m.sweclockers.com

Ja 140MB/s är vad en modern vanlig hårddisk kan skriva sekventiellt idag så någon vajsing är det allt. Skrivhastighet generellt är tyngre än läsning, speciellt med roterande paritet, men nog ska det öka tills cpu blir flaskhalsen och inte kan göra beräkningen snabbt nog.

I mitt första inlägg här var jag inne på att du inte behöver en cache så länge du inte accessar mer eller större filer än du har ram. Visade sig att du har testat med en flera TB stor fil vilket så blev en flaskhals. Nämnde även en memory write through inställning som jag inte vet om den finns i Freenas men är en vanlig funktion i hårdvaruraid. Dock är funktionen en riktig mördare för prestanda, kan få 20-40MB/s med den aktiverad men upp mot 450-600MB utan. Värt att kolla om du har något motsvarande i Freenas alternativt i ditt raidkort om du fortfarande använder det för att koppla in diskarna

En länk
https://forums.freenas.org/index.php?threads/zfs-vs-hardware-...

Permalänk
Medlem
Skrivet av BerraBing:

Hej och tack för utförligt svar!

Det är en 850 Pro jag har som jag kanske kan använda, inte 840 Pro.
Gällande TLC, tack! jag har förstått detta av dina tidigare inlägg här på SC.

Så du tycker att jag kan köra på min 850 Pro utan att vara rädd för att skriva sönder den?

Yep, är ganska säker på att det går bra
https://packet.company/blog/
Den testade disken här höll mer än 40x sin garantinivå. Samsung har medvetet satt den lågt för att inte företag ska köpa den över enterprise versionerna. Skalar man ner till din 256GB disk pratar vi ändå över 1,5PB skrivning.

Finns ingen poäng att ha en SSD och inte använda den... (säger jag som har alldeles för många på hyllan).

Skrivet av BerraBing:

Fick en uppenbarelse idag för övrigt, när jag tänkte efter lite...
Dem överföringarna jag har testat med än så länge har varit på 7.5TB data, finns ju ingen cache som kan öka prestandan på den mängden dara..!
Däremot har jag lärt mig något nytt också idag, med raid5/6 så får man tydligen ingen ökad skrivhastighet bara läshastighet?
Så ska nog först börja med att köra target i raid10 och kolla hastigheterna då...

Cache borde kunna öka mängden prestanda på även stor mängd data, om den kan då slumpmässig IO att blir mer mot sekventiell. HDDs största problem är ju just IO prestanda, något en cache av denna typ inte borde ha så stora problem med. Med dina 140-> 30MB/s låter det som att index skrivs till en disk och blir flaskhalsen... eller så är någon skrivcache inte aktiverad (så den skriver direkt till disk, och inte till RAM), eller så gör du en typ av överföring som just kräver att den verifierar att det är skrivet till disk, typ som Write-Through.

Dock håller jag med att vill du ha prestanda är RAID 10 liknande lösning klart att föredra över RAID 5/6.
https://www.storagecraft.com/blog/raid-performance/
Här kan du läsa formlerna till RAID 5/6 och 10, så ser du varför prestandan blir sämre.
"As you can see, parity writes cause a very rapid decrease in write performance and a noticeable drop in blended performance."

Permalänk
Medlem
Skrivet av BerraBing:

Ja jag fattar ingenting?! 😂
4 xeon-kärnor, 16GB ram, 8 diskar i raid borde ge mer än 140MB/s med regelbundna dippar ner till 30MB/s?
Är det någon inställning i freenas som jag borde ha ändrat?

Nu kommer jag nog inte köra på freenas på main-storage ändå, men kanske på backupen om man kunde bli av med alla problemen där.

Måste kolla upp det där med raid 10 vs 5/6 där jag läst att man inte får högre skrivhastigheter med raid 5/6. Men tyckte jag fick det med mitt hw-raid kort. Blir inte klok på detta...

Skickades från m.sweclockers.com

Har ju utan problem 7-800MB/s med mitt kort i raid5.
Testa en vanlig dist, sätt upp raid via mdadm och kolla prestandan, är det mkt bättre så skicka freenas åt helvete

Visa signatur

WS: R7 5800X, 32GB, Suprim X 3080, Acer X38P+Acer XB271HU
FS: HPE ML110 Gen10 Xeon Silver, Qnap TS-h973AX ~100TB
NW: Fortigate, Ruckus, Zyxel XS1930HP 10Gb

Permalänk
Medlem

Om man skall ha en SSD för att speeda upp VM trafik över NFS är det också viktigt att kolla vad SSD:n har för prestanda när man kör små synkrona skrivningar, dom flesta konsument SSDer har inte kondensatorer för att hålla cachat data vid strömavbrott, och cachar därför inte synkrona skrivningar, vilket gör det långsamt, ibland sämre än en HDD.
Detta gör att det kan vara extremt stor skillnad mellan olika diskar i detta scenario.

Här är en (gammal) artikel ang. att välja SSD som journaldisk för Ceph, vilket också är helt synkrona skrivningar : https://www.sebastien-han.fr/blog/2014/10/10/ceph-how-to-test-if-your-ssd-is-suitable-as-a-journal-device/
Som synes är det rätt många diskar som packar ihop helt om man utsätter dom för den typen av last.

Permalänk
Skrivet av BerraBing:

Okej, det visste jag inte. Men är nog i störst behov utav skriv-cache, har inte BTRFS stöd för det?

Bara till RAM. Däremot har Linux lite andra mekanismer (bcache, lvmcache och flashcache) som kan användas tillsammans med btrfs.
Vilken mekanism som är bäst och hur den ska implementeras beror på en massa saker.
flashcache och lvmcache är byggda för att hålla så hög tillgänglighet som möjligt; det kommer att vara möjligt att läsa och skriva till lagringen även om cache-enheten (SSDn, typiskt) pajar, men data som inte är skrivet till bakomliggande lager är borta.

Förutom hållbarhetssiffror på SSDn (årlig felprocent, förväntad mängd skriven data etc) kan det vara bra att kolla på hur SSDn beter sig när den fallerar. Vissa slutar helt att svara, andra skickar felmeddelanden vid läsning och skrivning medan ytterligare andra tillåter läsning men returnerar felmeddelanden vid skrivning (om det underliggande felet tillåter det, förstås).

Permalänk

Tack alla för svar!

Skrivet av MsSmith:

Ja 140MB/s är vad en modern vanlig hårddisk kan skriva sekventiellt idag så någon vajsing är det allt. Skrivhastighet generellt är tyngre än läsning, speciellt med roterande paritet, men nog ska det öka tills cpu blir flaskhalsen och inte kan göra beräkningen snabbt nog.

I mitt första inlägg här var jag inne på att du inte behöver en cache så länge du inte accessar mer eller större filer än du har ram. Visade sig att du har testat med en flera TB stor fil vilket så blev en flaskhals. Nämnde även en memory write through inställning som jag inte vet om den finns i Freenas men är en vanlig funktion i hårdvaruraid. Dock är funktionen en riktig mördare för prestanda, kan få 20-40MB/s med den aktiverad men upp mot 450-600MB utan. Värt att kolla om du har något motsvarande i Freenas alternativt i ditt raidkort om du fortfarande använder det för att koppla in diskarna

En länk
https://forums.freenas.org/index.php?threads/zfs-vs-hardware-...

Exakt min tanke; en modern disk ska ensam klara över 100MB/s i skrivhastighet...
CPU-lasten har inte varit i närheten av att bli en flaskhals.
Nej, jag menade inte EN fil på 7,5TB som jag testat med. Utan en datamängd på 7,5TB med blandade filer från några få KB till några typ 40GB.
Det med write through i freenas eller BTRFS har jag ingen aning om så det får gärna någon annan svara på

Skrivet av Paddanx:

Yep, är ganska säker på att det går bra
https://packet.company/blog/
Den testade disken här höll mer än 40x sin garantinivå. Samsung har medvetet satt den lågt för att inte företag ska köpa den över enterprise versionerna. Skalar man ner till din 256GB disk pratar vi ändå över 1,5PB skrivning.

Finns ingen poäng att ha en SSD och inte använda den... (säger jag som har alldeles för många på hyllan).

Cache borde kunna öka mängden prestanda på även stor mängd data, om den kan då slumpmässig IO att blir mer mot sekventiell. HDDs största problem är ju just IO prestanda, något en cache av denna typ inte borde ha så stora problem med. Med dina 140-> 30MB/s låter det som att index skrivs till en disk och blir flaskhalsen... eller så är någon skrivcache inte aktiverad (så den skriver direkt till disk, och inte till RAM), eller så gör du en typ av överföring som just kräver att den verifierar att det är skrivet till disk, typ som Write-Through.

Dock håller jag med att vill du ha prestanda är RAID 10 liknande lösning klart att föredra över RAID 5/6.
https://www.storagecraft.com/blog/raid-performance/
Här kan du läsa formlerna till RAID 5/6 och 10, så ser du varför prestandan blir sämre.
"As you can see, parity writes cause a very rapid decrease in write performance and a noticeable drop in blended performance."

Tackar!
SSDn ligger inte oanvänd, den används men kan kanske komma till bättre användning.
Du har säkert rätt gällande att en SSD kan få skrivningarna mer sekventiella. Tål att testas det där!
Ja precis, känns som att jag missat någon jätteviktig inställning i dem olika OSen eftersom jag får så usel prestanda??
RAM fylls till 90% av cache vid skrivningar iaf.

Ska man köra med "async" eller "sync" på poolen? Vet du eller någon annan det?

Ja, mitt nästa test till helgen blir att testa med raid10. Helt klart! dock har jag för närvarande bara 5x4TB så det blir en klen raid10 men ändå.

Skrivet av _niko_:

Har ju utan problem 7-800MB/s med mitt kort i raid5.
Testa en vanlig dist, sätt upp raid via mdadm och kolla prestandan, är det mkt bättre så skicka freenas åt helvete

Har du 9211-8i eller HW-raid? Kör du raid via mdadm? vilket filsystem?
Många frågor efter ditt inlägg

Skrivet av ddelin:

Om man skall ha en SSD för att speeda upp VM trafik över NFS är det också viktigt att kolla vad SSD:n har för prestanda när man kör små synkrona skrivningar, dom flesta konsument SSDer har inte kondensatorer för att hålla cachat data vid strömavbrott, och cachar därför inte synkrona skrivningar, vilket gör det långsamt, ibland sämre än en HDD.
Detta gör att det kan vara extremt stor skillnad mellan olika diskar i detta scenario.

Här är en (gammal) artikel ang. att välja SSD som journaldisk för Ceph, vilket också är helt synkrona skrivningar : https://www.sebastien-han.fr/blog/2014/10/10/ceph-how-to-test-if-your-ssd-is-suitable-as-a-journal-device/
Som synes är det rätt många diskar som packar ihop helt om man utsätter dom för den typen av last.

Nu pratar jag inte om VM-trafik vilket jag skrev i första posten men tack för input. Jag vet om detta

Skrivet av Hieronymus Bosch:

Bara till RAM. Däremot har Linux lite andra mekanismer (bcache, lvmcache och flashcache) som kan användas tillsammans med btrfs.
Vilken mekanism som är bäst och hur den ska implementeras beror på en massa saker.
flashcache och lvmcache är byggda för att hålla så hög tillgänglighet som möjligt; det kommer att vara möjligt att läsa och skriva till lagringen även om cache-enheten (SSDn, typiskt) pajar, men data som inte är skrivet till bakomliggande lager är borta.

Förutom hållbarhetssiffror på SSDn (årlig felprocent, förväntad mängd skriven data etc) kan det vara bra att kolla på hur SSDn beter sig när den fallerar. Vissa slutar helt att svara, andra skickar felmeddelanden vid läsning och skrivning medan ytterligare andra tillåter läsning men returnerar felmeddelanden vid skrivning (om det underliggande felet tillåter det, förstås).

Aah okej, så om jag ska köra BTRFS så kan jag släppa tanken om SSD-skrivcache alltså?
Dem andra grejerna du skriver om har jag nog tyvärr inte tid att testa men tack för infon!

Frågor till alla;
Ska man köra med "async" eller "sync" på poolen?
Någon annan inställning jag kan ha missat?
Mina 9211-8i kan väl knappats vara flaskhalsar till mekaniska diskar?

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk
Skrivet av BerraBing:

Aah okej, så om jag ska köra BTRFS så kan jag släppa tanken om SSD-skrivcache alltså?

Nej, inte om du tänker köra btrfs på en Linux. Linux har (sedan v3.9, om jag minns rätt) lvmcache, som låter dig bygga en cachad logisk volym av en långsam logisk volym och en snabb. Ovanpå den cachade logiska volymen kan du sedan bygga ett btrfs-filsystem.

Permalänk
Medlem
Skrivet av BerraBing:

Tack alla för svar!

Exakt min tanke; en modern disk ska ensam klara över 100MB/s i skrivhastighet...
CPU-lasten har inte varit i närheten av att bli en flaskhals.
Nej, jag menade inte EN fil på 7,5TB som jag testat med. Utan en datamängd på 7,5TB med blandade filer från några få KB till några typ 40GB.
Det med write through i freenas eller BTRFS har jag ingen aning om så det får gärna någon annan svara på

Frågor till alla;
Ska man köra med "async" eller "sync" på poolen?
Någon annan inställning jag kan ha missat?
Mina 9211-8i kan väl knappats vara flaskhalsar till mekaniska diskar?

Småfiler generellt är ingen bra måttstock för din prestanda då dels söktiden för att hitta filen blir längre, överföringstiden blir för kort samt skrivningen ojämn. Hitta ett par 10+ GB stora filer i nån piratbukt om du inte har några liggandes och kör dem fram och tillbaka. Testa skillnaden mellan att köra filerna sekventiellt och parallellt för att se hur prestanda anpassar sig efter olika situationer.

Async kommer höja latensen avsevärt skulle jag tro vilket är negativt för många små filer.
En annan aspekt är hur du har konfigurerat dina diskar.
Använder du ditt raidkort så måste du där ställa in sektorstorleken, exempelvis 64kb. Viktigt sedan att Freenas filsystemet också ligger på 64kb när du formaterar och partitionerar upp din Raidz, annars får du en hyfsad flaskhals även där.

Permalänk
Medlem
Skrivet av BerraBing:

Exakt min tanke; en modern disk ska ensam klara över 100MB/s i skrivhastighet...

100-120 MB/s skrivhastighet uppnås endast vid 100% sekventiell skrivning i början av disken, och är närmare hälften i slutet (det minskar linjärt ju närmare de innersta spåren man skriver). Värt att tänka på är också att en HDD, för allat annat än ren sekventiell åtkomst, klarar väldigt få IOPS (75-100), vilket blir väldigt tydligt vid slumpartad användning.

Skrivet av BerraBing:

Det med write through i freenas eller BTRFS har jag ingen aning om så det får gärna någon annan svara på

Ska man köra med "async" eller "sync" på poolen? Vet du eller någon annan det?

För FreeNAS gäller:
sync => write-through
Ger OK för skrivning först efter att data skrivits till permanent lagring, dvs inte ens din hårddisks cache används. Långsamt, speciellt om man har en HDD-pool.

async => write-back
Ger OK efter skrivning till RAM-cache. Kan teoretiskt köra i fullt blås (t.ex. enkelt maxa 40 GbE om RAM hänger med) fram tills RAM-cachen är fylld. FreeNAS försöker i regel anpassa storleken på RAM-cache:n till vad din pool klarar av. Det tar en liten stund efter uppstart, men sen kan du skriva så fort som din pool klarar av att skriva asynkront.

FreeNAS allokerar i regel 1/8 av total mängd RAM till skrivcache, och skriver ut data när denna cache är full, eller periodiskt (default max 5 sekunder). Det är antagligen därför du ser dessa toppar på 600 MB/s någon gång ibland.

Utöver detta så kommer "synkrona" skrivningar även skrivas direkt, synkront, till en ZIL. ZIL ligger per default i samma pool som du skriver till. Du skriver alltså samma data två gånger, först synkront, och sen asynkront. För att avlasta din pool, och snabba upp den första synkrona skrivningen till ZIL, är det bra med en SLOG. Inte nog med att du avlastar din pool från den synkrona skrivningen (som i sig är långsam på HDD), men du behöver heller inte längre skriva samma data två gånger.

https://www.ixsystems.com/blog/o-slog-not-slog-best-configure...

Skrivet av BerraBing:

Frågor till alla;
Ska man köra med "async" eller "sync" på poolen?
Någon annan inställning jag kan ha missat?
Mina 9211-8i kan väl knappats vara flaskhalsar till mekaniska diskar?

För att minska risken för korrupta VM-diskar (främst vid kraftavbrott) så bör VM-lagring vara synkron. För NFS skickar VMware per default alla skrivningar synkront, men det går att stänga av per pool om man verkligen vill. iSCSI i VMware är per default asynkront, och kör man iSCSI bör man manuellt aktivera synkron skrivning till den del av poolen som används för VM-diskar.

För övrig lagring som inte är lika kritiskt som ett filsystem i en VM kan man med gott samvete köra utan synkrona skrivningar.

Dina 9211-8i med max 8 diskar vardera bör inte vara någon flaskhals för HDDer så länge du har de i PCIe x4-slots som klarar minst PCIe 2.0 (2 GB/s) som dina kort stöder.

Skrivet av MsSmith:

Async kommer höja latensen avsevärt skulle jag tro vilket är negativt för många små filer.
En annan aspekt är hur du har konfigurerat dina diskar.
Använder du ditt raidkort så måste du där ställa in sektorstorleken, exempelvis 64kb. Viktigt sedan att Freenas filsystemet också ligger på 64kb när du formaterar och partitionerar upp din Raidz, annars får du en hyfsad flaskhals även där.

Vet inte vad du menar med "Async" här, men för FreeNAS är det tvärt om.

När det gäller FreeNAS så fungerar blockstorlek lite annorlunda. Deras defaultinställning är dynamisk, dvs per fil kan den i regel välja blockstorlek mellan 16-128 kB. Hur det fungerar med block-lagring (iSCSI) har jag inte koll på.

@BerraBing om du inte använder synkrona skrivningar för dina NFS-tester så kommer SLOG göra absolut nada. För synkrona skrivningar kan du få en boost, men med en Samsung 850 Pro kanske det inte blir mer än 20-80 MB/s i bästa fall. Länken som @ddelin hänvisar till pekar på ca 350 IOPS vid QD1 (och t.ex. ca 1000 IOPS vid QD3) för synkrona skrivningar till en 850 Pro, vilket motsvarar ca 5-40 MB/s (15-120 MB/s @ QD3) om IOPS bibehålls även vid 16-128 kB block.

Om du tänker använda en 850 Pro som SLOG så rekommenderar jag att du först gör en secure erase via Samsung Magician, och sen endast partitionerar upp en väldigt liten del av disken, t.ex. 8 GB. Då kommer disken själv kunna göra wear leveling extremt effektivt, och även bibehålla sin prestanda under praktiskt taget hela sin livstid.

Samsung 850 Pro är extremt tålig (över 9 PB kunde skrivas i Guru3Ds test; http://www.guru3d.com/news-story/endurance-test-of-samsung-85....

Visa signatur

Speldator: Fractal Design Meshify C, Core i7-8700k @ 5,0 GHz (AVX -3) luftkyld med Cryorig R1 Universal, Asrock Z370 Fatal1ty Professional Gaming i7, 64 GB Corsair Dominator Platinum @ 3466 MHz CL16 (XMP), ASUS ROG Strix GeForce GTX 1080 Ti Gaming, Win10 Pro, Acer XB271HU (gamla bilder med GTX 970)
i7-8700k 5.0 GHz OC: CPU 50x, Vcore 1,310V, LLC 2 (1=max, 5=min), BCLK 100.0, AVX offset -3, Cache 45x
Server: Xeon E3-1226v3 3,3 GHz, 32 GB ECC DDR3, VMware ESXi 6, 10 Gbps fiber

Permalänk
Medlem
Skrivet av kai:

@BerraBing om du inte använder synkrona skrivningar för dina NFS-tester så kommer SLOG göra absolut nada. För synkrona skrivningar kan du få en boost, men med en Samsung 850 Pro kanske det inte blir mer än 20-80 MB/s i bästa fall. Länken som @ddelin hänvisar till pekar på ca 350 IOPS vid QD1 (och t.ex. ca 1000 IOPS vid QD3) för synkrona skrivningar till en 850 Pro, vilket motsvarar ca 5-40 MB/s (15-120 MB/s @ QD3) om IOPS bibehålls även vid 16-128 kB block.

Är lite förvånad att prestandan är så låg.

Nu är detta QD4, men ändå:

Vi pratar lätt 30k IOPs.

Tittar vi på en mixed transfer, också QD4 har vi ändå runt 175-ish MB/s random på 512GB storlek:

Och tittar vi just test med sekventiella skrivningar så är värdet ännu högre redan vid QD1:

Så hur i tusan kan de få så dålig prestanda?

Skrivet av kai:

Om du tänker använda en 850 Pro som SLOG så rekommenderar jag att du först gör en secure erase via Samsung Magician, och sen endast partitionerar upp en väldigt liten del av disken, t.ex. 8 GB. Då kommer disken själv kunna göra wear leveling extremt effektivt, och även bibehålla sin prestanda under praktiskt taget hela sin livstid.

Ärligt så räcker <50% nivån kanon. MLC + OP + dens aggresiva GC gör att den håller bra WAf i den sitsen.

Finns ett test till som gjort med hård slitage till döden på denna disk. Fördelen med detta är att de gjorde test med retention test efter 2PB och även räknade lite på WAf både vid 50% och 85% och vid båda fallen pratar vi under 1.05x. Mao... saaatans bra.

Så har han 100GB / 256GB disk, räcker det mer än väl för att den disken ska ha perfekt optimalt förhållande. Interna NANDet är betydligt snabbare än SATA gränsnsittet, så det är inga problem för den att hinna rensa i bakgrunden.

Skrivet av kai:

Samsung 850 Pro är extremt tålig (över 9 PB kunde skrivas i Guru3Ds test; http://www.guru3d.com/news-story/endurance-test-of-samsung-85....

Det var inte Guru3D som gjorde detta, utan tyska heise.de.
De testade en hel del SSDer samtidigt fakiskt och fann att många SSDer nådde fantastiska mål. 750 EVO tex på ca 1.2PB... inte illa för 2D TLC NAND. Enda problemet med deras tester är att jag vet inte om det var konstant skrivning, eller pauser. För lite retention tester och annat gör faktiskt mycket. SSDer kan ofta skriva mycket data innan de dör, men de kan dö lång före det om strömmen tas ut.

https://www.heise.de/newsticker/meldung/SSD-Langzeittest-been...
https://www.heise.de/newsticker/meldung/SSDs-im-Stresstest-mi...
(Tyska om du kan, eller så får du översätta)
Hela artikeln i sig är dock bakom en betalvägg.

Permalänk
Medlem
Skrivet av Paddanx:

Är lite förvånad att prestandan är så låg.

...

Så hur i tusan kan de få så dålig prestanda?

Synkron skrivning är långt ifrån lika snabbt som den asynkrona skrivningen i dessa tester. Jag kan tänka mig at dessa SSDer inte nyttjar sin DRAM-cache (då dessa konsument-SSD:er saknar power loss protection) när man ber de skriva synkront.

Skrivet av Paddanx:

Ärligt så räcker <50% nivån kanon. MLC + OP + dens aggresiva GC gör att den håller bra WAf i den sitsen.

Finns ett test till som gjort med hård slitage till döden på denna disk. Fördelen med detta är att de gjorde test med retention test efter 2PB och även räknade lite på WAf både vid 50% och 85% och vid båda fallen pratar vi under 1.05x. Mao... saaatans bra.

Så har han 100GB / 256GB disk, räcker det mer än väl för att den disken ska ha perfekt optimalt förhållande. Interna NANDet är betydligt snabbare än SATA gränsnsittet, så det är inga problem för den att hinna rensa i bakgrunden.

Bättre att partitionera så lite som möjligt och nödvändigt när man inte har stöd för TRIM. Ju mer "spare" via over provisioning desto bättre wear leveling. Storleken för partitionen på en SLOG behöver i regel inte vara mer än dubbelt så stor som skriv-cache i RAM (FreeNAS default är 1/8 av RAM) eller så mycket som din pool hinner med att skriva på säg 10 sekunder.

Visa signatur

Speldator: Fractal Design Meshify C, Core i7-8700k @ 5,0 GHz (AVX -3) luftkyld med Cryorig R1 Universal, Asrock Z370 Fatal1ty Professional Gaming i7, 64 GB Corsair Dominator Platinum @ 3466 MHz CL16 (XMP), ASUS ROG Strix GeForce GTX 1080 Ti Gaming, Win10 Pro, Acer XB271HU (gamla bilder med GTX 970)
i7-8700k 5.0 GHz OC: CPU 50x, Vcore 1,310V, LLC 2 (1=max, 5=min), BCLK 100.0, AVX offset -3, Cache 45x
Server: Xeon E3-1226v3 3,3 GHz, 32 GB ECC DDR3, VMware ESXi 6, 10 Gbps fiber

Permalänk

Tack återigen för alla svar!
Har inte varit hemma på hela veckan och kommer inte hem förens på lördag några timmar så har inte hunnit testa någonting dessvärre Kliar väldigt mycket i fingrarna kan jag säga!

Skrivet av Hieronymus Bosch:

Nej, inte om du tänker köra btrfs på en Linux. Linux har (sedan v3.9, om jag minns rätt) lvmcache, som låter dig bygga en cachad logisk volym av en långsam logisk volym och en snabb. Ovanpå den cachade logiska volymen kan du sedan bygga ett btrfs-filsystem.

Okej, det jag för närvarande testar är Rockstor vilket är CentOS med Fedora-kärna om jag förstått dem rätt.
Ingen aning om hur den distron hanterar och skapar skriv-cache...

Skrivet av MsSmith:

Småfiler generellt är ingen bra måttstock för din prestanda då dels söktiden för att hitta filen blir längre, överföringstiden blir för kort samt skrivningen ojämn. Hitta ett par 10+ GB stora filer i nån piratbukt om du inte har några liggandes och kör dem fram och tillbaka. Testa skillnaden mellan att köra filerna sekventiellt och parallellt för att se hur prestanda anpassar sig efter olika situationer.

Async kommer höja latensen avsevärt skulle jag tro vilket är negativt för många små filer.
En annan aspekt är hur du har konfigurerat dina diskar.
Använder du ditt raidkort så måste du där ställa in sektorstorleken, exempelvis 64kb. Viktigt sedan att Freenas filsystemet också ligger på 64kb när du formaterar och partitionerar upp din Raidz, annars får du en hyfsad flaskhals även där.

Nej jag vet om det. Saken är den att exakt samma filer kopierades runt liknande när jag körde HW-raid som ju gav så otroligt mycket högre hastigheter genom hela överföringen. Jag har suttit och följt överföringarna nu med SW-raid även vid stora filer men inte särskilt mycket högre hastigheter. Får testa igen med enbart stora filer...
Konfiguration görs väl ändå av mjukvaran i mitt nuvarande fall eftersom jag kör med HBAer och inte raid-kort?
Så nej jag har inte ställt in någon sektorstorlek, måste jag göra det även i sann JBOD?

Skrivet av kai:

100-120 MB/s skrivhastighet uppnås endast vid 100% sekventiell skrivning i början av disken, och är närmare hälften i slutet (det minskar linjärt ju närmare de innersta spåren man skriver). Värt att tänka på är också att en HDD, för allat annat än ren sekventiell åtkomst, klarar väldigt få IOPS (75-100), vilket blir väldigt tydligt vid slumpartad användning.

För FreeNAS gäller:
sync => write-through
Ger OK för skrivning först efter att data skrivits till permanent lagring, dvs inte ens din hårddisks cache används. Långsamt, speciellt om man har en HDD-pool.

async => write-back
Ger OK efter skrivning till RAM-cache. Kan teoretiskt köra i fullt blås (t.ex. enkelt maxa 40 GbE om RAM hänger med) fram tills RAM-cachen är fylld. FreeNAS försöker i regel anpassa storleken på RAM-cache:n till vad din pool klarar av. Det tar en liten stund efter uppstart, men sen kan du skriva så fort som din pool klarar av att skriva asynkront.

FreeNAS allokerar i regel 1/8 av total mängd RAM till skrivcache, och skriver ut data när denna cache är full, eller periodiskt (default max 5 sekunder). Det är antagligen därför du ser dessa toppar på 600 MB/s någon gång ibland.

Utöver detta så kommer "synkrona" skrivningar även skrivas direkt, synkront, till en ZIL. ZIL ligger per default i samma pool som du skriver till. Du skriver alltså samma data två gånger, först synkront, och sen asynkront. För att avlasta din pool, och snabba upp den första synkrona skrivningen till ZIL, är det bra med en SLOG. Inte nog med att du avlastar din pool från den synkrona skrivningen (som i sig är långsam på HDD), men du behöver heller inte längre skriva samma data två gånger.

https://www.ixsystems.com/blog/o-slog-not-slog-best-configure...

För att minska risken för korrupta VM-diskar (främst vid kraftavbrott) så bör VM-lagring vara synkron. För NFS skickar VMware per default alla skrivningar synkront, men det går att stänga av per pool om man verkligen vill. iSCSI i VMware är per default asynkront, och kör man iSCSI bör man manuellt aktivera synkron skrivning till den del av poolen som används för VM-diskar.

För övrig lagring som inte är lika kritiskt som ett filsystem i en VM kan man med gott samvete köra utan synkrona skrivningar.

Dina 9211-8i med max 8 diskar vardera bör inte vara någon flaskhals för HDDer så länge du har de i PCIe x4-slots som klarar minst PCIe 2.0 (2 GB/s) som dina kort stöder.

Vet inte vad du menar med "Async" här, men för FreeNAS är det tvärt om.

När det gäller FreeNAS så fungerar blockstorlek lite annorlunda. Deras defaultinställning är dynamisk, dvs per fil kan den i regel välja blockstorlek mellan 16-128 kB. Hur det fungerar med block-lagring (iSCSI) har jag inte koll på.

@BerraBing om du inte använder synkrona skrivningar för dina NFS-tester så kommer SLOG göra absolut nada. För synkrona skrivningar kan du få en boost, men med en Samsung 850 Pro kanske det inte blir mer än 20-80 MB/s i bästa fall. Länken som @ddelin hänvisar till pekar på ca 350 IOPS vid QD1 (och t.ex. ca 1000 IOPS vid QD3) för synkrona skrivningar till en 850 Pro, vilket motsvarar ca 5-40 MB/s (15-120 MB/s @ QD3) om IOPS bibehålls även vid 16-128 kB block.

Om du tänker använda en 850 Pro som SLOG så rekommenderar jag att du först gör en secure erase via Samsung Magician, och sen endast partitionerar upp en väldigt liten del av disken, t.ex. 8 GB. Då kommer disken själv kunna göra wear leveling extremt effektivt, och även bibehålla sin prestanda under praktiskt taget hela sin livstid.

Samsung 850 Pro är extremt tålig (över 9 PB kunde skrivas i Guru3Ds test; http://www.guru3d.com/news-story/endurance-test-of-samsung-85....

Om jag förstår dig rätt så ska jag köra med "async" på eftersom det handlar om filservrar utan VM-trafik?
Som jag skrivit, dessa filservrar mountas alltså inte i ESXi, utan det är bara trafik mellan de två VMarna. Ren filöverföring, inget annat.
Precis, kan inte tänka mig att mina 9211or flaskar diskarna eftersom dem är PCI-E 2.0 x8.
Jag har skapat poolen med default-inställningarna, har för mig att det är med "async"? Och överföringarna är dem jag skrivit om innan, 7,5TB med blandade filer mellan två st VMar, det är väl asynkront då va?

Skrivet av Paddanx:

Är lite förvånad att prestandan är så låg.

Nu är detta QD4, men ändå:
https://images.anandtech.com/doci/8216/850%20Pro%20256GB%20ATTO%20write_575px.png
Vi pratar lätt 30k IOPs.

Tittar vi på en mixed transfer, också QD4 har vi ändå runt 175-ish MB/s random på 512GB storlek:
http://images.anandtech.com/doci/12348/rm-s-850pro-512.png

Och tittar vi just test med sekventiella skrivningar så är värdet ännu högre redan vid QD1:
http://images.anandtech.com/doci/12348/sm-s-850pro-512.png

Så hur i tusan kan de få så dålig prestanda?

Ärligt så räcker <50% nivån kanon. MLC + OP + dens aggresiva GC gör att den håller bra WAf i den sitsen.

Finns ett test till som gjort med hård slitage till döden på denna disk. Fördelen med detta är att de gjorde test med retention test efter 2PB och även räknade lite på WAf både vid 50% och 85% och vid båda fallen pratar vi under 1.05x. Mao... saaatans bra.

Så har han 100GB / 256GB disk, räcker det mer än väl för att den disken ska ha perfekt optimalt förhållande. Interna NANDet är betydligt snabbare än SATA gränsnsittet, så det är inga problem för den att hinna rensa i bakgrunden.

Det var inte Guru3D som gjorde detta, utan tyska heise.de.
De testade en hel del SSDer samtidigt fakiskt och fann att många SSDer nådde fantastiska mål. 750 EVO tex på ca 1.2PB... inte illa för 2D TLC NAND. Enda problemet med deras tester är att jag vet inte om det var konstant skrivning, eller pauser. För lite retention tester och annat gör faktiskt mycket. SSDer kan ofta skriva mycket data innan de dör, men de kan dö lång före det om strömmen tas ut.

https://www.heise.de/newsticker/meldung/SSD-Langzeittest-been...
https://www.heise.de/newsticker/meldung/SSDs-im-Stresstest-mi...
(Tyska om du kan, eller så får du översätta)
Hela artikeln i sig är dock bakom en betalvägg.

Hmm, så 50%-ish partitionering räcker?

Skrivet av kai:

Synkron skrivning är långt ifrån lika snabbt som den asynkrona skrivningen i dessa tester. Jag kan tänka mig at dessa SSDer inte nyttjar sin DRAM-cache (då dessa konsument-SSD:er saknar power loss protection) när man ber de skriva synkront.

Bättre att partitionera så lite som möjligt och nödvändigt när man inte har stöd för TRIM. Ju mer "spare" via over provisioning desto bättre wear leveling. Storleken för partitionen på en SLOG behöver i regel inte vara mer än dubbelt så stor som skriv-cache i RAM (FreeNAS default är 1/8 av RAM) eller så mycket som din pool hinner med att skriva på säg 10 sekunder.

Så alltså "async" enable för högst prestanda i mitt fall?
Om jag förstått det rätt så ska "atime" vara disable också?

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system

Permalänk

Ska försöka hinna med något snabbtest i helgen iaf, jag börjar nog med;
En ny Rockstor VM med typ 24GB ram, skapa en raid10 med 4x4TB Red-diskar BTRFS, async på.
Testa överföring med stora filer >10GB från den andra Rockstor VMen som just nu har en raid 5 eller 6 av 8x2TB Green-diskar BTRFS.

Visa signatur

Klient: ASUS TUF Gaming X670E-Plus | AMD R9-7900X | Kingston FURY Beast DDR5-6000MHz 32GB | MSI GTX 1070Ti | Lian Li PC-O11XL | Cutom H20-loop ½"
Server: Supermicro H11SSL-i | Epyc 7551P | 8x16GB 2933 RDIMM | ConnectX5 2x25gig | 2xLSI 9400-16i | 14x4TB zfs-raid60 | NVMe/900p logs/cache/system