Lagring för databas! (Postgresql, R-server)
WD Red diskar i en raidz1/2/3 kommer inte ge dig någon rolig prestanda för VMs. Tänk också på att du inte kan addera diskar till en zfs pool hur som helst, utan man brukar prata om att ha flera olika zpools när man bygger ut. För bäst prestanda rekommenderas dock mirrors.
Förslagsvis kör du en separat zpool med flash-lagring för dina VMar och en ytterligare zpool för din mer statiska/mindre rörliga lagring.
Jag har lite koll på viritualisering och har använt proxmox/esxi sedan innan. Jag har dock lite frågor ang. zfs pool hur den skulle se ut samt prestandan över virituella maskiner.
Har du redan valt ZFS för att åstadkomma redundans/logiska volymer, eller kan andra lösningar vara tänkbara?
Kommer att ha rätt mycket data > 10TB efter ett tag men kommer räcka med 2TB för tillfället. Så behöver vara utbyggbart.
Behöver "snabbt" kunna ladda in data från databasen i R och kunna göra analyser på den.
De här >10TB, är det ett och samma dataset eller flera olika datamängder (loggar från olika system, tex)? Lagrat i en stor relationsdatabas, eller är det stora klumpar med rådata? Som du gör ett urval på, varvid urvalet laddas i en mindre relationsdatabas på snabbare lagringsmedia och sedan gör analys på i R?
Tänkte använda antingen någon serverversion av fedora eller ubuntu och köra viritualseringen med Qemu/Kvm. då jag endast har två/tre virituella maskiner. Någon zfs-pool för de virituella maskinerna??
Ska alla virtuella maskiner kunna nå samma dataset, eller har varje maskin "egna" data?
Har kollat på lite WD-red diskar som kanske skulle kunna vara något
Vilken produktserie av mekaniska diskar du ska använda är bland de minst viktiga besluten för hur nöjd du blir med slutresultatet.
Har du redan valt ZFS för att åstadkomma redundans/logiska volymer, eller kan andra lösningar vara tänkbara?
Absolut inget spikat, är bara min egen kunskap som inte sträcker sig så långt vad gäller lagring, och ZFS dyker upp överallt.
De här >10TB, är det ett och samma dataset eller flera olika datamängder (loggar från olika system, tex)? Lagrat i en stor relationsdatabas, eller är det stora klumpar med rådata? Som du gör ett urval på, varvid urvalet laddas i en mindre relationsdatabas på snabbare lagringsmedia och sedan gör analys på i R?
Det kommer vara olika dataset, ihopklumpat i en relationsdatabas, så man skulle kunna lagra dessa på olika ställen? Men eftersom jag kontroll hur datan lagras och över mjukvaran som hämtar datan är det väldigt flexibelt också.
Ska alla virtuella maskiner kunna nå samma dataset, eller har varje maskin "egna" data?
Tanken är väl att alla maskiner som ska nå datan är "stateless" och laddar in datan på behov från databasen.
Vilken produktserie av mekaniska diskar du ska använda är bland de minst viktiga besluten för hur nöjd du blir med slutresultatet.
Ja antagligen! Slängde iväg ett köp på två WD-blue 1TB bara för att komma igång.
Absolut inget spikat, är bara min egen kunskap som inte sträcker sig så långt vad gäller lagring, och ZFS dyker upp överallt.
Ja, ZFS innehåller det mesta i funktionsväg, så det är praktiskt att välja det. Dock finns andra mekanismer som tillsammans gör ungefär allt som ZFS gör, och mer därtill. Sedan några år tillbaka har t ex Linux' logiska volymhanterare stöd för att använda SSD-enheter eller andra snabba lagringesenheter som läs- och skrivcache för större, långsammare lagringsenheter.
Både LVM och ZFS ger bra möjligheter att öka lagringsutrymme genom att lägga till fysisk lagring (hårddiskar). ZFS har dessutom bra integritetsskydd, men jag vet inte om du vinner något på det eftersom du tänkt lagra allt (?) skyddsvärt data i en relationsdatabas, som har eget integritetsskydd.
Tanken är väl att alla maskiner som ska nå datan är "stateless" och laddar in datan på behov från databasen.
Det låter som en bra idé att ha den samlade mängden grunddata på ett ställe med tillräckligt dataskydd och tillräcklig tillgänglighet. Återstår frågan hur data görs tillgängligt för analysmaskinerna, så att dessa får tillräcklig prestanda. Jag ser två egenskaper som kommer att styra designen:
Kommer analysmaskinerna att vara intresserade av samma data vid samma tillfälle? Om så är fallet är det fördelaktigt att placera cache i någon form (ram, SSD, snabb disk) nära lagringen. Om de inte är intresserade av samma data är det nog bättre att placera en eventuell cachefunktion närmre de virtuella maskinerna.
Working set: Hur mycket data är intressant per analysjobb? Om det i förväg inte går att säga vilken delmängd av data som behövs för att göra analysjobbet (eller om denna mängd inte är mycket mindre än den totala mängden data) är det kanske inte vettigt att göra jobbet i form av en ETL, utan analysjobbet får hämta data från central databas efter behov.
Det här kommer att ha stor påverkan på hur IOPS och internminne disponeras mellan de virtuella maskinerna.
Kommer all nätverkstrafik att göras inom samma virtualiseringshost, eller behöver data flyttas mellan noder i ett kluster? Vilka överföringshastigheter kan man i så fall räkna med mellan de virtuella maskinerna?
- Igår Efter konkursryktena – Louqe är tillbaka 18
- Igår Kunskapsquiz: IT och det moderna försvaret 41
- 17 / 4 Datorhallar åker på miljardstor skattesmäll – ljög om att utvinna krypto 62
- 17 / 4 Veckans fråga: Möss eller ljud – Vad lägger du mest pengar på? 73
- 16 / 4 X kan råda bot på bottar med betallösning 35
- Elgato lanserar tillbehörsserie för ”vanligt folk”11
- Bedragare låtsades vara Lastpass VD med AI0
- Snart ber Microsoft dig överge ditt lokala konto117
- Kingdom Come Deliverance II utannonserat1
- Efterlysning: Antireklam för fria tv-sändningar.2
- Vad vill ni se i nästa Battlefield?88
- Hjälp med anslutning till AV-receicer1
- Köpa Acer Predator Helios 18 eller något annat?1
- Dags för robotgräsklippare433
- Dagens fynd — Diskussionstråden49411
- Säljes iMac Late 2015 (nyskick!) inkl. magic mouse och keyboard
- Säljes Säljer GTX 1080 Ti
- Säljes Moderkort ASUS prime B660-plus d4 och ram
- Köpes Köper Samsung Galaxy Buds 2 Pro / Buds 2
- Säljes LC Power 39 tum 165 hz Bildskärm
- Säljes 12700k | 980 PRO 1tb | Contact Frame TG
- Köpes Söker USB-C transmitter till Steelseries Arctis 7X PLUS
- Säljes Diverse PS5-spel, Ritplatta och Motorola Moto G 5g plus!
- Säljes RTX 3050 8 GB ROG STRIX GAMING OC
- Säljes Sennheiser HD560S och RÖDE NT-USB
- Bedragare låtsades vara Lastpass VD med AI0
- SFW! Läckra ROG Zephyrus G14 med ROG Nebula OLED Display7
- Quest 2 får prissänkning för andra gången i år19
- Elgato lanserar tillbehörsserie för ”vanligt folk”11
- Enhance! Edge kan få klassisk sci-fi-funktion16
- Efter konkursryktena – Louqe är tillbaka18
- Snart ber Microsoft dig överge ditt lokala konto117
- Kunskapsquiz: IT och det moderna försvaret41
- Här är priserna på LG:s nya OLED-arsenal52
- 3dfx grafikkort återuppstår i hobbyprojekt19