Problem med korrupta filer vid Pass-through av HBA med ESXi.

Permalänk
Medlem

Problem med korrupta filer vid Pass-through av HBA med ESXi.

Hejsan!

Jag har roat mig med att felsöka ett problem på min server där jag försöker köra en virtuell maskin med ett LSI 3008 kort i passthough och ett zfs-filsystem.

Här finns en tråd med bakgrunden från början: Import ZFS pools by cache file

Kortfattad beskrivning av problemet:
Mitt problem är kort; oberoende om min virtuella maskin som körs genom ESXi 6.5 och 7.0.U3 kör senaste Xigmanas eller Ubuntu uppträder direkt CKSUM fel vilket leder till degradering samt korrupta filer.

Kör jag exakt samma hårdvara utan ESXi uppträder exakt noll fel vid samma operationer.

Den långa versionen:
I maskinen sitter följande nu efter att jag plockat bort allt onödig samt bytt HBA och nätaggregat i felsökningsjakten.
Under felsökningen har jag bytt/testat:

  • HBA från ett äldre SAS2008 kort

  • Alla kablar mellan diskar och HBA

  • Nätaggregat

  • Ett antal timmar Memtest86

  • Andra diskar

  • Kört Ubuntu och Xigmanas bare metal utan problem

och i nuvarande tappning med uppgraderat BIOS på moderkortet består servern av följande:

  • Intel Xeon E3-1230 v5

  • SuperMicro X11SSH-LN4F, Firmware Revision: 01.63, BIOS Version: 2.6

  • 4st 8Gb ECC UDIMM - Har inte exakt spec i huvudet men det har rullat fint i flera år.

  • HBA - LSI MegaRAID SAS 9340-8i 12G SAS-3 (rev 02)- IT-Mode

  • HBA Kablage - LSI SAS SFF8643 - 4 x SATA 100CM LSI00411

  • Corsair RM750X 750W v2 - Helt nytt från idag

  • Hypervisorn ligger på NVMe M2

  • Ytterligare en SATA SSD Samsung EVO för VM:ar

Nu kör jag med ESXi 7.0.U3, HBA kortet i Pass-Through samt Ubuntu server 20 med de senaste uppdateringarina som VM. I VM-maskinen hittas kortet och diskarna samt jag kan importera poolen utan problem.

spci -k -s 0b:00.0 0b:00.0 Serial Attached SCSI controller: Broadcom / LSI SAS3008 PCI-Express Fusion-MPT SAS-3 (rev 02) DeviceName: pciPassthru0 Subsystem: Broadcom / LSI SAS9300-8i Kernel driver in use: mpt3sas Kernel modules: mpt3sas

Jag har ägnat en bra stund åt att leta runt på nätet men jag hittar inget substantiellt att testa mer nu utan behöver verkligen lite hjälp från alla erfarna Swecklockare!

Mvh
z

Visa signatur

C2D E6300 @ 3.2HGz 1.2V | Thermalright 120 Extr. | Gainward 8800 GT Golden Sample |Samsung 2x500Gb | Corsair VX 550V | Antec P182 [img]http://valid.x86-secret.com/cache/banner/421648.png[/img]

Permalänk
Medlem

Provat att köra pass-through av diskarna individuellt istället för hela kortet?

Permalänk
Medlem
Skrivet av Xcorp:

Provat att köra pass-through av diskarna individuellt istället för hela kortet?

Hejsan och tack för ditt förslag!

Hur tänker du att jag ska göra pass-through av diskarna till VM:en?
Med RDM som enskilda diskar?

Så som jag har tolkat tanken med zfs är att det vill ha direkt kontakt med diskarna för att säkerställa att data skrivs korrekt på disken och att det är därför som pass-through av hela kontrollen är ett krav för att uppnå detta.

mvh
z

Visa signatur

C2D E6300 @ 3.2HGz 1.2V | Thermalright 120 Extr. | Gainward 8800 GT Golden Sample |Samsung 2x500Gb | Corsair VX 550V | Antec P182 [img]http://valid.x86-secret.com/cache/banner/421648.png[/img]

Permalänk
Snusfri

Testa Proxmox istället för ESXI, ESXI kan skapa oerhört mycket problem med vad det anser är fel hårdvara.

Visa signatur

WS: i9 13900K - 128GB RAM - 6.5TB SSD - RTX 3090 24GB - LG C2 42" - W11 Pro
LAPTOP 1: Lenovo Thinkpad E14 G5 - 16GB RAM - 512GB SSD
LAPTOP 2: Acer Swift 3 - 8GB RAM - 512GB SSD
SERVER: i5 10400F - 64GB RAM - 44TB HDD
NALLE: Pixel 9 Pro XL

Permalänk
Medlem
Skrivet av THB:

Testa Proxmox istället för ESXI, ESXI kan skapa oerhört mycket problem med vad det anser är fel hårdvara.

Hej och tack för ett spännande förslag!

I nuläget gnäller inte ESXi faktiskt utan det går utmärkt att köra pass-through av mitt HBA. Dock blir det besvärligt när det ändå blir problem.

Det är såklart ett alternativ att testa en ny Hypervisor för att lära mig något nytt men jag har svårt att testa det i närtid då servern står en bit bort. Målet är att få till en bra off-site backup för data.

/z

Visa signatur

C2D E6300 @ 3.2HGz 1.2V | Thermalright 120 Extr. | Gainward 8800 GT Golden Sample |Samsung 2x500Gb | Corsair VX 550V | Antec P182 [img]http://valid.x86-secret.com/cache/banner/421648.png[/img]

Permalänk
Medlem

Håller med THB, ESXI är ett elände om man försöker hitta på något utanför standardmallen. Med tanke på att du vill köra ZFS så är du säkert intresserad av dataintegriteten. Skulle rekommendera så få mellanlager som möjligt som bara skulle öka möjligheterna till fel. Troligen blir det bäst att köra ZFS direkt på hårdvaran, sedan kan VM och liknande nyttja funktionerna som ZFS ger.

Permalänk
Snusfri
Skrivet av zonar:

Hej och tack för ett spännande förslag!

I nuläget gnäller inte ESXi faktiskt utan det går utmärkt att köra pass-through av mitt HBA. Dock blir det besvärligt när det ändå blir problem.

Det är såklart ett alternativ att testa en ny Hypervisor för att lära mig något nytt men jag har svårt att testa det i närtid då servern står en bit bort. Målet är att få till en bra off-site backup för data.

/z

Tyvärr är det lite av en egenhet med ESXI, den kan gnälla och vägra och starta, spotta ur lite obegripliga felkoder eller så rapporterar den inget och man som användare tror att allt är frid och fröjd fast man får problem.

Väldigt ofta kan man behöva en specialkompilerad version av ESXI om man inte använder sig av godkänd hårdvara.

Ser även att du kör en Xeon 1230v5 från 2015, det kan skapa problem med nyare versioner av ESXI.

Förstår att du är relativt van ESXI och självklart vill få det att fungera problemfritt, men med viss programvara så måste man då antingen köra hårdvara som är beprövad och man vet fungerar med densamma, köra specialversioner av nämnda programvara eller helt enkelt testa annan programvara.

Skrivet av Fläcken:

Håller med THB, ESXI är ett elände om man försöker hitta på något utanför standardmallen. Med tanke på att du vill köra ZFS så är du säkert intresserad av dataintegriteten. Skulle rekommendera så få mellanlager som möjligt som bara skulle öka möjligheterna till fel. Troligen blir det bäst att köra ZFS direkt på hårdvaran, sedan kan VM och liknande nyttja funktionerna som ZFS ger.

Exakt, det finns som jag nämner ovan speccialversioner av ESXI, men de är dels mest gjorda för enheter från tex HP, Dell eller liknande och inte whiteboxes, och de kan vara relativt svåra att få tag på.

På min mainserver kör jag Proxmox i grunden samt för närvarande hela 2st VM's.
Den består av följande: Asus TUF B560M, i5 10400F, Corsair Vengeance 64GB RAM, Kingston NV1 500GB, LSI 9223-8i, 2x16TB + 4x3TB.

Kör TrueNAS Core som VM med passthrough till mitt LSI och det har inte varit några problem alls för mig hitills.

Visa signatur

WS: i9 13900K - 128GB RAM - 6.5TB SSD - RTX 3090 24GB - LG C2 42" - W11 Pro
LAPTOP 1: Lenovo Thinkpad E14 G5 - 16GB RAM - 512GB SSD
LAPTOP 2: Acer Swift 3 - 8GB RAM - 512GB SSD
SERVER: i5 10400F - 64GB RAM - 44TB HDD
NALLE: Pixel 9 Pro XL

Permalänk
Medlem
Skrivet av zonar:

Hejsan och tack för ditt förslag!

Hur tänker du att jag ska göra pass-through av diskarna till VM:en?
Med RDM som enskilda diskar?

Så som jag har tolkat tanken med zfs är att det vill ha direkt kontakt med diskarna för att säkerställa att data skrivs korrekt på disken och att det är därför som pass-through av hela kontrollen är ett krav för att uppnå detta.

mvh
z

Precis, Raw Device Mapper för varje disk, det kommer presentera hela disken för gästen, som kommer kunna köra SMART och allt annat precis som vanligt, inga problem att köra ZFS så. Gör det själv på tre burkar med 14 diskar för varje, dock konfat via vCenter om jag inte minns helt fel.

Permalänk
Medlem
Skrivet av THB:

Tyvärr är det lite av en egenhet med ESXI, den kan gnälla och vägra och starta, spotta ur lite obegripliga felkoder eller så rapporterar den inget och man som användare tror att allt är frid och fröjd fast man får problem.

Väldigt ofta kan man behöva en specialkompilerad version av ESXI om man inte använder sig av godkänd hårdvara.

Ser även att du kör en Xeon 1230v5 från 2015, det kan skapa problem med nyare versioner av ESXI.

Förstår att du är relativt van ESXI och självklart vill få det att fungera problemfritt, men med viss programvara så måste man då antingen köra hårdvara som är beprövad och man vet fungerar med densamma, köra specialversioner av nämnda programvara eller helt enkelt testa annan programvara.

Exakt, det finns som jag nämner ovan speccialversioner av ESXI, men de är dels mest gjorda för enheter från tex HP, Dell eller liknande och inte whiteboxes, och de kan vara relativt svåra att få tag på.

På min mainserver kör jag Proxmox i grunden samt för närvarande hela 2st VM's.
Den består av följande: Asus TUF B560M, i5 10400F, Corsair Vengeance 64GB RAM, Kingston NV1 500GB, LSI 9223-8i, 2x16TB + 4x3TB.

Kör TrueNAS Core som VM med passthrough till mitt LSI och det har inte varit några problem alls för mig hitills.

Absolut kan versionen av hårdvaran spela lite roll och jag bytte precis från ESXi 6.5 till 7 i hopp om att det skulle hjälpa med en "uppgradering" av miljön men icke. Jag har en annan server från samma årtionde också med ESXi 6.5 samt ett LSI2008 i pass-through till en Ubuntu VM där jag rullar Nextcloud med zfs storage sjukt stabilt.

Jag förstår att det såklart finns många trådar om att det är svårt att få till pass-through med ESXi i många fall, dock hittar jag nästan inga trådar med just denna typen av problem där pass-through är på men det fortfarande blir fel.

Självklart är det absolut bästa att köra zfs på metall men det är opraktiskt för mig.

När jag kan ska jag försöka installera Proxmox på servern bara för att testa och lära mig men jag är fortfarande intresserad av fler förslag på hur jag skulle kunna debugga vad som egentligen går fel i nuvarande lösningen också.

Mvh
z

Visa signatur

C2D E6300 @ 3.2HGz 1.2V | Thermalright 120 Extr. | Gainward 8800 GT Golden Sample |Samsung 2x500Gb | Corsair VX 550V | Antec P182 [img]http://valid.x86-secret.com/cache/banner/421648.png[/img]

Permalänk
Medlem

Hade idag möjligheten att testa lite till och bara för att utesluta mer grejer provade jag att köra passthrough även på onboard SATA-kontrollen med samma trista resultat som tidigare med CKSUM errors.

Vad jag än gör som innefattar passthrough skiter sig hårt medans plockar jag bort hypervisorn (ESXi 6.5 & 7.0.3) funkar det fint.

Det enda som jag egentligen inte har bytt i detta läget är CPU och MB... Vilken ska man chansa på?

/z

Visa signatur

C2D E6300 @ 3.2HGz 1.2V | Thermalright 120 Extr. | Gainward 8800 GT Golden Sample |Samsung 2x500Gb | Corsair VX 550V | Antec P182 [img]http://valid.x86-secret.com/cache/banner/421648.png[/img]