Jag är rätt tveksam till det. 3090 i en EPYC-server då SD börjar jobba med redan använd SDXL-checkpoint + LORA:
# gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1 rxpci txpci
# Idx W C C % % % % MHz MHz MB MB MB/s MB/s
0 22 25 - 0 0 0 0 405 0 7493 5 0 0
0 121 37 - 100 47 0 0 9501 1815 8969 5 21 7
0 318 39 - 100 48 0 0 9501 1815 8971 5 24 6
Ingen PCI-trafik. Med modellbyte:
# gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1 rxpci txpci
# Idx W C C % % % % MHz MHz MB MB MB/s MB/s
0 116 42 - 37 1 0 0 9501 1860 6805 5 10992 1311
0 159 45 - 57 16 0 0 9501 1980 8201 5 4379 4274
0 225 47 - 59 16 0 0 9501 1920 8321 5 2075 1743
0 315 50 - 100 45 0 0 9501 1770 8969 5 24 7
17GB på ~3s. Att slå i taket på ~8GiB/s med 8x PCI-E 3 lägger nog inte till många bråkdelar av en sekund där. Att jämföra med 30sek att köra klart jobbet.
Ska VRAM över två kort användas så slår man däremot i bandbreddstaket nåt fruktansvärt, notera ~45-50% minnesbandbreddsanvändning, det blir ~400-500 GB/s. Ligger halva minnet över en 16x PCI-E3-buss som maxar ~16 GB/s så dräper det prestandan fullständigt om man inte har en last som mest jobbar lokalt. LL-modeller är ännu värre än SD, där måste man peta på hela modellen för varje iteration.
NVLINK på 3090 klarar 56GB/s, så det har varit en deltanke i att sätta ett 3090 i servern. SD är som synes mer GPU-begränsat dock, så dubbla kort i mitt fall är mer för att kunna hanka sig fram på LL-modeller som inte går in på ett kort.
För beräkningskorten i den här generationen så har de 12st "NVLINKs", cirkus 600GB/s. Då spelar det mindre roll på vilket kort datan ligger.
4090 tog de bort NVLINK, men det finns traces kvar på vissa kort, så det finns en del spekulationer om att det ska gå att återställa. Men det är en del jobb med drivrutiner osv. att fixa efter det, så tveksamt det blir klart i närtid.