Hur kommer det sig att BLAS är optimerat?

2023-08-01 19:16

Medlem

Registrerad: Jun 2008

●

Hur kommer det sig att BLAS är optimerat?

Jag har hållit på med LAPACK den sista veckan. LAPACK är ett bibliotek för olika rutiner hur man kan beräkna massa saker på det allt möjliga konstiga sättet. Men det fungerar. LAPACK är ett uråldrigt bibliotek som uppdateras fortfarande. Det är skrivet i Fortran 90, men en utgåva har översats till ANSI C. Värt att notera är att det finns mycket C-kod där som är skrivet på K&R standarden

Hur som helst. I LAPACK så finns det blas t.ex. rutinen sgemm. Denna utför matrismultiplikation.
Jag öppnade sgemm.c filen och märkte att det var mycket kod för att beräkna C = A*B

Då är frågan. Hur kan denna fil vara optimerad om det är så mycket kod? Jag testade att klistra in koden i Godbolt och jag fick fram flera tusen rader assemblerkod. Denna kan väll inte vara optimerad? Jag menar, två stycken for-satser och man har gjort en matrismultiplikation. Enligt mig i alla fall.

Senast redigerat 2023-08-01 19:43

Rapportera Redigera

Citera flera Citera

2023-08-01 19:21

Permalänk

pine-orange

Medlem ★

Registrerad: Aug 2019

●

Det är inte relevant för din fråga men det är andra gången jag ser dig skriva det. Du menar K&R.

Rapportera Redigera

Citera flera Citera

2023-08-01 19:51

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

SGEMM beräknar en av dessa

R ← α⋅AB+β⋅C
R ← α⋅AB^T+β⋅C
R ← α⋅A^TB+β⋅C
R ← α⋅A^TB^T+β⋅C

Ser det bekant ut?

FMA är något som både x86_64 och ARM64 har speciella instruktioner för, det beräknar

r ← a⋅b+c

och sedan finns Tensor-kärnor i Nvidia GPUer (och motsvarande finns även i Intel och AMD RDNA3 GPUer), dessa beräknar

R ← AB+C

Vad du länkar är ISO C version av SGEMM, den är så optimal den kan vara given begränsningarna att uttrycka vad man vill göra inom ramen av ISO C. D.v.s. inte i närheten av vad som är möjligt på en modern x86_64/ARM64 CPU!

Poängen med SGEMM och i förlängningen även övriga operationer i BLAS är att det är ett API. Man kan välja en implementationer av detta API som är långt mer optimerat än vad som är möjligt med endast ISO C. Det är "killer feature" hos BLAS.

En av de absolut mest populära användandet av hård-optimerade varianter av BLAS är via ramverk NumPy och/eller PyTorch (båda dessa har "backends" för allt från SSE, AVX, NEON på CPU till GPGPU till NPU implementationer). Finns också HW-specifika lösningar som cuBLAS.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (4)

2023-08-01 20:11

Permalänk

heretic16

Medlem

Registrerad: Jun 2008

●

Skrivet av Yoshman:

SGEMM beräknar en av dessa

R ← α⋅AB+β⋅C
R ← α⋅AB^T+β⋅C
R ← α⋅A^TB+β⋅C
R ← α⋅A^TB^T+β⋅C

Ser det bekant ut?

FMA är något som både x86_64 och ARM64 har speciella instruktioner för, det beräknar

r ← a⋅b+c

och sedan finns Tensor-kärnor i Nvidia GPUer (och motsvarande finns även i Intel och AMD RDNA3 GPUer), dessa beräknar

R ← AB+C

Vad du länkar är ISO C version av SGEMM, den är så optimal den kan vara given begränsningarna att uttrycka vad man vill göra inom ramen av ISO C. D.v.s. inte i närheten av vad som är möjligt på en modern x86_64/ARM64 CPU!

Poängen med SGEMM och i förlängningen även övriga operationer i BLAS är att det är ett API. Man kan välja en implementationer av detta API som är långt mer optimerat än vad som är möjligt med endast ISO C. Det är "killer feature" hos BLAS.

En av de absolut mest populära användandet av hård-optimerade varianter av BLAS är via ramverk NumPy och/eller PyTorch (båda dessa har "backends" för allt från SSE, AVX, NEON på CPU till GPGPU till NPU implementationer). Finns också HW-specifika lösningar som cuBLAS.

Hur kommer det sig att BLAS är optimerat?

Hur kommer det sig att BLAS är optimerat?

Externa nyheter