GPGPU: vilka algoritmer drar nytta av unified memory architecture

Permalänk
Medlem

GPGPU: vilka algoritmer drar nytta av unified memory architecture

Som ni vet finns det många problem idag som är otroligt mycket snabbare på GPU:n. Inte minst är minnesbandbredden på själva GPU:n en faktor tio eller så snabbare än den i CPU:n + att rå beräkningskraft (TFLOPS) är ännu starkare. Men en begränsande faktor har ibland varit att minnesbandbredden mellan CPU/GPU är begränsad till ca 5 GB/s eller så (i storleksordning). Det gör att en del beräkningar ändå varit mer lämpade för SIMD-instruktioner / AVX på CPU:n. Enklaste exemplet jag kan komma på är matrismultiplikationer med N=M=200 vs 2000 (där enbart det sistnämnda exemplet drar fördel av GPU:n).

- Kan nya minnesarkitekturer (t.ex. den på Apple M1) påverka denna trade-off?
- Finns det i praktiken några algoritmer och use-case där GPU + CPU med unified memory architecture är en game-changer?
- Känner ni till några bra papers i ämnet som kan rekommenderas?

Permalänk