Man måste definiera ordet "effektiv" i detalj för att svara på den frågan.
Sett till bandbredd/W är det absolut mer effektivt med en bredare buss som är lägre klockad.
Sett till hur nära man kan nå teoretisk kapacitet i praktiken är detta lättare med en högt klockad smalare buss.
Sedan finns en komplicerade faktor här: både GDDR5 och HBM har två separata frekvenser, en "command clock" och en "data clock". Command clock avgöra hur många oberoende minnestransaktioner som kan utföras per tidsenhet medan data clock avgör peakbandbredd för data. När man ser bandbredd listad ser man bara den senare siffran.
Har man fall där lasten består i väldigt många relativt små minnestransaktioner blir databandbredden mindre viktig än hur ofta man kan göra nya transaktioner. Gissar att detta är förklaringen till varför GDDR5X presterar rätt dåligt jämfört med GDDR5 i Ethereum mining (här har man väldigt många transaktioner på 128 bytes var). Sett till respektive "command clock" rate presterar de däremot rätt lika här, GDDR5X är då 10-30 % snabbare.
GDDR5/GDDR5X är uppdelade i 32-bitars breda delar, så en 256-bitars buss består av 8 oberoende kanaler. Enda egentliga skillnaden mellan dessa är att GDDR5X har dubbel datakapacitet per pinne och cykel. PR-mässigt visar man dock frekvensen som fysisk frekvens * databitar per cykel, fysiskt sett är minnen i GTX1080 lägre klockade än minnen i GTX1070, den senare har därför möjlighet att utföra fler oberoende minnestransaktioner per tidsenhet men har lägre databandbredd.
HBM2 är lite mer komplicerad här. Rent fysiskt har varje stack 1024 datapinnar. En kanal på 1024 skulle vara brutalt ineffektivt i praktiken (är DDR så minsta möjliga transaktion blir då 1024(bredd)/8(bitar per byte)*2(DDR) = 256 B, så upp till 255 B "spill" när storleken inte är en multipel av minsta transaktionsstorlek), så HBM2 är specificerat så att varje stack fungerar som om den består av 8 separata kretsar. D.v.s. logiskt sett uppför sig HBM2 som GDDR5 där varje kanal är 128 bitar bred.
Detta ger fortfarande minsta storlek på 64 B, så en nyhet i HBM2 är att man logiskt kan dela upp detta en gång till så man får två 32 B stora transaktioner (rent fysiskt måste dock ändå minst 64 B skickas). 32 B är samma transaktionsstorlek som GDDR5. GDDR5X har rent fysiskt 64 B transaktionsstorlek, men där har man precis som för HBM2 ett logiskt lager så GPUn kan jobba med 32 B transaktioner. Verkar alltså som man rent empiriskt konstaterat att 32 B är en "optimal" transaktionsstorlek för GPUer.
"Command clock" är rätt låg för HBM2, så om flaskhalsen är antalet minnestransaktioner så är det mer effektivt med GDDR5/GDDR5X med motsvarande bandbredd (fast det drar mer ström).