Skulle du göra detta har du, väldigt förenklat, få något som är väldigt nära Haswell-kärnan som just har 4 AGU + 4 ALU (väldigt asymmetriska, men ändock). Fördelen är bättre enkeltråd-prestanda förutsatt att man har tillräckligt stort "fönster" som man kan välja instruktioner ur för att hålla så många enheter sysselsatta.
Enda nackdelen med HT jämfört med moduler är att att faktiskt prestanda sett per tråd påverkas mer av att den andra CPU-tråden används. AMDs försvar till varför man valde moduler i stället för "HT" var att moduler ger en mer förutsägbar prestanda då påverkan på första tråden är mindre av att den andra tråden används. Det är helt sant, men det har ju visat sig att anledningen till den mindre påverkan beror ju på att man har mycket sämre enkeltråd-prestanda till att börja med... Jämför man i7 3770 och FX-8530 så har de ungefär samma prestanda per tråd när båda CPU-trådarna i en kärna/modul används, men i7-3770 har mycket bättre enkeltrådprestanda... Så i praktiken är ju HT vettigare och alla tillverkare utom AMD har ju gått på SMT spåret vilket kanske också säger en del.
Tanken med moduler var i grunden helt rätt i.m.h.o. Att två "kärnor" delar på en FPU är definitivt en vettig idé då ytterst få program är flyttalsintensiva (spel slutade vara flyttalsintensiva på CPU-delen när vi fick HW T&L, d.v.s för runt 10-15 år sedan) och även de som är väldigt flyttalsintensiva behöver ändå en hel del heltalsoperationer och minnesoperationer.
Problemet är att det i alla fall tog så många transistorer att göra en "modul" att man fick skala tillbaka ALU/AGU per tråd jämfört med Stars-arkitekturen (som hade 3 pipelines som kunde utföra allt). Varje modul har 33% mer resurser än en Stars-kärna, men varje CPU-tråd har bara 67% av resurserna av en Stars-kärna vilket gjorde IPC lidande. Att offra enkeltrådprestanda för högre total prestanda är OK för en server, men det är helt feldesignat för desktop. Tyvärr, för AMD, har det visat sig att HT är väldigt effektivt på många serverlaster där flaskhalsen är att working-set är så stort att det inte får plats i CPU-cache. HT blir i ett sådan läge i princip lika effektivt som två CPU-trådar i en modul då flaskhalsen är latens mot RAM och inte heltalskapacitet, HT kräver långt färre transistorer...