Visst påverkar även set-associativiteten latensen. Ett bra exempel är L1I cachen (L1 är separerad i data cache L1D och instruktion L1I) för på Bulldozer vs Nehalem. Bulldozer har, precis som Phenom II, en 64kB, 2-way associativ L1I cache med 4 cyklers latens medan Nehalem har 32kB, 4-way associativ L1I cache också med 4 cyklers latens. I Sandy Bridge blir det lite mer komplicerat då den även har en "trace cache" för instruktioner, men i genomsnitt så får denna CPU 4 cyklers latens mot sin 32kB, 8-way associativa L1 cache. Det skumma med Bulldozer är att L1D bara är 16 kB och 4-way med 4 cyklers latens. Alla AMD CPUer sedan Athlon har haft en L1D på 64kB och 2-way, 2 fler sett kommer inte på långa vägar kompensera för att storleken blivit en fjärdedel, framförallt inte då den ska delas av två CPU-trådar.
Här är vad AnandTech fick ur Intel när han en gång i tiden testade Nehalem
"Apparently the L2 cache size was and still is a controversial issue within Intel, many engineers still feel like it is too small for current workloads. The problem with making it larger is not just one of die size, but also one of latency. Intel managed to get Nehalem’s L2 cache down to 10 cycles, the next bump in L2 size would add another 1 - 2 cycles to its latency. At 512KB per core, 20% longer to access the cache was simply unacceptable to the designers."
http://www.anandtech.com/show/2671
Men det som är kul är att AMD och Intel nu divergerar rätt mycket i sin design av CPU. Blir väldigt interessant att se vilka svagheter/styrkor respektive design kommer att ge