Testa att boota upp systemet via en USB-sticka med Linux och kolla prestanda med iperf, siffrorna du får nu verkar löjligt låga.
Även om jag klockar ner en i7-4670T till 800MHz (scaling governor "power-save" i Linux) så rapporterar iperf över 9GBit/s med den förvalda fönsterstorleken och en MTU på 1500.
Kör med "82599EB 10-Gigabit SFI/SFP+ Network Connection" (kodnamn "Niantic", ett 10Gbit/s Ethernet kort över fiberkablar) och Ubuntu 12.04LTS server. Med Infiniband har du lägre latens än vad jag får med 10Gbit/s Ethernet.
Edit: vad det gäller optimeringar har jag ganska precist lekt lite med olika angreppssätt för att skriva program som kan hantera så många transaktioner/s över nätverket som möjligt. En sak jag lärde mig då var att alla former av frekvensskalning på CPUn tenderar minska kapaciteten en hel del då det tar rätt mycket tid för CPUn (med tanke på att du kan ha upp till 14miljoner paket per sekund i båda riktningarna på ett 10Gbit/s NIC).
Du har en i7 3820 (Sandy Bridge), så den tar minst 10µs för att byta frekvens. Vet inte hur man läser ut exakt värde i Windows, men på Linux kan du göra detta
$ cat /sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_transition_latency
10000
På min Haswell maskin ser man att det är 10000ns = 10µs.
Så steg ett är att alltid köra på max-frekvens (max s.k. P-state), den viktigsta strömsparfunktionen är ändå det man kallar C-states som CPUn hoppar mellan när den jobbar och inte har något att göra. Att hoppa mellan C0 (CPU jobbar) och C1 (CPU sover, men väldigt "lätt") tar runt 1µs, enda sättet att aldrig hoppa in i C1 är att aldrig anropa något som kan "blocka", finns sådana system men då åker strömförbrukningen upp rejält och det är definitivt overkill att undvika C1 i ditt fall.
Du bör också ha en fönsterstorlek på 20-100kB, exakt storlek beror lite på latens men den ska ju vara riktigt låg på Infiniband så du ska klara dig med rätt små fönster. Allt för stora fönster kommer leda till att du fyller CPU-cachen med så mycket data att risken är att saker skrivs över innan du ska till och använda det.
Trådskaparen har ju bra hastighet förutom efter en stund, känns inte som cpu prestanda påverkar nämnvärt utan snarare hastigheten att skriva till disk när det inte längre finns någon snabb cache att dumpa data till.