PC Benchmarks idag är missvisande även SweClockers - starta ny benchmark?

Permalänk

PC Benchmarks idag är missvisande även SweClockers - starta ny benchmark?

Hej.

Har gått igenom flera benchmarks på SweClockers, online och kollat på PC influencers på YouTube. Min observation är att varenda PC benchmark är missvisande och frånkopplad från verkligheten.

Vi ser samma sak traditionella benchmark varje år:

  • Single-thread

  • Multi-thread

  • Gaming, rendering och FPS

  • Memory och storage

Många idag sitter och använder sig av helt andra saker som också behöver mätas som tex AI workloads, Data Science processer, massiva datasets, memory capacity utöver standard gaming behov etc.

Vad menar jag? Genomsnittsstudenten idag använder sig av programmering: Python, R, Matlab, C++ m.m. Om de använder sig av GPU beräkningar så hamnar vi helt plötsligt under GPU benchmarks (nej, inte OpenCL och Vulkan blabla). Vi behöver mäta Tensor performance (matris operationer).

Och jag kan nog med hög konfidensgrad säga att majoriteten har en AI (språkmodell) på sin dator som antingen använder sig av lokal kapacitet eller via API. Också värt att benchmarka.

Kan SweClockers bygga en ny benchmark? Isåfall hur? Här är ett första förslag och jag kan vara med och hjälpa till.

Data preprocessing benchmark

Dataprep-1: CSV processing hastighet
- Test: Hantera och städa ett 50GB CSV dataset med mixade data typer
- Nyckeltal: Tid tills helt färdig, CPU utilization, minnesanvändning
- Variabler: Single-threaded vs multi-threaded performance

Dataprep-2: Data transformation pipeline (tex med Python)
- Test: Tillämpa flera transformationer (normalization, one-hot encoding etc.)
- Nyckeltal: Throughput (GB/s), skalbarhet med thread count
- Variabler: In-memory vs disk-backed processing

Dataprep-3: Feature Engineering prestanda
- Test: Generera komplexa variabler (features) från rådata (tidsseriefönster/släpande medelvärden etc)
- Nyckeltal: Operations per second, minnesbandbreddsanvändning
- Variabler: Olika data typer och algorithmic complexity

Modellträning benchmark

Train-1: Single modell träningshastighet
- Test: Träna standard modeller (ResNet50, BERT-base, etc.) på etablerade datasets
- Nyckeltal: Exempel per sekund, tid per epoch, convergence tid
- Variabler: Batch size skalbarhet, precision (FP32/FP16/INT8)

Train-2: Multi-task träning
- Test: Simultan träning med flera modeller genom resursdelning (tex BERT och XGBoost samtidigt)
- Nyckeltal: Kumulativ throughput, resursdelning
- Variabler: Liknande vs olika modell arkitekturer

Train-3: Memory-bound träning
- Test: Träna med datasets som är betydligt större än RAM
- Nyckeltal: Throughput degraderingskurva, disk I/O mönster
- Variabler: Olika lagringskonfigs (NVMe, RAID, etc.)

Inferens benchmark

Infer-1: Batch inference throughput
- Test: Hantera stora databatches med tränade modeller
- Nyckeltal: Samples per sekund, latency fördelning
- Variabler: Modell komplexitet (parametrar och hidden layers), batch size

Infer-2: Latency realtids inference
- Test: Hantera individuella samples med strikt latency krav (tex max 1 sek)
- Nyckeltal: P95/P99 latency, tail latency fördelning
- Variabler: Concurrent request hantering

Infer-3: Mixed workload inference
- Test: Hantering av flera olika modeller samtidigt
- Nyckeltal: Aggregerad throughput, QoS garanti
- Variabler: Prioritetsschemaläggning, resursallokering

Hårdvaruaccelerationstester

Accel-1: Tensor core användning
- Test: Operationer specifikt optimerade för Tensor cores
- Nyckeltal: TFLOPS uppnått vs teoretisk peak, utilization i procent
- Variabler: Matrisstorlek, sparsity mönster

Accel-2: CUDA/ROCm optimering
- Test: Standard CUDA/ROCm bibliotek (cuDNN, cuBLAS, etc.)
- Nyckeltal: Speedup vs icke-accelererad kod, minnesöverförings overhead
- Variabler: Olika algoritm implementationer

Accel-3: Mixed precision prestanda
- Test: Träning och inferense med mixed precision (FP16/BF16 + FP32)
- Nyckeltal: Throughput ökning, numerisk stabilitet, convergence
- Variabler: Automatisk vs manuell mixed precision

Skalbarhet system

Scale-1: Multi-GPU skalbarhet
- Test: Distribuerad träning över flera GPU
- Nyckeltal: Skalbarhets efficiency (% linjär skalbarhet), kommunikations overhead
- Variabler: Modell parallellism vs data parallellism

Scale-2: CPU skalbarhet för preprocessing
- Test: Data pipeline prestanda med ökande CPU core count
- Nyckeltal: Throughput vs core count kurva, mättnadspunkt
- Variabler: Begränsningar i minnesbandbredd, NUMA effekter

Scale-3: I/O flaskhals identifiering
- Test: Ladda dataset med ökande parallellism
- Nyckeltal: I/O väntetid, lagrings throughput användning
- Variabler: Caching strategier, prefetching algoritmer

----------------------------------------------------------------
EXEMPEL PÅ BENCHMARK RAPPORT

Systemkonfigurationer:
- System A: i9-13900K, 64GB DDR5, RTX 4090 24GB
- System B: Threadripper Pro 5965WX, 256GB DDR4, RTX 4090 24GB

Sammanlagd AI workload poäng:
- System A: 78/100
- System B: 92/100

Uppdelning av workload typ:
1. Data preprocessing: A: 65/100, B: 96/100
2. Modell träning: A: 82/100, B: 91/100
3. Inference: A: 88/100, B: 87/100
4. Hårdvaruacceleration: A: 89/100, B: 91/100
5. System skalbarhet: A: 62/100, B: 96/100

Highlights:
- System A erbjuder överlägsen single-thread prestanda vilket inference latency drar nytta av
- System B visar 3 gånger snabbare data preprocessing på stora datasets
- System B upphåller konsistent prestanda under blandade workloads
- System B stödjer 4 gånger mer concurrent träningsprocesser utan degradering i prestanda
- System A når begränsningar i minnesbandbredd vid 32GB i dataset storlek
- System B håller linjär skalbarhet upp till 128GB i dataset storlek
----------------------------------------------------------------------------------------

Visa signatur

Jag har fler GPU än du och ser mig själv som GPU fattig ändå

Permalänk
Medlem

Möjligen att du överskattar lite hur många som faktiskt använder sig utav det du nämner (andelsvis är ju inte så jättemånga programmerare exempelvis) men jag håller delvis med.

Finns dock en och annan benchmark för detta både på youtube och annat håll.

Men det är inte så värst intressant heller då svaret är enkelt: Nvidia vinner (inte i 100% allt kanske, men överlag med bra marginal).

Hardware Chanucks hade lite annat i sin 5080 recension, LTT brukar ha lite AI också, samt vissa gör specifika tester om just vad som är best för LLM.

Permalänk
Medlem

Glömde nämna Techtesters också. Tyvärr inte så mycket AMD gpu benchmakrs där. Jag skulle också uppskatta lite fler saker på Sweclockers tester. Men allt du nämner, det blir lite mycket för så få intresserade.

Permalänk
Medlem

Finns redan sidor som benchar olika typer av workloads. Jag förstår inte riktigt poängen med att Sweclockers ska utöka sin testning med något som dels andra redan kan testa bättre samt en liten andel användare här är intresserade av.

Permalänk
Skrivet av tonii:

Finns redan sidor som benchar olika typer av workloads. Jag förstår inte riktigt poängen med att Sweclockers ska utöka sin testning med något som dels andra redan kan testa bättre samt en liten andel användare här är intresserade av.

Just det som inte finns. Att slänga på ordet "AI Bench" är inte en riktig benchmark. Som sagt, OpenCL och Vulkan har inget med det att göra.

Visa signatur

Jag har fler GPU än du och ser mig själv som GPU fattig ändå

Permalänk
Skrivet av rwkk:

Glömde nämna Techtesters också. Tyvärr inte så mycket AMD gpu benchmakrs där. Jag skulle också uppskatta lite fler saker på Sweclockers tester. Men allt du nämner, det blir lite mycket för så få intresserade.

Techtesters har inte såna benchmarks jag nämner.

Visa signatur

Jag har fler GPU än du och ser mig själv som GPU fattig ändå

Permalänk
Skrivet av rwkk:

Möjligen att du överskattar lite hur många som faktiskt använder sig utav det du nämner (andelsvis är ju inte så jättemånga programmerare exempelvis) men jag håller delvis med.

Finns dock en och annan benchmark för detta både på youtube och annat håll.

Men det är inte så värst intressant heller då svaret är enkelt: Nvidia vinner (inte i 100% allt kanske, men överlag med bra marginal).

Hardware Chanucks hade lite annat i sin 5080 recension, LTT brukar ha lite AI också, samt vissa gör specifika tester om just vad som är best för LLM.

Nja, just det som inte finns. Det är därför jag skriver om det här.

Benchmarksen som du ser på Youtube är inga riktiga benchmarks, återigen varför jag tar upp det här. Att titta på Procyon benchmark är som att titta på Aktivitetshanteraren - det jag pratar om är riktigt benchmarks.

Att använda sig av AI appar är inte benchmark. SweClockers har ingen AI redaktion eller skribent. Det stämmer att SweClockers medlemmar inte är den typen men kan det bero på att man aldrig haft de resurserna att visa sånt på SweClockers?

Visa signatur

Jag har fler GPU än du och ser mig själv som GPU fattig ändå

Permalänk
Medlem

Någon borde utföra såna här tester regelbundet och på ett professionellt sätt, absolut!
(Låter jättekonstigt om verkligen ingen fyller den luckan?)
… men kanske inte sweclockers?

Visa signatur

A modest man is usually admired, if people ever hear of him.

Permalänk
Skrivet av Roger W:

Någon borde utföra såna här tester regelbundet och på ett professionellt sätt, absolut!
(Låter jättekonstigt om verkligen ingen fyller den luckan?)
… men kanske inte sweclockers?

Jag skickade precis iväg ett mail till Geeks AB (Sweclockers ägare?) om att få med en sån sektion på Sweclockers.

Mitt resonemang är väl mest att det vore fantastiskt att Sveriges största sajt för datorer och hårdvara får en sån sektion. För framtida entusiaster, gamers och studenter. På svenska!

Visa signatur

Jag har fler GPU än du och ser mig själv som GPU fattig ändå

Permalänk
Medlem

Det är helt ointressant och slöseri med tid och resurser som swec inte har.

Permalänk
Skrivet av Jagers:

Det är helt ointressant och slöseri med tid och resurser som swec inte har.

För vem är det ointressant och slöseri med tid? Hur vet du att Sweclockers inte har resurser? Och resurser till vad exakt?

Visa signatur

Jag har fler GPU än du och ser mig själv som GPU fattig ändå

Permalänk
Medlem

Jag vill påstå att allmänhetens intresse för detta är nära noll. Likaså mitt.

Visa signatur

Jag har en tigerrandig vakthund... akta er

Permalänk
Medlem
Skrivet av gamingturken:

För vem är det ointressant och slöseri med tid? Hur vet du att Sweclockers inte har resurser? Och resurser till vad exakt?

Ointressant för en majoritet av sweclockers läsare och därmed slöseri av tid för dom som jobbar på sweclockers.
Sweclockers måste precis som andra företag fördela sina resurser på ett tillräckligt bra sätt så man går med vinst. Att lägga ner tid och pengar på att ta fram nya benchmarks (som tydligen inte finns ännu?) är inte en process som man gör på några dagar och det är inte säkert att det kommer betala tillbaka sig i form av intresse (och därmed reklamvisningar) från allmänheten.

Du är dock fri att ta fram en helt ny test-svit på din fritid som sweclockers och andra recensenter kan använda sig av för att presentera den data du vill åt.

Permalänk
Skrivet av tonii:

Ointressant för en majoritet av sweclockers läsare och därmed slöseri av tid för dom som jobbar på sweclockers.
Sweclockers måste precis som andra företag fördela sina resurser på ett tillräckligt bra sätt så man går med vinst. Att lägga ner tid och pengar på att ta fram nya benchmarks (som tydligen inte finns ännu?) är inte en process som man gör på några dagar och det är inte säkert att det kommer betala tillbaka sig i form av intresse (och därmed reklamvisningar) från allmänheten.

Du är dock fri att ta fram en helt ny test-svit på din fritid som sweclockers och andra recensenter kan använda sig av för att presentera den data du vill åt.

Det låter vi Geeks AB avgöra och inte du. Ganska skum inställning du har utan att jobba på Geeks AB eller SweClockers.

Varför får du för dig att prata åt de?

Visa signatur

Jag har fler GPU än du och ser mig själv som GPU fattig ändå

Permalänk
Medlem

Inget jag är intresserad av heller, ser hellre att de fokuserar på det som de gör idag och inte breddar sig ännu mer.

Permalänk
Medlem
Skrivet av gamingturken:

Det låter vi Geeks AB avgöra och inte du. Ganska skum inställning du har utan att jobba på Geeks AB eller SweClockers.

Varför får du för dig att prata åt de?

Det gör jag inte utan jag utvecklade bara ett troligt scenario. Att du lyckas läsa in det i vad jag skrev får stå för dig helt enkelt.

Det återstår dock såklart det sista jag skrev som du kanske missade: utveckla en egen test-svit, gör den hyffsat automatiserad och släpp den fri så kommer folk som har tillgång till mycket hårdvara (recensenter) att kunna använda det för att testa och få fram de data som du vill åt.

Permalänk
Medlem
Skrivet av gamingturken:

För vem är det ointressant och slöseri med tid? Hur vet du att Sweclockers inte har resurser? Och resurser till vad exakt?

Skrivet av gamingturken:

Det låter vi Geeks AB avgöra och inte du. Ganska skum inställning du har utan att jobba på Geeks AB eller SweClockers.

Varför får du för dig att prata åt de?

99% av de på swec är helt ointresserade och resurser = tid + pengar, dem på swec jobbar på swec, det är inte hobbydrivet.
De som jobbar på swec har vid flera tillfällen hintat om att dem knappt går runt och bett folk stänga av ad-blockers som ett exempel.

Resurser till vad? igen de på swec har det som jobb, dvs. ska man sätta sig och benchmarka alla dem sakerna kommer det kosta tid och pengar.