PC Benchmarks idag är missvisande även SweClockers - starta ny benchmark?
Hej.
Har gått igenom flera benchmarks på SweClockers, online och kollat på PC influencers på YouTube. Min observation är att varenda PC benchmark är missvisande och frånkopplad från verkligheten.
Vi ser samma sak traditionella benchmark varje år:
Single-thread
Multi-thread
Gaming, rendering och FPS
Memory och storage
Många idag sitter och använder sig av helt andra saker som också behöver mätas som tex AI workloads, Data Science processer, massiva datasets, memory capacity utöver standard gaming behov etc.
Vad menar jag? Genomsnittsstudenten idag använder sig av programmering: Python, R, Matlab, C++ m.m. Om de använder sig av GPU beräkningar så hamnar vi helt plötsligt under GPU benchmarks (nej, inte OpenCL och Vulkan blabla). Vi behöver mäta Tensor performance (matris operationer).
Och jag kan nog med hög konfidensgrad säga att majoriteten har en AI (språkmodell) på sin dator som antingen använder sig av lokal kapacitet eller via API. Också värt att benchmarka.
Kan SweClockers bygga en ny benchmark? Isåfall hur? Här är ett första förslag och jag kan vara med och hjälpa till.
Data preprocessing benchmark
Dataprep-1: CSV processing hastighet
- Test: Hantera och städa ett 50GB CSV dataset med mixade data typer
- Nyckeltal: Tid tills helt färdig, CPU utilization, minnesanvändning
- Variabler: Single-threaded vs multi-threaded performance
Dataprep-2: Data transformation pipeline (tex med Python)
- Test: Tillämpa flera transformationer (normalization, one-hot encoding etc.)
- Nyckeltal: Throughput (GB/s), skalbarhet med thread count
- Variabler: In-memory vs disk-backed processing
Dataprep-3: Feature Engineering prestanda
- Test: Generera komplexa variabler (features) från rådata (tidsseriefönster/släpande medelvärden etc)
- Nyckeltal: Operations per second, minnesbandbreddsanvändning
- Variabler: Olika data typer och algorithmic complexity
Modellträning benchmark
Train-1: Single modell träningshastighet
- Test: Träna standard modeller (ResNet50, BERT-base, etc.) på etablerade datasets
- Nyckeltal: Exempel per sekund, tid per epoch, convergence tid
- Variabler: Batch size skalbarhet, precision (FP32/FP16/INT8)
Train-2: Multi-task träning
- Test: Simultan träning med flera modeller genom resursdelning (tex BERT och XGBoost samtidigt)
- Nyckeltal: Kumulativ throughput, resursdelning
- Variabler: Liknande vs olika modell arkitekturer
Train-3: Memory-bound träning
- Test: Träna med datasets som är betydligt större än RAM
- Nyckeltal: Throughput degraderingskurva, disk I/O mönster
- Variabler: Olika lagringskonfigs (NVMe, RAID, etc.)
Inferens benchmark
Infer-1: Batch inference throughput
- Test: Hantera stora databatches med tränade modeller
- Nyckeltal: Samples per sekund, latency fördelning
- Variabler: Modell komplexitet (parametrar och hidden layers), batch size
Infer-2: Latency realtids inference
- Test: Hantera individuella samples med strikt latency krav (tex max 1 sek)
- Nyckeltal: P95/P99 latency, tail latency fördelning
- Variabler: Concurrent request hantering
Infer-3: Mixed workload inference
- Test: Hantering av flera olika modeller samtidigt
- Nyckeltal: Aggregerad throughput, QoS garanti
- Variabler: Prioritetsschemaläggning, resursallokering
Hårdvaruaccelerationstester
Accel-1: Tensor core användning
- Test: Operationer specifikt optimerade för Tensor cores
- Nyckeltal: TFLOPS uppnått vs teoretisk peak, utilization i procent
- Variabler: Matrisstorlek, sparsity mönster
Accel-2: CUDA/ROCm optimering
- Test: Standard CUDA/ROCm bibliotek (cuDNN, cuBLAS, etc.)
- Nyckeltal: Speedup vs icke-accelererad kod, minnesöverförings overhead
- Variabler: Olika algoritm implementationer
Accel-3: Mixed precision prestanda
- Test: Träning och inferense med mixed precision (FP16/BF16 + FP32)
- Nyckeltal: Throughput ökning, numerisk stabilitet, convergence
- Variabler: Automatisk vs manuell mixed precision
Skalbarhet system
Scale-1: Multi-GPU skalbarhet
- Test: Distribuerad träning över flera GPU
- Nyckeltal: Skalbarhets efficiency (% linjär skalbarhet), kommunikations overhead
- Variabler: Modell parallellism vs data parallellism
Scale-2: CPU skalbarhet för preprocessing
- Test: Data pipeline prestanda med ökande CPU core count
- Nyckeltal: Throughput vs core count kurva, mättnadspunkt
- Variabler: Begränsningar i minnesbandbredd, NUMA effekter
Scale-3: I/O flaskhals identifiering
- Test: Ladda dataset med ökande parallellism
- Nyckeltal: I/O väntetid, lagrings throughput användning
- Variabler: Caching strategier, prefetching algoritmer
----------------------------------------------------------------
EXEMPEL PÅ BENCHMARK RAPPORT
Systemkonfigurationer:
- System A: i9-13900K, 64GB DDR5, RTX 4090 24GB
- System B: Threadripper Pro 5965WX, 256GB DDR4, RTX 4090 24GB
Sammanlagd AI workload poäng:
- System A: 78/100
- System B: 92/100
Uppdelning av workload typ:
1. Data preprocessing: A: 65/100, B: 96/100
2. Modell träning: A: 82/100, B: 91/100
3. Inference: A: 88/100, B: 87/100
4. Hårdvaruacceleration: A: 89/100, B: 91/100
5. System skalbarhet: A: 62/100, B: 96/100
Highlights:
- System A erbjuder överlägsen single-thread prestanda vilket inference latency drar nytta av
- System B visar 3 gånger snabbare data preprocessing på stora datasets
- System B upphåller konsistent prestanda under blandade workloads
- System B stödjer 4 gånger mer concurrent träningsprocesser utan degradering i prestanda
- System A når begränsningar i minnesbandbredd vid 32GB i dataset storlek
- System B håller linjär skalbarhet upp till 128GB i dataset storlek
----------------------------------------------------------------------------------------
Jag har fler GPU än du och ser mig själv som GPU fattig ändå