Jetson TX2 - "RPi" på sterioder

Permalänk
Datavetare

Jetson TX2 - "RPi" på sterioder

Ny leksak inskaffad, en Nvidia Jetson TX2 develeopment board.

Den officiella miljön för kortet är Ubuntu 16.04 LTS eller Ubuntu 18.04 LTS för 64-bitars ARM. Det är rätt mycket orsaken till inköpet, letat efter någon form av "vanlig" dator utrustad med 64-bitars ARM CPU. Har tillgång till flera plattformar med den CPUn på jobbet, men det är i form av väldigt nischade plattformar (inbyggda-system).

Här får man hyfsat mycket en "vanlig" dator, även om det är i begränsad upplaga.

  • 6 CPU-kärnor, tyvärr bara klockade till maximalt 2,0 GHz och är Cortex A57 (betydligt roligare om det varit A75/A76). A57 är ändå mer än dubbelt så snabb som A53 som man hittar i t.ex. RPi3 per cykel.

  • 8 GB DDD4

  • Pascal GPU med drivers direkt från Nvidia. Vissa kan ha åsikter om att det är en BLOB, för mig är det primära att saker fungerar utan problem vilket är fallet här! Prestanda är något högre än i Nintendo Switch, samma mängd CUDA-kärnor fast Pascal i stället för Maxwell och 200-300 MHz högre frekvens.

  • Gbit/s Ethernet, 802.11ac / Wifi-5

  • PCIe x4 slot

  • M.2 Key E (PCIe x2)

  • SATA

  • USB2 / USB3

  • Likt RPi och till skillnad från en "normal" PC finns även GPIO pinnar att leka med

Att det finns SATA-gränssnitt hjälper upp prestanda rätt ordentligt vid "vanlig" användning då man kan köra från en SSD i stället för ett långt segare minneskort.

Semi-passiv fläkt, ska till hyfsat last innan den börjar snurra.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

Häftigt, lite avundsjuk. Vad ska du använda den till ?

Visa signatur

🖥️ Fractal Design Node 804 • Asrock Fatal1ty X99M Killer • Intel 5820K • Noctua NH-U12S • Corsair Vengeance 16GB • Gigabyte GTX 970 • be quiet! Dark Power Pro 550w • 2x Intel 520 120GB • 2x 1TB • 1x 3TB
💻 Microsoft Surface Pro (8GB/128GB)
 iPhone 11 64GB 🎧 SONY WH-1000XM3
🎵📲 SONY NW-ZX300 64GB [Region changed & Mr Walkman custom firmware loaded] + 256GB xtra • Audio Technica ATH-M50X

Permalänk
Medlem

Ser ut som en trevlig maskin faktiskt :), och rätt snabb för det dagliga surfa web, se filmer m.m

Permalänk
Datavetare
Skrivet av RVX:

Häftigt, lite avundsjuk. Vad ska du använda den till ?

Jobbar en hel del med ARM, ville ha en 64-bitars ARM-datorn själv. Behövs det mer motivering än så

Är helt enkelt tänkt som "något jag kan provköra olika program och egna program på som är en ARM64 plattform". Råkar föredra Ubuntu som Linux-distro, så för mig var det ett stort plus att den officiella plattformen för Jetson är just Ubuntus LTS (Long Time Support) versioner.

Finns en väsentligt billigare version som heter Jetson nano. Fortfarande betydligt dyrare jämfört med en RPi 3, men är nog rätt mycket samma prestanda/kr i slutändan (för grafik är det fördel Jetson).

Ska släppas en ny generation ARM64 laptops i höst. Får se om man plockar upp en sådan. Det blir första gången Qualcomm specifikt designat en krets för bärbara datorer. De ARM-laptops som släpptes förra våren körde en mobilplattform som redan då inte var det absolut senaste

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Jobbar en hel del med ARM, ville ha en 64-bitars ARM-datorn själv. Behövs det mer motivering än så

Egentligen inte

Skickades från m.sweclockers.com

Visa signatur

🖥️ Fractal Design Node 804 • Asrock Fatal1ty X99M Killer • Intel 5820K • Noctua NH-U12S • Corsair Vengeance 16GB • Gigabyte GTX 970 • be quiet! Dark Power Pro 550w • 2x Intel 520 120GB • 2x 1TB • 1x 3TB
💻 Microsoft Surface Pro (8GB/128GB)
 iPhone 11 64GB 🎧 SONY WH-1000XM3
🎵📲 SONY NW-ZX300 64GB [Region changed & Mr Walkman custom firmware loaded] + 256GB xtra • Audio Technica ATH-M50X

Permalänk
Medlem

Vi kräver benchmarks! 😀

Permalänk
Medlem
Skrivet av EntropyQ3:

Vi kräver benchmarks! 😀

Finns benchmarks på Phoronix.

----

Edit. Ville jag spendera $599+ på arm så hade jag nog hellre byggt ett raspberry pi kluster... Stödet för Jetson TX2 verkar också, två år efter det släpptes, inte vara särskilt stort...

Permalänk
Medlem

Jämföra med en RPi? Jo, visst kan man det. Men du kan lika gärna jämföra med en Intel NUC NUC8i7HNK eller någon mini-itx med tanke på priset. För det handlar ju ändå om 6k+. Och ja, storleken är väl 17x17cm?

Permalänk
Avstängd
Skrivet av ToddTheOdd:

Jämföra med en RPi? Jo, visst kan man det. Men du kan lika gärna jämföra med en Intel NUC NUC8i7HNK eller någon mini-itx med tanke på priset. För det handlar ju ändå om 6k+. Och ja, storleken är väl 17x17cm?

Blir lite problematiskt som du är ute efter en ARM-CPU.

Visa signatur

R7 3700X | X570 Aorus Master | 32GB | EVGA 1080 Ti FTW3 | Noctua NH-D15S | FD Meshify C Copper
R7 1700 | X370 Gaming-ITX | 16GB | RX Vega 64 LE | Noctua U12S | Node 304
2 x HPE ProLiant Microserver Gen 8 | 1265L V2 | 16GB | 20TB

Permalänk
Medlem
Skrivet av EntropyQ3:

Vi kräver benchmarks! 😀

Av hur många nummerplåtar på motorvägen i sekunden kan den läsa av?

Visa signatur

Operativsystemet som löser nästan alla problem: Mint

Permalänk
Datavetare
Skrivet av filbunke:

Finns benchmarks på Phoronix.

----

Edit. Ville jag spendera $599+ på arm så hade jag nog hellre byggt ett raspberry pi kluster... Stödet för Jetson TX2 verkar också, två år efter det släpptes, inte vara särskilt stort...

Har lite annat att stå i under dagen, men ska köra Phoronix testerna.

Gillar verkligen Phoronix test-suite, men har hänt lite för många gånger att de tester man publicerat på Phoronix-siten egentligen alls varit representativ för plattformen. Värsta exemplet är nog när de testade POWER9, man gjorde flera rejäla grodor som resulterade i att POWER9 såg långt mycket sämre ut jämfört med x86 (som i princip alltid görs korrekt) än vad som är fallet i praktiken.

Jetson TX2 levereras t.ex. med en väldigt barskrapad version av Ubuntu 16.04, även om man uppgraderar till 18.04 så måste man även läsa tillräckligt om plattformen för att inse att den inte alls är konfigurerad för maximal prestanda ur lådan.

Med Ubuntu 16.04 ser man alla sex kärnor i standardvalet, men de går inte på maxfrekvens.
Med Ubuntu 18.04 går fyra kärnor på maxfrekvens, men två är avstängda och GPU når inte max.

Finns totalt fem olika inställningar, det är en utvecklingsplattform av något som finns i lite varianter för "riktiga" applikationer. Exakt vilket läge man väljer att köra beror ju på vilken typ av applikation man vill testa för. Att byta läge är trivialt, man kör bara ett kommando som finns förinstallerat som "root".

I mitt fall vill jag bara ha en ARM64 plattform, så kör med alla kärnor aktiva och låter de nå maxfrekvens. Så ska bli spännande att se hur plattformen står sig i Phoronix benchmark. Har bara kört lite nätverkstester så här långt, den maxar i alla fall gigabit-porten (tyvärr inte en självklarhet på de ARM-plattformar jag brukar jobba med...).

Det trista med Jetson är att man fortfarande kör Cortex A57, det är en CPU med ett par år på nacken. Cortex A76 har ungefär dubbla IPC!

Går dock inte alls att jämföra känslan på denna mot RPi3 om man kör en desktop-mijö. Flytet är på en helt annan nivå med Jetson, bara en sådan sak som att RPi3 kör med DDR2 och denna kör med DDR4 gör en hel del när grafik börjar åka runt!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Datavetare
Skrivet av ToddTheOdd:

Jämföra med en RPi? Jo, visst kan man det. Men du kan lika gärna jämföra med en Intel NUC NUC8i7HNK eller någon mini-itx med tanke på priset. För det handlar ju ändå om 6k+. Och ja, storleken är väl 17x17cm?

Här är jämförelsen i storlek mot NUC8i7BEH
Edit: NUC8i7HNK är ungefär dubbelt så bred som NUC8i7BEH och ungefär lika djup.

Men det handlar ju helt i slutändan om vad man ska använda plattformen till. NUC8i7BEH presterar ruggigt bra för både sitt pris och sin storlek sett enbart till CPU-delen samt kanske främst I/O-tunga saker och virtualisering / containers (kör en del docker på den). Faktum är att NUC8i7BEH är rejält mycket snabbare än min 2700X dator (som i självklart är långt snabbare i lägen där alla kärnor kan användas effektivt och I/O inte är en faktor).

Här är en jämförelse mellan min NUC8i7BEH och en 2600X som presterar identiskt med SweC vinter 2018 / vår 2019 dator. Beroende på vad man gör skulle NUC8i7BEH vara en betydligt bättre vinter / sommar dator, man får den för ~9,5k med 1 TB 970 EVO Plus och 32 GB RAM och den presterar bättre i det mesta som är CPU-bundet och inte skalar perfekt med CPU-kärnor. För mig är LLVM testet med relativt få kärnor orsaken till val av NUC8i7BEH, är ett fall som återkommer ofta när man programmerar.

Så åter igen, allt beror på vad man ska använda datorn till. Vi har nog större spridning på vad som är "bästa" dator än vi någonsin haft!

Jetson plattformen är ett mellanting mellan RPi / liknande och en vanlig PC.

Jetson har GPIO, något som finns på RPi men typiskt saknas på PC (men går ju att hänga på en RPi eller någon Arduino-pryl naturligtvis).

Jetson har PCIe, något man knappast hittar på RPi (ska ta den till jobbet och hänga på 10 Gbit/s NIC får se om den orkar...). Här finns även SATA stöd.

Men i motsats till en typisk PC har Jetson en 64-bitars ARM CPU. Det är primära orsaken för mig att köpa denna, för många andra användarfall är det irrelevant och då lär t.ex. en NUC i de flesta fall vara ett klart bättre val!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Datavetare

Phoronix siffrorna verkar vara helt OK gjorda, med en liten brasklapp. Man skriver detta

"As covered in last week's article, there are two operating modes for the Jetson TX2: MAX-P and MAX-Q. MAX-P is designed for maximum performance in delivering up to twice the performance of the JTX1 at less than 15 Watts. The MAX-Q mode is for maximum efficiency and aims for twice the performance-per-Watt of the JTX1 at less than 7.5 Watts. The MAX-P and MAX-Q modes can be changed via the nvpmode binary present on the Jetson TX2's stock file-system. There are some MAX-P vs. MAX-Q benchmarks in this article while more will be coming up in future Jetson Linux benchmarking articles."

De siffror man visar när det bara finns en är MAX-P. Vet inte om man missat det eller om Nvidia lagt till fler lägen senare, men jag har satt min i ett läge som kallas MAX-N.

Denna tabell förklarar skillnaderna

# Mode Mode Name Denver 2 Frequency ARM A57 Frequency GPU Frequency # 0 Max-N 2 2.0 GHz 4 2.0 GHz 1.30 Ghz # 1 Max-Q 0 4 1.2 Ghz 0.85 Ghz # 2 Max-P Core-All 2 1.4 GHz 4 1.4 GHz 1.12 Ghz # 3 Max-P ARM 0 4 2.0 GHz 1.12 Ghz # 4 Max-P Denver 1 2.0 GHz 1 2.0 GHz 1.12 Ghz

Phoronix verkar köra MAX-P #2 (baserat på t.ex. deras resultat i C-ray, #3 skulle ge lägre resultat där). Resultaten jag ser är rätt mycket 2,0 / 1,4 = ~43 % högre i de fall CPU-delen är den enda flaskhalsen. Har inte hunnit kört några GPU-tester, men gissningsvis är det 1,30 / 1,12 = ~16 % skillnad där.

Phoronix har gjort ett uppdaterat test, har hänt en del positivt på prestandafronten sedan de först testad.

Hittade både bra och dåliga nyheter kring diskprestanda på denna enhet. Den bra nyheten är att de 32 GB som sitter direkt på kortet inte är ett pålött SD-kort utan är en flash-disk på SATA3 gränssnitt (och den maxar det).

Den dåliga nyheten är att det SATA gränssnitt som sitter på kortet är också SATA3, stoppat dit en EVO 860 disk (som jag även har i mitt Ryzen-system och vet att den utan problem maxar SATA6), där ser man prestanda som bara kan förklaras med att det är en SATA3-port.

Trist, men ändå långt bättre än något man får på t.ex. RPi3!

Har testat en av de REST-API benchmarks jag satt ihop för att jämföra Go-lang, dotnet-core och NodeJS mot varandra. Har kört Go-lang versionen på Jetson-TX2. Den är chanslös mot i7-8559U (323k req/s) och 2700X (140k req/s) när man kör över Ethernet, här nådde man endast 64k req/s (alla dessa körde Ubuntu 18.04).

Men det är å andra sidan i närheten av vad jag såg i samma test under Win10 (det på en i7-6650U), 74k req/s.

Jetson-TX2 är asymmetrisk i det att två kärnor är skapade av Nvidia, "Denver 2", medan fyra stycken är ARM Cortex A57.

Denver 2 kärnorna verkar presterar bra i rena "CPU-laster", som t.ex. C-ray och lite andra beräkningstester jag kör (kanske en del ligger i den gigantiska L1$ de har, 192 kB mot de 32 kB man hittar i Skylake). Däremot verkar de inte gilla I/O, det går bättre på Cotex A57 kärnorna. Phornix suite Apache server test ger hela 70 % högre resultat om man begränsar det till Cortex A57 jämfört med att köra alla kärnor (där då Linux först lägger saker på Denver2 kärnorna), men det är lite av ett udda fall så här långt och klart "worst-case".

På det stora hela är det rätt likvärdig prestanda på kärnorna. Linux-scheduler verkar först lägga jobb på de två Denver2 kärnorna, för att sedan använda resten. Nog vettig strategi då kortet primärt är tänkt för beräkningar.

Kul plattform, om man specifikt vill ha en 64-bitars ARM-plattform med officiellt Linux stöd. Men för de flesta är nog som sagt en NUC bättre, eller Jetson-nano som kostar väsentligt mindre, $99 (tog bara 2 dagar för Nvidia att leverera mitt kort).

Nano har mindre RAM och saknar saker som PCIe-slot, SATA etc. Men är ett vettigare val om man bara vill ha en "RPi på steroider".

Har inte hunnit testa primärlasten för min del, använda Jetson-TX2 som en utvecklingsburk... Men det kommer!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

@Yoshman: finns det utrymme för överklockning, eller krävs det biffigare kylning... har en rpi3 som arkadspel-station, med enorm kylfläns & fläkt
blir inget spelande för min del, mest prestandatester, grabben lirar lite ice-climber ibland

Visa signatur

i9 13900KS, RTX 4090,64GB DDR5 7000MHz CL34, 2 + 2 TB NVMe Gen4 x4 - Win11 @ LG OLED42C3 💦 - kyld
Lenovo Legion 5 Pro - 16" | Ryzen 7 5800H | 32GB | RTX 3070 | 1 + 2 TB NVMe | 165Hz | QHD
Xbox Series X - 3 TB intern, Nintendo Switch <- dammsamlare
HTPC - Mac mini M1 | 16 GB | 2 TB SSD, sovrum: i7 2600K 1080 Ti

Permalänk
Datavetare
Skrivet av Factorial112:

@Yoshman: finns det utrymme för överklockning, eller krävs det biffigare kylning... har en rpi3 som arkadspel-station, med enorm kylfläns & fläkt
blir inget spelande för min del, mest prestandatester, grabben lirar lite ice-climber ibland

Nu har jag inte undersökt just möjligheten till överklockning på Jetson, men gissar att det inte är det inte direkt finns något möjlighet till det. Det likt "låsta" x86 CPUer, värme är knappast ett problem.

Kylflänsen på TX2 är rätt overkill. Om man bara lastar CPU-kärnorna eller GPU-delen startar inte ens fläkten, inte ens efter flera minuters last. Uppenbarligen fixar den att kyla de ~10 W som verkar dras från väggen i de lägena.

Fläkten fungerar dock på mitt kort. Testade att köra systemet som desktop igår, när det låg saker som drog 100 % CPU i bakgrunden samtidigt som jag surfade runt (utan ad-blocker) så snurrade fläkten faktiskt.

Närmaste man kommer "överklockning" på denna verkar vara att köra den i läget jag använder, MAX-N. Är det läget med högst prestanda men också högst strömförbrukning (fortfarande <20 W).

Tror just Jetson-nano skulle passa superfint till ett litet arkadspel. Är mer än dubbelt så snabb CPU (4 st Cortex A57 kärnor @ ~1,4 GHz) jämfört med RPi3 samt Maxwell baserad GPU. TX2 är både för stort och onödigt dyrt för en sådan sak.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

@Yoshman:
mitt stabilitetstest för pi3 B+:en
ev. behövs sysbench installeras...

#!/bin/bash clear cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp

antal trådar blir fler i ditt fall...

sen är Rpi så populär att "alla" emulatorer osv. blir optimerade till den, men det kanske funkar med lite modifikation till Nvidias grejer också...

Visa signatur

i9 13900KS, RTX 4090,64GB DDR5 7000MHz CL34, 2 + 2 TB NVMe Gen4 x4 - Win11 @ LG OLED42C3 💦 - kyld
Lenovo Legion 5 Pro - 16" | Ryzen 7 5800H | 32GB | RTX 3070 | 1 + 2 TB NVMe | 165Hz | QHD
Xbox Series X - 3 TB intern, Nintendo Switch <- dammsamlare
HTPC - Mac mini M1 | 16 GB | 2 TB SSD, sovrum: i7 2600K 1080 Ti

Permalänk
Datavetare
Skrivet av Factorial112:

@Yoshman:
mitt stabilitetstest för pi3 B+:en
ev. behövs sysbench installeras...

#!/bin/bash clear cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq vcgencmd measure_temp

antal trådar blir fler i ditt fall...

sen är Rpi så populär att "alla" emulatorer osv. blir optimerade till den, men det kanske funkar med lite modifikation till Nvidias grejer också...

Kollar man resultatet från att köra det sysbench test du listar ovan får man en liten vink om prestandaskillnaden hos RPi3 och TX2.

Då Raspbian kör en så gammal version av sysbench började jag med att installera git-versionen på båda. Att bygga det hela tog 1m28s på RPi3 och 37s på TX2 (x2.4 gånger snabbare)

Output har ändrats lite senaste version

$ ./sysbench --cpu-max-prime=20000 cpu run sysbench 1.1.0-faaff4f (using bundled LuaJIT 2.1.0-beta3) Running the test with following options: Number of threads: 1 Initializing random number generator from current time Prime numbers limit: 20000 Initializing worker threads... Threads started! CPU speed: events per second: 22.20 Throughput: events/s (eps): 22.2050 time elapsed: 10.0428s total number of events: 223 Latency (ms): min: 44.73 avg: 45.03 max: 89.77 95th percentile: 44.98 sum: 10041.72 Threads fairness: events (avg/stddev): 223.0000/0.00 execution time (avg/stddev): 10.0417/0.00

Alla resultat är för en CPU-tråd. Detta test skalar helt perfekt med CPU-kärnor, d.v.s. RPi3 får 88,8 evens/s om man kör fyra kärnor.

Board

CPUs

Freq (GHz)

Result (events/s)

vs RPi3

RPi3

Cortex A53

1,2

22,20

1

TX2

Cortex A57

2,0

636,6

29

TX2

Denver 2

2,0

787,1

35

Det är inte riktigt så här stor skillnad i applikationer utanför micro-benchmarks, något man ser på t.ex. byggtiden (som är väldigt nära 100 % CPU-bundet, I/O är ingen stor flaskhals där).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

Jag har sneglat lite åt Jetson Nano som ett kul steg över Rpi3. Har du tittat något på den och har tankar eller åsikter @yoshman ?

Har för mig den kostar runt tusenlappen, så priset känns överkomligt.
Hur är det med nätdel till din, ingick den eller har du köpt den separat och i så fall vilken/varifrån?

Visa signatur

Arch | 1440p 165Hz IPS | 7800X3D | 1080ti | 64GB@6GHz | SN850 2TB

Permalänk
Medlem

@Yoshman: ska se om jag kan rota fram min config för pajen... tror jag var uppe på 1,85 GHz

Visa signatur

i9 13900KS, RTX 4090,64GB DDR5 7000MHz CL34, 2 + 2 TB NVMe Gen4 x4 - Win11 @ LG OLED42C3 💦 - kyld
Lenovo Legion 5 Pro - 16" | Ryzen 7 5800H | 32GB | RTX 3070 | 1 + 2 TB NVMe | 165Hz | QHD
Xbox Series X - 3 TB intern, Nintendo Switch <- dammsamlare
HTPC - Mac mini M1 | 16 GB | 2 TB SSD, sovrum: i7 2600K 1080 Ti

Permalänk
Medlem
Skrivet av Factorial112:

@Yoshman: ska se om jag kan rota fram min config för pajen... tror jag var uppe på 1,85 GHz

nä 1,6 var nog max...

arm_freq=1600
gpu_freq=500
over_voltage=6

edit: blir sugen på att rota fram den & se vad jag kan få med senaste sysbench

Visa signatur

i9 13900KS, RTX 4090,64GB DDR5 7000MHz CL34, 2 + 2 TB NVMe Gen4 x4 - Win11 @ LG OLED42C3 💦 - kyld
Lenovo Legion 5 Pro - 16" | Ryzen 7 5800H | 32GB | RTX 3070 | 1 + 2 TB NVMe | 165Hz | QHD
Xbox Series X - 3 TB intern, Nintendo Switch <- dammsamlare
HTPC - Mac mini M1 | 16 GB | 2 TB SSD, sovrum: i7 2600K 1080 Ti

Permalänk
Medlem

ett temptest:

#!/bin/bash clear #liten stressloop #utan output sysbench for f in {1..7} do vcgencmd measure_temp sysbench --test=cpu --cpu-max-prime=20000 --num-threads=4 run >/dev/null 2>&1 done vcgencmd measure_temp

Visa signatur

i9 13900KS, RTX 4090,64GB DDR5 7000MHz CL34, 2 + 2 TB NVMe Gen4 x4 - Win11 @ LG OLED42C3 💦 - kyld
Lenovo Legion 5 Pro - 16" | Ryzen 7 5800H | 32GB | RTX 3070 | 1 + 2 TB NVMe | 165Hz | QHD
Xbox Series X - 3 TB intern, Nintendo Switch <- dammsamlare
HTPC - Mac mini M1 | 16 GB | 2 TB SSD, sovrum: i7 2600K 1080 Ti

Permalänk
Medlem

@sniglom: Du får läsa första inlägget om vad det är han har köpt. Det är inte en enkel Jetson Nano. Det är Jetson TX2 Developer Kit för 6000:-. Och ja, det ingår nätdel då. Jag bifogar samma länk som han redan har gjort en gång till så du kan läsa vad som ingår https://developer.nvidia.com/embedded/buy/jetson-tx2-devkit Är en hel del extra som man får med, som tur är

Permalänk
Medlem
Skrivet av ToddTheOdd:

@sniglom: Du får läsa första inlägget om vad det är han har köpt. Det är inte en enkel Jetson Nano. Det är Jetson TX2 Developer Kit för 6000:-. Och ja, det ingår nätdel då. Jag bifogar samma länk som han redan har gjort en gång till så du kan läsa vad som ingår https://developer.nvidia.com/embedded/buy/jetson-tx2-devkit Är en hel del extra som man får med, som tur är

Du får läsa om mitt inlägg och se vad jag skrivit.

Skrivet av sniglom:

Jag har sneglat lite åt Jetson Nano som ett kul steg över Rpi3. Har du tittat något på den och har tankar eller åsikter @yoshman ?

Verkar väl orimligt att jag skulle fråga om Yoshman har tittat på en maskin han själv har hemma, benchar, fotar och skriver om. Däremot brukar han vara väldigt påläst och med tanke på att han valt ut en maskin i serien tänkte jag han kanske hade koll på nanon också.

Visa signatur

Arch | 1440p 165Hz IPS | 7800X3D | 1080ti | 64GB@6GHz | SN850 2TB

Permalänk
Datavetare
Skrivet av sniglom:

Jag har sneglat lite åt Jetson Nano som ett kul steg över Rpi3. Har du tittat något på den och har tankar eller åsikter @yoshman ?

Har för mig den kostar runt tusenlappen, så priset känns överkomligt.
Hur är det med nätdel till din, ingick den eller har du köpt den separat och i så fall vilken/varifrån?

Jetson Nano är betydligt mer vettig om man bara vill ha en betydligt kraftigare "RPi" jämfört med TX2 (eller Jetson AGX Xavier). De två senare är utvecklingskort och ska ses mer som datorer än "single board computers".

Man har skalat av lite saker på Nano för att få ned priset. Till skillnad från TX2 / Xavier saknar Nano sakers om nätdel, Wifi, standard PCIe kontakt, SATA och så.

Finns en tips kring val av nätdel till Nano här.

Ställt mot RPi3 ligger ändå Nano på en helt annan nivå. RPi3 är utrustad med en Cortex A53, en CPU-design som enbart är optimerad för lågt pris och låg absolut strömförbrukning (men inte superbra perf/W för att vara ARM). A53 är en in-order CPU, något x86 inte haft sedan ursprungliga Pentium (om man blundar för första generationen Atom, andra generationen blev "out-of-order" och dubblade nära nog IPC).

Cortex A57 må vara relativt gammal i det här läget, men det är ändå en trippel-issue out-of-order design mot A53 dual-issue in-order. Som man ser i mitt förra inlägg är maxkapacitet i A57 på en helt annan nivå, >x10 i microbenchmarks som sysbench. I mer "verkliga" program kan man ändå räkna med minst x2 prestanda per kärna vid samma frekvens!

Gillar också att Nvidia använder ARM64 i deras officiella distribution. RPi3 kör fortfarande 32-bit ARM officiellt sett. Då viss HW beror av en BLOB fungerade inte alla saker om man kör 64-bitars kärna. 32-bitars ARM och 64-bitars ARM (Aarch64) är inte jämförbar med x86 och x86_64, d.v.s. Aarch64 är inte en utökning utan 32-bitars ARM, det är en helt ny ISA. En näst intill "perfekt" ISA så här långt givet kraven från C++11, Java, C# m.fl.

Tänkte köpa en Nano också, men insåg sen att jag inte direkt har någon anledning. Vägde även mellan Xavier och TX2 ett tag, men då det är primärt CPU-delen jag vill åt och jag inte testat plattformen innan kändes det som lite väl mycket pengar givet vinsten i CPU-prestanda.

Kanske blir en Nano framöver ändå. Leveranstiden när man beställer från Nvidias sida var ju riktigt bra, tog två dagar att få TX2-kortet.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem

Stort tack för ett utförligt inlägg.

Skrivet av Yoshman:

Man har skalat av lite saker på Nano för att få ned priset. Till skillnad från TX2 / Xavier saknar Nano sakers om nätdel, Wifi, standard PCIe kontakt, SATA och så.

Med USB3 är man så långt över IO-prestandan i en RPI3 oavsett, även om det så klart hade varit kul med riktig SATA.

Skrivet av Yoshman:

Finns en tips kring val av nätdel till Nano här.

Tackar, får gräva igenom tråden. Tänkte det får bli något med barrel-kontakt istället för micro-usb.

Skrivet av Yoshman:

Ställt mot RPi3 ligger ändå Nano på en helt annan nivå. RPi3 är utrustad med en Cortex A53, en CPU-design som enbart är optimerad för lågt pris och låg absolut strömförbrukning (men inte superbra perf/W för att vara ARM). A53 är en in-order CPU, något x86 inte haft sedan ursprungliga Pentium (om man blundar för första generationen Atom, andra generationen blev "out-of-order" och dubblade nära nog IPC).

Körde inte Intels beräkningskort också med in-order? Det är väl förvisso nästan Pentium-design på dem och de räknas kanske inte som processorer, då de är just instickskort.

Skrivet av Yoshman:

Cortex A57 må vara relativt gammal i det här läget, men det är ändå en trippel-issue out-of-order design mot A53 dual-issue in-order. Som man ser i mitt förra inlägg är maxkapacitet i A57 på en helt annan nivå, >x10 i microbenchmarks som sysbench. I mer "verkliga" program kan man ändå räkna med minst x2 prestanda per kärna vid samma frekvens!

Frekvensen på nano och Pi 3b+ är ungefär den samma. Men dubblad cpu-prestanda och 4x minne gör enorm skillnad på en liten mikroserver. Särskilt med så mycket mer IO.

Skrivet av Yoshman:

Gillar också att Nvidia använder ARM64 i deras officiella distribution. RPi3 kör fortfarande 32-bit ARM officiellt sett. Då viss HW beror av en BLOB fungerade inte alla saker om man kör 64-bitars kärna. 32-bitars ARM och 64-bitars ARM (Aarch64) är inte jämförbar med x86 och x86_64, d.v.s. Aarch64 är inte en utökning utan 32-bitars ARM, det är en helt ny ISA. En näst intill "perfekt" ISA så här långt givet kraven från C++11, Java, C# m.fl.

Finns det någon vinst som slutanvändare med att det är en annan ISA då? Eller utvecklar du på låg nivå själv? Förstår om man utvecklar kompilatorer, fixar hot spots i kod eller debuggar mycket.

Skrivet av Yoshman:

Tänkte köpa en Nano också, men insåg sen att jag inte direkt har någon anledning.

I ärlighetens namn har inte jag det heller. Tycker det är roligt att köra saker som inte är x86 och med nvidia bakom tänker jag mig att det borde vara en relativt stabil och supportad plattform, åtminstone jämfört med kinesiska pi-kloner.

Visa signatur

Arch | 1440p 165Hz IPS | 7800X3D | 1080ti | 64GB@6GHz | SN850 2TB

Permalänk
Medlem
Skrivet av sniglom:

och med nvidia bakom tänker jag mig att det borde vara en relativt stabil och supportad plattform, åtminstone jämfört med kinesiska pi-kloner.

Tyckte nog de flesta om Asus Tinkerboard också, men den har fortfarande taskigt stöd, både från Asus och community's.

Visa signatur

HTPC: Silverstone Sugo SG05W Vit, Asus H110I-Plus, G4560, Corsair Vengeance LPX 2133 MHz 2x4GB, Samsung 870 EVO 500GB, Toshiba N300 2x10TB, MSI GeForce GT 1030 Passive OC 2GB, (& 16 enkortsdatorer med div användningsområden). Har ett "par" andra stationära datorer åxå. LG OLED 65CX. Shield 2019 Pro.

Permalänk
Medlem

@Yoshman: Jag sitter en hel del med olika GPGPU projekt. Funderar på att köpa en TX2, men är lite osäker på prestandan. Vad jag fått fram ska bandbredden alltså vara 60 GB/s och 256 CUDA kärnor. Hur ser det ut med streaming processors (SM) då? Vet man hur många aktiva det finns?

Att den kör Pascal är helt OK, jag behöver inte Turing.

Permalänk
Medlem

@Yoshman: vad ska du använda den till ?

Permalänk
Medlem

@Yoshman, intressant tråd, tack!

Har du någon känsla för varför det inte dyker upp fler enkortsdatorer baserade på Cortex-A75 eller A76? Framförallt A75 sitter ju i relativt billiga telefoner, så borde inte vara priset som sätter käppar i hjulen.

Permalänk
Datavetare
Skrivet av MatteN:

Tyckte nog de flesta om Asus Tinkerboard också, men den har fortfarande taskigt stöd, både från Asus och community's.

Har naturligtvis också Asus Tinkerboard

Tycker inte man kan jämföra Tinkerboard och Jetson. Tinkerboard är på alla relevanta sätt "bara" ett försökt till en snabbare RPi3.

RPi3 i sig ser jag mest som en avancerad mikrokontroller som kan köra Linux. Visst kan man försöka använda den som en "riktig" dator, men det är en rätt värdelös dator p.g.a. mängden RAM, horribel disk I/O hastighet etc.

Nvidia Jetson-familjen är specifikt riktad mot saker som kräver bildanalys, maskininlärning och liknande. Ställer man Jetson mot RPi-serien i dessa discipliner är det RPi som har rätt uselt programvarustöd.

Visst finns det försök till GPU-accelererad OpenCL, men det är rätt mycket beta-stämpel över det hela + prestandan när det fungerar är inte i närheten ens Jetson Nano (är >x10 högre prestanda redan hos Jetson Nano).

Ovanpå det är tyvärr CUDA de-facto standard inom väldigt många GPGPU områden, CUDA fungerar bara på Nvidia. CUDA fungerar out-of-the-box på Jetson-familjen om man installerar den officiella distron. Då den officiella distron är Ubuntu är stödet för programvara riktigt bra i teorin, har inte märkt något så här långt som motsäger teorin (men har inte hunnit använda TX2 kortet supermycket ännu).

Om målet är en "vanlig dator som kör 64-bitars ARM" är min gissning att Jetson är bättre än RPi3 sett till stöd hos programvara. Den officiella distributionen för RPi är fortfarande ARMv6 baserad, innan ARMv8 (ARMv7 är OK) var ARM lite väl mycket "embedded" när det kommer till kompatibilitet mellan system.

Med ARMv8 är man betydligt närmare x86 i det att man nu kan skapa helt generella programbibliotek där man helt och fullt kan förvänta sig att det fungerar på alla system som använder sig av ARMv8. Både Ubuntu och RedHat har ju officiellt stöd för Aarch64 tack vare detta, stödet sträcker sig inte till några väl utvalda plattformar.

Skrivet av Alotiat:

@Yoshman: Jag sitter en hel del med olika GPGPU projekt. Funderar på att köpa en TX2, men är lite osäker på prestandan. Vad jag fått fram ska bandbredden alltså vara 60 GB/s och 256 CUDA kärnor. Hur ser det ut med streaming processors (SM) då? Vet man hur många aktiva det finns?

Att den kör Pascal är helt OK, jag behöver inte Turing.

Om målet är "GPGPU projekt" utan specifika krav på att CPU-delen kör Aarch64 eller krav på väldigt låg strömförbrukning skulle jag välja en PC med Nvidia GPU. Det kommer prestera väsentligt bättre då Jetson är designad för fältbruk och därmed rätt begränsad i prestanda p.g.a. att total effekt inte får vara mycket mer än 10-20 W för hela plattformen.

Googlade lite kring 60 GB/s. Det verkar vara total bandbredd för hela systemkretsen, GPU-delen verkar som mest nå upp till 35 GB/s, d.v.s. strax under ett GT1030 i bandbredd. Har inte hunnit testat så mycket CUDA-saker än, men råkar ha ett GT1030 i mitt 2700X system (använder bara datorn via SSH, men den vill inte boota utan GPU, 1030 ger ändå CUDA-stöd...).

De få saker jag testat pekar på att GPUn i TX2 presterar strax under ett GT1030. Man får tänka på att ett GT 1030 självt drar ~30 W, lite i GPU-sammanhang för PC men är ändå 2-3 gånger mer än vad hela TX2 plattformen drar!

Skrivet av agitax:

@Yoshman: vad ska du använda den till ?

Lite olika saker, men primärt som test-plattform för Aarch64. Dels jobbar jag med OS-utveckling, ARM och x86 är de två CPU-arkitekturer vi använder mest (ARM mer än x86). Har ett skunk-works just nu där jag försöker lägga in stöd för "vårt" OS i språket Go, det för 32/64-bitars ARM och x86.

Dels vill jag känna på hur pass moget 64-bitars ARM är i detta läge under Linux. Arkitekturen lanserades trots allt för mindre än 10 år sedan, sett från den bakgrunden har det gått i rasande fart!

Man förfasas nästan när man kikar i kod som genererar maskinkod/assembler (vi jobbar med LLVM på jobbet och ser ju de bitar i Go i mitt skunkworks). x86 är en sådan soptippsbrand sett till design, det samtidigt som Aarch64 i princip är "perfekt". Vi har bara sett början på vad det betyder i praktiken, de "rena" 64-bitars ARM CPUerna är ju redan förbi Intel i IPC.

32-bitars ARM är på flera sätt också en soptippsbrand, så är först de modeller där man droppat 32-bitars stödet det blir riktigt bra. Apple gjorde det för många år sedan, ARM gjorde det först i Cortex A76. Så en Cortex A57 som sitter i Jetson TX2 (och även Nano) är inget under av CPU-design...

Skrivet av jaqob:

@Yoshman, intressant tråd, tack!

Har du någon känsla för varför det inte dyker upp fler enkortsdatorer baserade på Cortex-A75 eller A76? Framförallt A75 sitter ju i relativt billiga telefoner, så borde inte vara priset som sätter käppar i hjulen.

Volym och effekt.

Finns väldigt liten poäng att klämma på något mer än Cortex A55 på något likt en RPi. Cortex A53/A55 är helt designade för att ta minimalt med kiselyta och dra minimalt med effekt. Passar perfekt till de användningsområden som Single Board Computers, SBC, används till.

Förväntad försäljningsvolym av RPi var ju initialt tiotusentals, inte över 20 miljoner som man nu sålt...

Innan Cortex A76 får man egentligen bara ett system som vid lite högre frekvens kommer behöva kylfläns och helst även fläkt. Men det blir ändå något som inte kan matcha en NUC i prestanda. Så vad är då poängen om man samtidigt använder en relativt dyr 10 eller ännu värre 7 nm process?

Vad jag hoppas på är att vi framöver kommer få se PC-datorer med high-end ARM. Det helt enkelt då ARM kommer gå förbi x86 i absolut prestanda, man är redan förbi om man jämför prestanda vid samma frekvens!

När man gått förbi i absolut prestanda är inte längre priset ett problem. Att vara näst snabbast suger, i det läget måste du ha bättre prestanda/krona eller så är det en rätt meningslös produkt. När man är snabbast kan man i stället fokusera på perfektion, priset är då sekundärt!

Den stora bromsklossen kommer vara Windows, så initialt kommer det nog dyka upp serverplattformar. Men verkar ju vara bärbara baserade på Cortex A76 på gång till hösten. Förhoppningsvis fungerar de bättre under Linux än den första generationen 64-bitars ARM-laptops för Win10 som lanserades förra våren (Cortex A73 baserade, vilket var märkligt då A75 redan fanns ute i telefoner då).

De kommande A76 bärbara ska köra en systemkrets specifikt designade för bärbara. Första vågen Win10 ARM64 laptops körde ju exakt samma plattform som man körde i mobiler året innan...

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer