Finskt företag vill göra din processor 100 gånger snabbare

Citera flera Citera (3)

2024-06-17 22:14

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Är det möjligt att köra ett program 100 gånger snabbare?
I teorin, det beror på...

Det teoretiska maximala hastighet något kan beräknas på, ignorerat alla former av begränsningar i form av minnesbandbredd, access-latens etc begränsas av "span law".

För att det ens ska vara teoretisk möjligt att öka hastigheten 100 gånger måste det, i genomsnitt, finnas 100 instruktioner vars indata finns tillgängligt utan att någon av de andra 99 instruktioner först behöver köra klart.

Är samma grundläggande orsak som gör att 10 CPU-kärnor med hastighet V i praktiken aldrig kan vara lika snabb som 1 CPU-kärna med hastighet 10×V.

I teorin går det säker att öka perf/cykel med 100 % mot de CPUer vi har idag, det om man med 100 % korrekthet kunde förutsätta alla fall av villkorad körning. Men då bra att ha med sig att i ett typiskt datorprogram är ungefär var 5:e instruktion en form av villkorat hopp (en orsak att ARM64 har kunnat öka perf/cykel väldigt mycket är väldig smart design som logiskt gör detta på ett sätt som i många fall kan ersätta hoppinstruktioner med en speciell instruktion som ger samma beräkningsmässiga utfall, dock inget som ger i närheten några x100 eller ens x2).

Det finns verkliga fall där det, teoretiskt, är möjligt att öka hastigheten med en faktor 100. Ett exempel är AI där det kan krävas en väldigt långt sekvens av beräkningar där allt bara är en serie matematiska beräkningar utan villkor. Är därför GPUer rockar på detta, men även de har svårt att nå några x100 över CPU p.g.a. flaskhals mot RAM.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Citera flera Citera (9)

2024-06-17 22:16

zOlid

Medlem ★

Plats: Behind you!
Registrerad: Dec 2003

●

Skrivet av Curik:

För att 100 ggr inte är samma sak som 100%..

Fast det var ju det jag skrev...
Att 100% är ju inte så svårt, som ena alternativet var. Men i vilket sammanhang är den 100ggr bättre mer än till edgecases där den är optimerad till just den arbetslasten.

Visa signatur

Citera för svar!
9800X3D, ASUS ROG STRIX B650E-F, 32gb @6000 CL30, RTX 4080s FE

Citera flera Citera

2024-06-17 22:20

Ortovox

Medlem ★

Plats: Lund
Registrerad: Okt 2004

●

Mina tankar går direkt till de där disketterna såldes förr i tiden och som lovade dubbla hastigheten på ens dator .

Citera flera Citera (2)

2024-06-17 23:25

employed

Medlem ★

Registrerad: Jun 2016

●

Citera flera Citera (1)

2024-06-17 23:27

Thor

Medlem ★

Plats: Orilla
Registrerad: Jul 2009

●

Om vi nu skulle bortse från det, ehm 'intressanta' påståendet om 100x prestanda.

De har en simulering och är en startup. Nu har jag ingen insyn i processen rörande cpu-tillverkning bortom väldigt grova drag. Men det första steget till en riktigt produkt är ju en prototyp, som jag gissar varken är billig eller särskillt enkel att realisera.

Jag tvivlar på att påståenden om en robust simulering är gott nog belägg för att investera x antal miljoner (miljarder?) dollar för att ens få en prototyp som kan säga bu eller bä.

Så antingen sitter de på någon information som är korrekt och extremt innovativ (detta bör man kunna lista ut om det är sant beroende på vilka som är med i startupen). Eller så är det ett halvtaskigt försök till att fixa lite enkel pr, senare kan man påstå att marknaden *uppfattade vad vi menade fel*.

Senast redigerat 2024-06-18 12:04

Visa signatur

Sweclockers 2024:
"
Eftersom vi tillhandahåller en öppen diskussionsplattform har vi ett berättigat intresse av att behålla användargenererat innehåll även efter en eventuell radering eller anonymisering av ditt användarkonto. Vi kommer även att fortsätta lagra vissa uppgifter för att upprätthålla säkerheten och förhindra missbruk av våra tjänster.
"

Citera flera Citera (1)

2024-06-18 01:59

https://image1.slideserve.com/3387318/work-span-model3-l.jpg

F.Ultra

Medlem ★

Plats: Göteborg
Registrerad: Maj 2007

●

Skrivet av Yoshman:

Är det möjligt att köra ett program 100 gånger snabbare?
I teorin, det beror på...

Det teoretiska maximala hastighet något kan beräknas på, ignorerat alla former av begränsningar i form av minnesbandbredd, access-latens etc begränsas av "span law".

För att det ens ska vara teoretisk möjligt att öka hastigheten 100 gånger måste det, i genomsnitt, finnas 100 instruktioner vars indata finns tillgängligt utan att någon av de andra 99 instruktioner först behöver köra klart.

Är samma grundläggande orsak som gör att 10 CPU-kärnor med hastighet V i praktiken aldrig kan vara lika snabb som 1 CPU-kärna med hastighet 10×V.

I teorin går det säker att öka perf/cykel med 100 % mot de CPUer vi har idag, det om man med 100 % korrekthet kunde förutsätta alla fall av villkorad körning. Men då bra att ha med sig att i ett typiskt datorprogram är ungefär var 5:e instruktion en form av villkorat hopp (en orsak att ARM64 har kunnat öka perf/cykel väldigt mycket är väldig smart design som logiskt gör detta på ett sätt som i många fall kan ersätta hoppinstruktioner med en speciell instruktion som ger samma beräkningsmässiga utfall, dock inget som ger i närheten några x100 eller ens x2).

Det finns verkliga fall där det, teoretiskt, är möjligt att öka hastigheten med en faktor 100. Ett exempel är AI där det kan krävas en väldigt långt sekvens av beräkningar där allt bara är en serie matematiska beräkningar utan villkor. Är därför GPUer rockar på detta, men även de har svårt att nå några x100 över CPU p.g.a. flaskhals mot RAM.

Men det är ju simpelt att lösa, vi skapar bara branch predictors som alltid gissar rätt, tror jag ska trademarka dem som Saida-kretsar!

Visa signatur

Citera flera Citera (1)

2024-06-18 07:30

Tenkai Star

Medlem ★

Plats: Stockholm
Registrerad: Maj 2004

●

Jobbar med ASIC/FPGA design och ja det går ju att göra något mycket snabbare om man gör en parallell uträkning. Men då har vi väldigt specifika indata och utdata. Kodning/Avkodning av data tex. Hur man ska få något liknande i ett IP block som är så generellt att det fungerar för all data är jag tveksam till dock. CPU tillverkarna själva lägger ju in sånt för specifika saker de vill ha hårdvarustöd för. h264 avkodning är ju vanligt att processorer stödjer så det inte belastar någon kärna.

Visa signatur

Hayabusa T3 | Venum Elite Evo | UFC Venum Pro Line

Citera flera Citera (3)

2024-06-18 08:05

Lussarn

Medlem ★

Registrerad: Apr 2018

●

Skrivet av MarkSix:

Får lite bitboys vibbar av detta

Du hann före mig, det var det första jag tänkte på

Visa signatur

- 5090

Citera flera Citera (2)

2024-06-18 08:23

Dunde

Medlem ★

Plats: I Villan
Registrerad: Jul 2001

●

"Kul" att någon plockar upp handsken som Rambus kastade, har varit lite ont om mera sofistikerade bluffar sista åren inom hårdvara.

Citera flera Citera (4)

2024-06-18 08:30

Dem8n

Medlem ★

Registrerad: Jun 2015

●

Det enda Flow-Computing har idag är några patent och några riskkapitalister som pumpat in cirka 45 miljoner kronor.
Flow-Computing är inte ute efter att tillverka något eget utan är ute efter att dra in licenskostnader från tillverkare som vill använda deras design.

Med andra ord, man är ute efter snabba enkla pengar.

Citera flera Citera (2)

2024-06-18 10:14

hypermode

Medlem ★

Registrerad: Sep 2005

●

Skrivet av Dem8n:

Flow-Computing är inte ute efter att tillverka något eget utan är ute efter att dra in licenskostnader från tillverkare som vill använda deras design.

Med andra ord, man är ute efter snabba enkla pengar.

Som ARM då eller?

Citera flera Citera (1)

2024-06-18 10:28

Mullvaden83

Medlem ★

Plats: Uppsala
Registrerad: Jun 2009

●

För en startup från ingenstans kommer på den här tekniken utan att Intel eller AMD ens tänkt tanken o säger WOW!???
Nej tar detta med en stor grävskopa salt eller 2.

Visa signatur

ASUS X570-F, AMD Ryzen 9 3900x, 16Gb RAM, Gigabyte 2070Super auros

Citera flera Citera (1)

2024-06-18 10:51

norrby89

Medlem ★

Plats: Västerås
Registrerad: Mar 2006

●

Skrivet av zOlid:

"upp till 100ggr snabbare, men fördubbla vilken kod som helst"
Vad är det som gör den bättre än att stoppa in en extra CPU kärna tex? Som också kan öka prestandan teoretiskt med 100%.
I vilket sammanhang är den 100ggr bättre än en till cpu kärna?
Om det är specifik kod som den är optimerad för, som tex AVX512, eller GPU kärna osv, så visst kan det göra skillnad i sådana fall om den är optimerad för den workloaden.
Men i vilka sammanhang är den bättre än att en CPU tillverkare inte bara optimerar någon del av sin CPU till just den workloaden istället?
Sen utöver det så finns det ju massor av flaskhalsar om man inte integrerar denna på samma kisel som en CPU, eller chiplet nära CPUn.

100 gånger bättre, dvs har du en cpu med 1 kärna så behöver du kärnor för att matcha prestandan med en PPU (i det specifika fallet om det dom påstår stämmer såklart.

100 gånger bättre bli 10 000% bättre =p

Och om detta skulle stämma så skulle det även kunna döda gpuer då det förmodligen skulle vara mer effektivt att köra alla laster på cpun istället för på ett dedikerat grafikkort.

Visa signatur

here we go!

Citera flera Citera

2024-06-18 11:28

Ford Prefect

Medlem ★

Registrerad: Okt 2003

●

Skrivet av norrby89:

100 gånger bättre bli 10 000% bättre =p

Eller 9900% bättre.

Visa signatur

"Trying is the first step to failure." - Homer Simpson

Citera flera Citera (1)

2024-06-18 11:30

Rebben

Medlem ★

Registrerad: Nov 2003

●

Det kommer säkert en pressrelease senare där de förklarar vilken den mycket specifika arbetslasten är och vilken mycket specifika hårdvara de använder när de når 100x. När alla andra laster ger -4% till +7%.

Visa signatur

R&D Elektronik & Radioingenjör

Citera flera Citera (1)

2024-06-18 11:39

Poolkeeper

Medlem

Plats: Panama City
Registrerad: Okt 2010

●

Om man läser kommentarer på en finsk site så jämför de ett specifikt case med matris operationer mot en processor där man använder standard instruktioner, alltså inte simd, avx etc.

Och som nämndes tidigare så har de ingen riktig hårdvara så troligen bara ett sätt att samla in pengar.

Senast redigerat 2024-06-18 11:40 Felstavningar

Citera flera Citera

2024-06-18 11:51

Lordsqueak

Medlem ★

Plats: Stockholm
Registrerad: Dec 2008

●

Att det är ett stort steg från att köra simulering till att faktiskt göra kretsar är ju inte så konstigt.
Men med det sagt så finns det ju faktiskt alternativ för att testa detta på "riktigt". Dom säger att vilken processor som helst skulle bli bättre med deras PPU. Det finns ju tex RiscV som är öppen. Borde ju gå att använda den på en billigare nod och göra en med och en utan. (med billig nod menar jag typ 40 år gammalt,,, )

Citera flera Citera

2024-06-18 11:57

zOlid

Medlem ★

Plats: Behind you!
Registrerad: Dec 2003

●

Skrivet av norrby89:

100 gånger bättre, dvs har du en cpu med 1 kärna så behöver du kärnor för att matcha prestandan med en PPU (i det specifika fallet om det dom påstår stämmer såklart.

100 gånger bättre bli 10 000% bättre =p

Och om detta skulle stämma så skulle det även kunna döda gpuer då det förmodligen skulle vara mer effektivt att köra alla laster på cpun istället för på ett dedikerat grafikkort.

Antar att jag skrivit det där konstigt, för du är andra som citerar mig och tror jag inte förstår skillnaden mellan 100% och 100x.
Skriver ju om 2 olika scenarion precis som artikeln gör. Dvs att den som minst fördubblar prestandan, men upp till 100ggr så snabb.
Tycker fortfarande att jag är rätt tydlig att jag pratar om 2 olika saker som skrivs i artikeln.
Och senare skriver jag om hur optimeringar för vissa specifika arbetslaster har funnits integrerade i cpuer länge.

"upp till 100ggr snabbare, men fördubbla vilken kod som helst"
Vad är det som gör den bättre än att stoppa in en extra CPU kärna tex? Som också kan öka prestandan teoretiskt med 100%.
I vilket sammanhang är den 100ggr bättre än en till cpu kärna?
Om det är specifik kod som den är optimerad för, som tex AVX512, eller GPU kärna osv, så visst kan det göra skillnad i sådana fall om den är optimerad för den workloaden.
Men i vilka sammanhang är den bättre än att en CPU tillverkare inte bara optimerar någon del av sin CPU till just den workloaden istället?
Sen utöver det så finns det ju massor av flaskhalsar om man inte integrerar denna på samma kisel som en CPU, eller chiplet nära CPUn."

Visa signatur

Citera för svar!
9800X3D, ASUS ROG STRIX B650E-F, 32gb @6000 CL30, RTX 4080s FE

Citera flera Citera

2024-06-18 12:24

Dem8n

Medlem ★

Registrerad: Jun 2015

●

Skrivet av hypermode:

Som ARM då eller?

Antar det.

Citera flera Citera

2024-06-18 12:28

Dem8n

Medlem ★

Registrerad: Jun 2015

●

Skrivet av norrby89:

100 gånger bättre, dvs har du en cpu med 1 kärna så behöver du kärnor för att matcha prestandan med en PPU (i det specifika fallet om det dom påstår stämmer såklart.

100 gånger bättre bli 10 000% bättre =p

Och om detta skulle stämma så skulle det även kunna döda gpuer då det förmodligen skulle vara mer effektivt att köra alla laster på cpun istället för på ett dedikerat grafikkort.

De skriver de även kan hjälpa GPU.

Citera flera Citera

2024-06-18 12:31

str8forthakill

Medlem ★

Plats: Vid datorn
Registrerad: Feb 2007

●

Saker brukar fungera i teorin, tills man provar det i verkligheten.

Citera flera Citera

2024-06-18 13:13

Iskra

Medlem ★

Plats: Frekvensdomänen
Registrerad: Apr 2012

●

Frågan är ju om den är kompatibel med RAM Doubler, det vore smidigt att kunna ladda ned lite extra minne när man 100-faldigat processorhastigheten.

Citera flera Citera (1)

2024-06-18 13:44

norrby89

Medlem ★

Plats: Västerås
Registrerad: Mar 2006

●

Skrivet av Dem8n:

De skriver de även kan hjälpa GPU.

Vart då? Kanske jag som är blind men ser inget i artikeln att dom ens nämner grafikkort.

Samt då borde även nvidia varit med bland amd, Intel och qualcomm.

Visa signatur

here we go!

Citera flera Citera

2024-06-18 13:59

DevilsDad

Medlem ★

Registrerad: Okt 2011

●

Skrivet av Dem8n:

Tror inte för en sekund på det som tas upp i artikeln, det finns inte ens något konkret bevis utan man hänvisar till simuleringar.
Kom igen nu, vem som helst kan simulera något som är otroligt mycket bättre än det vi har idag, men att omsätta det i en produkt är något helt annat.

Jag killgissar att man söker riskkapitalister i och med detta, bara en dåre skulle investera i en simulerad modell som kanske inte alls går att tillverka i verkligheten.

Skrivet av Thor:

Om vi nu skulle bortse från det, ehm 'intressanta' påståendet om 100x prestanda.

De har en simulering och är en startup. Nu har jag ingen insyn i processen rörande cpu-tillverkning bortom väldigt grova drag. Men det första steget till en riktigt produkt är ju en prototyp, som jag gissar varken är billig eller särskillt enkel att realisera.

Jag tvivlar på att påståenden om en robust simulering är gott nog belägg för att investera x antal miljoner (miljarder?) dollar för att ens få en prototyp som kan säga bu eller bä.

Så antingen sitter de på någon information som är korrekt och extremt innovativ (detta bör man kunna lista ut om det är sant beroende på vilka som är med i startupen). Eller så är det ett halvtaskigt försök till att fixa lite enkel pr, senare kan man påstå att marknaden *uppfattade vad vi menade fel*.

Chip designas med programmeringsspråk som brukar kallas för hdl (hardware description language). Dessa beskriver inte designen på grind-nivå, utan är en något högre abstraktionsnivå som kallas RTL (Register Transfer Level). Här har man tillgång till operatorer som +, *, /, vissa typer av loopar etc.

I praktiken har dessa programmeringsspråken två delar. Det så kallade syntetiserbara subsettet, samt det icke syntetiserbara. Det syntetiserbara subsettet är de konstruktioner som kan "kompileras" till en nätlista, dvs en komplett beskrivning med enbart grindar, flippfloppar och kopplingar mellan dessa.

Är deras design helt skriven med syntetiserbar RTL-kod, och simulerad med en beprövad simulator, så skulle jag säga att man kan vara väldigt säker på att deras design funkar i praktiken också.

Sedan litar jag inte för en sekund på att de faktiskt kan åstadkomma vad de påstår, men processen i sig att demonstrera hårdvarudesign med simuleringar är legit.

Edit: Att skriva välpresterande hårdvara i syntetiserbar RTL är absolut ingen smal sak. Det är riktigt utmanande, och det är ofta stora team som jobbar på det.

Citera flera Citera (1)

2024-06-18 19:50

Tanari

Medlem ★

Plats: Alingsås
Registrerad: Jan 2009

●

Lite samma stuk som SoftRAM:
https://en.wikipedia.org/wiki/SoftRAM

Visa signatur

Citera flera Citera

2024-06-20 09:48

Dem8n

Medlem ★

Registrerad: Jun 2015

●

Skrivet av DevilsDad:

Chip designas med programmeringsspråk som brukar kallas för hdl (hardware description language). Dessa beskriver inte designen på grind-nivå, utan är en något högre abstraktionsnivå som kallas RTL (Register Transfer Level). Här har man tillgång till operatorer som +, *, /, vissa typer av loopar etc.

I praktiken har dessa programmeringsspråken två delar. Det så kallade syntetiserbara subsettet, samt det icke syntetiserbara. Det syntetiserbara subsettet är de konstruktioner som kan "kompileras" till en nätlista, dvs en komplett beskrivning med enbart grindar, flippfloppar och kopplingar mellan dessa.

Är deras design helt skriven med syntetiserbar RTL-kod, och simulerad med en beprövad simulator, så skulle jag säga att man kan vara väldigt säker på att deras design funkar i praktiken också.

Sedan litar jag inte för en sekund på att de faktiskt kan åstadkomma vad de påstår, men processen i sig att demonstrera hårdvarudesign med simuleringar är legit.

Edit: Att skriva välpresterande hårdvara i syntetiserbar RTL är absolut ingen smal sak. Det är riktigt utmanande, och det är ofta stora team som jobbar på det.

Du har kanske rätt, det över min nivå av kunskap. 😂

Citera flera Citera

2024-06-20 12:56

DevilsDad

Medlem ★

Registrerad: Okt 2011

●

Skrivet av Dem8n:

Du har kanske rätt, det över min nivå av kunskap. 😂

Jag är ändå inne på mitt 5e år av att jobba med att verifiera SoC-designer just med hjälp av simuleringar.

Görs simuleringarna på samma sätt som branch-standarden så säger det en hel del om designen. Och om de är syntetiserbara, och om de gjort statiska checkar (tänk liknande lintning) för att kolla att den går att köra i den tänkte klockfrekvensen. Det är ändå flera stycken ganska stora "om". Så du har ändå en viss poäng. ^^

Nästa fråga är hur tusan de mätt prestandan. Så ja, där finns många nivåer av saker som kan vara middvisande

Citera flera Citera (1)

2024-06-20 17:37

Dem8n

Medlem ★

Registrerad: Jun 2015

●

Skrivet av DevilsDad:

Jag är ändå inne på mitt 5e år av att jobba med att verifiera SoC-designer just med hjälp av simuleringar.

Görs simuleringarna på samma sätt som branch-standarden så säger det en hel del om designen. Och om de är syntetiserbara, och om de gjort statiska checkar (tänk liknande lintning) för att kolla att den går att köra i den tänkte klockfrekvensen. Det är ändå flera stycken ganska stora "om". Så du har ändå en viss poäng. ^^

Nästa fråga är hur tusan de mätt prestandan. Så ja, där finns många nivåer av saker som kan vara middvisande

Okej jag förstår, ja det ska bli intressant att se vad som kommer ur det hela, om det verkligen är så att det fungerar med alla nuvarande processorer så blir det en hit utan dess like.
Men jag tycker det låter för bra för att vara sant. 😅