Reddit blockerar Internet Archive

2025-08-12 06:00

Permalänk

Nyhet

Melding Plague

Registrerad: Dec 1999

●

Reddit blockerar Internet Archive

AI-firmor har påkommits med att använda Wayback Machine för att kringgå blockering.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Rapportera Redigera

Citera flera Citera (5)

2025-08-12 06:18

Permalänk

SanyaIV

Medlem ★

Registrerad: Jun 2012

●

Tråkig utveckling. Det jag undrar är om de inte istället kan samarbeta med Internet Archive för att applicera samma AI-blockeringa teknologi de själva använder, antingen på hela sidan alternativt bara specifikt på arkiveringar av deras sida? Eller så har de försökt men inte kommit överens? Men jag vet för lite om hur det fungerar så det kanske inte är möjligt eller kostar för mycket?

Rapportera Redigera

Citera flera Citera (20)

2025-08-12 06:37

Permalänk

Andy Mcdee

Medlem

Registrerad: Jan 2004

●

Riktigt tråkigt. Förhoppningsvis kan Wayback Machine göra något på sin kant för att återfå access. Det finns ett värde i att spara ner en del subredditar löpande då vem vet när de stängs ner.

Vet att man kan donera bandbredd till dem så att de kan fördela sina backups mer effektivt. Så om man vill stötta dem så kan man hjälpa till utan att det kostar.

Rapportera Redigera

Citera flera Citera (5)

2025-08-12 06:41

Permalänk

Andy Mcdee

Medlem

Registrerad: Jan 2004

●

Skrivet av SanyaIV:

Tråkig utveckling. Det jag undrar är om de inte istället kan samarbeta med Internet Archive för att applicera samma AI-blockeringa teknologi de själva använder, antingen på hela sidan alternativt bara specifikt på arkiveringar av deras sida? Eller så har de försökt men inte kommit överens? Men jag vet för lite om hur det fungerar så det kanske inte är möjligt eller kostar för mycket?

Gå till inlägget

Problemet ligger nog i att Internet Archive will att datan ska vara öppen för alla utan diskriminering och blockering av AI-bots kan bli knepigt sett till den värderingen. Vanliga metoder såsom cookies och Ip adresser är nog inte tillräckligt.

Rapportera Redigera

Citera flera Citera (9)

2025-08-12 07:22

Permalänk

Mörksuggan

Medlem ★

Registrerad: Jun 2019

●

Dags för AI att gå loss to Dark Web med TOR... Mer skräp och annat elände där som AI kan fylla upp med sin giriga mage som om dem har Sloths budord över sig.

Visa signatur

NZXT H7 Flow, ASUS Z390-E, Intel 9700K 3.6GHz, 16 GB Corsair Vengeance 3.2GHz, Samsung EVO 970 500GB, MSI RTX 2070 Gaming Z, Seagate Barracuda 4 TB, Corsair RM750X V2 750W, Noctua NH-D15, 1 st FD Venturi HF-14, 6 st Phantek M25 120mm, Dell S2721DGFA,

Rapportera Redigera

Citera flera Citera (3)

2025-08-12 07:32

Permalänk

D34D_L33T

Medlem

Plats: Landet
Registrerad: Jan 2005

●

Skrivet av Mörksuggan:

Dags för AI att gå loss to Dark Web med TOR... Mer skräp och annat elände där som AI kan fylla upp med sin giriga mage som om dem har Sloths budord över sig.

Gå till inlägget

Clippy baserad AI från darkweb.
"HEJ! Det ser ut som att du ska planera ett lönnmord. Behöver du hjälp med det?".

Rapportera Redigera

Citera flera Citera (24)

2025-08-12 07:38

Permalänk

lhugo

Medlem ★

Plats: Göteborg
Registrerad: Dec 2017

●

ArchiveTeam arkiverar ju fortfarande Reddit och detta arkiv laddas sen upp till Internet Archive. Den datan håller ju hög kvalitet och bör kunna användas i the way back machine tids nog.

Rapportera Redigera

Citera flera Citera

2025-08-12 08:05

Permalänk

Mörksuggan

Medlem ★

Registrerad: Jun 2019

●

Skrivet av D34D_L33T:

Clippy baserad AI från darkweb.
"HEJ! Det ser ut som att du ska planera ett lönnmord. Behöver du hjälp med det?".

Gå till inlägget

Den tar vi. Eller när någon behöver något annat olagligt så kan AI hjälpa en som alla vill att ens AI ska göra.

Visa signatur

NZXT H7 Flow, ASUS Z390-E, Intel 9700K 3.6GHz, 16 GB Corsair Vengeance 3.2GHz, Samsung EVO 970 500GB, MSI RTX 2070 Gaming Z, Seagate Barracuda 4 TB, Corsair RM750X V2 750W, Noctua NH-D15, 1 st FD Venturi HF-14, 6 st Phantek M25 120mm, Dell S2721DGFA,

Rapportera Redigera

Citera flera Citera

2025-08-12 08:17

Permalänk

evil penguin

Medlem ★

Registrerad: Apr 2002

●

Skrivet av SanyaIV:

Tråkig utveckling. Det jag undrar är om de inte istället kan samarbeta med Internet Archive för att applicera samma AI-blockeringa teknologi de själva använder, antingen på hela sidan alternativt bara specifikt på arkiveringar av deras sida? Eller så har de försökt men inte kommit överens? Men jag vet för lite om hur det fungerar så det kanske inte är möjligt eller kostar för mycket?

Gå till inlägget

Skrivet av Andy Mcdee:

Problemet ligger nog i att Internet Archive will att datan ska vara öppen för alla utan diskriminering och blockering av AI-bots kan bli knepigt sett till den värderingen. Vanliga metoder såsom cookies och Ip adresser är nog inte tillräckligt.

Gå till inlägget

Ja alltså, det grundläggande problemet i sammanhanget är väl just att Internet Archive har som något slags dröm att tillgängliggöra ett arkiv av allt innehåll på Internet så att alla kan se det för alltid. Drömmen är inte att bygga funktioner (och förmodligen hamna i en oändlig katt-och-råtta-lek med techjättar som har långt mer resurser) för att begränsa tillgången till innehållet i syfte att hjälpa Reddit att sälja sitt innehåll till Google, OpenAI/Microsoft, Facebook, Alibaba eller vem det nu må vara.

Reddit har ju pivoterat till att vilja vara en AI-underleverantör och ser det som ett hot om deras innehåll finns fritt tillgängligt i ett arkiv, för då kan de antas själva få det svårare att sälja sitt innehåll till AI-bolagen.

Ur ett annat perspektiv är förstås problemet att AI-bolagen helt medvetet inte respekterar upphovsrättsinnehavares uppställda villkor, och därmed har en helt öppen strategi som sannolikt bryter mot lagen. Men ingen agerar på detta i dagsläget, så det gäller ju att passa på nu, antar jag.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Rapportera Redigera

Citera flera Citera (3)

2025-08-12 08:19

Permalänk

jeppe109

Medlem ★

Registrerad: Jan 2005

●

Fast detta är väl positivt på ett sätt. Ingen av oss vill väl egentligen att AI tränas på datan från Reddit.

Visa signatur

Rapportera Redigera

Citera flera Citera (5)

2025-08-12 08:21

Permalänk

evil penguin

Medlem ★

Registrerad: Apr 2002

●

Skrivet av jeppe109:

Fast detta är väl positivt på ett sätt. Ingen av oss vill väl egentligen att AI tränas på datan från Reddit.

Gå till inlägget

Reddit vill det, så det lär hända oavsett. Skillnaden är om Reddit lyckas få betalt för det eller ej

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Rapportera Redigera

Citera flera Citera (9)

2025-08-12 08:53

Permalänk

jaqob

Medlem ★

Registrerad: Dec 2001

●

Skrivet av jeppe109:

Fast detta är väl positivt på ett sätt. Ingen av oss vill väl egentligen att AI tränas på datan från Reddit.

Gå till inlägget

Varför skulle vi inte vilja det? Jag gissar att reddit är världens bästa källa till frågor med tillhörande rangordnade svar. Alltså perfekt för att träna AI. Sen förstår jag att Reddit vill tjäna pengar på det, de vet ju också vilken guldgruva av information de sitter på.

Rapportera Redigera

Citera flera Citera

2025-08-12 09:07

Permalänk

evil penguin

Medlem ★

Registrerad: Apr 2002

●

Skrivet av jaqob:

Varför skulle vi inte vilja det? Jag gissar att reddit är världens bästa källa till frågor med tillhörande rangordnade svar. Alltså perfekt för att träna AI. Sen förstår jag att Reddit vill tjäna pengar på det, de vet ju också vilken guldgruva av information de sitter på.

Gå till inlägget

Det är väl även källan till numera klassiska svar som att man med fördel klistrar fast ost på pizzan osv, så det är ju inte problemfritt direkt.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Rapportera Redigera

Citera flera Citera (3)

2025-08-12 11:01

Permalänk

Fissure

Medlem ★

Plats: Malmö
Registrerad: Jan 2003

●

Skrivet av jaqob:

Varför skulle vi inte vilja det? Jag gissar att reddit är världens bästa källa till frågor med tillhörande rangordnade svar. Alltså perfekt för att träna AI. Sen förstår jag att Reddit vill tjäna pengar på det, de vet ju också vilken guldgruva av information de sitter på.

Gå till inlägget

Så du tror på fullaste allvar att reddits up och downvote system är ett bra sätt att verifiera hur pass trovärdig information är? Herregud

Visa signatur

Rapportera Redigera

Citera flera Citera (16)

2025-08-12 11:33

Permalänk

Icetec

Medlem ★

Plats: Vallentuna
Registrerad: Jan 2004

●

Skrivet av Fissure:

Så du tror på fullaste allvar att reddits up och downvote system är ett bra sätt att verifiera hur pass trovärdig information är? Herregud

Gå till inlägget

Uppenbarligen är det en rätt bra indikator på hur trovärdig information är, däremot inte en speciellt bra indikator för hur sann den är

Rapportera Redigera

Citera flera Citera (1)

2025-08-12 11:41

Permalänk

jaqob

Medlem ★

Registrerad: Dec 2001

●

Skrivet av Fissure:

Så du tror på fullaste allvar att reddits up och downvote system är ett bra sätt att verifiera hur pass trovärdig information är? Herregud

Gå till inlägget

Ja, jag tror att reddits system med upvotes är ett bra sätt att lyfta fram korrekt information, framförallt när det gäller information som inte är särskilt kontroversiell. Men framförallt tror jag inte det finns någon annan källa som innehåller mer information där användare redan har röstat på vilka svar som är bäst, vilket är just det man behöver för att träna en LLM chattagent. Sen är det ju ingen hemlighet att alla stora språkmodeller hallucinerar, ljuger och har fel, och det beror så klart till stor del på att träningsdatan är långt ifrån perfekt, och det är ju ett problem som ingen har löst ännu.

Rapportera Redigera

Citera flera Citera

2025-08-12 12:46

Permalänk

kelthar

Medlem ★

Plats: :: oVERdOZe bbS ::
Registrerad: Aug 2004

●

Reddit kan äta bajs, i min mening.

Visa signatur

Hur många datorer är för många?

Rapportera Redigera

Citera flera Citera (8)

2025-08-12 15:37

Permalänk

miljöbov

Medlem

Plats: Stockholm
Registrerad: Jan 2025

●

Skrivet av evil penguin:

Ja alltså, det grundläggande problemet i sammanhanget är väl just att Internet Archive har som något slags dröm att tillgängliggöra ett arkiv av allt innehåll på Internet så att alla kan se det för alltid. Drömmen är inte att bygga funktioner (och förmodligen hamna i en oändlig katt-och-råtta-lek med techjättar som har långt mer resurser) för att begränsa tillgången till innehållet i syfte att hjälpa Reddit att sälja sitt innehåll till Google, OpenAI/Microsoft, Facebook, Alibaba eller vem det nu må vara.

Reddit har ju pivoterat till att vilja vara en AI-underleverantör och ser det som ett hot om deras innehåll finns fritt tillgängligt i ett arkiv, för då kan de antas själva få det svårare att sälja sitt innehåll till AI-bolagen.

Ur ett annat perspektiv är förstås problemet att AI-bolagen helt medvetet inte respekterar upphovsrättsinnehavares uppställda villkor, och därmed har en helt öppen strategi som sannolikt bryter mot lagen. Men ingen agerar på detta i dagsläget, så det gäller ju att passa på nu, antar jag.

Gå till inlägget

Mycket bra observationer. Hade Reddit inte sålt datan till AI bolag så hade man kanske kunnat sympatisera med dem, men sanningen är att dem vill skydda sin nyfunna pengakossa.

En följdfråga är: vad finns det för defensiva och offensiva åtgärder för oss andra att ta mot AI scraping?

För denna typ av datainsamling är problematisk inte minst för att AI möjliggör automatiserad profilering av användare. Alltså utgör det ett hot mot folks personliga integritet.

Senast redigerat 2025-08-12 16:48 Ytterligare reflektioner

Rapportera Redigera

Citera flera Citera (2)

igår 00:00

Permalänk

Djhg2000

Medlem ★

Plats: Stockholm
Registrerad: Dec 2008

●

Skrivet av jaqob:

Ja, jag tror att reddits system med upvotes är ett bra sätt att lyfta fram korrekt information, framförallt när det gäller information som inte är särskilt kontroversiell. Men framförallt tror jag inte det finns någon annan källa som innehåller mer information där användare redan har röstat på vilka svar som är bäst, vilket är just det man behöver för att träna en LLM chattagent. Sen är det ju ingen hemlighet att alla stora språkmodeller hallucinerar, ljuger och har fel, och det beror så klart till stor del på att träningsdatan är långt ifrån perfekt, och det är ju ett problem som ingen har löst ännu.

Gå till inlägget

Nja. Systemet lyfter fram svar som folk gillar att höra, inte nödvändigtvis svar som är korrekta.

Till exempel såg jag en tråd för länge sedan där de mest populära svaren insisterade på att DP altmode i USB-C är en del av USB 3.2, och därför skulle telefoner med USB 2.0 omöjligen kunna ha DP altmode. Detta trots att det bevisligen är fel, eftersom PinePhone gör exakt det. Samt att DP altmode är en del av specen för USB-C-donet, som är separat från vilken underliggande USB-standard som stöds.

Visa signatur

Rapportera Redigera

Citera flera Citera (2)

igår 08:33

Permalänk

jaqob

Medlem ★

Registrerad: Dec 2001

●

Skrivet av Djhg2000:

Nja. Systemet lyfter fram svar som folk gillar att höra, inte nödvändigtvis svar som är korrekta.

Till exempel såg jag en tråd för länge sedan där de mest populära svaren insisterade på att DP altmode i USB-C är en del av USB 3.2, och därför skulle telefoner med USB 2.0 omöjligen kunna ha DP altmode. Detta trots att det bevisligen är fel, eftersom PinePhone gör exakt det. Samt att DP altmode är en del av specen för USB-C-donet, som är separat från vilken underliggande USB-standard som stöds.

Gå till inlägget

Lite samma problem som med demokrati. Jag säger inte att reddit är jättebra eller har jätterätt, jag säger bara att jag inte tror det finns någon annan större källa med frågor och viktade svar.

Rapportera Redigera

Citera flera Citera

igår 09:48

Permalänk

Djhg2000

Medlem ★

Plats: Stockholm
Registrerad: Dec 2008

●

Skrivet av jaqob:

Lite samma problem som med demokrati. Jag säger inte att reddit är jättebra eller har jätterätt, jag säger bara att jag inte tror det finns någon annan större källa med frågor och viktade svar.

Gå till inlägget

Reddits system med röster kan ses som applicerad demokrati, så det medför många av problemen med demokrati. Den stora elefanten i rummet är att en LLM inte följer det systemet; i målet att summera och förkorta informationen så förloras allt i periferin och de starkaste rösterna vinner.

Det är mer som Tycho Brahe i att stjärnorna han upptäckte såklart var riktiga, men hans modell där solen roterade runt jorden och alla andra planeter roterade runt solen (en hybrid mellan den klassiska geocentriska modellen och den vid tillfället kontroversiella heliocentriska modellen), var naturligtvis inte rätt. På ungefär samma sätt kommer en LLM att rikta in sig på den starkaste åsikten och täcka upp glappet mellan starka åsikter och sanningen med mindre starka åsikter och hallucinationer.

Att många ändå, trots upprepade varningar, ser LLM:er som orakel där vad som än kommer ur dem är absolut sanning, gör bara saken mycket värre. Gång på gång ser vi uppenbara fall av påståenden som inte stämmer komma från ChatGPT, Gemini, Grok, etc. men de mindre uppenbara felen verkar bara accepteras som sanning.

Visa signatur

Rapportera Redigera

Citera flera Citera (2)

igår 10:22

Permalänk

evil penguin

Medlem ★

Registrerad: Apr 2002

●

Skrivet av Djhg2000:

Nja. Systemet lyfter fram svar som folk gillar att höra, inte nödvändigtvis svar som är korrekta.

Till exempel såg jag en tråd för länge sedan där de mest populära svaren insisterade på att DP altmode i USB-C är en del av USB 3.2, och därför skulle telefoner med USB 2.0 omöjligen kunna ha DP altmode. Detta trots att det bevisligen är fel, eftersom PinePhone gör exakt det. Samt att DP altmode är en del av specen för USB-C-donet, som är separat från vilken underliggande USB-standard som stöds.

Gå till inlägget

Skrivet av jaqob:

Lite samma problem som med demokrati. Jag säger inte att reddit är jättebra eller har jätterätt, jag säger bara att jag inte tror det finns någon annan större källa med frågor och viktade svar.

Gå till inlägget

Exemplet illustrerar väl dock problemet rätt bra. Det är ett upplägg som fungerar bättre för åsiktsfrågor än för att fastställa fakta.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Rapportera Redigera

Citera flera Citera

igår 11:15

Permalänk

VinterSolen

Medlem ★

Registrerad: Jan 2024

●

Skrivet av Djhg2000:

Nja. Systemet lyfter fram svar som folk gillar att höra, inte nödvändigtvis svar som är korrekta.

Gå till inlägget

Och detta blir MER tydlig om det börjar gälla med politiska åsikter.

Åsikter/kult-"fakta" massröstas oftast upp, och fakta baserat i verkligheten massnedröstas oftast. För då gäller det att "tänka rätt" och inte "ha rätt fakta".

Rapportera Redigera

Citera flera Citera (3)

Reddit blockerar Internet Archive

Reddit blockerar Internet Archive

Externa nyheter