Reddit blockerar Internet Archive

Permalänk
Melding Plague

Reddit blockerar Internet Archive

AI-firmor har påkommits med att använda Wayback Machine för att kringgå blockering.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
Medlem

Tråkig utveckling. Det jag undrar är om de inte istället kan samarbeta med Internet Archive för att applicera samma AI-blockeringa teknologi de själva använder, antingen på hela sidan alternativt bara specifikt på arkiveringar av deras sida? Eller så har de försökt men inte kommit överens? Men jag vet för lite om hur det fungerar så det kanske inte är möjligt eller kostar för mycket?

Permalänk

Riktigt tråkigt. Förhoppningsvis kan Wayback Machine göra något på sin kant för att återfå access. Det finns ett värde i att spara ner en del subredditar löpande då vem vet när de stängs ner.

Vet att man kan donera bandbredd till dem så att de kan fördela sina backups mer effektivt. Så om man vill stötta dem så kan man hjälpa till utan att det kostar.

Permalänk
Skrivet av SanyaIV:

Tråkig utveckling. Det jag undrar är om de inte istället kan samarbeta med Internet Archive för att applicera samma AI-blockeringa teknologi de själva använder, antingen på hela sidan alternativt bara specifikt på arkiveringar av deras sida? Eller så har de försökt men inte kommit överens? Men jag vet för lite om hur det fungerar så det kanske inte är möjligt eller kostar för mycket?

Problemet ligger nog i att Internet Archive will att datan ska vara öppen för alla utan diskriminering och blockering av AI-bots kan bli knepigt sett till den värderingen. Vanliga metoder såsom cookies och Ip adresser är nog inte tillräckligt.

Permalänk
Medlem

Dags för AI att gå loss to Dark Web med TOR... Mer skräp och annat elände där som AI kan fylla upp med sin giriga mage som om dem har Sloths budord över sig.

Visa signatur

NZXT H7 Flow, ASUS Z390-E, Intel 9700K 3.6GHz, 16 GB Corsair Vengeance 3.2GHz, Samsung EVO 970 500GB, MSI RTX 2070 Gaming Z, Seagate Barracuda 4 TB, Corsair RM750X V2 750W, Noctua NH-D15, 1 st FD Venturi HF-14, 6 st Phantek M25 120mm, Dell S2721DGFA,

Permalänk
Skrivet av Mörksuggan:

Dags för AI att gå loss to Dark Web med TOR... Mer skräp och annat elände där som AI kan fylla upp med sin giriga mage som om dem har Sloths budord över sig.

Clippy baserad AI från darkweb.
"HEJ! Det ser ut som att du ska planera ett lönnmord. Behöver du hjälp med det?".

Permalänk
Medlem

ArchiveTeam arkiverar ju fortfarande Reddit och detta arkiv laddas sen upp till Internet Archive. Den datan håller ju hög kvalitet och bör kunna användas i the way back machine tids nog.

Permalänk
Medlem
Skrivet av D34D_L33T:

Clippy baserad AI från darkweb.
"HEJ! Det ser ut som att du ska planera ett lönnmord. Behöver du hjälp med det?".

Den tar vi. Eller när någon behöver något annat olagligt så kan AI hjälpa en som alla vill att ens AI ska göra.

Visa signatur

NZXT H7 Flow, ASUS Z390-E, Intel 9700K 3.6GHz, 16 GB Corsair Vengeance 3.2GHz, Samsung EVO 970 500GB, MSI RTX 2070 Gaming Z, Seagate Barracuda 4 TB, Corsair RM750X V2 750W, Noctua NH-D15, 1 st FD Venturi HF-14, 6 st Phantek M25 120mm, Dell S2721DGFA,

Permalänk
Medlem
Skrivet av SanyaIV:

Tråkig utveckling. Det jag undrar är om de inte istället kan samarbeta med Internet Archive för att applicera samma AI-blockeringa teknologi de själva använder, antingen på hela sidan alternativt bara specifikt på arkiveringar av deras sida? Eller så har de försökt men inte kommit överens? Men jag vet för lite om hur det fungerar så det kanske inte är möjligt eller kostar för mycket?

Skrivet av Andy Mcdee:

Problemet ligger nog i att Internet Archive will att datan ska vara öppen för alla utan diskriminering och blockering av AI-bots kan bli knepigt sett till den värderingen. Vanliga metoder såsom cookies och Ip adresser är nog inte tillräckligt.

Ja alltså, det grundläggande problemet i sammanhanget är väl just att Internet Archive har som något slags dröm att tillgängliggöra ett arkiv av allt innehåll på Internet så att alla kan se det för alltid. Drömmen är inte att bygga funktioner (och förmodligen hamna i en oändlig katt-och-råtta-lek med techjättar som har långt mer resurser) för att begränsa tillgången till innehållet i syfte att hjälpa Reddit att sälja sitt innehåll till Google, OpenAI/Microsoft, Facebook, Alibaba eller vem det nu må vara.

Reddit har ju pivoterat till att vilja vara en AI-underleverantör och ser det som ett hot om deras innehåll finns fritt tillgängligt i ett arkiv, för då kan de antas själva få det svårare att sälja sitt innehåll till AI-bolagen.

Ur ett annat perspektiv är förstås problemet att AI-bolagen helt medvetet inte respekterar upphovsrättsinnehavares uppställda villkor, och därmed har en helt öppen strategi som sannolikt bryter mot lagen. Men ingen agerar på detta i dagsläget, så det gäller ju att passa på nu, antar jag.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem

Fast detta är väl positivt på ett sätt. Ingen av oss vill väl egentligen att AI tränas på datan från Reddit.

Visa signatur

Corsair 5000D | PRIME X670E-PRO | 7800X3D |
Kingston Fury Beast DDR5 2x32GB @6000MT/s CL30-40-40-28 | TUF RTX 4090 | 3 * 2TB WD Black SN850X PCI-E 4 |

Permalänk
Medlem
Skrivet av jeppe109:

Fast detta är väl positivt på ett sätt. Ingen av oss vill väl egentligen att AI tränas på datan från Reddit.

Reddit vill det, så det lär hända oavsett. Skillnaden är om Reddit lyckas få betalt för det eller ej

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem
Skrivet av jeppe109:

Fast detta är väl positivt på ett sätt. Ingen av oss vill väl egentligen att AI tränas på datan från Reddit.

Varför skulle vi inte vilja det? Jag gissar att reddit är världens bästa källa till frågor med tillhörande rangordnade svar. Alltså perfekt för att träna AI. Sen förstår jag att Reddit vill tjäna pengar på det, de vet ju också vilken guldgruva av information de sitter på.

Permalänk
Medlem
Skrivet av jaqob:

Varför skulle vi inte vilja det? Jag gissar att reddit är världens bästa källa till frågor med tillhörande rangordnade svar. Alltså perfekt för att träna AI. Sen förstår jag att Reddit vill tjäna pengar på det, de vet ju också vilken guldgruva av information de sitter på.

Det är väl även källan till numera klassiska svar som att man med fördel klistrar fast ost på pizzan osv, så det är ju inte problemfritt direkt.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem
Skrivet av jaqob:

Varför skulle vi inte vilja det? Jag gissar att reddit är världens bästa källa till frågor med tillhörande rangordnade svar. Alltså perfekt för att träna AI. Sen förstår jag att Reddit vill tjäna pengar på det, de vet ju också vilken guldgruva av information de sitter på.

Så du tror på fullaste allvar att reddits up och downvote system är ett bra sätt att verifiera hur pass trovärdig information är? Herregud

Visa signatur

Ryzen 7 7800X3D @ 5,0ghz | Custom H2O Loop | TUF GAMING X670E-PLUS | 32GB Corsair @ 3000mhz | GTX 3080 | Samsung 960 EVO 500GB | Samsung 870 EVO 500GB | Samsung 860 EVO 2TB | Soundblaster Z-Xr | Asus ROG Swift PG279Q | Corsair 850W-HX | Thermaltake The Tower 900

Permalänk
Medlem
Skrivet av Fissure:

Så du tror på fullaste allvar att reddits up och downvote system är ett bra sätt att verifiera hur pass trovärdig information är? Herregud

Uppenbarligen är det en rätt bra indikator på hur trovärdig information är, däremot inte en speciellt bra indikator för hur sann den är

Permalänk
Medlem
Skrivet av Fissure:

Så du tror på fullaste allvar att reddits up och downvote system är ett bra sätt att verifiera hur pass trovärdig information är? Herregud

Ja, jag tror att reddits system med upvotes är ett bra sätt att lyfta fram korrekt information, framförallt när det gäller information som inte är särskilt kontroversiell. Men framförallt tror jag inte det finns någon annan källa som innehåller mer information där användare redan har röstat på vilka svar som är bäst, vilket är just det man behöver för att träna en LLM chattagent. Sen är det ju ingen hemlighet att alla stora språkmodeller hallucinerar, ljuger och har fel, och det beror så klart till stor del på att träningsdatan är långt ifrån perfekt, och det är ju ett problem som ingen har löst ännu.

Permalänk
Medlem

Reddit kan äta bajs, i min mening.

Visa signatur

Hur många datorer är för många?

Permalänk
Skrivet av evil penguin:

Ja alltså, det grundläggande problemet i sammanhanget är väl just att Internet Archive har som något slags dröm att tillgängliggöra ett arkiv av allt innehåll på Internet så att alla kan se det för alltid. Drömmen är inte att bygga funktioner (och förmodligen hamna i en oändlig katt-och-råtta-lek med techjättar som har långt mer resurser) för att begränsa tillgången till innehållet i syfte att hjälpa Reddit att sälja sitt innehåll till Google, OpenAI/Microsoft, Facebook, Alibaba eller vem det nu må vara.

Reddit har ju pivoterat till att vilja vara en AI-underleverantör och ser det som ett hot om deras innehåll finns fritt tillgängligt i ett arkiv, för då kan de antas själva få det svårare att sälja sitt innehåll till AI-bolagen.

Ur ett annat perspektiv är förstås problemet att AI-bolagen helt medvetet inte respekterar upphovsrättsinnehavares uppställda villkor, och därmed har en helt öppen strategi som sannolikt bryter mot lagen. Men ingen agerar på detta i dagsläget, så det gäller ju att passa på nu, antar jag.

Mycket bra observationer. Hade Reddit inte sålt datan till AI bolag så hade man kanske kunnat sympatisera med dem, men sanningen är att dem vill skydda sin nyfunna pengakossa.

En följdfråga är: vad finns det för defensiva och offensiva åtgärder för oss andra att ta mot AI scraping?

För denna typ av datainsamling är problematisk inte minst för att AI möjliggör automatiserad profilering av användare. Alltså utgör det ett hot mot folks personliga integritet.

Ytterligare reflektioner
Permalänk
Medlem
Skrivet av jaqob:

Ja, jag tror att reddits system med upvotes är ett bra sätt att lyfta fram korrekt information, framförallt när det gäller information som inte är särskilt kontroversiell. Men framförallt tror jag inte det finns någon annan källa som innehåller mer information där användare redan har röstat på vilka svar som är bäst, vilket är just det man behöver för att träna en LLM chattagent. Sen är det ju ingen hemlighet att alla stora språkmodeller hallucinerar, ljuger och har fel, och det beror så klart till stor del på att träningsdatan är långt ifrån perfekt, och det är ju ett problem som ingen har löst ännu.

Nja. Systemet lyfter fram svar som folk gillar att höra, inte nödvändigtvis svar som är korrekta.

Till exempel såg jag en tråd för länge sedan där de mest populära svaren insisterade på att DP altmode i USB-C är en del av USB 3.2, och därför skulle telefoner med USB 2.0 omöjligen kunna ha DP altmode. Detta trots att det bevisligen är fel, eftersom PinePhone gör exakt det. Samt att DP altmode är en del av specen för USB-C-donet, som är separat från vilken underliggande USB-standard som stöds.

Visa signatur

Mjölnir: Ryzen 9 3900X | X570-I | Ballistix Sport 32GB | Powercolor RX 5500XT 4GB ITX | Kolink Sattelite
Server: Ryzen 5 1400 | X470-F | Ballistix Sport 24GB | ASUS HD 7790 2GB | Sapphire RX 470 8GB ME | NZXT Switch 810

Permalänk
Medlem
Skrivet av Djhg2000:

Nja. Systemet lyfter fram svar som folk gillar att höra, inte nödvändigtvis svar som är korrekta.

Till exempel såg jag en tråd för länge sedan där de mest populära svaren insisterade på att DP altmode i USB-C är en del av USB 3.2, och därför skulle telefoner med USB 2.0 omöjligen kunna ha DP altmode. Detta trots att det bevisligen är fel, eftersom PinePhone gör exakt det. Samt att DP altmode är en del av specen för USB-C-donet, som är separat från vilken underliggande USB-standard som stöds.

Lite samma problem som med demokrati. Jag säger inte att reddit är jättebra eller har jätterätt, jag säger bara att jag inte tror det finns någon annan större källa med frågor och viktade svar.

Permalänk
Medlem
Skrivet av jaqob:

Lite samma problem som med demokrati. Jag säger inte att reddit är jättebra eller har jätterätt, jag säger bara att jag inte tror det finns någon annan större källa med frågor och viktade svar.

Reddits system med röster kan ses som applicerad demokrati, så det medför många av problemen med demokrati. Den stora elefanten i rummet är att en LLM inte följer det systemet; i målet att summera och förkorta informationen så förloras allt i periferin och de starkaste rösterna vinner.

Det är mer som Tycho Brahe i att stjärnorna han upptäckte såklart var riktiga, men hans modell där solen roterade runt jorden och alla andra planeter roterade runt solen (en hybrid mellan den klassiska geocentriska modellen och den vid tillfället kontroversiella heliocentriska modellen), var naturligtvis inte rätt. På ungefär samma sätt kommer en LLM att rikta in sig på den starkaste åsikten och täcka upp glappet mellan starka åsikter och sanningen med mindre starka åsikter och hallucinationer.

Att många ändå, trots upprepade varningar, ser LLM:er som orakel där vad som än kommer ur dem är absolut sanning, gör bara saken mycket värre. Gång på gång ser vi uppenbara fall av påståenden som inte stämmer komma från ChatGPT, Gemini, Grok, etc. men de mindre uppenbara felen verkar bara accepteras som sanning.

Visa signatur

Mjölnir: Ryzen 9 3900X | X570-I | Ballistix Sport 32GB | Powercolor RX 5500XT 4GB ITX | Kolink Sattelite
Server: Ryzen 5 1400 | X470-F | Ballistix Sport 24GB | ASUS HD 7790 2GB | Sapphire RX 470 8GB ME | NZXT Switch 810

Permalänk
Medlem
Skrivet av Djhg2000:

Nja. Systemet lyfter fram svar som folk gillar att höra, inte nödvändigtvis svar som är korrekta.

Till exempel såg jag en tråd för länge sedan där de mest populära svaren insisterade på att DP altmode i USB-C är en del av USB 3.2, och därför skulle telefoner med USB 2.0 omöjligen kunna ha DP altmode. Detta trots att det bevisligen är fel, eftersom PinePhone gör exakt det. Samt att DP altmode är en del av specen för USB-C-donet, som är separat från vilken underliggande USB-standard som stöds.

Skrivet av jaqob:

Lite samma problem som med demokrati. Jag säger inte att reddit är jättebra eller har jätterätt, jag säger bara att jag inte tror det finns någon annan större källa med frågor och viktade svar.

Exemplet illustrerar väl dock problemet rätt bra. Det är ett upplägg som fungerar bättre för åsiktsfrågor än för att fastställa fakta.

Visa signatur

Desktop spel m.m.: Ryzen 9800X3D || MSI X870 Tomahawk Wifi || MSI Ventus 3x 5080 || Gskill FlareX 6000 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Arbetsstation: Ryzen 7945HX || Minisforum BD790i || Asus Proart 4070 Ti Super || Kingston Fury Impact 5600 65 GB || WD SN850 2TB || Samsung 990 Pro 2TB || Fractal Ridge
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304

Permalänk
Medlem
Skrivet av Djhg2000:

Nja. Systemet lyfter fram svar som folk gillar att höra, inte nödvändigtvis svar som är korrekta.

Och detta blir MER tydlig om det börjar gälla med politiska åsikter.

Åsikter/kult-"fakta" massröstas oftast upp, och fakta baserat i verkligheten massnedröstas oftast. För då gäller det att "tänka rätt" och inte "ha rätt fakta".