Nya vapen mot AI-företagens spindlar

Permalänk
Melding Plague

Nya vapen mot AI-företagens spindlar

Flera utvecklare har tagit fram aggressiva försvarssystem.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
Medlem

De kommer ju inte få mindre trafik.

Å det är som att förgifta maten som slängs från ICA...

Visa signatur

42? Seven and a half million years and all you can come up with is 42?!
► FD Define R2 | Win11Pro | R7-5800X | PA 120SE | ROG STRIX B550-F GAMING | CMN32GX4M2Z4600C18 | 1080 Ti | AX750 | Asus VG27WQ | HP Z27n |► Realme GT Master |

Permalänk
Medlem
Skrivet av xfade:

De kommer ju inte få mindre trafik.

Å det är som att förgifta maten som slängs från ICA...

Snarare att sätta ner foten och förhoppningsvis framtvinga bättre regleringar framöver. Fritt internet, absolut. För människor. Bör inte vara fritt fram för storbolagen att suga upp allt de vill och kan för att träna sina modeller på, det var aldrig en tanke med internets grundidé som jag förstår det.

Permalänk
Medlem

Tror även allt fler sidor, som tjänar pengar på sin data/besökare, kommer låsa ner sina sidor bakom inloggningar. Med all rätt eftersom dessa AI-företag tjänar pengar på data som andra, på ett eller annat sätt, betalat för att generera. Men det är ett irritationsmoment för oss användare, och många företag kommer säkert ta betalt för dessa konton. Och höja avgiften varje år på grund av inflation, översvämningar, krig eller vad de nu hittar på för anledningar

På sätt och vis är jag helt för dessa anti-AI-funktioner, men risken är överhängande att detta i slutänden leder till att AI-tjänsterna inte kan svara på våra frågor, och att Internet översvämmas av ännu mer skräpsidor, skapade av AI-funktioner som spottar ur sig ännu värre dynga.

Tror enda sättet att få bukt på allt detta är att AI-företagen börjar betala sina datakällor. Frågan är bara hur det ska gå till... Men det kanske ChatGPT kan svara på

Visa signatur

MSI PRO Z790-P WIFI | Intel i9 13900K | 128 GB DDR5
GTX 4070 12 GB
Samsung 990 Pro 4 TB | WD Black SN850X 2 TB Gen 4 | 2 x 1 TB Samsung 970 EVO Plus
3 x ASUS 27" | 1 x Philips 49"

Permalänk
Medlem
Skrivet av xfade:

De kommer ju inte få mindre trafik.

Å det är som att förgifta maten som slängs från ICA...

Snarare dom som rycker ur sladden när nån tagit med en automatisk bokskanner till biblioteket...

Permalänk
Medlem
Skrivet av Superfrog:

Tror även allt fler sidor, som tjänar pengar på sin data/besökare, kommer låsa ner sina sidor bakom inloggningar. Med all rätt eftersom dessa AI-företag tjänar pengar på data som andra, på ett eller annat sätt, betalat för att generera. Men det är ett irritationsmoment för oss användare, och många kommer företag kommer säkert snart komma på att de kan ta betalt för dessa konton. Och höja avgiften varje år på grund av inflation, översvämningar, krig eller vad de nu hittar på för anledningar

På sätt och vis är jag helt för dessa anti-AI-funktioner, men risken är överhängande att detta i slutänden leder till att AI-tjänsterna inte kan svara på våra frågor, och att Internet översvämmas av ännu mer skräpsidor, skapade av AI-funktioner som spottar ur sig ännu värre dynga.

Tror enda sättet att få bukt på allt detta är att AI-företagen börjar betala sina datakällor. Frågan är bara hur det ska gå till... Men det kanske ChatGPT kan svara på

Man kontaktar såklart dom som äger sidan och diskuterar priset. 😇

Permalänk
Hedersmedlem
Skrivet av xfade:

De kommer ju inte få mindre trafik.

Å det är som att förgifta maten som slängs från ICA...

Det är väl inte trafikmängden feån AIAföretagen som är problemet. Det är stökden av intellektuell egenom.

Och liknelsen. Nej nej.
Det är inte alls som att förgifta mat aom ska slängas.

Här handlar det ju inte om att förstöra någt som ändå ska slängas.

Här handlar det om att man tar något itan lov och utan att betala för det.

En bättre liknelse är att lägga mycket chilli i sin lunchlåda för att någon annan stjäl ens luncher.

Visa signatur

💻 → Lenovo Yoga slim 7 pro 14" Oled
🎮 → Steamdeck

Permalänk
Medlem

Fantastiskt! Ett nej är ett nej och ignorerar man det då får man äta skit.

Permalänk
Medlem
Skrivet av Söderbäck:

Det är väl inte trafikmängden feån AIAföretagen som är problemet. Det är stökden av intellektuell egenom.

Och liknelsen. Nej nej.
Det är inte alls som att förgifta mat aom ska slängas.

Här handlar det ju inte om att förstöra någt som ändå ska slängas.

Här handlar det om att man tar något itan lov och utan att betala för det.

En bättre liknelse är att lägga mycket chilli i sin lunchlåda för att någon annan stjäl ens luncher.

Jo mängden trafik är också ett problem. Ingen förfrågan till en server är gratis, du betalar alltid för att svara på den i form av CPU tid och bandbredd.

En relevant artikel: How OpenAI’s bot crushed this seven-person company’s website ‘like a DDoS attack’

Som gammal utvecklare så kan jag tycka detta att förgifta informationen eller få dem att sänka resurser är lite underhållande. Roligt att jävlas med någon som inte respekterar robots.txt!

Nackdelen med att förgifta datan är ju att de som tränar sin modell antagligen aldrig kommer att få reda på att just din sida tycker att man ska blanda blekmedel och desinfektionsmedel (blir kloroform) om man vill att det ska dofta fräscht i badrummet.

Visa signatur

Att förespråka Mac på Swec är som att förespråka hybridbilar på en raggarträff i Mora.

Nuvarande stationär: 7800X3D, 128Gb ram, 4Tb nvme, 3x8Tb sata-ssd, 4070 Ti S

Permalänk
Inaktiv
Skrivet av Trihxeem:

Jo mängden trafik är också ett problem. Ingen förfrågan till en server är gratis, du betalar alltid för att svara på den i form av CPU tid och bandbredd.

En relevant artikel: How OpenAI’s bot crushed this seven-person company’s website ‘like a DDoS attack’

Som gammal utvecklare så kan jag tycka detta att förgifta informationen eller få dem att sänka resurser är lite underhållande. Roligt att jävlas med någon som inte respekterar robots.txt!

Nackdelen med att förgifta datan är ju att de som tränar sin modell antagligen aldrig kommer att få reda på att just din sida tycker att man ska blanda blekmedel och desinfektionsmedel (blir kloroform) om man vill att det ska dofta fräscht i badrummet.

Jag förstår inte riktigt termen "förgifta informationen". Innebär det falsk / vilseledande information eller skadlig kod för AI?

Permalänk

Det jag förbluffas över är att de (AI-skraparna) inte bara fejkar sina User Agents?!🤔

I PHP går det ju att kolla mot arraylista över kända AI-scrapers: https://github.com/ai-robots-txt/ai.robots.txt/blob/main/robo... och blockera de matchande anropen via $_SERVER['HTTP_USER_AGENT']

Många av dessa User Agents innehåller även ordet "bot" vilket kan kontrolleras mot.

En rolig sak vore om webbplatsen var SPA så JS behövde exekveras av besökaren. Då skulle AI-besökarna kunna få köra Prime95-aktig JS-kod! 😈😬

Mvh,
WKF.

Visa signatur

(V)ulnerabilities
(I)n
(B)asically
(E)verything
Programming

Permalänk
Medlem
Skrivet av Trihxeem:

Nackdelen med att förgifta datan är ju att de som tränar sin modell antagligen aldrig kommer att få reda på att just din sida tycker att man ska blanda blekmedel och desinfektionsmedel (blir kloroform) om man vill att det ska dofta fräscht i badrummet.

Har man lagt förgiftad data på något ställe som robotar inte skall ha tillgång till så är ju felet hos de som tränar sin modell.

Dock, inget av det här spelar någon roll, data skapt av ai-bottarna kommer ju att förgifta nya ai-modeller in en spiral rätt ner i sophögen.

Permalänk
Medlem
Skrivet av anon297462:

Jag förstår inte riktigt termen "förgifta informationen". Innebär det falsk / vilseledande information eller skadlig kod för AI?

Falsk/vilseledande information.

Koden är inte skadlig så mycket som att roboten skall fastna i mängder med hela tiden nyskapt information (vilket då kanske inte är det bästa för sidan...)

Permalänk
Medlem

Älskar tillvägagångssättet

Permalänk
Skrivet av WebbkodsFrilansaren:

Det jag förbluffas över är att de (AI-skraparna) inte bara fejkar sina User Agents?!🤔

I PHP går det ju att kolla mot arraylista över kända AI-scrapers: https://github.com/ai-robots-txt/ai.robots.txt/blob/main/robo... och blockera de matchande anropen via $_SERVER['HTTP_USER_AGENT']

Många av dessa User Agents innehåller även ordet "bot" vilket kan kontrolleras mot.

En rolig sak vore om webbplatsen var SPA så JS behövde exekveras av besökaren. Då skulle AI-besökarna kunna få köra Prime95-aktig JS-kod! 😈😬

Mvh,
WKF.

Det sista kan du förklara lite enklare för oss som inte förstår förkortningar!?

Permalänk
Skrivet av Dinkefing:

Det sista kan du förklara lite enklare för oss som inte förstår förkortningar!?

SPA = Single-Page Application (allt faktiskt innehåll laddas av JavaScript kod vilket körs på besökarens enhet/dator/"server")
JS = JavaScript (möjliggör interaktivt innehåll på webbplatser, används även som "serverkod" som t.ex. NodeJS, DenoJS & BunJS)

Mvh,
WKF.

Visa signatur

(V)ulnerabilities
(I)n
(B)asically
(E)verything
Programming

Permalänk
Skrivet av WebbkodsFrilansaren:

SPA = Single-Page Application (allt faktiskt innehåll laddas av JavaScript kod vilket körs på besökarens enhet/dator/"server")
JS = JavaScript (möjliggör interaktivt innehåll på webbplatser, används även som "serverkod" som t.ex. NodeJS, DenoJS & BunJS)

Mvh,
WKF.

Tack nu blev det lättare att förstå!

Permalänk
Medlem
Skrivet av anon297462:

Jag förstår inte riktigt termen "förgifta informationen". Innebär det falsk / vilseledande information eller skadlig kod för AI?

Information som ligger på ställen som vanliga användare inte når men en AI scraper gör det. Den informationen kan ju vara medvetet felaktig eller slumpad.

Visa signatur

Att förespråka Mac på Swec är som att förespråka hybridbilar på en raggarträff i Mora.

Nuvarande stationär: 7800X3D, 128Gb ram, 4Tb nvme, 3x8Tb sata-ssd, 4070 Ti S

Permalänk
Medlem
Skrivet av Söderbäck:

Här handlar det om att man tar något itan lov och utan att betala för det.

Hört talas om om Dumpstring??

Visa signatur

42? Seven and a half million years and all you can come up with is 42?!
► FD Define R2 | Win11Pro | R7-5800X | PA 120SE | ROG STRIX B550-F GAMING | CMN32GX4M2Z4600C18 | 1080 Ti | AX750 | Asus VG27WQ | HP Z27n |► Realme GT Master |

Permalänk
Hedersmedlem
Skrivet av xfade:

Hört talas om om Dumpstring??

Ja.
Och skillnaden är alltså stor som jag förklarade i mitt förra inlägg.

Jag tycker inte det är snyggt att förgifta mat som ändå ska slängas.
Men det AIföretagen tar här är ju inte resurser som ändå skulle slängas. Det här är något helt annat vill jag påstå.

Visa signatur

💻 → Lenovo Yoga slim 7 pro 14" Oled
🎮 → Steamdeck

Permalänk
Medlem
Skrivet av Söderbäck:

Ja.
Och skillnaden är alltså stor som jag förklarade i mitt förra inlägg.

Nyheten handlar alltså inte alls om att någon slänger något man inte längre vill ha. Det tar däremot digt exempel upp.

Nja.. datan på sidan är öppen och fri.
Skaparna tycker att vissa inte skall ha tillgång till datan.
Då förorenar de den.

(( Men ja detta är endast olika synsätt på nästan samma sak. ))

Visa signatur

42? Seven and a half million years and all you can come up with is 42?!
► FD Define R2 | Win11Pro | R7-5800X | PA 120SE | ROG STRIX B550-F GAMING | CMN32GX4M2Z4600C18 | 1080 Ti | AX750 | Asus VG27WQ | HP Z27n |► Realme GT Master |

Permalänk
Medlem
Skrivet av xfade:

Nja.. datan på sidan är öppen och fri.
Skaparna tycker att vissa inte skall ha tillgång till datan.
Då förorenar de den.

(( Men ja detta är endast olika synsätt på nästan samma sak. ))

Skillnaden ligger kanske i att mat som människor tar från dumpstring dels kan handla om hemlösa som inte har råd med annat, eller med människor som vill agera bättre mot naturen i sig och i det andra fallet storbolag som vill skapa vinster på andras arbete.

Förgifta levande, kännande människor vs försöka att förneka storbolag lite mer pengar i fickan, i kampen för ett nät främst för människor.

Fundering: Om jag slänger upp ett formulär där man måste intyga att man är människa, antingen genom att klicka "JA" eller skriva in det i något fält, för att först då få tillgång till innehållet på min sida, skulle det duga att om något AI-bolag ändå dammsuger mitt innehåll kunna sätta dit dem?

Skiter de i robots.txt så kanske ovan ändå räcker. Vad är minsta möjliga stopp jag behöver lägga ditt?

Hellre då såklart att det får bli ett opt-in i framtiden för webbsideägare, INGEN data på nätet är automatiskt OK att använda för AI-träning i vinstsyfte annat än den som specifikt märks för det.

Permalänk
Medlem

Tack för länken ocgh bra info!

Skrivet av Trihxeem:

Jo mängden trafik är också ett problem. Ingen förfrågan till en server är gratis, du betalar alltid för att svara på den i form av CPU tid och bandbredd.

En relevant artikel: How OpenAI’s bot crushed this seven-person company’s website ‘like a DDoS attack’

Som gammal utvecklare så kan jag tycka detta att förgifta informationen eller få dem att sänka resurser är lite underhållande. Roligt att jävlas med någon som inte respekterar robots.txt!

Nackdelen med att förgifta datan är ju att de som tränar sin modell antagligen aldrig kommer att få reda på att just din sida tycker att man ska blanda blekmedel och desinfektionsmedel (blir kloroform) om man vill att det ska dofta fräscht i badrummet.

Visa signatur

anti-fascist antiX Linux på en MacBook Pro late 2013, Nintendo Switch, Samsung galaxy S23+

Intels fabrik på mark tagen av Israel

Permalänk
Hedersmedlem
Skrivet av xfade:

Nja.. datan på sidan är öppen och fri.
Skaparna tycker att vissa inte skall ha tillgång till datan.
Då förorenar de den.

(( Men ja detta är endast olika synsätt på nästan samma sak. ))

Ja det stämmer att man inte får göra vad som helst med andras innehåll - även om man har åtkomst till det.

Så här ser såklart lagarna kring upphovsrätt ut. Det tror jag de flesta känner till.

Jag tycker inte det är snyggt att förgifta mat som ändå ska slängas. Bättre att någon använder det än ingen.
Men det AIföretagen tar här är ju inte resurser som ändå skulle slängas.
Alls.

Och det är då innan den mer moraliska aspekten att de som gräver mat i sopor onte direkt utövar någon samhällsmakt. Man är långt ner i kedjan och återanvänder det andra slängt.
AIföretagen tar inte bara lite - utan allt från alla. För att skapa sig en maktposition och dra in stora pengar.

Liknelsen är kass.

Jag har full förståelse för dumpster diving.
Och noll förståelse för AI-spindlar som stjäl data utan lov.

Visa signatur

💻 → Lenovo Yoga slim 7 pro 14" Oled
🎮 → Steamdeck

Permalänk
Medlem

Om man nu måste likna det vid Dumpstring så är det väl som att Ica skulle börja dumpstra hos kringliggande livsmedelsbutiker för att sedan ställa varorna på sina egna hyllor. Jag TROR att de flesta skulle ha synpunkter på det.
Liknelsen haltar ändå, eftersom det i regel är utgångna varor som slängs, vilket inte nödvändigtvis är fallet med all den data som AI-spindlarna suger i sig.

Visa signatur

AMD Ryzen 5 7600X, ASUS TUF B650-Plus wifi, Kingston Fury Beast 32GB 6000Mhz CL30, Kingston KC3000 2TB, Sapphire 7800 XT Pulse, Peerless Assassin 120, DarkPower 630W, Benq XL2411T + DELL U2312HM, Phanteks Eclipse P400S

Permalänk
Medlem

Tråkigt att det ska behövas, men behövas verkar det!

Visa signatur

Min Dator: AMD 3600 | 24 GB RAM | Asus X570 Prime | Fractal Design Arc R2 | Thermalright Silver Arrow | Dell U2412M | IBM Model M

Permalänk
Medlem

Jag arbetade ett par år på en firma som var stor i branchen att skilja människor från robotar. Är mycket populär teknologi bland flygresebolag och koncertbiljetter bland annat.

Det är helt klart ett arms-race mellan scrapers och detektionen men ett mycket intressant sådant. Var inte ditt vanliga "koppla ihop frontend med backend och ett par sql queries" jobb. Vi hittade på och testade en del rätt galna idéer. Långt från alla som funkade men det behövs bara ett par.

Visa signatur

Archlinux, Sway och Rust, vad mer behövs?

Permalänk
Medlem

Liknelsen är väl snarare ett gäng som går in i ett museum eller bokhandel och börjar fotografera allt, inklusive det som ligger på lagret. Det står en robot.txt på dörren, men den ignoreras.
Det dom har gjort här är att dom satt en skylt på soprummet som säger [utställning] som bottarna går in och fotograferar.

Permalänk
Medlem
Skrivet av Lordsqueak:

Liknelsen är väl snarare ett gäng som går in i ett museum eller bokhandel och börjar fotografera allt, inklusive det som ligger på lagret. Det står en robot.txt på dörren, men den ignoreras.
Det dom har gjort här är att dom satt en skylt på soprummet som säger [utställning] som bottarna går in och fotograferar.

Det här var nog den bästa liknelsen på detta jag läst, bravo!

Permalänk
Medlem
Skrivet av Söderbäck:

Ja det stämmer att man inte får göra vad som helst med andras innehåll - även om man har åtkomst till det.

Så här ser såklart lagarna kring upphovsrätt ut. Det tror jag de flesta känner till.

Jag tycker inte det är snyggt att förgifta mat som ändå ska slängas. Bättre att någon använder det än ingen.
Men det AIföretagen tar här är ju inte resurser som ändå skulle slängas.
Alls.

Och det är då innan den mer moraliska aspekten att de som gräver mat i sopor onte direkt utövar någon samhällsmakt. Man är långt ner i kedjan och återanvänder det andra slängt.
AIföretagen tar inte bara lite - utan allt från alla. För att skapa sig en maktposition och dra in stora pengar.

Liknelsen är kass.

Jag har full förståelse för dumpster diving.
Och noll förståelse för AI-spindlar som stjäl data utan lov.

Jag gillar när folk har en fast åsikt, dock behöver vi tänka längre.

AI kommer att drivas av få, det vi sett nyligen är en liten aktör som fått de stora att stå på tå.
Vill heldre att modellerna har en bred input. än bara skit.
Upphovsrätt?? En AI träning "stjäler inget" direkt..

Men Det de läser ju mer destå bättre, hör oss alla i ned snar framtid. i min humla...

Visa signatur

42? Seven and a half million years and all you can come up with is 42?!
► FD Define R2 | Win11Pro | R7-5800X | PA 120SE | ROG STRIX B550-F GAMING | CMN32GX4M2Z4600C18 | 1080 Ti | AX750 | Asus VG27WQ | HP Z27n |► Realme GT Master |