AI-företag skannar webbplatser mot ägarnas önskningar

Permalänk
Melding Plague

AI-företag skannar webbplatser mot ägarnas önskningar

Enligt Reuters ignorerar Perplexity och flera andra AI-utvecklare robots.txt-filer på webbplatser som förbjuder robotar att läsa av allt innehåll.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
Medlem

Vem kunna ana och förutspå att detta skulle hända?

Vänta lite, just ja så fort man kan tjäna pengar på något som inte är lagstadgad så ryker allt vad som kallas etik och moral...

Visa signatur

AMD Ryzen 3900X, Gigabyte X570 AORUS ELITE,
G.Skill Flare X 32GB 3200MHz, FOCUS GX 850W, SSD 125 och 500GB, HDD 2tb, Gainward GeForce RTX 4090 Phantom
Laptops:MSI GT73VR 6RE Titan

Permalänk

De snor även bandbredd och datakraft när de gör detta. Folk som hostar en websida gör det kanske inte för att en massa botar ska hämta datan. På många ställen har de inför störande kontroller som man hela tiden får klicka på.

Men det blir roligt för den juristen som får i uppdrag att informera "ej västerländska" länder, att de ej med botar får läsa igenom webbsidor utan tillstånd. Att de kan lyckas hindra större västerländska som Google, OpenAi, Apple, Meta tror jag dock de kan lyckas med.

Permalänk
Medlem

Men ja, det är inte lag på det. Är mer en lös överenskommelse.

Har man sin site öppen så har man sin site öppen.

Man kanske för ha en captcha på de sidorna eller att man måste godkänna ett avtal innan man får se informationen.

Visa signatur

Hur många datorer är för många?

Permalänk
Medlem
Skrivet av kelthar:

Men ja, det är inte lag på det. Är mer en lös överenskommelse.

Har man sin site öppen så har man sin site öppen.

Fast har man en site borde man ha rätten till hur den ska användas.

Permalänk
Medlem

Ja, det är väl inget nytt. För sökmotorer används robots.txt ofta för att indikera vilka sidor som av olika anledningar inte är lämpliga att indexera, så det är troligtvis bara en fördel för dem att följa den. Men för AI används robots.txt mer för att artigt be dem dra åt skogen, så det finns ingen större anledning för dem att respektera den annat än om de bryr sig om hur det påverkar deras anseende.

Att blockera AI i robots.txt är även ett relativt nytt fenomen, och t.ex. OpenAI (GPTBot) började respektera robots.txt för mindre än ett år sedan. Så för nyare konkurrenter som Perplexity blir det en nackdel att respektera robots.txt jämfört med de äldre som redan samlat in massiva mängder data utan att bry sig om sånt.

Permalänk
Medlem

Enligt EU's nya AI-lag så måste "opt-out" från AI-träning respekteras. "robots.txt" är den enda etablerade standarden för detta, än så länge.

Hur bör EU förhålla sig till såna här företag? Ska vi börja isolera våra site:r från resten av världen.
Vi bör i alla fall hålla företag ansvariga om de vill vara etablerade här.

Visa signatur

“It is difficult to get a man to understand something, when his salary depends upon his not understanding it!”

Permalänk
Medlem
Skrivet av jehuty:

Fast har man en site borde man ha rätten till hur den ska användas.

Det enda sättet som du kan begränsa innehåll är att sätta det bakom inloggning, så vida det inte finns en lag. Även om lagen finns så kan den överträdas, men då kan det leda till en rättslig åtgärd.

Så, en lag borde läggas till för det. Att man kan porta viss sorts trafik.

Visa signatur

Hur många datorer är för många?

Permalänk
Medlem

Det är så märkligt att alla lagstiftande organ alltid är så efter utvecklingen.
Att stifta lagar är ingen lätt sak och bör därför ta sin tid för att få det så rätt som möjligt.
Så när dom väl börjar är det redan väldigt för sent.
AI är inget nytt. Ändå beter sig alla som om dom är tagna på sängen med det 🙄

Visa signatur

CPU: I9 10900KF -Kylare: Arctic Freezer 360 - Moderkort: ASRock Velozita Z590 PG.
GPU: RX 9070 XT Reaper @2 st 120mm cf-v12hp hydro dynamic fläktar. 👍
RAM: 32GB DDR4 3466 MHz Ballistix Elite. HÅRDDISK: 4 st SSD, 2 Mekaniska.
MONITOR:1 Xiaomi MI 34"- 3440x1440 144Hz MONITOR:2 Optix MAG274R 27" 1080p 144Hz MONITOR/Tv:3 LG 47lv355n-ZB 47". Nätagg: Asus TUF 1000w Gold Atx 3.1. Allt i ett Cooler Master CM Storm Stryker.

Permalänk
Medlem

Att damsuga nätet på detta vis efter data borde förbjudas på internationell nivå. Egentligen tycker jag att datacenter för AI borde totalförbjudas, med tanke på de enorma mängder vatten och energi de förbrukar.

Visa signatur

| Corsair Obsidian 500D | Intel Core i7-3770K 3.9GHz med Corsair iCUE H115i Elite Capellix XT | Asus Z77 Sabertooth | Corsair Vengeance Pro Black 4x8GB 1866MHz CL9 | 2x EVGA GeForce GTX TITAN X 12GB, SLI | X-Fi Titanium Fatal1ty Pro | Samsung 870 EVO 2TB, Samsung 870 EVO 1TB, 2x Seagate Barracuda 2TB | Corsair AX860i | DELL P991 Trinitron | Windows XP/10 Dual-Boot |

Permalänk
Medlem
Skrivet av Alexraptor:

Att damsuga nätet på detta vis efter data borde förbjudas på internationell nivå. Egentligen tycker jag att datacenter för AI borde totalförbjudas, med tanke på de enorma mängder vatten och energi de förbrukar.

Du verkar inte vara särskilt bekymrat om miljön när jag kollar din signatur. Du kanske ska välja något strömsnålare eller hoppa spelandet helt så att du också drar ditt strå till stacken för miljön?

| Corsair Obsidian 1000D | AMD Ryzen 9 5950x 3.4 GHz(5 GHz boost) med Corsair iCue H170i Elite Capellix | Asus ROG Crosshair VIII Dark Hero | G.Skill Trident Z neo, 2x16GB 3600MHz C16 | ROG Strix LC GeForce 3090 Ti 24GB | 1x Seagate FireCuda 520 1TB, 1x Samsung 850 EVO 250GB, 1x Samsung 970 EVO 1TB, 2x 1TB HDD, 1x Seagate Ironwolf 16TB HDD | Corsair AX860i | ASUS PG279Q & ASUS XG27AQM|

Dold text
Permalänk
Medlem

Om man inte gillar robotar så kan det ju alltid kodas en spindel, eller äsch..

Visa signatur

Gapar ofta efter galen fågel i fel tunna.

Permalänk
Medlem
Skrivet av Alexraptor:

Att damsuga nätet på detta vis efter data borde förbjudas på internationell nivå. Egentligen tycker jag att datacenter för AI borde totalförbjudas, med tanke på de enorma mängder vatten och energi de förbrukar.

Varför borde det förbjudas?

Permalänk
Medlem
Skrivet av pine-orange:

Du verkar inte vara särskilt bekymrat om miljön när jag kollar din signatur. Du kanske ska välja något strömsnålare eller hoppa spelandet helt så att du också drar ditt strå till stacken för miljön?

| Corsair Obsidian 1000D | AMD Ryzen 9 5950x 3.4 GHz(5 GHz boost) med Corsair iCue H170i Elite Capellix | Asus ROG Crosshair VIII Dark Hero | G.Skill Trident Z neo, 2x16GB 3600MHz C16 | ROG Strix LC GeForce 3090 Ti 24GB | 1x Seagate FireCuda 520 1TB, 1x Samsung 850 EVO 250GB, 1x Samsung 970 EVO 1TB, 2x 1TB HDD, 1x Seagate Ironwolf 16TB HDD | Corsair AX860i | ASUS PG279Q & ASUS XG27AQM|

Dold text

Äsch, kom igen nu! Bättre kan du väl än att komma dragandes med tu quoque-argument och falsk likvärdighet.

Skrivet av cosplay:

Varför borde det förbjudas?

När det gäller dataskrapning så anser jag att det är djupt oetiskt och borde räknas som brott mot upphovsrätten. Detta då stora kommersiella företag, girigt exploaterar andra människors data och arbete för egen vinning, utan något tanke på att göra rätt för sig.

Visa signatur

| Corsair Obsidian 500D | Intel Core i7-3770K 3.9GHz med Corsair iCUE H115i Elite Capellix XT | Asus Z77 Sabertooth | Corsair Vengeance Pro Black 4x8GB 1866MHz CL9 | 2x EVGA GeForce GTX TITAN X 12GB, SLI | X-Fi Titanium Fatal1ty Pro | Samsung 870 EVO 2TB, Samsung 870 EVO 1TB, 2x Seagate Barracuda 2TB | Corsair AX860i | DELL P991 Trinitron | Windows XP/10 Dual-Boot |

Permalänk
Medlem

Samtidigt har Open AI webbskrapat hela ratsit och hitta.se. Den vet allt om dig. Ska testa att bli bortglömd o se hur det går. Ratsit får ha mina uppgifter enligt gdpr för de är utgivare (konstig lag men så är det). Open AI däremot är INTE utgivare och förbjuds enligt gdpr ha mina personuppgifter mot min önskan...

Visa signatur

Processor: Motorola 68000 | Klockfrekvens: 7,09 Mhz (PAL) | Minne: 256 kB ROM / 512 kB RAM | Bussbredd: 24 bit | Joystick: Tac2 | Operativsystem: Amiga OS 1.3

Permalänk
Medlem
Skrivet av hellmix:

Vem kunna ana och förutspå att detta skulle hända?

Vänta lite, just ja så fort man kan tjäna pengar på något som inte är lagstadgad så ryker allt vad som kallas etik och moral...

Självklart, Etik och moral är dyrt.. Påverkar vinsten.

Permalänk
Medlem
Skrivet av Alexraptor:

Äsch, kom igen nu! Bättre kan du väl än att komma dragandes med tu quoque-argument och falsk likvärdighet.

Tu quoque visst. Det är ju hyckleri förstås

Falsk likvärdighet skulle jag inte säga. Du använder el när du använder din strömtörstiga dator, någon annan använder indirekt el för att köra någon LLM eller annan AI-algoritm. Varför ska det ena förbjudas och det andra inte? Du påstår att det ska förbjudas, men du måste ju ha några argument också.

Permalänk
Testpilot

Detta med AI-träning och att skrapa internet.. Ligger det öppet och publikt att granskas för mänskliga ögon, då kan det gott användas för dessa saker också.

För att klargöra;
Det är en sak om informationen/datan finns bakom en betalvägg, kräver köp av produkt/tjänst eller liknande. Men om informationen ligger öppet på så vis att vem som helst kan komma över den bara genom att besöka en URL, då ser jag inga problem (varken etiska, moraliska eller ekonomiska) att inte få använda denna information/data att träna AI, bygga databas eller liknande.

Igen, för tydlig kontext; pratar om öppet internet. Alltså inte stängda forum, privata Discord-konversationer och sonika, eller annars något som är låst bakom betalning.

Visa signatur

< R9 5900X | 32GB 3200 MT/s | RTX 3090 Ti >

< R5 7600X | 32GB 6400 MT/s | RX 9070 XT >

Permalänk
Medlem
Skrivet av Alexraptor:

När det gäller dataskrapning så anser jag att det är djupt oetiskt och borde räknas som brott mot upphovsrätten. Detta då stora kommersiella företag, girigt exploaterar andra människors data och arbete för egen vinning, utan något tanke på att göra rätt för sig.

Varför är det djupt oetiskt att använda, inspireras av och bygga på tidigare vetenskap och information?

Vi hade inte existerat om vi inte gjorde det. Det borde hyllas, inte förhindras.

Permalänk
Medlem
Skrivet av cosplay:

Varför är det djupt oetiskt att använda, inspireras av och bygga på tidigare vetenskap och information?

Vi hade inte existerat om vi inte gjorde det. Det borde hyllas, inte förhindras.

Utveckling och vetenskap är ju inte av naturen gott och per automatik bra, så det blir precis lika konstigt att så okritiskt hylla det som du gör.

Det där "vi hade inte existerat.." låter nästan som att du menar att det finns en designer bakom allt, annars existerar vi pga. evolutionen.

Absolut, trial and error är en del av evolutionen, och moral (rätt/fel) är något vi har hittat på.

Men jag tycker att bevisbördan ligger på dig/dom som vill göra det här, vad är nyttan?

"Vetenskap.." är alltså inte ett tillräckligt bra svar.

Permalänk
Medlem
Skrivet av Yatagarasu:

Igen, för tydlig kontext; pratar om öppet internet. Alltså inte stängda forum, privata Discord-konversationer och sonika, eller annars något som är låst bakom betalning.

Det är lite dubbelt. Om din sajt är gratis att använda så är det användaren som är varan man säljer (som här på SWEC), då vill såklart innehavaren av sajten ha betalt för att ta del av det dyrbara människogenererade innehållet - när AI tränar på AI-genererat innehåll blir det tydligen pannkaka ganska fort.

Visa signatur

NES.

Permalänk
Medlem

Man undrar i sitt stilla sinne hur de aktuella företagen agerar mot vanliga sajtbesökare? Vågar man gissa på att de dataminar allt vad de kan, och inte alls ser samma problem med det? Att det är en fråga om att det plötsligt inte passar längre när man själv är utsatt?

Visa signatur

Nu lurade jag dig att slösa bort ett par värdefulla sekunder av ditt liv på att läsa denna fullständigt poänglösa signatur!

Permalänk
Medlem
Skrivet av Alexraptor:

Att damsuga nätet på detta vis efter data borde förbjudas på internationell nivå. Egentligen tycker jag att datacenter för AI borde totalförbjudas, med tanke på de enorma mängder vatten och energi de förbrukar.

Skrivet av pine-orange:

Du verkar inte vara särskilt bekymrat om miljön när jag kollar din signatur. Du kanske ska välja något strömsnålare eller hoppa spelandet helt så att du också drar ditt strå till stacken för miljön?

| Corsair Obsidian 1000D | AMD Ryzen 9 5950x 3.4 GHz(5 GHz boost) med Corsair iCue H170i Elite Capellix | Asus ROG Crosshair VIII Dark Hero | G.Skill Trident Z neo, 2x16GB 3600MHz C16 | ROG Strix LC GeForce 3090 Ti 24GB | 1x Seagate FireCuda 520 1TB, 1x Samsung 850 EVO 250GB, 1x Samsung 970 EVO 1TB, 2x 1TB HDD, 1x Seagate Ironwolf 16TB HDD | Corsair AX860i | ASUS PG279Q & ASUS XG27AQM|

Dold text

Nu gav ni mig en idé. Nästa gång jag får kass FPS när jag lirar så ska jag försöka inbilla mig att det är för miljöns skull, istället för att tokhandla ny hårdvara.
Eller, vänta nu, det kommer jag förmodligen inte alls att göra.

Permalänk
Testpilot
Skrivet av dr. Dunkel:

Det är lite dubbelt. Om din sajt är gratis att använda så är det användaren som är varan man säljer (som här på SWEC), då vill såklart innehavaren av sajten ha betalt för att ta del av det dyrbara människogenererade innehållet - när AI tränar på AI-genererat innehåll blir det tydligen pannkaka ganska fort.

Det som för mig blir så himla roligt i detta hänseende är att "sajtägarna" gott kan dammsuga sina användare (genom att spåra, kartlägga samt sälja vidare information), men blir de själv 'dammsugna' är det plötsligt kränkande och måste stoppas omedelbart – jag ser en grov ironi i det hela i alla fall

Skrivet av Mazchi:

Nu gav ni mig en idé. Nästa gång jag får kass FPS när jag lirar så ska jag försöka inbilla mig att det är för miljöns skull, istället för att tokhandla ny hårdvara.
Eller, vänta nu, det kommer jag förmodligen inte alls att göra.

Det blir dock tyvärr ett problem med den tankeprocessen om några år när ägarna av 4090 får dålig FPS, och det fortfarande dras 800 watt från strömuttaget i väggen

Visa signatur

< R9 5900X | 32GB 3200 MT/s | RTX 3090 Ti >

< R5 7600X | 32GB 6400 MT/s | RX 9070 XT >

Permalänk
Medlem
Skrivet av cosplay:

Varför är det djupt oetiskt att använda, inspireras av och bygga på tidigare vetenskap och information?

Vi hade inte existerat om vi inte gjorde det. Det borde hyllas, inte förhindras.

Det råder en fundamental skillnad på det du beskriver, och att nyttja skrapad data in LLM:er.

Visa signatur

| Corsair Obsidian 500D | Intel Core i7-3770K 3.9GHz med Corsair iCUE H115i Elite Capellix XT | Asus Z77 Sabertooth | Corsair Vengeance Pro Black 4x8GB 1866MHz CL9 | 2x EVGA GeForce GTX TITAN X 12GB, SLI | X-Fi Titanium Fatal1ty Pro | Samsung 870 EVO 2TB, Samsung 870 EVO 1TB, 2x Seagate Barracuda 2TB | Corsair AX860i | DELL P991 Trinitron | Windows XP/10 Dual-Boot |

Permalänk
Medlem
Skrivet av Yatagarasu:

Det blir dock tyvärr ett problem med den tankeprocessen om några år när ägarna av 4090 får dålig FPS, och det fortfarande dras 800 watt från strömuttaget i väggen

Låt mig nu leva i min egen lilla värld..

Men jag håller med dig, men berätta inte det för någon.

Permalänk
Medlem
Skrivet av Xeonist:

Utveckling och vetenskap är ju inte av naturen gott och per automatik bra, så det blir precis lika konstigt att så okritiskt hylla det som du gör.

Det där "vi hade inte existerat.." låter nästan som att du menar att det finns en designer bakom allt, annars existerar vi pga. evolutionen.

Absolut, trial and error är en del av evolutionen, och moral (rätt/fel) är något vi har hittat på.

Men jag tycker att bevisbördan ligger på dig/dom som vill göra det här, vad är nyttan?

"Vetenskap.." är alltså inte ett tillräckligt bra svar.

Nej jag menar absolut inte att det finns någon designer utan att vi använder det hela tiden och det är evolution. Vadå vad är nyttan? Det är så mänskligheten rör sig framåt, vi bygger på vetenskap och kunskap och information från andra hårt arbetandes arbete istället för att vi sitter kvar i naturen och kastar bajs på varandra.

Du och jag och alla andra människor som någonsin har existerat har dataskrapat 100% av tiden sen vi föddes. Vi snyltar på andra människors hårda arbete genom hela livet utan att betala något för det. Vi blir bara bättre av att kunna snylta på hela internets kunskap och inte bara på det lilla vi kan hitta och dataskrapa själva.

Jag tycker det är bra. Att företag tjänar pengar är ett billigt pris för att snabba på utveckligen. Företag tjänar pengar på andra människors hårda arbete hela tiden. Det har skett ända sen det första företaget skapades. Varför tycker du att vi ska nöja oss med att inte maximera oss?

Permalänk
Medlem
Skrivet av Alexraptor:

Det råder en fundamental skillnad på det du beskriver, och att nyttja skrapad data in LLM:er.

Enligt mig så är datan som du och jag och alla andra hårt arbetande människor bidrar med är inte värd ett skit jämfört med den samlade informationen som du och jag och alla andra kommer att dra nytta av.

Om du på allvar inte vill vara med så får du sluta skriva och aldrig mer använda någonting som civilisationen utvecklar med hjälp av tidigare människors hårda arbete och kunskaper.

Du får bo i naturen, utan språk och tankar och kasta bajs. Eller inte ens kasta bajs för det är inte din idé från början och då begår du upphovsrättsbrott om du kopierar någon annans idé.

Permalänk
Medlem
Skrivet av Yatagarasu:

Det som för mig blir så himla roligt i detta hänseende är att "sajtägarna" gott kan dammsuga sina användare (genom att spåra, kartlägga samt sälja vidare information), men blir de själv 'dammsugna' är det plötsligt kränkande och måste stoppas omedelbart – jag ser en grov ironi i det hela i alla fall

Det är det dubbla. "Sajtägarna" tar inte betalt direkt men förväntar sig att få direkt betalt av den som vill använda IP (kanske IP) som skapas på sajten, alltså information om den som använder sajten. I det här kan det vara smart att aldrig svara på några enkäter eller frågor om vanor, gör aldrig det.

När sedan någon kommer och snor hela deras upplägg + databas av människogenererat innehåll utan att betala för sig så är det väl klart att de blir gramse.

Visa signatur

NES.

Permalänk
Medlem
Skrivet av cosplay:

Enligt mig så är datan som du och jag och alla andra hårt arbetande människor bidrar med är inte värd ett skit jämfört med den samlade informationen som du och jag och alla andra kommer att dra nytta av.

Om du på allvar inte vill vara med så får du sluta skriva och aldrig mer använda någonting som civilisationen utvecklar med hjälp av tidigare människors hårda arbete och kunskaper.

Du får bo i naturen, utan språk och tankar och kasta bajs. Eller inte ens kasta bajs för det är inte din idé från början och då begår du upphovsrättsbrott om du kopierar någon annans idé.

Snygg halmdocka.

Visa signatur

| Corsair Obsidian 500D | Intel Core i7-3770K 3.9GHz med Corsair iCUE H115i Elite Capellix XT | Asus Z77 Sabertooth | Corsair Vengeance Pro Black 4x8GB 1866MHz CL9 | 2x EVGA GeForce GTX TITAN X 12GB, SLI | X-Fi Titanium Fatal1ty Pro | Samsung 870 EVO 2TB, Samsung 870 EVO 1TB, 2x Seagate Barracuda 2TB | Corsair AX860i | DELL P991 Trinitron | Windows XP/10 Dual-Boot |