Webbplatser som inte vill bli indexerade av Google och andra sökmotorer har länge kunnat använda robots.txt-filer som talar om för robotarna att de inte är önskade. Det finns ingen lag som kräver det, men Google, Yahoo, Bing och andra har alltid följt denna rekommendation.

Sedan Open AI släppte Chat GPT och inledde guldruschen inom AI har robots.txt även börjat användas för att be AI-företag att inte samla in allt innehåll på webbplatser för att träna sina stora språkmodeller. Men AI-firmorna har inte samma etiska kompass som sökmotorutvecklare. Reuters rapporterar nämligen att flera företag helt enkelt har valt att ignorera filerna och webbplatsägarnas önskningar.

Avslöjandet kommer ur ett brev från Tollbit, ett företag som sysslar med att förmedla kontakt mellan utgivare av webbplatser och AI-utvecklare i syfte att få till licensavtal för innehållet. Wired har tidigare anklagat Perplexity för att ignorera robots.txt-filerna både hos sig och på andra Condé Nast-sajter. Enligt Business Insider ignorerar även Anthropic och Open AI filerna, trots att de tidigare har sagt att de ska respektera dem.

Perplexitys vd Aravind Srinivas säger till Fast Company att företagets egna robotar inte ignorerar robots.txt-filer, men att det köper in material från andra firmor som har gjort det. På en fråga från reportern om företaget nu kommer be partnern att börja respektera filerna svarar han ”det är komplicerat”.