Meerdere kunstmatige intelligentiebedrijven omzeilen een algemene webstandaard die door uitgevers wordt gebruikt om het scrapen van hun inhoud voor gebruik in generatieve AI-systemen te blokkeren, zo heeft contentlicentie startup TollBit uitgevers laten weten.

Een brief aan uitgevers die Reuters vrijdag heeft gezien, waarin de AI-bedrijven of de betrokken uitgevers niet worden genoemd, komt midden in een openbaar geschil tussen AI-zoekstartup Perplexity en media-uitgever Forbes over dezelfde webstandaard en een breder debat tussen tech- en mediabedrijven over de waarde van content in het tijdperk van generatieve AI. De uitgever van zakelijke media beschuldigde Perplexity publiekelijk van het plagiëren van zijn onderzoeksverhalen in door AI gegenereerde samenvattingen zonder Forbes te noemen of om toestemming te vragen.

Uit een deze week gepubliceerd onderzoek van Wired bleek dat Perplexity waarschijnlijk pogingen omzeilde om zijn webcrawler te blokkeren via het Robots Exclusion Protocol, of "robots.txt," een algemeen geaccepteerde standaard die bedoeld is om te bepalen welke delen van een site mogen worden gecrawld.

Perplexity wees een verzoek van Reuters om commentaar op het geschil af.

TollBit, een startup in een vroeg stadium, positioneert zichzelf als een koppelaar tussen AI-bedrijven die op zoek zijn naar inhoud en uitgevers die bereid zijn om licentieovereenkomsten met hen te sluiten.

Het bedrijf houdt AI-verkeer naar de websites van uitgevers bij en gebruikt analyses om beide partijen te helpen afspraken te maken over vergoedingen die betaald moeten worden voor het gebruik van verschillende soorten content.

Uitgevers kunnen er bijvoorbeeld voor kiezen om hogere tarieven te hanteren voor "premium content, zoals het laatste nieuws of exclusieve inzichten", aldus het bedrijf op haar website.

Het bedrijf zegt dat er in mei 50 websites operationeel waren, maar heeft nog geen namen genoemd.

Volgens de brief van TollBit is Perplexity niet de enige overtreder die robots.txt lijkt te negeren.

TollBit zegt dat haar analyses aangeven dat "talrijke" AI-agenten het protocol omzeilen, een standaardprogramma dat door uitgevers wordt gebruikt om aan te geven welke delen van hun site mogen worden gecrawld.

"Wat dit praktisch gezien betekent, is dat AI-agenten van meerdere bronnen (niet slechts één bedrijf) ervoor kiezen om het robots.txt-protocol te omzeilen om inhoud van sites op te halen," schreef TollBit. "Hoe meer logs van uitgevers we binnenkrijgen, hoe meer dit patroon naar voren komt."

Het robots.txt-protocol werd midden jaren 90 in het leven geroepen om te voorkomen dat websites overbelast zouden worden door webcrawlers. Hoewel er geen wettelijk handhavingsmechanisme is, wordt het historisch gezien op grote schaal nageleefd op het web.

Meer recentelijk is robots.txt een belangrijk hulpmiddel geworden dat uitgevers hebben gebruikt om technische bedrijven te verhinderen hun inhoud gratis op te nemen voor gebruik in generatieve AI-systemen die menselijke creativiteit kunnen nabootsen en artikelen direct kunnen samenvatten.

De AI-bedrijven gebruiken de inhoud zowel om hun algoritmen te trainen als om samenvattingen van real-time informatie te genereren.

Sommige uitgevers, waaronder de New York Times, hebben AI-bedrijven aangeklaagd wegens inbreuk op het auteursrecht vanwege dit gebruik. Anderen ondertekenen licentieovereenkomsten met de AI-bedrijven die bereid zijn om voor de inhoud te betalen, hoewel de partijen het vaak oneens zijn over de waarde van het materiaal. Veel AI-ontwikkelaars beweren dat ze geen wetten hebben overtreden door gratis toegang te verlenen.

Thomson Reuters, de eigenaar van Reuters News, is een van de bedrijven die deals hebben gesloten om nieuwscontent in licentie te geven voor gebruik door AI-modellen.

Uitgevers hebben vooral alarm geslagen over samenvattingen van nieuws sinds Google vorig jaar een product op de markt bracht dat AI gebruikt om samenvattingen te maken als antwoord op bepaalde zoekopdrachten.

Als uitgevers willen voorkomen dat hun inhoud door Google's AI wordt gebruikt om deze samenvattingen te genereren, moeten ze hetzelfde hulpmiddel gebruiken dat ook zou voorkomen dat ze in de zoekresultaten van Google verschijnen, waardoor ze vrijwel onzichtbaar worden op het web. (Verslaggeving door Katie Paul in New York; Bewerking door Kenneth Li en Jamie Freed)