Op zijn hoogtepunt in het begin van de jaren 2000 was Photobucket 's werelds beste site voor het hosten van afbeeldingen. Het was de mediabackbone voor eens zo populaire diensten als Myspace en Friendster, het had 70 miljoen gebruikers en was goed voor bijna de helft van de Amerikaanse online fotomarkt.

Tegenwoordig gebruiken nog maar 2 miljoen mensen Photobucket, volgens analytics tracker Similarweb. Maar de generatieve AI-revolutie kan Photobucket nieuw leven inblazen.

CEO Ted Leonard, die het 40-koppige bedrijf leidt vanuit Edwards, Colorado, vertelde aan Reuters dat hij in gesprek is met meerdere techbedrijven om de 13 miljard foto's en video's van Photobucket in licentie te geven om gebruikt te worden voor het trainen van generatieve AI-modellen die nieuwe inhoud kunnen produceren als reactie op tekstaanvragen.

Hij heeft tarieven besproken van tussen de 5 cent en $1 dollar per foto en meer dan $1 per video, zei hij, waarbij de prijzen sterk variëren per koper en per type beeldmateriaal dat wordt gezocht.

"We hebben met bedrijven gesproken die zeiden: 'we hebben veel meer nodig,' voegde Leonard eraan toe, waarbij één koper hem vertelde dat ze meer dan een miljard video's wilden, meer dan zijn platform heeft.

"Je krabt je hoofd en zegt, waar haal je dat vandaan?"

Photobucket weigerde zijn potentiële kopers te noemen, vanwege commerciële vertrouwelijkheid. De lopende onderhandelingen, waarover nog niet eerder is bericht, suggereren dat het bedrijf mogelijk miljarden dollars aan content bezit en geven een kijkje in een bruisende datamarkt die ontstaat in de stormloop om generatieve AI-technologie te domineren.

Techgiganten zoals Google, Meta en het door Microsoft gesteunde OpenAI gebruikten aanvankelijk stapels gegevens die gratis van het internet werden gehaald om generatieve AI-modellen zoals ChatGPT te trainen die menselijke creativiteit kunnen nabootsen. Ze hebben gezegd dat dit zowel legaal als ethisch is, hoewel er een aantal auteursrechthebbenden tegen hen een rechtszaak aanspannen.

Tegelijkertijd betalen deze techbedrijven ook stilletjes voor inhoud die achter betaalmuren en inlogschermen zit, waardoor er een verborgen handel ontstaat in alles van chatlogs tot lang vergeten persoonlijke foto's van vervaagde social media apps.

"Er is op dit moment een stormloop op auteursrechthouders die privécollecties hebben van dingen die niet beschikbaar zijn om geschraapt te worden," zegt Edward Klaris van advocatenkantoor Klaris Law, dat naar eigen zeggen inhoudseigenaren adviseert over deals ter waarde van tientallen miljoenen dollars per stuk om archieven van foto's, films en boeken in licentie te geven voor AI-training.

Reuters sprak met meer dan 30 mensen met kennis over AI-gegevensdeals, waaronder huidige en voormalige leidinggevenden bij betrokken bedrijven, advocaten en consultants, om de eerste diepgaande verkenning van deze ontluikende markt te geven - met details over de soorten content die worden gekocht, de prijzen die worden gerealiseerd, plus de opkomende bezorgdheid over het risico dat persoonlijke gegevens in AI-modellen terechtkomen zonder dat mensen het weten of er expliciet toestemming voor hebben gegeven.

OpenAI, Google, Meta, Microsoft, Apple en Amazon weigerden allemaal commentaar te geven op specifieke gegevensdeals en discussies voor dit artikel, hoewel Microsoft en Google Reuters verwezen naar gedragscodes van leveranciers die bepalingen over gegevensprivacy bevatten.

Google voegde eraan toe dat het "onmiddellijk actie zou ondernemen, tot en met beëindiging" van zijn overeenkomst met een leverancier als het een schending zou ontdekken.

Veel grote marktonderzoeksbureaus zeggen dat ze nog niet eens zijn begonnen met het schatten van de omvang van de ondoorzichtige AI-gegevensmarkt, waar bedrijven vaak geen overeenkomsten openbaar maken. De onderzoekers die dat wel doen, zoals Business Research Insights, schatten de markt nu op ongeveer $2,5 miljard en voorspellen dat deze binnen tien jaar bijna $30 miljard zou kunnen bedragen.

GENERATIEVE DATA GOUDKOORTS

De goudkoorts op het gebied van gegevens komt op het moment dat makers van grote generatieve AI "foundation" modellen onder toenemende druk komen te staan om rekenschap te geven van de enorme hoeveelheden content die zij in hun systemen invoeren, een proces dat bekend staat als "training" en dat intensieve rekenkracht vereist en vaak maanden duurt om te voltooien.

Technologiebedrijven zeggen dat de technologie onbetaalbaar zou zijn als ze geen gebruik konden maken van enorme archieven van gratis geschraapte gegevens van webpagina's, zoals die van de non-profit opslagplaats Common Crawl, die ze omschrijven als "openbaar beschikbaar".

Hun aanpak heeft desondanks een golf van rechtszaken over auteursrecht en regelgeving opgeleverd, en heeft uitgevers ertoe aangezet code aan hun websites toe te voegen om het schrapen te blokkeren.

Als reactie hierop zijn AI-modelmakers begonnen met het afdekken van risico's en het beveiligen van gegevensleveringsketens, zowel door middel van deals met inhoudseigenaren als via een ontluikende bedrijfstak van gegevensmakelaars die is ontstaan om aan de vraag te voldoen.

In de maanden nadat ChatGPT eind 2022 debuteerde, sloten bedrijven als Meta, Google, Amazon en Apple bijvoorbeeld overeenkomsten met stockbeeldleverancier Shutterstock om honderden miljoenen afbeeldingen, video's en muziekbestanden in de bibliotheek te gebruiken voor training, volgens een persoon die bekend is met de afspraken.

De deals met Big Tech bedrijven varieerden aanvankelijk van $25 miljoen tot $50 miljoen per stuk, hoewel de meeste later werden uitgebreid, vertelde Jarrod Yahes, Chief Financial Officer van Shutterstock, aan Reuters. Kleinere techspelers hebben dit voorbeeld gevolgd, wat een nieuwe "vlaag van activiteit" teweegbracht in de afgelopen twee maanden, voegde hij eraan toe.

Yahes weigerde commentaar te geven op individuele contracten. De overeenkomst met Apple en de omvang van de andere deals zijn nog niet eerder openbaar gemaakt.

Een concurrent van Shutterstock, Freepik, vertelde Reuters dat het overeenkomsten had gesloten met twee grote techbedrijven om het grootste deel van zijn archief van 200 miljoen afbeeldingen in licentie te geven tegen 2 tot 4 cent per afbeelding. Er zitten nog vijf vergelijkbare deals in de pijplijn, zei CEO Joaquin Cuenca Abela, die weigerde kopers te noemen.

OpenAI, een vroege klant van Shutterstock, heeft ook licentieovereenkomsten getekend met ten minste vier nieuwsorganisaties, waaronder The Associated Press en Axel Springer. Thomson Reuters, de eigenaar van Reuters News, zei afzonderlijk dat het deals heeft gesloten om nieuwsinhoud te licenseren om te helpen bij het trainen van grote AI-taalmodellen, maar gaf geen details vrij.

ETHISCH INGEKOCHTE INHOUD

Er ontstaat ook een industrie van speciale AI-databedrijven die rechten verwerven op echte inhoud zoals podcasts, korte video's en interacties met digitale assistenten, terwijl ze ook netwerken opbouwen van kortetermijncontractarbeiders om vanaf nul aangepaste visuals en stemvoorbeelden te produceren, vergelijkbaar met een Uber-achtige gig-economie voor gegevens.

Het in Seattle gevestigde Defined.ai licenseert gegevens aan een reeks bedrijven, waaronder Google, Meta, Apple, Amazon en Microsoft, vertelde CEO Daniela Braga aan Reuters.

De tarieven variëren per koper en inhoudstype, maar Braga zei dat bedrijven over het algemeen bereid zijn om $1 tot $2 per afbeelding, $2 tot $4 per korte video en $100 tot $300 per uur langere films te betalen. Het markttarief voor tekst is $0,001 per woord, voegde ze eraan toe.

Beelden van naaktheid, die de meest gevoelige behandeling vereisen, gaan voor $5 tot $7, zei ze.

Defined.ai deelt deze inkomsten met de contentaanbieders, zei Braga. Het bedrijf verkoopt zijn datasets als "ethisch verkregen", omdat het toestemming krijgt van de mensen van wie het de gegevens gebruikt en persoonlijk identificeerbare informatie verwijdert, voegde ze eraan toe.

Een van de leveranciers van het bedrijf, een in Brazilië gevestigde ondernemer, zei dat hij eigenaren van de foto's, podcasts en medische gegevens die hij betrekt ongeveer 20% tot 30% van de totale dealbedragen betaalt.

De duurste afbeeldingen in zijn portfolio zijn die welke gebruikt worden om AI-systemen te trainen die inhoud blokkeren, zoals grafisch geweld dat door de techbedrijven geweerd wordt, zei de leverancier, die sprak op voorwaarde dat zijn bedrijf niet geïdentificeerd wordt, vanwege de commerciële gevoeligheid.

Om aan deze verzoeken te voldoen, verkrijgt hij beelden van misdaadscènes, conflictgeweld en operaties - voornamelijk van respectievelijk de politie, freelance fotojournalisten en medische studenten - vaak op plaatsen in Zuid-Amerika en Afrika waar het verspreiden van grafische beelden gebruikelijker is, zei hij.

Hij zei dat hij beelden heeft ontvangen van freelance fotografen in Gaza sinds het begin van de oorlog daar in oktober, plus een aantal uit Israël aan het begin van de vijandelijkheden.

Zijn bedrijf huurt verpleegkundigen in die gewend zijn om gewelddadige verwondingen te zien, om de beelden, die voor ongetrainde ogen verontrustend zijn, te anonimiseren en te annoteren, voegde hij eraan toe.

IK ZOU HET RISKANT VINDEN

Hoewel het verlenen van licenties sommige juridische en ethische problemen zou kunnen oplossen, werpt het doen herrijzen van de archieven van oude internetnamen zoals Photobucket als brandstof voor de nieuwste AI-modellen andere problemen op, met name rond de privacy van gebruikers, volgens veel van de geïnterviewde spelers uit de sector.

AI-systemen zijn betrapt op het uitspugen van exacte kopieën van hun trainingsgegevens, waarbij ze bijvoorbeeld het watermerk van Getty Images, letterlijke alinea's van artikelen uit de New York Times en afbeeldingen van echte mensen uitspuwden. Dat betekent dat privéfoto's of intieme gedachten van een persoon die tientallen jaren geleden gepost zijn, mogelijk in generatieve AI-outputs terecht kunnen komen zonder kennisgeving of expliciete toestemming.

Leonard, CEO van Photobucket, zegt dat hij op goede juridische gronden staat en verwijst naar een update van de servicevoorwaarden van het bedrijf in oktober die het bedrijf het "onbeperkte recht" geeft om alle geüploade inhoud te verkopen voor het trainen van AI-systemen. Hij ziet het licenseren van gegevens als een alternatief voor het verkopen van advertenties.

"We moeten onze rekeningen betalen en dit zou ons de mogelijkheid kunnen geven om gratis accounts te blijven ondersteunen," zei hij.

Braga van Defined.ai zei dat ze geen inhoud van "platformbedrijven" zoals Photobucket koopt en liever foto's van sociale media betrekt van beïnvloeders die ze maken, die volgens haar duidelijker aanspraak kunnen maken op licentierechten.

"Ik zou het erg riskant vinden," zei Braga over platformcontent. "Als er een of andere AI is die iets genereert dat lijkt op een foto van iemand die dat nooit heeft goedgekeurd, dan is dat een probleem."

Photobucket is niet de enige platform dat licenties omarmt. Tumblr's moederbedrijf Automattic zei vorige maand dat het inhoud deelt met "selecte AI-bedrijven". In februari meldde Reuters dat Reddit een deal heeft gesloten met Google om zijn inhoud beschikbaar te stellen voor het trainen van de AI-modellen van Google.

Aan de vooravond van de beursgang in maart onthulde Reddit dat er een onderzoek loopt naar haar gegevenslicentieactiviteiten door de Amerikaanse Federal Trade Commission en dat het bedrijf mogelijk in botsing komt met zich ontwikkelende regelgeving op het gebied van privacy en intellectueel eigendom.

De FTC, die bedrijven in februari waarschuwde tegen het met terugwerkende kracht wijzigen van servicevoorwaarden voor AI-gebruik, weigerde commentaar te geven op het Reddit-onderzoek en wilde ook niet zeggen of ze andere transacties met trainingsgegevens onderzochten. (Verslaggeving door Katie Paul in New York en Anna Tong in San Francisco; Aanvullende rapportage door Krystal Hu in New York; Bewerking door Kenneth Li en Pravin Char)