Meta Platforms heeft openbare Facebook- en Instagram-posts gebruikt om zijn nieuwe virtuele assistent Meta AI te trainen, maar privéposts die alleen met familie en vrienden worden gedeeld buiten beschouwing gelaten in een poging om de privacy van consumenten te respecteren, vertelde de hoogste beleidsmedewerker van het bedrijf in een interview aan Reuters.

Meta heeft ook geen privé chats op zijn berichtendiensten gebruikt als trainingsgegevens voor het model en heeft stappen ondernomen om privégegevens te filteren uit openbare datasets die voor training werden gebruikt, zei Nick Clegg, Meta President of Global Affairs, deze week sprekend aan de zijlijn van de jaarlijkse Connect conferentie van het bedrijf.

"We hebben geprobeerd om datasets uit te sluiten die een zwaar overwicht aan persoonlijke informatie hebben," zei Clegg, eraan toevoegend dat de "overgrote meerderheid" van de gegevens die Meta voor training gebruikte, openbaar beschikbaar was.

Hij noemde LinkedIn als voorbeeld van een website waarvan Meta de inhoud bewust niet wilde gebruiken vanwege privacybezwaren.

De opmerkingen van Clegg komen op het moment dat techbedrijven, waaronder Meta, OpenAI en Alphabet's Google, bekritiseerd zijn omdat ze zonder toestemming van het internet geschraapte informatie gebruiken om hun AI-modellen te trainen, die enorme hoeveelheden gegevens binnenkrijgen om informatie samen te vatten en beelden te genereren.

De bedrijven overwegen hoe ze moeten omgaan met het privé- of auteursrechtelijk beschermde materiaal dat hun AI-systemen tijdens dat proces kunnen reproduceren, terwijl ze tegelijkertijd worden geconfronteerd met rechtszaken van auteurs die hen ervan beschuldigen auteursrechten te schenden.

Meta AI was het belangrijkste product onder de eerste AI-tools voor consumenten die CEO Mark Zuckerberg woensdag onthulde tijdens de jaarlijkse productconferentie van Meta, Connect. Het evenement van dit jaar werd gedomineerd door gesprekken over kunstmatige intelligentie, in tegenstelling tot eerdere conferenties die zich concentreerden op augmented en virtual reality.

Meta maakte de assistent met behulp van een aangepast model gebaseerd op het krachtige Llama 2 grote taalmodel dat het bedrijf in juli vrijgaf voor openbaar commercieel gebruik, aldus het bedrijf.

De assistent kan tekst, audio en afbeeldingen genereren en heeft toegang tot realtime informatie via een samenwerking met Microsofts zoekmachine Bing.

De openbare Facebook- en Instagram-posts die werden gebruikt om Meta AI te trainen, bevatten zowel tekst als foto's, aldus Clegg.

Hij zei dat Meta ook veiligheidsbeperkingen oplegde voor de inhoud die de tool kon genereren, zoals een verbod op het maken van fotorealistische afbeeldingen van publieke figuren.

Over auteursrechtelijk beschermd materiaal zei Clegg dat hij een "behoorlijke hoeveelheid rechtszaken" verwachtte over de vraag "of creatieve inhoud al dan niet onder de bestaande doctrine van eerlijk gebruik valt," die het beperkte gebruik van beschermde werken toestaat voor doeleinden als commentaar, onderzoek en parodie.

"Wij denken dat dit het geval is, maar ik heb sterk het vermoeden dat dit in een rechtszaak zal uitmonden," zei Clegg.

Sommige bedrijven met tools voor het genereren van afbeeldingen vergemakkelijken de reproductie van iconische personages zoals Mickey Mouse, terwijl andere bedrijven voor de materialen hebben betaald of bewust hebben vermeden om ze in trainingsgegevens op te nemen.

OpenAI sloot deze zomer bijvoorbeeld een zesjarige overeenkomst met contentprovider Shutterstock om de beeld-, video- en muziekbibliotheken van het bedrijf te gebruiken voor training.

Op de vraag of Meta dergelijke stappen had ondernomen om de reproductie van auteursrechtelijk beschermd beeldmateriaal te voorkomen, wees een woordvoerder van Meta op de nieuwe servicevoorwaarden die gebruikers verbieden om inhoud te genereren die de privacy en intellectuele eigendomsrechten schendt.