(Voegt details toe over AI-prestaties bij wiskundeproblemen paragraaf 11)

12 juli - ChatGPT-maker OpenAI werkt aan een nieuwe benadering van zijn kunstmatige intelligentiemodellen in een project met de codenaam Strawberry, volgens een persoon die bekend is met de zaak en interne documentatie die door Reuters is bekeken.

Het project, waarvan de details nog niet eerder zijn gerapporteerd, komt op een moment dat de door Microsoft gesteunde startup wedijvert om te laten zien dat het type modellen dat het aanbiedt in staat is om geavanceerde redeneercapaciteiten te leveren.

Teams binnen OpenAI werken aan Strawberry, volgens een kopie van een recent intern document van OpenAI dat Reuters in mei in handen kreeg. Reuters kon de precieze datum van het document, dat een plan beschrijft voor hoe OpenAI Strawberry wil gebruiken om onderzoek te doen, niet achterhalen. De bron beschreef het plan aan Reuters als werk in uitvoering. Het persbureau kon niet vaststellen hoe dicht Strawberry bij openbare beschikbaarheid is.

Hoe Strawberry werkt is een goed bewaard geheim, zelfs binnen OpenAI, zei de persoon.

Het document beschrijft een project dat Strawberry-modellen gebruikt met het doel om de AI van het bedrijf in staat te stellen om niet alleen antwoorden op zoekopdrachten te genereren, maar om voldoende vooruit te plannen om autonoom en betrouwbaar over het internet te navigeren om wat OpenAI diepgaand onderzoek noemt, uit te voeren, aldus de bron.

Dit is iets wat AI-modellen tot nu toe niet gelukt is, volgens interviews met meer dan een dozijn AI-onderzoekers.

Gevraagd naar Strawberry en de details in dit verhaal, zei een woordvoerder van OpenAI in een verklaring: We willen dat onze AI-modellen de wereld meer zien en begrijpen zoals wij dat doen. Voortdurend onderzoek naar nieuwe AI-mogelijkheden is gebruikelijk in de industrie, met de gedeelde overtuiging dat deze systemen na verloop van tijd beter zullen gaan redeneren.

De woordvoerder ging niet direct in op vragen over Strawberry.

Het Strawberry-project stond voorheen bekend als Q*, waarvan Reuters vorig jaar meldde dat het binnen het bedrijf al als een doorbraak werd gezien.

Twee bronnen beschreven eerder dit jaar dat OpenAI medewerkers vertelden dat ze Q* demo's hadden gezien, die lastige wetenschappelijke en wiskundige vragen konden beantwoorden die buiten het bereik lagen van de huidige commercieel verkrijgbare modellen.

Een andere bron met informatie over de zaak zei dat OpenAI intern AI heeft getest die meer dan 90% scoorde op een MATH-dataset, een benchmark van wiskundeproblemen uit kampioenschappen. Reuters kon niet vaststellen of dit het "Strawberry" project was.

Op dinsdag toonde OpenAI tijdens een interne vergadering met alle medewerkers een demo van een onderzoeksproject waarvan het beweerde dat het nieuwe, op mensen lijkende redeneervaardigheden had, volgens Bloomberg. Een woordvoerder van OpenAI bevestigde de vergadering, maar weigerde details te geven over de inhoud. Reuters kon niet vaststellen of het gedemonstreerde project Strawberry was.

OpenAI hoopt dat de innovatie het redeneervermogen van haar AI-modellen drastisch zal verbeteren, zei de persoon die ermee bekend is, en voegde eraan toe dat Strawberry een gespecialiseerde manier van het verwerken van een AI-model inhoudt nadat het vooraf getraind is op zeer grote datasets.

De door Reuters geïnterviewde onderzoekers zeggen dat redeneren de sleutel is voor AI om intelligentie op menselijk of supermenselijk niveau te bereiken.

Hoewel grote taalmodellen dichte teksten al veel sneller kunnen samenvatten en eleganter proza kunnen schrijven dan een mens, schiet de technologie vaak tekort bij problemen van gezond verstand waarvan de oplossingen intuïtief lijken voor mensen, zoals het herkennen van logische denkfouten en het spelen van tic-tac-toe. Wanneer het model dit soort problemen tegenkomt, hallucineert het vaak valse informatie.

AI-onderzoekers die door Reuters werden geïnterviewd, zijn het er over het algemeen over eens dat redeneren, in de context van AI, de vorming van een model inhoudt dat AI in staat stelt om vooruit te plannen, weer te geven hoe de fysieke wereld functioneert en op betrouwbare wijze uitdagende problemen met meerdere stappen op te lossen.

Het verbeteren van redeneringen in AI-modellen wordt gezien als de sleutel tot het ontsluiten van het vermogen van de modellen om alles te doen, van het doen van grote wetenschappelijke ontdekkingen tot het plannen en bouwen van nieuwe softwaretoepassingen. Sam Altman, CEO van OpenAI, zei eerder dit jaar dat de belangrijkste gebieden van vooruitgang in AI betrekking zullen hebben op redeneervermogen.

Andere bedrijven zoals Google, Meta en Microsoft experimenteren ook met verschillende technieken om het redeneervermogen in AI-modellen te verbeteren, net als de meeste academische laboratoria die AI-onderzoek doen. Onderzoekers verschillen echter van mening over de vraag of grote taalmodellen (LLM's) in staat zijn om ideeën en langetermijnplanning op te nemen in de manier waarop ze voorspellingen doen. Een van de pioniers van moderne AI, Yann LeCun, die bij Meta werkt, heeft bijvoorbeeld vaak gezegd dat LLM's niet in staat zijn om op een menselijke manier te redeneren.

AI-UITDAGINGEN

Strawberry is een belangrijk onderdeel van OpenAI's plan om deze uitdagingen te overwinnen, aldus de bron die bekend is met de zaak. Het door Reuters ingeziene document beschreef wat Strawberry mogelijk wil maken, maar niet hoe.

In de afgelopen maanden heeft het bedrijf privé aan ontwikkelaars en andere externe partijen laten weten dat het op het punt staat om technologie uit te brengen met aanzienlijk geavanceerdere redeneermogelijkheden, volgens vier mensen die de pitches van het bedrijf hebben gehoord. Ze willen niet geïdentificeerd worden omdat ze niet gemachtigd zijn om over privézaken te spreken.

Aardbei omvat een gespecialiseerde manier van wat bekend staat als het post-trainen van OpenAIs generatieve AI-modellen, of het aanpassen van de basismodellen om hun prestaties op specifieke manieren aan te scherpen nadat ze al getraind zijn op grote hoeveelheden algemene gegevens, aldus een van de bronnen.

De posttrainingsfase van het ontwikkelen van een model omvat methoden zoals fine-tuning, een proces dat tegenwoordig op bijna alle taalmodellen wordt gebruikt en dat in vele vormen voorkomt, zoals mensen feedback laten geven aan het model op basis van zijn antwoorden en het voeden met voorbeelden van goede en slechte antwoorden.

Strawberry vertoont overeenkomsten met een methode die in 2022 bij Stanford is ontwikkeld en "Self-Taught Reasoner" of STaR heet, aldus een van de bronnen met kennis van zaken. STaR stelt AI-modellen in staat om zichzelf naar hogere intelligentieniveaus te bootstrappen door iteratief hun eigen trainingsgegevens te creëren, en zou in theorie gebruikt kunnen worden om taalmodellen intelligenter te maken dan mensen, vertelde een van de makers, Stanford professor Noah Goodman, aan Reuters.

Ik denk dat het zowel opwindend als angstaanjagend is als het die kant op blijft gaan, dan hebben we als mensen serieuze dingen om over na te denken, zei Goodman. Goodman is niet verbonden aan OpenAI en is niet bekend met Strawberry.

Een van de mogelijkheden waar OpenAI Strawberry op richt is het uitvoeren van long-horizon taken (LHT), aldus het document, verwijzend naar complexe taken waarbij een model vooruit moet plannen en een reeks acties moet uitvoeren over een langere periode, legde de eerste bron uit.

Hiervoor creëert, traint en evalueert OpenAI de modellen op wat het bedrijf een diep-onderzoek dataset noemt, volgens de interne documentatie van OpenAI. Reuters kon niet achterhalen wat er in die dataset zit of hoe lang een uitgebreide periode zou betekenen.

OpenAI wil specifiek dat zijn modellen deze mogelijkheden gebruiken om onderzoek te doen door autonoom op het web te browsen met de hulp van een CUA, of een computergebruikende agent, die acties kan ondernemen op basis van zijn bevindingen, volgens het document en een van de bronnen. OpenAI is ook van plan om zijn capaciteiten te testen op het werk van software- en machine learning-ingenieurs. (Verslaggeving door Anna Tong in San Francisco en Katie Paul in New York; redactie door Ken Li en Claudia Parsons)