De door Microsoft gesteunde startup zei dat een nieuwe real-time tool, die onmiddellijk wordt uitgerold om te testen, ontwikkelaars in staat zou stellen om AI-spraakapplicaties te maken met behulp van een enkele set instructies.
Voorheen moesten ontwikkelaars minstens drie stappen doorlopen: eerst audio transcriberen, dan het gegenereerde tekstmodel uitvoeren om een antwoord op de vraag te geven en tot slot een apart tekst-naar-spraakmodel gebruiken.
Een groot deel van de inkomsten van OpenAI komt van bedrijven die haar diensten gebruiken om hun eigen AI-toepassingen te bouwen, waardoor de uitrol van geavanceerde mogelijkheden een belangrijk verkoopargument is.
De concurrentie is ook aan het toenemen nu technologiereuzen, waaronder Google-moeder Alphabet, AI-modellen die verschillende vormen van informatie zoals video, audio en tekst kunnen verwerken, in hun bedrijven integreren.
OpenAI verwacht dat zijn inkomsten volgend jaar naar $11,6 miljard zullen stijgen van een geschatte $3,7 miljard in 2024, meldde Reuters vorige maand. Het bedrijf zit ook midden in een fondsenwerving van $6,5 miljard die het op $150 miljard zou kunnen waarderen.
Als onderdeel van de uitrol van dinsdag introduceerde OpenAI een fijnafstellingstool voor modellen na de training waarmee ontwikkelaars de reacties die door hun modellen worden gegenereerd, kunnen verbeteren met behulp van afbeeldingen en tekst.
Dit fine-tuning proces kan feedback van mensen omvatten die het model voorbeelden van goede en slechte antwoorden geven op basis van zijn antwoorden.
Door afbeeldingen te gebruiken om modellen te verfijnen, zouden ze een beter beeldbegrip krijgen, waardoor toepassingen zoals verbeterd visueel zoeken en verbeterde objectdetectie voor autonome voertuigen mogelijk worden, aldus OpenAI.
De startup onthulde ook een tool waarmee kleinere modellen kunnen leren van grotere, gevestigde modellen, samen met "Prompt Caching" dat sommige ontwikkelingskosten halveert door stukken tekst te hergebruiken die AI eerder heeft verwerkt.