Twee keer de snelheid en de helft van de prijs - wat betekent GPT-4o voor AI-chatbots?
Na hun mysterieuze aankondiging lanceerde OpenAI de nieuwste versie van hun vlaggenschipmodel: GPT-4o.
Het nieuwste model kreeg niet alleen een flitsende glow-up in multimodale mogelijkheden. Het is sneller en goedkoper dan GPT-4 Turbo. Hoewel de mainstream media vooral aandacht besteden aan de video- en spraakmogelijkheden van het nieuwe vlaggenschip, zijn de nieuwe kosten en snelheid net zo belangrijk voor degenen die GPT gebruiken om hun apps van stroom te voorzien.
"De beschikbaarheid van 4o heeft het vermogen om zowel de bouwer als de gebruikerservaring aanzienlijk te verbeteren," zegt Patrick Hamelin, een software engineer lead bij Botpress. "De impact is verder reikend dan we denken."
Laten we eens kijken hoe het nieuwe model AI zal opschudden: chatbots.
Modelmogelijkheden
Het nieuwe vlaggenschip wordt geleverd met een spannende lijst updates en nieuwe functies: verbeterde spraak- en videomogelijkheden, realtime vertaling en meer mogelijkheden voor natuurlijke taal. Het kan afbeeldingen analyseren, een grotere verscheidenheid aan audio-input begrijpen, hulp bieden bij het samenvatten, realtime vertalen en grafieken maken. Gebruikers kunnen bestanden uploaden en een spraak-naar-spraak gesprek voeren. Er is zelfs een desktop app.
In hun reeks lanceringsvideo's demonstreren OpenAI medewerkers (en medewerkers zoals Sal Khan van Khan Academy) hoe de nieuwste versie van GPT een gebruiker voorbereidt op een sollicitatiegesprek, zingt, menselijke emoties identificeert via gezichtsuitdrukkingen, geschreven wiskundevergelijkingen oplost en zelfs interactie heeft met een andere ChatGPT-4o.
De lancering illustreerde een nieuwe realiteit waarin een AI-model het schrift van je kind kan analyseren en daarop kan reageren. Het zou het concept van het optellen van breuken voor de eerste keer kunnen uitleggen, waarbij het van toon en tactiek verandert op basis van het begrip van je kind - het zou de grens kunnen overschrijden van chatbot naar persoonlijke tutor.
Wat betekent GPT-4o voor LLM Chatbots?
AI-chatbots die draaien op LLMs krijgen een update telkens wanneer bedrijven zoals OpenAI hun modellen updaten. Als een chatbot is aangesloten op een bot-bouwplatform zoals Botpress, ontvangen ze alle voordelen van het nieuwste GPT model in hun eigen chatbots.
Met de release van GPT-4o kunnen AI chatbots er nu voor kiezen om op het geavanceerde model te draaien, waardoor hun mogelijkheden, prijs en snelheid veranderen. Het nieuwe model heeft 5x hogere snelheidslimieten dan GPT-4 Turbo, met de mogelijkheid om tot 10 miljoen tokens per minuut te verwerken.
Voor bots die audio-integraties gebruiken, zoals Twilio op Botpress, is een nieuwe wereld van spraakgestuurde interactie ontstaan. In plaats van beperkt te zijn tot de audioverwerking van vroeger, is chatbots nu een stap dichter bij het nabootsen van menselijke interactie.
Het belangrijkste is misschien wel de lagere kostprijs voor betaalde gebruikers. Een chatbot met dezelfde capaciteiten voor de helft van de kosten kan de toegang en betaalbaarheid wereldwijd drastisch verhogen. En Botpress gebruikers betalen geen extra AI-uitgaven voor hun bots - dus deze besparingen gaan rechtstreeks naar de bouwers.
En aan de gebruikerskant van de vergelijking betekent GPT-4o een veel betere gebruikerservaring. Niemand houdt van wachten. Kortere responstijden betekenen een hogere gebruikerstevredenheid voor AI-chatbotgebruikers.
Gebruikers houden van snelheid
Een belangrijk uitgangspunt bij de adoptie van chatbotten is het verbeteren van de gebruikerservaring. En wat verbetert de gebruikerservaring meer dan het verkorten van wachttijden?
"Het zal zeker een betere ervaring zijn," zei Hamelin. "Het laatste wat je wilt is op iemand wachten."
Mensen hebben een hekel aan wachten. Zelfs in 2003 bleek uit een onderzoek dat mensen slechts ongeveer 2 seconden wilden wachten tot een webpagina geladen was. Ons geduld is sindsdien zeker niet toegenomen.
En iedereen haat wachten
Er is een overvloed aan UX-tips om de waargenomen wachttijd te verkorten. Vaak zijn we niet in staat om de snelheid van gebeurtenissen te verbeteren, dus richten we ons op hoe we gebruikers het gevoel kunnen geven dat de tijd sneller verstrijkt. Visuele feedback, zoals een afbeelding van een laadbalk, bestaat om de waargenomen wachttijd te verkorten.
In een beroemd verhaal over wachttijden bij liften kreeg een oud gebouw in New York een spervuur aan klachten te verwerken. Bewoners moesten 1-2 minuten op de lift wachten. Het gebouw was niet in staat om de lift te upgraden naar een nieuwer model en bewoners dreigden hun huurcontracten te verbreken.
Een nieuwe medewerker, opgeleid in psychologie, kwam erachter dat het echte probleem niet de twee minuten verloren tijd was, maar verveling. Hij stelde voor om spiegels te installeren zodat de bewoners naar zichzelf of anderen konden kijken terwijl ze wachtten. De klachten over de lift hielden op en nu zijn spiegels in lifthallen heel gewoon.
In plaats van afkortingen te nemen om de gebruikerservaring te verbeteren - zoals visuele feedback - heeft OpenAI de ervaring bij de bron verbeterd. Snelheid staat centraal bij gebruikerservaring en er is geen truc die de voldoening van een efficiënte interactie evenaart.
Besparingen voor iedereen
Het gebruik van dit nieuwe AI-model om applicaties uit te voeren is plotseling goedkoper geworden. Veel goedkoper.
Een AI-chatbot op schaal laten werken kan duur worden. De LLM waar je bot op draait, bepaalt hoeveel je betaalt voor elke gebruikersinteractie op grotere schaal (tenminste bij Botpress, waar we de AI-uitgaven 1:1 matchen met de kosten van LLM ).
En deze besparingen zijn niet alleen voor ontwikkelaars die API gebruiken. ChatGPT-4o is de nieuwste gratis versie van LLM, naast GPT-3.5. Gratis gebruikers kunnen de ChatGPT app zonder kosten gebruiken.
Betere tokenization
Als je interactie hebt met het model in een taal die niet het Romeinse alfabet gebruikt, dan verlaagt GPT-4o je API-kosten nog verder.
Het nieuwe model wordt geleverd met verbeterde gebruikslimieten. Het biedt een aanzienlijke sprong in tokenisatie-efficiëntie, grotendeels geconcentreerd op bepaalde niet-Engelse talen.
Het nieuwe tokenization-model heeft minder tokens nodig om input-tekst te verwerken. Het is veel efficiënter voor logografische talen (talen die symbolen en tekens gebruiken in plaats van individuele letters).
Deze voordelen zijn grotendeels geconcentreerd op talen die het Romeinse alfabet niet gebruiken. De besparingen zijn als volgt geschat:
- Indiase talen, zoals Hindi, Tamil of Gujarati, hebben een 2,9 - 4,4x reductie in tokens.
- Arabisch heeft een ~2x reductie in tokens
- Oost-Aziatische talen zoals Chinees, Japans en Vietnamees hebben een 1,4 - 1,7x reductie in tokens.
De digitale kloof van AI dichten
Het digitale tijdperk heeft een uitbreiding van de eeuwenoude, goed gedocumenteerde welvaartskloof met zich meegebracht: de digitale kloof. Net zoals de toegang tot rijkdom en een sterke infrastructuur exclusief is voor bepaalde bevolkingsgroepen, geldt dat ook voor de toegang tot AI en de kansen en voordelen die daarmee gepaard gaan.
Robert Opp, Chief Digital Officer bij het Ontwikkelingsprogramma van de Verenigde Naties (UNDP), legde uit dat de aanwezigheid van AI-platforms de ontwikkelingscijfers van een land kan maken of breken:
Door de kosten van GPT-4o te halveren en een gratis tier te introduceren, zet OpenAI een cruciale stap in de richting van het neutraliseren van een van de grootste problemen op het gebied van AI - en het direct aanpakken van de ongelijkheid die beleidsmakers en economen bezighoudt.
Een positieve PR-actie voor grote AI is noodzakelijker dan liefhebbers misschien denken. Nu AI steeds meer aanwezig is in ons dagelijks leven, hebben zowel voorstanders als sceptici zich afgevraagd hoe we AI 'ten goede' kunnen gebruiken.
Volgens AI-promovendus en opleider Louis Bouchard is het verspreiden van bredere toegang tot AI precies hoe we dat doen: "AI toegankelijk maken is één manier, zo niet de beste, om AI 'for good' te gebruiken." Zijn redenering? Als we niet in staat zijn om de positieve en negatieve gevolgen van AI-technologie volledig te beheersen - in ieder geval niet in de begindagen - kunnen we in plaats daarvan zorgen voor gelijke toegang tot de potentiële voordelen.
Uitgebreid multimodaal potentieel
De populaire manier om met een chatbot van een bedrijf te communiceren is via tekst, maar de verbeterde multimodale mogelijkheden van OpenAI's nieuwe AI-model suggereren dat dit in de toekomst wel eens zou kunnen veranderen.
In het komende jaar zullen we waarschijnlijk een vloedgolf van ontwikkelaars zien die nieuwe toepassingen uitrollen die optimaal gebruik maken van de nieuwe toegankelijke audio-, beeld- en videomogelijkheden.
Zo zouden GPT chatbots de mogelijkheid kunnen hebben om:
- Vraag klanten om een afbeelding van het artikel dat ze terugsturen om het product te identificeren en om er zeker van te zijn dat het niet beschadigd is.
- Zorg voor audiovertaling in realtime conversatie die rekening houdt met regiospecifieke dialecten
- Aan de hand van een foto in de pan kun je zien of je biefstuk gaar is
- Functioneren als een gratis persoonlijke rondleider die historische context biedt op basis van een afbeelding van een oude kathedraal, in realtime vertalingen geeft en een aangepaste gesproken rondleiding geeft die communicatie en vragen heen en weer mogelijk maakt.
- Een toepassing voor het leren van talen die naar audio-input luistert, feedback kan geven over uitspraak op basis van een video van je mondbewegingen, of gebarentaal kan leren via afbeeldingen en video's
- Niet-dringende ondersteuning bieden bij mentaal welzijn door de mogelijkheid te combineren om audio en video's te interpreteren, wat goedkope gesprekstherapie mogelijk maakt.
Met AI-modellen die beelden en audio kunnen interpreteren, groeit ons begrip van hoe LLMs ons van dienst kan zijn snel.
Multimodaliteit betekent toegankelijkheid
We hebben al gezien hoe de verbeterde multimodale functies worden ingezet voor sociale doelen. Een perfect voorbeeld is OpenAI's samenwerking met Be My Eyes.
Be My Eyes is een Deense start-up die slechtziende gebruikers in contact brengt met ziende vrijwilligers. Wanneer een gebruiker hulp nodig heeft - zoals het kiezen van de juiste conserven in de supermarkt of het identificeren van de kleur van een t-shirt - verbindt de app hem met een ziende vrijwilliger over de hele wereld door middel van video via een smartphone.
OpenAIDe nieuwe visusfunctie van Be My Eyes kan een nog nuttigere ervaring zijn voor gebruikers van Be My Eyes. In plaats van te vertrouwen op een menselijke vrijwilliger om een afbeelding of video in realtime visueel te ontcijferen, kunnen blinde gebruikers een afbeelding of video doorgeven aan hun apparaat waarop het model kan reageren met audio-informatie.
OpenAI en Be My Eyes, nu vertrouwde partners, banen de weg naar meer onafhankelijkheid voor blinden over de hele wereld. Michael Buckley, CEO van Be My Eyes, legt de impact uit:
De nieuwe service wordt binnenkort, in de zomer van 2024, voor het eerst uitgerold. Gebruikers met vroege toegang hebben de nieuwe functies voor beeld, video en audio in bèta getest en kregen lovende kritieken. Hoewel de impact van AI sceptici zorgen kan baren, is dit partnerschap een duidelijk teken van de positieve gevolgen die het kan hebben. Inzicht in het sociale nut van geavanceerde AI is een cruciale stap voor de PR ervan.
Hoe zullen we toekomstige LLM modellen beoordelen?
Nu concurrenten doorgaan met een race naar de bodem - om de goedkoopste en snelste LLM te maken - rijst de vraag: hoe zullen we de AI-modellen van morgen beoordelen?
Op een bepaald moment in de toekomst zullen de grote LLM makers (waarschijnlijk OpenAI en Google) een plateau bereiken in hoe snel hun modellen kunnen draaien en hoe goedkoop ze toegang kunnen bieden. Hoe zullen we het marktleidende model kronen als we eenmaal een stabiele kosten- en snelheidspositie hebben bereikt?
Wat wordt het nieuwe teken des tijds? Of het nu gaat om de beschikbare persoonlijkheden van je model voor kunstmatige intelligentie, de mogelijkheden om video's te verbeteren, de functies die beschikbaar zijn voor gratis gebruikers of gloednieuwe statistieken die ons huidige begrip te boven gaan, de volgende generatie LLMs staat voor de deur.
AI Chatbots gemakkelijk gemaakt
Wat als je AI-chatbot automatisch zou synchroniseren met elke update op GPT ?
Botpress biedt sinds 2017 aanpasbare AI-chatbotoplossingen en biedt ontwikkelaars de tools die ze nodig hebben om eenvoudig chatbots te bouwen met de kracht van de nieuwste LLMs. Botpress chatbots kunnen worden getraind op aangepaste kennisbronnen - zoals je website of productcatalogus - en naadloos worden geïntegreerd met bedrijfssystemen.
Botpress is het enige platform dat geen code hoeft te installeren en eindeloos aanpasbaar en uitbreidbaar is. Het stelt je in staat om automatisch de kracht van de nieuwste GPT versie op je chatbot te zetten, zonder dat je daar moeite voor hoeft te doen.
Beginvandaag met bouwen. Het is gratis.
Inhoudsopgave
Blijf op de hoogte van het laatste nieuws over AI-agenten
Deel dit op: