Wat betekent GPT-4o voor chatbots?

Geschreven door

Sarah Chudleigh

Onderzoeker en AI-inhoudsleider

Inhoudsopgave

Stap 1. de titel van de stap komt hier zoals verwacht

Samenvatting

GPT is twee keer zo snel en de helft goedkoper dan GPT Turbo, waardoor de prijs drastisch daalt en de responstijden voor AI-chatbots worden versneld.
Het nieuwe model maakt geavanceerde multimodale mogelijkheden mogelijk, waaronder spraak, video, real-time vertaling en vision, waardoor innovatieve gebruiksscenario's voor chatbots ontstaan die verder gaan dan alleen tekst.
Efficiëntieverbeteringen in tokenisatie, vooral voor niet-Romeinse alfabettalen, betekenen aanzienlijke kostenbesparingen voor wereldwijde chatbot implementaties.
Snelheidsverbeteringen verbeteren direct de gebruikerservaring en verminderen de wachttijden die chatbotgebruikers van oudsher frustreren.

Twee keer de snelheid en de helft van de prijs - wat betekent GPT-4o voor AI-chatbots?

Na hun mysterieuze aankondiging lanceerde OpenAI de nieuwste versie van hun vlaggenschipmodel: GPT-4o.

Het nieuwste model kreeg niet alleen een flitsende glow-up in multimodale mogelijkheden. Het is sneller en goedkoper dan GPT Turbo. Terwijl de mainstream media enthousiast zijn over de video- en spraakmogelijkheden van het nieuwe vlaggenschipmodel voor ChatGPTzijn de nieuwe kosten en snelheid net zo belangrijk voor degenen die GPT gebruiken om hun apps aan te sturen.

Witte letters op een indigo achtergrond. Een citaat van Botpress software engineer lead Patrick Hamelin dat luidt: "De beschikbaarheid van 4o heeft het vermogen om zowel de bouwer als de gebruikerservaring aanzienlijk te verbeteren. De impact gaat verder dan we denken."

"De beschikbaarheid van 4o heeft het vermogen om zowel de bouwer als de gebruikerservaring aanzienlijk te verbeteren," zegt Patrick Hamelin, een software engineer lead bij Botpress. "De impact is verder reikend dan we denken."

Laten we eens kijken hoe het nieuwe model AI zal opschudden: chatbots.

AI bouwen Chatbots

Aangepaste chatbots bouwen

Nu beginnen

Modelmogelijkheden

Zeg hallo tegen GPT-4o

Het nieuwe vlaggenschip wordt geleverd met een spannende lijst updates en nieuwe functies: verbeterde spraak- en videomogelijkheden, realtime vertaling en meer mogelijkheden voor natuurlijke taal. Het kan afbeeldingen analyseren, een grotere verscheidenheid aan audio-input begrijpen, hulp bieden bij het samenvatten, realtime vertalen en grafieken maken. Gebruikers kunnen bestanden uploaden en een spraak-naar-spraak gesprek voeren. Er is zelfs een desktop app.

In hun reeks lanceringsvideo's demonstreren OpenAI medewerkers (en medewerkers zoals Sal Khan van Khan Academy) hoe de nieuwste versie van GPT een gebruiker voorbereidt op een sollicitatiegesprek, zingt, menselijke emoties identificeert via gezichtsuitdrukkingen, geschreven wiskundevergelijkingen oplost en zelfs interactie heeft met een andere ChatGPT-4o.

De lancering illustreerde een nieuwe realiteit waarin een AI-model het schrift van je kind kan analyseren en daarop kan reageren. Het zou het concept van het optellen van breuken voor de eerste keer kunnen uitleggen, waarbij het van toon en tactiek verandert op basis van het begrip van je kind - het zou de grens kunnen overschrijden van chatbot naar persoonlijke tutor.

Een screenshot van een GPT-4o demonstratievideo met Kan Academy bedenker Sal Khan en zijn zoon. — *Sal Khan, bedenker van Khan Academy, en zijn zoon demonstreren GPT-4o's mogelijkheid om geometriebijles te geven.*

Wat betekent GPT-4o voor LLM Chatbots?

AI-chatbots die draaien op LLMs krijgen een update telkens wanneer bedrijven zoals OpenAI hun modellen updaten. Als een LLM is aangesloten op een bot-bouwplatform zoals Botpress, ontvangen ze alle voordelen van het nieuwste GPT in hun eigen chatbots.

Met de release van GPT-4o kunnen AI chatbots er nu voor kiezen om op het geavanceerde model te draaien, waardoor hun mogelijkheden, prijs en snelheid veranderen. Het nieuwe model heeft 5x hogere snelheidslimieten dan GPT-4 Turbo, met de mogelijkheid om tot 10 miljoen tokens per minuut te verwerken.

Voor bots die audio-integraties gebruiken, zoals Twilio op Botpress, is een nieuwe wereld van spraakgestuurde interactie ontstaan. In plaats van beperkt te zijn tot de audioverwerking van vroeger, is chatbots nu een stap dichter bij het nabootsen van menselijke interactie.

Het belangrijkste is misschien wel de lagere kostprijs voor betaalde gebruikers. Een chatbot met dezelfde capaciteiten voor de helft van de kosten kan de toegang en betaalbaarheid wereldwijd drastisch verhogen. En Botpress gebruikers betalen geen extra AI-uitgaven voor hun bots - dus deze besparingen gaan rechtstreeks naar de bouwers.

En aan de gebruikerskant van de vergelijking betekent GPT-4o een veel betere gebruikerservaring. Niemand houdt van wachten. Kortere responstijden betekenen een hogere gebruikerstevredenheid voor AI-chatbotgebruikers.

*In de Botpress studio kunnen gebruikers verschillende versies van GPT selecteren voor verschillende onderdelen van de workflow van hun bot.*

Gebruikers houden van snelheid

Een belangrijk uitgangspunt bij de adoptie van chatbotten is het verbeteren van de gebruikerservaring. En wat verbetert de gebruikerservaring meer dan het verkorten van wachttijden?

"Het zal zeker een betere ervaring zijn," zei Hamelin. "Het laatste wat je wilt is op iemand wachten."

Mensen hebben een hekel aan wachten. Zelfs in 2003 bleek uit een onderzoek dat mensen slechts ongeveer 2 seconden wilden wachten tot een webpagina geladen was. Ons geduld is sindsdien zeker niet toegenomen.

En iedereen haat wachten

Er is een overvloed aan UX-tips om de waargenomen wachttijd te verkorten. Vaak zijn we niet in staat om de snelheid van gebeurtenissen te verbeteren, dus richten we ons op hoe we gebruikers het gevoel kunnen geven dat de tijd sneller verstrijkt. Visuele feedback, zoals een afbeelding van een laadbalk, bestaat om de waargenomen wachttijd te verkorten.

In een beroemd verhaal over wachttijden bij liften kreeg een oud gebouw in New York een spervuur aan klachten te verwerken. Bewoners moesten 1-2 minuten op de lift wachten. Het gebouw was niet in staat om de lift te upgraden naar een nieuwer model en bewoners dreigden hun huurcontracten te verbreken.

Een nieuwe medewerker, opgeleid in psychologie, kwam erachter dat het echte probleem niet de twee minuten verloren tijd was, maar verveling. Hij stelde voor om spiegels te installeren zodat de bewoners naar zichzelf of anderen konden kijken terwijl ze wachtten. De klachten over de lift hielden op en nu zijn spiegels in lifthallen heel gewoon.

In plaats van afkortingen te nemen om de gebruikerservaring te verbeteren - zoals visuele feedback - heeft OpenAI de ervaring bij de bron verbeterd. Snelheid staat centraal bij gebruikerservaring en er is geen truc die de voldoening van een efficiënte interactie evenaart.

Besparingen voor iedereen

Het gebruik van dit nieuwe AI-model om applicaties uit te voeren is plotseling goedkoper geworden. Veel goedkoper.

Een AI-chatbot op schaal laten werken kan duur worden. De LLM waar je bot op draait, bepaalt hoeveel je betaalt voor elke gebruikersinteractie op grotere schaal (tenminste bij Botpress, waar we de AI-uitgaven 1:1 matchen met de kosten van LLM ).

En deze besparingen zijn niet alleen voor ontwikkelaars die API gebruiken. ChatGPT-4o is de nieuwste gratis versie van LLM, naast GPT-3.5. Gratis gebruikers kunnen de ChatGPT app zonder kosten gebruiken.

Betere tokenization

Als je interactie hebt met het model in een taal die niet het Romeinse alfabet gebruikt, dan verlaagt GPT-4o je API-kosten nog verder.

Een visualisatie van hoeveel efficiënter tokeniseren is met GPT-4o vergeleken met Turbo. Indo-Arische talen zoals Hindi en Gujarati hebben een gemiddelde tokenization-vermindering van 2,9-4,4. Arabisch heeft een vermindering van 2x en Oost-Aziatische talen zoals Japans, Koreaans en Chinees hebben een vermindering van 1,4-1,x. Arabisch heeft een 2x reductie en Oost-Aziatische talen zoals Japans, Koreaans en Chinees hebben een 1.4-1.x reductie. — *Hoeveel efficiënter is GPT-4o tokenization? Dat hangt af van de taal.*

Het nieuwe model wordt geleverd met verbeterde gebruikslimieten. Het biedt een aanzienlijke sprong in tokenisatie-efficiëntie, grotendeels geconcentreerd op bepaalde niet-Engelse talen.

Het nieuwe tokenization-model heeft minder tokens nodig om input-tekst te verwerken. Het is veel efficiënter voor logografische talen (talen die symbolen en tekens gebruiken in plaats van individuele letters).

Deze voordelen zijn grotendeels geconcentreerd op talen die het Romeinse alfabet niet gebruiken. De besparingen zijn als volgt geschat:

Indiase talen, zoals Hindi, Tamil of Gujarati, hebben een 2,9 - 4,4x reductie in tokens.
Arabisch heeft een ~2x reductie in tokens
Oost-Aziatische talen zoals Chinees, Japans en Vietnamees hebben een 1,4 - 1,7x reductie in tokens.

AI-agenten inzetten?

Lees onze Blauwdruk voor de implementatie van AI-agenten

Nu lezen

De digitale kloof van AI dichten

Het digitale tijdperk heeft een uitbreiding van de eeuwenoude, goed gedocumenteerde welvaartskloof met zich meegebracht: de digitale kloof. Net zoals de toegang tot rijkdom en een sterke infrastructuur exclusief is voor bepaalde bevolkingsgroepen, geldt dat ook voor de toegang tot AI en de kansen en voordelen die daarmee gepaard gaan.

Robert Opp, Chief Digital Officer bij het Ontwikkelingsprogramma van de Verenigde Naties (UNDP), legde uit dat de aanwezigheid van AI-platforms de ontwikkelingscijfers van een land kan maken of breken:

"Een grote zorg die we hebben, is dat landen die beter uitgerust en vaardiger zijn op het gebied van AI-platforms, zowel in termen van ontwikkeling als gebruik, een veel sneller ontwikkelingsproces zouden kunnen hebben en dat landen die niet over de vaardigheden en capaciteiten beschikken, achterop zullen raken."

Een fel versierd podium met vier personen in witte fauteuils. Opp zit helemaal rechts en spreekt in een microfoon. — *Robert Opp, Chief Digital Officer bij de UNDP, spreekt op de Global Digital Public Infrastructure Summit in India (2024). Foto van* *UNDP Digitaal X*.

Door de kosten van GPT-4o te halveren en een gratis tier te introduceren, zet OpenAI een cruciale stap in de richting van het neutraliseren van een van de grootste problemen op het gebied van AI - en het direct aanpakken van de ongelijkheid die beleidsmakers en economen bezighoudt.

Een positieve PR-actie voor grote AI is noodzakelijker dan liefhebbers misschien denken. Nu AI steeds meer aanwezig is in ons dagelijks leven, hebben zowel voorstanders als sceptici zich afgevraagd hoe we AI 'ten goede' kunnen gebruiken.

Witte letters op een indigo achtergrond. Een citaat van AI-opleider Louis Bouchard luidt: "AI toegankelijk maken is één manier, zo niet de beste, om AI 'ten goede' te gebruiken."

Volgens AI-promovendus en opleider Louis Bouchard is het verspreiden van bredere toegang tot AI precies hoe we dat doen: "AI toegankelijk maken is één manier, zo niet de beste, om AI 'for good' te gebruiken." Zijn redenering? Als we niet in staat zijn om de positieve en negatieve gevolgen van AI-technologie volledig te beheersen - in ieder geval niet in de begindagen - kunnen we in plaats daarvan zorgen voor gelijke toegang tot de potentiële voordelen.

Uitgebreid multimodaal potentieel

De populaire manier om met een chatbot van een bedrijf te communiceren is via tekst, maar de verbeterde multimodale mogelijkheden van OpenAI's nieuwe AI-model suggereren dat dit in de toekomst wel eens zou kunnen veranderen.

In het komende jaar zullen we waarschijnlijk een vloedgolf van ontwikkelaars zien die nieuwe toepassingen uitrollen die optimaal gebruik maken van de nieuwe toegankelijke audio-, beeld- en videomogelijkheden.

Zo zouden GPT chatbots de mogelijkheid kunnen hebben om:

Vraag klanten om een afbeelding van het artikel dat ze terugsturen om het product te identificeren en om er zeker van te zijn dat het niet beschadigd is.
Zorg voor audiovertaling in realtime conversatie die rekening houdt met regiospecifieke dialecten
Aan de hand van een foto in de pan kun je zien of je biefstuk gaar is
Functioneren als een gratis persoonlijke rondleider die historische context biedt op basis van een afbeelding van een oude kathedraal, in realtime vertalingen geeft en een aangepaste gesproken rondleiding geeft die communicatie en vragen heen en weer mogelijk maakt.
Een toepassing voor het leren van talen die naar audio-input luistert, feedback kan geven over uitspraak op basis van een video van je mondbewegingen, of gebarentaal kan leren via afbeeldingen en video's
Niet-dringende ondersteuning bieden bij mentaal welzijn door de mogelijkheid te combineren om audio en video's te interpreteren, wat goedkope gesprekstherapie mogelijk maakt.

Met AI-modellen die beelden en audio kunnen interpreteren, groeit ons begrip van hoe LLMs ons van dienst kan zijn snel.

Multimodaliteit betekent toegankelijkheid

We hebben al gezien hoe de verbeterde multimodale functies worden ingezet voor sociale doelen. Een perfect voorbeeld is OpenAI's samenwerking met Be My Eyes.

Be My Eyes is een Deense start-up die slechtziende gebruikers in contact brengt met ziende vrijwilligers. Wanneer een gebruiker hulp nodig heeft - zoals het kiezen van de juiste conserven in de supermarkt of het identificeren van de kleur van een t-shirt - verbindt de app hem met een ziende vrijwilliger over de hele wereld door middel van video via een smartphone.

Een felblauwe aankondiging voor 'Be My AI' met de tekst 'Rolling out out'. Aan de rechterkant staat een afbeelding van een smartphone met een verlaten kustpad en een door AI gegenereerde beschrijving van de afbeelding. — *De samenwerking en productaankondiging voor Be My Eyes x OpenAI.*

OpenAIDe nieuwe visusfunctie van Be My Eyes kan een nog nuttigere ervaring zijn voor gebruikers van Be My Eyes. In plaats van te vertrouwen op een menselijke vrijwilliger om een afbeelding of video in realtime visueel te ontcijferen, kunnen blinde gebruikers een afbeelding of video doorgeven aan hun apparaat waarop het model kan reageren met audio-informatie.

OpenAI en Be My Eyes, nu vertrouwde partners, banen de weg naar meer onafhankelijkheid voor blinden over de hele wereld. Michael Buckley, CEO van Be My Eyes, legt de impact uit:

"In de korte tijd dat we er toegang toe hebben, hebben we gezien dat de prestaties ongeëvenaard zijn ten opzichte van alle bestaande tools voor beeld-naar-tekst-objectherkenning. De implicaties voor wereldwijde toegankelijkheid zijn enorm. In de niet zo verre toekomst zullen blinden en slechtzienden deze hulpmiddelen niet alleen gebruiken voor een groot aantal visuele interpretatiebehoeften, maar ook voor een grotere mate van onafhankelijkheid in hun leven."

Drie afbeeldingen van smartphones die Be My Eyes gebruiken. Eén focust op een serie stropdassen met patronen, één toont een gebruiker die een fles zonnebrandcrème voor de camera houdt en één houdt de camera vast om kleine, kleurrijke huizen te laten zien. — *Be My Eyes verbindt slechtziende gebruikers met ziende vrijwilligers om visuele taken uit te voeren. Foto's van Be My Eyes.*

Be My Eyes Toegankelijkheid met GPT-4o

De nieuwe service wordt binnenkort, in de zomer van 2024, voor het eerst uitgerold. Gebruikers met vroege toegang hebben de nieuwe functies voor beeld, video en audio in bèta getest en kregen lovende kritieken. Hoewel de impact van AI sceptici zorgen kan baren, is dit partnerschap een duidelijk teken van de positieve gevolgen die het kan hebben. Inzicht in het sociale nut van geavanceerde AI is een cruciale stap voor de PR ervan.

Hoe zullen we toekomstige LLM modellen beoordelen?

Nu concurrenten doorgaan met een race naar de bodem - om de goedkoopste en snelste LLM te maken - rijst de vraag: hoe zullen we de AI-modellen van morgen beoordelen?

Op een bepaald moment in de toekomst zullen de grote LLM makers (waarschijnlijk OpenAI en Google) een plateau bereiken in hoe snel hun modellen kunnen draaien en hoe goedkoop ze toegang kunnen bieden. Hoe zullen we het marktleidende model kronen als we eenmaal een stabiele kosten- en snelheidspositie hebben bereikt?

Wat wordt het nieuwe teken des tijds? Of het nu gaat om de beschikbare persoonlijkheden van je model voor kunstmatige intelligentie, de mogelijkheden om video's te verbeteren, de functies die beschikbaar zijn voor gratis gebruikers of gloednieuwe statistieken die ons huidige begrip te boven gaan, de volgende generatie LLMs staat voor de deur.

AI Chatbots gemakkelijk gemaakt

Wat als je AI-chatbot automatisch zou synchroniseren met elke update op GPT ?

Botpress biedt sinds 2017 aanpasbare AI-chatbotoplossingen en biedt ontwikkelaars de tools die ze nodig hebben om eenvoudig chatbots te bouwen met de kracht van de nieuwste LLMs. Botpress chatbots kunnen worden getraind op aangepaste kennisbronnen - zoals je website of productcatalogus - en naadloos worden geïntegreerd met bedrijfssystemen.

Botpress is het enige platform dat geen code hoeft te installeren en eindeloos aanpasbaar en uitbreidbaar is. Het stelt je in staat om automatisch de kracht van de nieuwste GPT versie op je chatbot te zetten, zonder dat je daar moeite voor hoeft te doen.

Beginvandaag met bouwen. Het is gratis.

AI bouwen Chatbots

Aangepaste chatbots bouwen

Nu beginnen

FAQs

1. Hoe schakel ik mijn bestaande chatbot over naar GPT op Botpress?

Om je bestaande chatbot om te schakelen naar GPT op Botpress, ga je naar de Botpress Studio, navigeer je naar de LLM van je assistent en selecteer je GPT in de beschikbare model dropdown. De verandering is direct van toepassing zonder dat je code hoeft aan te passen.

2. Zijn er vereisten voor het gebruik van GPT binnen het Botpress (bijv. SDK's, API-versies)?

Nee, er zijn geen vereisten voor het gebruik van GPT in Botpress. Het platform beheert alle SDK's, API-updates en backend afhankelijkheden automatisch, dus je hoeft alleen GPT te selecteren in de instellingen om het te activeren.

3. Kan GPT worden verfijnd of aangepast voor specifieke bedrijfsdoeleinden via Botpress?

Hoewel GPT niet kan worden verfijnd in de traditionele zin binnen Botpress, kunt u de reacties en het gedrag aanpassen met behulp van prompt engineering, workflow logica, kennisbanken en variabelen. Hierdoor kan GPT zich contextueel gedragen voor je bedrijfsbehoeften zonder het model opnieuw te hoeven trainen.

4. Zijn er beperkingen op het gebruik van multimodale functies (spraak, beeld) binnen Botpress ?

Ja, Botpress ondersteunt momenteel spraakfuncties via integraties zoals Twilio of Dialogflow Voice Gateway, maar multimodale mogelijkheden zoals het verwerken van afbeeldingen of video's worden nog niet volledig ondersteund. Vision-gebaseerde invoer wordt nog overwogen of vereist workarounds.

5. Zijn er verborgen kosten verbonden aan het gebruik van de geavanceerde functies van GPT, zoals realtime vertaling of vision-invoer?

Nee, er zijn geen verborgen kosten voor het gebruik van GPT's geavanceerde functies in Botpress. GPT's snelheid en efficiëntie voordelen zijn inbegrepen in je bestaande Botpress abonnement, en LLM kosten worden gedekt door Botpress - dus gebruikers hebben geen extra kosten voor het gebruik van GPT's verbeteringen.