Deux fois plus rapide et deux fois moins cher : que signifie GPT-4o pour les chatbots IA ?
Suite à leur mystérieuse annonce, OpenAI a lancé la dernière version de leur modèle phare : GPT-4o.
Le dernier modèle ne s'est pas contenté d'être doté de capacités multimodales flamboyantes. Il est plus rapide et moins cher que GPT-4 Turbo. Si les médias grand public s'enthousiasment pour les capacités vidéo et vocales du nouveau modèle phare, le nouveau coût et la vitesse sont tout aussi importants pour ceux qui utilisent GPT pour alimenter leurs applications.
"La disponibilité de 4o a le pouvoir d'améliorer de manière significative à la fois le site créateur et l'expérience de l'utilisateur", a déclaré Patrick Hamelin, un ingénieur logiciel en chef chez Botpress. "L'impact est plus important que nous ne le pensons.
Voyons donc comment le nouveau modèle va bouleverser l'IA chatbots.
Capacités du modèle
Le nouveau modèle phare s'accompagne d'une liste passionnante de mises à jour et de nouvelles fonctionnalités : capacités vocales et vidéo améliorées, traduction en temps réel, davantage de capacités en langage naturel. Il peut analyser des images, comprendre une plus grande variété d'entrées audio, fournir une aide à la synthèse, faciliter la traduction en temps réel et créer des graphiques. Les utilisateurs peuvent télécharger des fichiers et avoir une conversation de voix à voix. Il existe même une application pour ordinateur de bureau.
Dans leur série de vidéos de lancement, les employés de OpenAI (et des associés comme Sal Khan de Khan academy) montrent la dernière version de GPT préparant un utilisateur à un entretien d'embauche, chantant, identifiant les émotions humaines à travers les expressions faciales, résolvant des équations mathématiques écrites, et même interagissant avec un autre ChatGPT-4o.
Le lancement a illustré une nouvelle réalité dans laquelle un modèle d'IA est capable d'analyser ce qui est écrit dans le cahier de votre enfant et d'y répondre. Il pourrait expliquer le concept d'addition de fractions pour la première fois, en changeant de ton et de tactique en fonction de la compréhension de votre enfant - il pourrait passer du chatbot au tuteur personnel.
Que signifie GPT-4o pour LLM Chatbots ?
Les chatbots IA qui fonctionnent sur LLMs bénéficient d'une mise à jour chaque fois que des entreprises comme OpenAI mettent à jour leurs modèles. Si un chatbot est connecté à une plateforme de création de bot comme Botpress, il bénéficie de tous les avantages du dernier modèle GPT dans ses propres chatbots.
Avec la sortie de GPT-4o, les chatbots IA peuvent désormais choisir de fonctionner sur le modèle avancé, ce qui modifie leurs capacités, leur prix et leur vitesse. Le nouveau modèle a des limites de taux 5 fois plus élevées que GPT-4 Turbo, avec la capacité de traiter jusqu'à 10 millions de jetons par minute.
Pour les robots utilisant des intégrations audio comme Twilio sur Botpress, un nouveau monde d'interaction vocale est apparu. Au lieu d'être confiné au traitement audio d'antan, chatbots a fait un pas de plus vers l'imitation de l'interaction humaine.
Le plus important est peut-être le coût réduit pour les utilisateurs payants. L'exploitation d'un chatbot aux capacités similaires pour la moitié du coût peut considérablement accroître l'accès et l'accessibilité dans le monde entier. De plus, les utilisateurs de Botpress ne paient pas de frais d'IA supplémentaires pour leurs bots, de sorte que les économies réalisées vont directement aux constructeurs.
Et du côté de l'utilisateur, GPT-4o signifie une bien meilleure expérience pour l'utilisateur. Personne n'aime attendre. Des temps de réponse plus courts sont synonymes d'une plus grande satisfaction pour les utilisateurs de chatbots IA.
Les utilisateurs aiment la vitesse
L'un des éléments clés de l'adoption des chatbots est l'amélioration de l'expérience utilisateur. Et qu'est-ce qui améliore le plus l'expérience utilisateur que de réduire les temps d'attente ?
"L'expérience sera certainement meilleure", a déclaré M. Hamelin. "La dernière chose à faire est d'attendre quelqu'un.
L'être humain déteste attendre. En 2003, une étude a montré que les gens n'étaient prêts à attendre qu'environ 2 secondes pour le chargement d'une page web. Notre patience n'a certainement pas augmenté depuis.
Et tout le monde déteste attendre
Il existe une pléthore d'astuces UX pour réduire le temps d'attente perçu. Souvent, nous ne sommes pas en mesure d'améliorer la vitesse des événements et nous nous concentrons donc sur la manière de donner aux utilisateurs l'impression que le temps passe plus vite. Le retour d'information visuel, comme l'image d'une barre de chargement, permet de réduire le temps d'attente perçu.
Dans une célèbre histoire de temps d'attente pour les ascenseurs, un vieil immeuble new-yorkais recevait une avalanche de plaintes. Les résidents devaient attendre 1 à 2 minutes avant que l'ascenseur n'arrive. L'immeuble n'était pas en mesure de remplacer l'ascenseur par un modèle plus récent et les résidents menaçaient de rompre leur bail.
Un nouvel employé, formé à la psychologie, a compris que le vrai problème n'était pas les deux minutes perdues, mais l'ennui. Il a suggéré d'installer des miroirs pour que les résidents puissent se regarder ou regarder les autres pendant qu'ils attendent. Les plaintes concernant l'ascenseur ont cessé et, aujourd'hui, il est courant de voir des miroirs dans les halls d'ascenseur.
Au lieu de prendre des raccourcis pour améliorer l'expérience de l'utilisateur - comme le retour d'information visuel - OpenAI a amélioré l'expérience à sa source. La rapidité est au cœur de l'expérience utilisateur, et il n'y a pas d'astuce qui puisse égaler la satisfaction d'une interaction efficace.
Des économies pour tous
L'utilisation de ce nouveau modèle d'IA pour exécuter des applications est soudain devenue moins chère. Beaucoup moins cher.
L'exploitation d'un chatbot d'IA à grande échelle peut être coûteuse. Le site LLM qui alimente votre chatbot détermine le montant que vous paierez pour chaque interaction avec l'utilisateur à grande échelle (du moins sur Botpress, où nous faisons correspondre les dépenses d'IA à 1:1 avec les coûts de LLM ).
Et ces économies ne sont pas réservées aux développeurs qui utilisent l'API. ChatGPT Le site LLM-4o est la dernière version gratuite de l'application GPT-3.5. Les utilisateurs gratuits peuvent utiliser l'application ChatGPT sans frais.
Meilleure tokenisation
Si vous interagissez avec le modèle dans une langue qui n'utilise pas l'alphabet romain, GPT-4o réduit encore davantage vos coûts d'API.
Le nouveau modèle est assorti de limites d'utilisation améliorées. Il offre un saut significatif dans l'efficacité de la tokenisation, largement concentrée sur certaines langues non anglaises.
Le nouveau modèle de tokénisation nécessite moins de jetons pour traiter le texte d'entrée. Il est beaucoup plus efficace pour les langues logographiques (c'est-à-dire les langues qui utilisent des symboles et des caractères au lieu de lettres individuelles).
Ces avantages sont largement concentrés sur les langues qui n'utilisent pas l'alphabet romain. Les réductions d'économies ont été estimées comme suit :
- Les langues indiennes, comme l'hindi, le tamoul ou le gujarati, présentent une réduction de 2,9 à 4,4 fois du nombre de tokens.
- L'arabe a une réduction d'environ 2 fois le nombre de jetons.
- Les langues d'Asie de l'Est, comme le chinois, le japonais et le vietnamien, présentent une réduction de 1,4 à 1,7 fois du nombre de tokens.
Combler le fossé numérique en matière d'IA
L'ère numérique a entraîné une extension de l'écart de richesse séculaire et bien documenté - la fracture numérique. Tout comme l'accès à la richesse et à des infrastructures solides est réservé à certaines populations, il en va de même pour l'accès à l'IA et aux opportunités et avantages qui l'accompagnent.
Robert Opp, responsable du numérique au Programme des Nations unies pour le développement (PNUD), a expliqué que la présence de plateformes d'IA a la capacité de faire ou de défaire les mesures de développement d'un pays entier :
En réduisant de moitié le coût de GPT-4o et en introduisant une version gratuite, OpenAI fait un pas décisif vers la neutralisation de l'un des plus grands problèmes de l'IA et s'attaque directement à l'inégalité qui préoccupe les décideurs politiques et les économistes.
Une démarche de relations publiques positive pour les grandes entreprises d'IA est plus nécessaire que les enthousiastes ne le pensent. L'IA étant de plus en plus présente dans notre vie quotidienne, les partisans comme les sceptiques se sont demandés comment nous pourrions l'utiliser "pour de bon".
Selon Louis Bouchard, docteur en intelligence artificielle et éducateur, c'est en élargissant l'accès à l'intelligence artificielle que nous y parviendrons : Rendre l'IA accessible est un moyen, sinon le meilleur, d'utiliser l'IA "pour le bien". Son raisonnement ? Si nous ne sommes pas en mesure de contrôler pleinement les effets positifs et négatifs de la technologie de l'IA - du moins à ses débuts -, nous pouvons en revanche garantir un accès égal à ses avantages potentiels.
Un potentiel multimodal élargi
La manière la plus courante d'interagir avec un chatbot d'entreprise est le texte, mais les capacités multimodales améliorées du nouveau modèle d'IA de OpenAIsuggèrent que cela pourrait changer à l'avenir.
Au cours de l'année à venir, nous verrons probablement une marée de développeurs lancer de nouvelles applications qui tireront le meilleur parti des capacités audio, visuelles et vidéo nouvellement accessibles.
Par exemple, les chatbots alimentés par GPT pourraient avoir la capacité de.. :
- Demander aux clients une image de l'article qu'ils retournent afin d'identifier le produit et de s'assurer qu'il n'est pas endommagé.
- Fournir une traduction audio en temps réel qui tienne compte des dialectes régionaux
- Une image de votre steak dans la poêle vous permet de savoir s'il est cuit.
- Fonctionner comme un guide touristique personnel gratuit, fournir un contexte historique à partir d'une image d'une ancienne cathédrale, donner des traductions en temps réel et proposer une visite vocale personnalisée qui permet de communiquer et de poser des questions.
- Alimenter une application d'apprentissage des langues qui écoute des données audio, peut fournir un retour d'information sur la prononciation à partir d'une vidéo des mouvements de la bouche, ou enseigner la langue des signes à l'aide d'images et de vidéos.
- Fournir un soutien non urgent en matière de bien-être mental en combinant sa capacité à interpréter des fichiers audio et vidéo, ce qui permet une thérapie par la parole à faible coût.
Avec des modèles d'IA capables d'interpréter des images et des sons, nous comprenons de mieux en mieux comment LLMs peut nous servir.
La multimodalité est synonyme d'accessibilité
Nous avons déjà vu les fonctions multimodales améliorées être mises au service d'une cause sociale. Le partenariat entreOpenAIet Be My Eyes en est un parfait exemple.
Be My Eyes est une start-up danoise qui met en relation des utilisateurs malvoyants avec des bénévoles voyants. Lorsqu'un utilisateur a besoin d'aide, par exemple pour choisir les bonnes conserves au supermarché ou identifier la couleur d'un t-shirt, l'application le met en relation avec un bénévole voyant dans le monde entier par le biais d'une vidéo sur smartphone.
OpenAILa nouvelle capacité de vision du logiciel Be My Eyes peut offrir une expérience encore plus utile aux utilisateurs de Be My Eyes. Au lieu de dépendre d'un volontaire humain pour déchiffrer visuellement une image ou une vidéo en temps réel, les utilisateurs aveugles peuvent transmettre à leur appareil une image ou une vidéo à laquelle le modèle peut répondre par des informations audio.
OpenAI et Be My Eyes, désormais partenaires de confiance, ouvrent la voie à une plus grande indépendance pour les personnes légalement aveugles du monde entier. Michael Buckley, directeur général de Be My Eyes, en explique l'impact :
Le nouveau service sera bientôt déployé, au cours de l'été 2024, pour la première fois. Les utilisateurs de l'accès anticipé ont testé les nouvelles fonctions de vision, de vidéo et d'audio dans le cadre d'une version bêta et ont reçu des commentaires élogieux. Si les effets de l'IA peuvent inquiéter les sceptiques, ce partenariat est un signe clair des effets positifs qu'elle peut avoir. Comprendre le bien social qui découle de l'IA avancée est une étape cruciale pour ses relations publiques.
Comment jugerons-nous les futurs modèles LLM ?
Alors que les concurrents poursuivent leur course vers le bas - pour créer le site LLM le moins cher et le plus rapide - une question se pose : comment jugerons-nous les modèles d'IA de demain ?
À un moment donné, les principaux créateurs de LLM (probablement OpenAI et Google) atteindront un plateau en ce qui concerne la rapidité d'exécution de leurs modèles et le coût de l'accès. Une fois que nous aurons atteint la stabilité en matière de coût et de vitesse, comment couronnerons-nous le modèle leader du marché ?
Qu'est-ce qui deviendra le nouveau signe des temps ? Qu'il s'agisse des personnalités disponibles de votre modèle d'intelligence artificielle, des capacités d'amélioration de la vidéo, des fonctions disponibles pour les utilisateurs gratuits ou de toutes nouvelles mesures qui dépassent notre compréhension actuelle, la prochaine génération de LLMs est à notre porte.
AI Chatbots en toute simplicité
Et si votre chatbot IA se synchronisait automatiquement avec chaque mise à jour de GPT ?
Botpress fournit des solutions de chatbot IA personnalisables depuis 2017, en fournissant aux développeurs les outils dont ils ont besoin pour construire facilement des chatbots avec la puissance des dernières LLMs. Botpress chatbots peuvent être formés sur des sources de connaissances personnalisées - comme votre site Web ou votre catalogue de produits - et s'intègrent de manière transparente aux systèmes d'entreprise.
La seule plateforme qui va de l'absence de code à une personnalisation et une extension infinies, Botpress vous permet d'obtenir automatiquement la puissance de la dernière version de GPT sur votre chatbot - sans aucun effort.
Startbuilding today. C'est gratuit.
Table des matières
Restez au courant des dernières nouveautés en matière d'agents d'IA
Partager ce message sur :