- GPT-4o est deux fois plus rapide et coûte moitié moins cher que GPT-4 Turbo, ce qui réduit considérablement le prix et accélère les temps de réponse des chatbots IA.
- Ce nouveau modèle offre des capacités multimodales avancées — voix, vidéo, traduction en temps réel et vision — ouvrant la voie à des usages innovants pour les chatbots, bien au-delà du texte.
- Les gains d’efficacité en tokenisation, notamment pour les langues non alphabétiques latines, permettent de réaliser d’importantes économies pour les déploiements mondiaux de chatbots.
- L’amélioration de la vitesse améliore directement l’expérience utilisateur, en réduisant les temps d’attente qui frustrent habituellement les utilisateurs de chatbots.
Deux fois plus rapide et moitié prix : que change GPT-4o pour les chatbots IA ?
Après une annonce mystérieuse, OpenAI a lancé la dernière version de son modèle phare : GPT-4o.
Le nouveau modèle ne s’est pas contenté d’améliorer ses capacités multimodales. Il est aussi plus rapide et moins cher que GPT-4 Turbo. Alors que les médias mettent en avant les fonctions vidéo et voix de ce nouveau modèle pour ChatGPT, la baisse de coût et la rapidité sont tout aussi importantes pour ceux qui utilisent GPT pour alimenter leurs applications.

« La disponibilité de 4o a le pouvoir d’améliorer significativement l’expérience des créateurs et des utilisateurs », explique Patrick Hamelin, lead ingénieur logiciel chez Botpress. « L’impact est plus vaste qu’on ne le pense. »
Voyons donc comment ce nouveau modèle va bouleverser les chatbots IA.
Capacités du modèle
Le nouveau modèle phare apporte de nombreuses nouveautés : capacités voix et vidéo améliorées, traduction en temps réel, langage plus naturel. Il peut analyser des images, comprendre une plus grande variété d’entrées audio, aider à résumer, faciliter la traduction en temps réel et créer des graphiques. Les utilisateurs peuvent envoyer des fichiers et avoir une conversation vocale. Il existe même une application de bureau.
Dans leurs vidéos de lancement, les employés d’OpenAI (et des partenaires comme Sal Khan de Khan Academy) montrent GPT préparant un utilisateur à un entretien d’embauche, chantant, identifiant les émotions humaines à partir des expressions du visage, résolvant des équations mathématiques écrites, et même interagissant avec un autre ChatGPT-4o.
Le lancement a illustré une nouvelle réalité : un modèle IA capable d’analyser l’écriture dans le cahier de votre enfant et d’y répondre. Il pourrait expliquer pour la première fois la notion d’addition de fractions, adapter son ton et sa méthode selon la compréhension de l’enfant — franchissant la frontière entre chatbot et tuteur personnel.

Que signifie GPT-4o pour les chatbots LLM ?
Les chatbots IA basés sur des LLM bénéficient d’une mise à jour à chaque évolution des modèles par des entreprises comme OpenAI. Si un agent LLM est connecté à une plateforme de création de bots comme Botpress, il profite de tous les avantages du dernier modèle GPT dans ses propres chatbots.
Avec la sortie de GPT-4o, les chatbots IA peuvent désormais choisir de fonctionner sur ce modèle avancé, modifiant ainsi leurs capacités, leur coût et leur rapidité. Ce nouveau modèle propose des limites d’utilisation 5 fois supérieures à GPT-4 Turbo, avec la capacité de traiter jusqu’à 10 millions de tokens par minute.
Pour les bots utilisant des intégrations audio comme Twilio sur Botpress, une nouvelle ère d’interactions vocales s’ouvre. Les chatbots ne sont plus limités aux traitements audio d’autrefois et se rapprochent d’une interaction humaine.
Mais le plus important, c’est la baisse de coût pour les utilisateurs payants. Faire tourner un chatbot aussi performant pour moitié moins cher peut rendre l’accès bien plus large et abordable dans le monde entier. Et les utilisateurs de Botpress n’ont aucun surcoût IA sur leurs bots : ces économies profitent donc directement aux créateurs.
Côté utilisateur, GPT-4o offre une expérience bien meilleure. Personne n’aime attendre. Des réponses plus rapides signifient une satisfaction accrue pour les utilisateurs de chatbots IA.

Les utilisateurs adorent la rapidité
Un principe clé pour l’adoption des chatbots est d’améliorer l’expérience utilisateur. Et quoi de mieux pour cela que de réduire les temps d’attente ?
« Ce sera clairement une meilleure expérience », affirme Hamelin. « La dernière chose qu’on veut, c’est attendre quelqu’un. »
Les humains détestent attendre. Déjà en 2003, une étude montrait que les gens étaient prêts à attendre environ 2 secondes pour le chargement d’une page web. Notre patience n’a certainement pas augmenté depuis.
Et tout le monde déteste attendre
Il existe de nombreux conseils UX pour réduire la sensation d’attente. Souvent, on ne peut pas accélérer les événements, alors on cherche à faire passer le temps plus vite aux yeux des utilisateurs. Les retours visuels, comme une barre de chargement, servent à diminuer la perception du temps d’attente.
Dans une histoire célèbre sur l’attente des ascenseurs, un vieil immeuble new-yorkais recevait de nombreuses plaintes. Les résidents devaient attendre 1 à 2 minutes l’arrivée de l’ascenseur. Impossible de moderniser l’ascenseur, et les locataires menaçaient de partir.
Un nouvel employé, formé en psychologie, a compris que le vrai problème n’était pas le temps perdu, mais l’ennui. Il a suggéré d’installer des miroirs pour que les résidents puissent se regarder ou observer les autres en attendant. Les plaintes ont cessé, et aujourd’hui, il est courant de voir des miroirs dans les halls d’ascenseur.
Plutôt que de chercher des astuces pour améliorer l’expérience utilisateur — comme des retours visuels — OpenAI a amélioré l’expérience à la source. La rapidité est essentielle pour l’utilisateur, et rien n’égale la satisfaction d’une interaction efficace.
Des économies pour tous
Utiliser ce nouveau modèle IA pour faire tourner des applications devient soudainement bien moins cher. Beaucoup moins cher.
Faire tourner un chatbot IA à grande échelle peut coûter cher. Le LLM qui alimente votre bot détermine le coût de chaque interaction utilisateur à grande échelle (du moins chez Botpress, où la dépense IA est alignée sur le coût LLM).
Et ces économies ne concernent pas que les développeurs utilisant l’API. ChatGPT-4o est la dernière version gratuite du LLM, aux côtés de GPT-3.5. Les utilisateurs gratuits peuvent utiliser l’application ChatGPT sans frais.
Une meilleure tokenisation
Si vous interagissez avec le modèle dans une langue qui n’utilise pas l’alphabet latin, GPT-4o réduit encore davantage vos coûts API.

Le nouveau modèle propose des limites d’utilisation améliorées. Il offre un bond significatif en efficacité de tokenisation, surtout pour certaines langues non-anglophones.
Le nouveau système de tokenisation nécessite moins de tokens pour traiter un texte. Il est bien plus efficace pour les langues logographiques (c’est-à-dire utilisant des symboles ou caractères plutôt que des lettres individuelles).
Ces avantages concernent surtout les langues qui n’utilisent pas l’alphabet latin. Les économies estimées sont les suivantes :
- Les langues indiennes, comme l’hindi, le tamoul ou le gujarati, bénéficient d’une réduction du nombre de tokens de 2,9 à 4,4 fois
- L’arabe bénéficie d’une réduction du nombre de tokens d’environ 2 fois
- Les langues d’Asie de l’Est, comme le chinois, le japonais et le vietnamien, bénéficient d’une réduction du nombre de tokens de 1,4 à 1,7 fois
Réduire la fracture numérique de l’IA
L’ère numérique a accentué une fracture bien connue : la fracture numérique. Comme l’accès à la richesse et aux infrastructures solides, l’accès à l’IA et à ses opportunités reste réservé à certains.
Robert Opp, Chief Digital Officer au Programme des Nations Unies pour le développement (PNUD), a expliqué que la présence de plateformes IA peut faire ou défaire les indicateurs de développement d’un pays :

En divisant par deux le coût de GPT-4o et en lançant une offre gratuite, OpenAI fait un pas décisif pour atténuer l’un des plus grands problèmes de l’IA – et répond directement à l’inégalité qui préoccupe décideurs et économistes.
Une opération de communication positive pour les grands acteurs de l’IA est plus nécessaire qu’on ne le pense. À mesure que l’IA s’impose dans notre quotidien, partisans et sceptiques se demandent comment l’utiliser « pour le bien ».

Selon Louis Bouchard, docteur en IA et formateur, élargir l’accès à l’IA est précisément la solution : « Rendre l’IA accessible est l’un des moyens, sinon le meilleur, d’utiliser l’IA ‘pour le bien’. » Sa logique ? Si nous ne pouvons pas totalement contrôler les effets positifs et négatifs de l’IA – du moins à ses débuts – nous pouvons au moins garantir un accès égal à ses avantages potentiels.
Potentiel multimodal élargi
Aujourd’hui, l’interaction classique avec un chatbot d’entreprise se fait par texte, mais les nouvelles capacités multimodales du modèle d’IA d’OpenAI laissent penser que cela pourrait bientôt changer.
Dans l’année à venir, on peut s’attendre à voir de nombreux développeurs lancer de nouvelles applications exploitant pleinement les fonctions audio, vision et vidéo désormais accessibles.
Par exemple, les chatbots propulsés par GPT pourraient :
- Demander aux clients une photo de l’article qu’ils retournent pour identifier le produit et vérifier qu’il n’est pas endommagé
- Fournir une traduction audio en temps réel lors d’une conversation, en tenant compte des dialectes régionaux
- Dire si votre steak est cuit à partir d’une photo prise dans la poêle
- Servir de guide touristique personnel gratuit, donnant un contexte historique à partir d’une photo d’une vieille cathédrale, proposant une traduction en temps réel et une visite vocale personnalisée avec échanges et questions
- Alimenter une application d’apprentissage des langues qui écoute l’audio, peut donner un retour sur la prononciation à partir d’une vidéo de vos mouvements de bouche, ou enseigner la langue des signes à l’aide d’images et de vidéos
- Offrir un soutien en santé mentale non urgent en combinant l’interprétation de l’audio et de la vidéo, permettant ainsi une thérapie par la parole à faible coût
Avec des modèles d’IA capables d’interpréter des images et des sons, notre compréhension de la façon dont les LLM peuvent nous servir s’élargit rapidement.
La multimodalité, c’est l’accessibilité
Nous avons déjà vu les fonctionnalités multimodales mises au service du bien social. Un exemple parfait est le partenariat d’OpenAI avec Be My Eyes.
Be My Eyes est une start-up danoise qui met en relation des personnes malvoyantes avec des bénévoles voyants. Lorsqu’un utilisateur a besoin d’aide – pour choisir la bonne conserve au supermarché ou identifier la couleur d’un t-shirt – l’application le connecte par vidéo à un bénévole partout dans le monde via smartphone.

La nouvelle capacité de vision d’OpenAI peut offrir une expérience encore plus utile aux utilisateurs de Be My Eyes. Au lieu de dépendre d’un bénévole humain pour déchiffrer une image ou une vidéo en temps réel, les personnes aveugles peuvent transmettre une image ou une vidéo à leur appareil, qui leur répondra par des informations audio.
OpenAI et Be My Eyes, désormais partenaires de confiance, ouvrent la voie à plus d’autonomie pour les personnes légalement aveugles dans le monde entier. Michael Buckley, PDG de Be My Eyes, explique l’impact :

Le nouveau service sera lancé prochainement, à l’été 2024, pour la première fois. Les premiers utilisateurs testent déjà en avant-première les nouvelles fonctions de vision, vidéo et audio, avec des retours très positifs. Même si l’IA suscite parfois des inquiétudes, ce partenariat montre clairement ses effets bénéfiques. Comprendre l’utilité sociale de l’IA avancée est essentiel pour son image publique.
Comment jugera-t-on les futurs modèles LLM ?
Alors que les concurrents se livrent une course pour proposer le LLM le moins cher et le plus rapide, une question se pose : comment évaluerons-nous les modèles d’IA de demain ?
À terme, les grands créateurs de LLM (probablement OpenAI et Google) atteindront un plafond en termes de rapidité et de coût d’accès. Une fois la stabilité atteinte sur ces critères, comment désignera-t-on le modèle leader du marché ?
Quel sera le nouveau critère de référence ? Sera-ce la diversité des personnalités proposées par votre modèle d’intelligence artificielle, les capacités d’amélioration vidéo, les fonctionnalités offertes aux utilisateurs gratuits, ou de nouveaux indicateurs encore inconnus ? La prochaine génération de LLM est déjà à nos portes.
Chatbots IA simplifiés
Et si votre chatbot IA se synchronisait automatiquement à chaque mise à jour de GPT ?
Depuis 2017, Botpress propose des solutions de chatbots IA personnalisables, offrant aux développeurs les outils nécessaires pour créer facilement des chatbots exploitant la puissance des derniers LLM. Les chatbots Botpress peuvent être entraînés sur des sources de connaissances personnalisées – comme votre site web ou votre catalogue produit – et s’intègrent sans effort à vos systèmes métier.
Seule plateforme allant de la configuration sans code à une personnalisation et une extensibilité illimitées, Botpress vous permet de bénéficier automatiquement de la puissance de la dernière version de GPT sur votre chatbot – sans effort.
Commencez à créer dès aujourd’hui. C’est gratuit.
FAQ
1. Comment passer mon chatbot existant à GPT-4o sur Botpress ?
Pour passer votre chatbot existant à GPT-4o sur Botpress, rendez-vous dans Botpress Studio, accédez aux paramètres LLM de votre assistant et sélectionnez GPT-4o dans la liste des modèles disponibles. Le changement est immédiat, sans modification de code.
2. Y a-t-il des prérequis pour utiliser GPT-4o sur la plateforme Botpress (par exemple, SDK, versions d’API) ?
Non, il n’y a aucun prérequis pour utiliser GPT-4o dans Botpress. La plateforme gère automatiquement tous les SDK, mises à jour d’API et dépendances techniques : il suffit de sélectionner GPT-4o dans les paramètres pour l’activer.
3. Peut-on affiner ou personnaliser GPT-4o pour des cas d’usage métier spécifiques via Botpress ?
Bien que GPT-4o ne puisse pas être affiné au sens traditionnel dans Botpress, vous pouvez personnaliser ses réponses et son comportement grâce à l’ingénierie de prompts, la logique des workflows, les bases de connaissances et les variables. Cela permet à GPT-4o de s’adapter au contexte de votre entreprise sans avoir à réentraîner le modèle.
4. Existe-t-il des limitations concernant l’utilisation des fonctionnalités multimodales (voix, vision) dans les workflows Botpress ?
Oui, Botpress prend actuellement en charge les fonctions vocales via des intégrations comme Twilio ou Dialogflow Voice Gateway, mais les capacités multimodales telles que le traitement d’images ou de vidéos ne sont pas encore totalement prises en charge. L’entrée basée sur la vision est encore à l’étude ou nécessite des solutions alternatives.
5. Y a-t-il des coûts cachés liés à l’utilisation des fonctionnalités avancées de GPT-4o, comme la traduction en temps réel ou l’entrée visuelle ?
Non, il n’y a pas de coûts cachés pour utiliser les fonctions avancées de GPT-4o dans Botpress. Les avantages de rapidité et d’efficacité de GPT-4o sont inclus dans votre offre Botpress, et les coûts LLM sont pris en charge par Botpress – les utilisateurs n’ont donc pas de frais supplémentaires à prévoir pour ces améliorations.





.webp)
