De nombreuses entreprises sont confrontées au défi de tirer parti du potentiel des technologies de l'IA sans dépenser trop. Nous comprenons l'importance de cet équilibre et nous nous engageons à fournir des solutions qui permettent à nos utilisateurs d'exploiter l'IA de manière rentable.
Notre approche du coût de l'IA
Tout d'abord, il est important de comprendre deux éléments importants de la manière dont nous réduisons les coûts liés à l'IA pour nos utilisateurs tout en offrant les avantages des capacités de l'IA.
Tarification transparente : Pas de frais cachés
Nous n'ajoutons aucune marge sur les tâches liées à l'IA. Cela signifie que le coût de vos dépenses d'IA est directement lié à votre utilisation réelle, sans frais d'IA supplémentaires de notre part. Vous pouvez utiliser notre calculateur de dépenses d'IA pour estimer vos dépenses d'IA potentielles avec nous.
Mise en cache des réponses de l'IA
La mise en cache est l'une de nos stratégies les plus efficaces pour réduire les coûts de l'IA des robots. En mettant en cache les réponses de l'IA, nous réduisons le nombre de requêtes adressées au fournisseur LLM , ce qui peut réduire le coût des requêtes d'environ 30 % et vous faire économiser de l'argent sans compromettre la qualité des interactions du bot avec vos utilisateurs.
Conseils pour optimiser les coûts de l'IA
Maintenant que nous avons vu deux des approches que nous adoptons pour réduire le coût de l'IA de nos utilisateurs, examinons les astuces que vous pouvez utiliser lors de la création de votre robot pour réduire encore plus le coût de l'IA.
Optimisez vos bases de connaissances
L'optimisation de vos bases de connaissances (KB) peut grandement influencer vos dépenses en matière d'IA, car les KB sont généralement le principal facteur de coût de l'IA dans le cadre d'un projet Botpress .
Conseil n° 1 : choisir le bon modèle d'IA
Le choix d'un modèle d'IA a un impact significatif sur le coût. Étant donné que GPT-3.5 Turbo est plus rapide et moins cher que GPT-4 Turbo, nous vous recommandons de tester minutieusement votre installation avec GPT-3.5 Turbo avant d'envisager une mise à niveau vers des versions plus avancées.
Notre mode hybride KB Agent offre un excellent compromis, car nous utilisons d'abord GPT-3.5 Turbo pour tenter de répondre à une requête et ne passons à GPT-4 Turbo que si cela s'avère nécessaire.
Conseil 2 : Protégez votre KB
Vous pouvez réduire vos dépenses en IA en protégeant votre base de données des FAQ typiques inutiles qui ne nécessitent pas d'IA ou de réponse intelligente à l'aide d'une carte Find Records. Voici comment cela fonctionne : si vous savez que les utilisateurs posent généralement une question et que nous avons 50 questions bien connues avec leurs réponses, nous pouvons les ajouter à un tableau et interroger ce tableau à l'aide d'une fiche de recherche. Si nous ne trouvons pas de réponse, ce n'est qu'à ce moment-là que nous consultons une base de données.
Conseil n° 3 : Étendez correctement vos KB
En fonction du type et de la quantité d'informations que vous souhaitez ajouter à une base de données, la meilleure pratique consiste généralement à faire deux choses en parallèle pour réduire le coût d'AI Spend. Tout d'abord, organisez vos informations en plus petites bases de données, chaque base de données se rapportant à un produit, une fonctionnalité ou un sujet spécifique. Deuxièmement, guidez l'utilisateur à travers un flux de travail comportant plusieurs questions afin de limiter votre recherche à une base de données spécifique ; cela permettra non seulement de réduire les coûts, mais aussi d'obtenir de meilleurs résultats.
Conseil 4 : Source de données KB du site Web ou source de données KB de la recherche sur le Web
Si vous utilisez un site web comme source de données pour la base de connaissances, mais que vous n'apportez pas constamment des modifications au site web qui doivent être répercutées en temps réel sur votre robot, une bonne alternative économique consiste à utiliser Search The Web comme source de données pour la base de connaissances au lieu de la source de données Website KB. Avant de procéder à cette transition, assurez-vous de tester que les performances des questions que vous prévoyez de poser ne sont pas dégradées par ce changement.
Conseil 5 : Interroger les tables avec la carte Find Records ou Execute Code
Si vous disposez d'une table contenant des données que vous souhaitez interroger, envisagez d'utiliser la carte Rechercher des enregistrements au lieu d'utiliser la table dans une base de données. Pour ceux qui disposent d'une expertise technique, l'exécution de code peut être une méthode encore plus rentable pour interroger une table. Pour ce faire, vous interrogez la table directement à partir de la carte Exécuter un code et vous stockez le résultat dans une variable de flux de travail à laquelle vous pourrez vous référer ultérieurement.
Astuce 6 : Contrôlez les morceaux
Par morceaux, je fais référence au nombre de morceaux qui seront récupérés dans la base de connaissances pour générer une réponse. En général, plus il y a de morceaux récupérés, plus la réponse est précise, mais il faudra plus de temps pour générer et coûter plus de jetons d’IA. Expérimentez avec la taille du bloc pour établir la quantité la plus faible qui conduit toujours à des réponses précises.
Utiliser l'Execute Code Card pour réduire le coût des dépenses d'IA
La carte Execute Code peut remplacer avantageusement certaines cartes d'IA. Voici quelques scénarios dans lesquels vous pouvez envisager de les utiliser :
Alternatives aux messages plus intelligents
Si vous souhaitez que votre robot envoie à chaque fois une réponse différente pour la même requête, vous devez empêcher la mise en cache (voir l'annexe pour savoir comment procéder). Dans certains cas, l'augmentation des dépenses d'IA peut être justifiée par l'amélioration de l'expérience de la conversation. Mais ce n'est pas toujours le cas.
Pensez à un simple message d'accueil généré à l'aide de LLMs. Pour chaque message d'accueil, vous devrez payer un coût supplémentaire pour AI Spend. Le jeu en vaut-il la chandelle ? Probablement pas. Heureusement, il existe une solution rentable : utilisez un tableau avec plusieurs réponses et une fonction simple pour extraire une valeur au hasard et la présenter.
En fonction du volume des conversations, les économies réalisées grâce à cette méthode peuvent valoir la peine.
Vous trouverez plus de détails sur la manière de mettre en œuvre des messages alternatifs ici.
Exécution de code pour des tâches simples
Pour des tâches simples, telles que le reformatage de données ou l'extraction d'informations à partir de données structurées, l'utilisation de la carte Execute Code peut s'avérer plus efficace, moins coûteuse et plus rapide que l'utilisation d'un site LLM.
Alternatives à l'agent de synthèse
Vous pouvez utiliser les cartes Execute Code pour créer votre propre transcription. Placez une carte Execute Code à l'endroit où vous souhaitez suivre les messages des utilisateurs et du robot dans un tableau variable. Par la suite, vous pouvez utiliser ce tableau et l'introduire comme contexte dans votre KB.
Simplifier quand c'est possible
Optez pour la méthode d'interaction la plus simple qui permet d'atteindre le même objectif sans dégrader l'expérience de l'utilisateur. Par exemple, si vous souhaitez recueillir les réactions des utilisateurs, un simple système d'évaluation par étoiles avec commentaires sera plus rentable que l'utilisation de l'IA pour collecter les mêmes informations.
Conseils pour les tâches d'IA, la génération de texte par l'IA et les traductions
Choisir le bon modèle d'IA
Oui, le choix du bon modèle d'IA est si important qu'il mérite d'être mentionné deux fois. Comme pour les KB, le choix d'un modèle d'IA a un impact significatif sur le coût des tâches d'IA. Optez pour GPT-3.5 Turbo pour les instructions moins compliquées. Avant d'envisager une mise à niveau vers des versions plus avancées, testez minutieusement votre installation avec ce modèle. N'oubliez pas que GPT-4 Turbo coûte 20 fois plus cher que GPT-3.5 Turbo. À moins que les résultats ne soient nettement meilleurs, optez pour GPT-3.5 Turbo.
En plus de ce qui précède, vous pouvez également économiser les dépenses d’IA en réduisant le nombre de jetons consommés dans chaque exécution de tâche d’IA.
Ma recommandation est d’être conscient de la diminution de ce nombre, car cela entraînera la troncature de tous les jetons supplémentaires. Par exemple, si vous limitez la longueur à 2000 jetons et que votre invite et votre sortie sont supérieures à 2000 jetons, votre entrée sera tronquée en conséquence.
Tâche de l'IA vs Génération de texte par l'IA
Pour les sorties de texte simples, la carte AI Generate Text utilise moins de jetons et est plus facile à configurer que la carte AI Task. Pour les tâches impliquant l'analyse d'informations, la carte AI Task est plus performante que la carte AI Generate Text.
Par conséquent, je vous recommande d'utiliser la carte AI Task lorsque vous souhaitez utiliser l'IA pour traiter des informations (par exemple, si vous souhaitez détecter l'intention de l'utilisateur ou si vous souhaitez que l'IA analyse les données saisies). En revanche, si vous souhaitez exploiter l'IA pour générer du texte, utilisez plutôt la carte AI Generate Text (par exemple, si vous souhaitez développer une réponse KB ou générer une question de manière créative).
Pour en savoir plus sur les différences entre la carte AI Task et la carte AI Generate Text, cliquez ici.
Traductions
Si votre robot doit traiter un grand nombre de conversations multilingues, envisagez d'intégrer des crochets à des services de traduction externes pour une option plus rentable.
Vous trouverez plus d'informations sur les crochets ici.
Conclusion
Grâce à ces stratégies et conseils, vous serez en mesure d'optimiser vos dépenses en matière d'IA à l'adresse Botpress. En comprenant les implications financières des différentes tâches et en choisissant les méthodes les plus efficaces pour vos besoins, vous réduirez vos dépenses liées à l'IA sans compromettre les performances.
Notre équipe est là pour vous aider à naviguer dans ces options et à faire en sorte que votre robot offre la meilleure expérience possible à vos utilisateurs au coût le plus efficace. Visitez notre page Prix pour plus d'informations ou visitez notre serveur Discord pour obtenir de l'aide.
Annexe
Comment empêcher la mise en cache
Si vous souhaitez surmonter la mise en cache pour toujours obtenir des résultats en direct, vous pouvez choisir l'une des options suivantes :
- For more permanent caching prevention: add `And discard:{{Date.now()}}` in all your AI-related cards (e.g., in the AI Task prompts, in the KB context, etc.).
- Pour prévenir la mise en cache temporaire : publiez votre robot et testez-le à partir d'une fenêtre incognito.
Remarque : toutes choses étant égales par ailleurs, si vous supprimez cette couche de mise en cache et que vous n'apportez aucune autre modification à votre robot, le coût des dépenses d'IA augmentera.
Cours recommandés
- ChatGPT Prompt Engineering for Developers (bien que le titre indique "pour les développeurs", les non-développeurs en profiteront également !)
- Construire dessystèmes avec l'API ChatGPT
Table des matières
Restez au courant des dernières nouveautés en matière d'agents d'IA
Partager ce message sur :