LLMs transforment la manière dont nous construisons les solutions d'IA. Des modèles prêts à l'emploi plus récents et plus performants sont mis sur le marché en permanence.
On me pose souvent la question de savoir pourquoi quelqu'un devrait opter pour un site LLM personnalisé plutôt que pour une solution toute faite.
Si vous travaillez sur un projet d'IA, comme la construction d'un agent ou d'un chatbot d'IA, vous pouvez opter pour l'utilisation d'un grand modèle de langage personnalisé (LLM).
Il y a de nombreuses raisons d'utiliser un LLM personnalisé et de nombreuses options à votre disposition. Dans cet article, je vais vous présenter les différentes façons de personnaliser un LLM pour les projets d'IA.
Pourquoi utiliser un LLM personnalisé ?
Il y a plusieurs raisons d'utiliser un LLM personnalisé :
- Vous souhaitez réduire les coûts en vous concentrant sur une tâche particulière qui est importante pour votre entreprise, ou minimiser la latence.
- Vous voudrez peut-être garder toutes les données confidentielles ou utiliser le site interne de votre entreprise LLM.
- Il se peut que vous souhaitiez améliorer la qualité des réponses pour une tâche particulière.
Quelle que soit la raison, la personnalisation de votre site LLM vous permet d'optimiser les performances, en équilibrant la précision, la vitesse et le coût pour répondre aux besoins de votre entreprise.
Choisir un LLM
LLMs ont deux qualités qui ont un impact sur les projets d'IA : leur taille (mesurée par le nombre de paramètres) et la qualité des réponses.
On peut considérer les paramètres comme les neurones d'un cerveau. Un cerveau plus gros est souvent associé à l'intelligence, mais ce n'est pas toujours vrai. Certaines parties du cerveau peuvent être hautement optimisées pour certaines tâches, comme la vision.
Pour les projets d'IA, la taille a généralement une incidence sur la vitesse de réponse et sur le coût des réponses. Les projets qui nécessitent une faible latence utilisent souvent des modèles plus petits, mais au détriment de la qualité des réponses.
Les questions à se poser lors du choix d'un modèle
Voici une bonne liste de questions auxquelles il faut pouvoir répondre lors du choix d'un modèle :
- Puis-je utiliser un site LLM basé sur l'informatique dématérialisée ou dois-je en héberger un moi-même ?
- Quelle doit être la rapidité des réponses ?
- Quelle doit être la précision des réponses ?
- Combien de dollars mon projet permettra-t-il d'économiser et/ou de générer ? Ensuite, à quel prix doit-il se situer ?
- Quelle doit être la longueur de mes réponses ?
D'une manière générale, il est difficile d'accélérer un modèle puissant ou de réduire ses coûts, et il est plus facile d'améliorer un modèle moins précis.
Cependant, il est beaucoup plus rapide de démarrer avec un modèle puissant et, s'il répond aux besoins de votre projet, vous n'aurez peut-être pas besoin d'un effort d'ingénierie aussi important (en outre, il est plus facile à maintenir).
Choisir entre RAG, Fine-Tuning, N-Shot Learning et Prompt Engineering
Cinq concepts généraux permettent d'améliorer la qualité des réponses à LLM :
- A partir d'un modèle pré-entraîné
- RAG
- Mise au point
- Invitation à la prise de vue N
- Ingénierie rapide
Ces éléments ne sont pas spécifiques à l'utilisation de modèles personnalisés, mais vous devez les prendre en considération, car ils sont étroitement liés les uns aux autres.
A partir d'un modèle
La première chose à faire est de choisir un modèle de départ. Il existe de nombreux classements en ligne qui comparent les différents modèles.
Par exemple :
- Hugging Face tient un classement des modèles open source.
- Vellum en propose un excellent pour les modèles les plus populaires.
Si votre entreprise dispose d'un modèle interne, envisagez de l'utiliser pour respecter votre budget et préserver la confidentialité des données. Si vous devez héberger le modèle vous-même, optez pour un modèle à code source ouvert.
Mise au point
La mise au point consiste à fournir des exemples à votre modèle afin qu'il apprenne à bien exécuter une tâche donnée. Si vous voulez qu'il excelle à parler de votre produit, vous pouvez lui fournir une série d'exemples des meilleurs appels de vente de votre entreprise.
Si le modèle est libre, demandez-vous si votre équipe dispose d'une capacité d'ingénierie suffisante pour affiner un modèle.
Si le modèle est fermé et fourni en tant que service - GPT-4 ou Claude - vous pouvez généralement demander à vos ingénieurs d'affiner les modèles personnalisés à l'aide d'API. Le prix augmente généralement de manière substantielle avec cette méthode, mais il n'y a que peu ou pas de maintenance.
Mais pour de nombreux cas d'utilisation, le réglage fin n'est pas la première étape de l'optimisation de votre modèle.
La construction d'un bot de connaissances pour les connaissances statiques est un bon exemple de réglage fin. En donnant des exemples de questions et de réponses, il devrait être capable d'y répondre à l'avenir sans avoir à chercher la réponse. Mais ce n'est pas une solution pratique pour les informations en temps réel.
Génération augmentée par récupération
RAG est un nom de fantaisie pour une chose simple que nous avons tous faite sur ChatGPT: coller un texte dans ChatGPT et poser une question à ce sujet.
Un exemple typique est la question de savoir si un certain produit est en stock sur un site de commerce électronique, et un chatbot recherche l'information dans un catalogue de produits (au lieu d'aller sur l'internet).
En termes de rapidité de développement et d'obtention d'informations en temps réel, RAG est indispensable.
Cela n'affecte généralement pas le modèle que vous choisirez, mais rien ne vous empêche de créer un point de terminaison de l'API LLM qui demande des informations et des réponses et d'utiliser ce point de terminaison comme s'il s'agissait d'un point de terminaison à part entière LLM.
L'utilisation de RAG pour un chatbot basé sur la connaissance est souvent plus facile à maintenir, car il n'est pas nécessaire d'affiner un modèle et de le maintenir à jour, ce qui peut également réduire les coûts.
Apprentissage à N coups
Le moyen le plus rapide d'améliorer la qualité des réponses est de fournir des exemples dans un seul appel à l'API LLM .
La plupart d'entre nous utilisent ChatGPT pour donner zéro exemple de ce qu'ils recherchent dans une réponse. L'ajout d'un seul exemple (ou one-shot) suffit généralement à améliorer considérablement la qualité de la réponse.
Plus d'un exemple est considéré comme n-shot. Le n-shot ne modifie pas le modèle, contrairement au fine-tuning. Vous donnez simplement des exemples juste avant de demander une réponse, à chaque fois que vous posez une question.
Mais il ne faut pas abuser de cette stratégie : les modèles LLM ont une taille de contexte maximale et sont tarifés en fonction de la taille du message. Un réglage fin peut supprimer la nécessité d'avoir recours à des exemples à n clichés, mais il faut plus de temps pour y parvenir.
Autres techniques d'ingénierie rapide
Il existe d'autres techniques d'ingénierie rapide, comme la chaîne de pensée, qui obligent les modèles à réfléchir à voix haute avant de trouver une réponse.
La qualité de la réponse s'en trouve améliorée, mais au détriment de la longueur, du coût et de la rapidité de la réponse.
Ma recommandation
Bien que chaque projet ait ses propres besoins, je vais vous donner mon avis sur une approche solide.
Un bon point de départ est l'utilisation d'un modèle prêt à l'emploi qui équilibre vitesse et qualité, comme GPT-4o Mini. Commencez par examiner la qualité des réponses, la vitesse de réponse, le coût, les besoins des fenêtres contextuelles et décidez de ce qui doit être amélioré à partir de là.
Ensuite, avec un cas d'utilisation restreint, vous pouvez essayer une simple ingénierie d'invite, suivie d'un RAG et enfin d'un réglage fin. Chaque modèle qui passe par ces étapes présente des gains de performance, et il peut donc être difficile de déterminer ce qu'il faut utiliser.
Considérations sur la protection de la vie privée
Dans un monde idéal, chaque site LLM serait contrôlé à 100 % et rien ne serait exposé nulle part.
Malheureusement, ce n'est pas ce que nous observons dans la pratique, et ce pour de très bonnes raisons.
La première est simple : elle exige que l'ingénierie héberge et entretienne un modèle personnalisé, ce qui est très coûteux. Lorsque le modèle hébergé est en panne, les mesures de l'entreprise sont affectées, c'est pourquoi le déploiement doit être très solide.
Une autre raison est que les leaders de l'industrie - comme OpenAI, Google et Anthropic - sortent constamment des modèles plus récents, plus performants et moins chers qui rendent tout travail de mise au point redondant. C'est le cas depuis la sortie de ChatGPT 3.5 et cela ne semble pas près de changer.
Si votre cas d'utilisation comporte des données extrêmement sensibles, il est judicieux d'utiliser un modèle et de l'optimiser pour votre cas d'utilisation. Si le GDPR est au cœur de vos préoccupations, il existe de nombreux modèles prêts à l'emploi qui sont conformes au GDPR.
Bâtiment après avoir sélectionné votre LLM
Une fois que vous avez choisi un site LLM, vous pouvez commencer à réfléchir à la manière dont vous allez construire et maintenir votre projet d'IA. À titre d'exemple, je prendrai le type de projet qui m'est le plus familier : un agent d'IA ou un chatbot d'IA.
Vous pouvez répondre aux questions suivantes pour définir l'étendue de votre projet :
- Où voudrais-je que mon agent d'intelligence artificielle vive ? (Slack, WhatsApp, un widget de site web, etc.)
- Quelles sont les connaissances qu'il doit posséder, où se trouvent-elles ?
- Quelles sont les capacités dont il devrait disposer, en dehors de la réponse aux questions de connaissance, le cas échéant ?
- Doit-il s'activer lorsque quelque chose se produit dans l'entreprise ?
Décharger l'ingénierie pour économiser des dollars
Pour que votre projet devienne réalité, il est essentiel que votre budget soit le plus serré possible. L'un des moyens d'y parvenir est de réduire le temps d'ingénierie en découplant les exigences.
Aujourd'hui, nous avons accès à des solutions à code bas comme Flutterflow, Shopify, qui peuvent être utilisées par des rôles traditionnellement non techniques comme les chefs de produit. Les chatbots ne font pas exception, et certaines plateformes d'automatisation de l'IA vous permettent même d'utiliser votre propre site LLM.
Vous pouvez demander aux ingénieurs de se concentrer sur l'hébergement de LLM et la mise en place de la plateforme d'automatisation. Cela libère les analystes commerciaux, les gestionnaires de produits et d'autres fonctions connexes pour qu'ils créent des agents d'IA qui répondent aux besoins de l'entreprise.
Lorsque quelque chose de supplémentaire est nécessaire, ces plateformes permettent généralement aux ingénieurs d'ajouter du code. Vous conservez ainsi les avantages d'un modèle personnalisé, tout en gagnant en flexibilité, en rapidité et en prix.
Offrir une liberté d'action en matière d'ingénierie pour résoudre les problèmes de l'entreprise
D'autre part, il arrive que les problèmes des entreprises soient tout simplement très difficiles à résoudre.
Nous parlons ici d'applications LLM entièrement connectées au réseau, d'applications sur appareil ou de projets nécessitant de doter les chatbots de capacités extrêmement avancées qui ne se limitent pas à la synchronisation de données entre deux plateformes.
Dans ce cas, il est logique de laisser aux ingénieurs la liberté d'utiliser les outils qui leur conviennent le mieux. Il s'agit généralement d'écrire du code, et les parties prenantes jouent simplement le rôle de gestionnaires de projet.
Considérations stratégiques pour la personnalisation d'un LLM
Le choix d'un site LLM personnalisé pour votre projet d'IA ne se résume pas à la sélection du meilleur modèle - il s'agit de prendre des décisions stratégiques en adéquation avec vos objectifs.
Les modèles personnalisés offrent de la flexibilité, du contrôle et la possibilité d'optimiser des tâches spécifiques, mais ils s'accompagnent également d'une complexité accrue. Commencez par un modèle standard, expérimentez l'ingénierie rapide et affinez progressivement.
N'oubliez pas que le bon modèle doit correspondre aux besoins de votre entreprise, et pas seulement à votre technologie stack.
Personnalisation avec des plateformes puissantes
Prêt à faire passer votre projet d'IA à la vitesse supérieure ?
Botpress est une plateforme d'agents d'intelligence artificielle entièrement extensible et flexible. Notre site stack permet aux développeurs de créer des chatbots et des agents d'IA pour tous les cas d'utilisation possibles.
Nous disposons d'une solide plateforme d'éducation, Botpress Academyainsi qu'une chaîne YouTube détaillée. Notre site Discord héberge plus de 20 000 bot builders, ce qui vous permet d'obtenir à tout moment l'assistance dont vous avez besoin.
Startbuilding today. C'est gratuit.
Table des matières
Restez au courant des dernières nouveautés en matière d'agents d'IA
Partager ce message sur :