Comment choisir un site LLM personnalisé pour votre projet d'IA ?

Rédigé par

Patrick Hamelin

Directeur de l'ingénierie de croissance chez Botpress et expert en IA certifié

Table des matières

Pourquoi utiliser un LLM personnalisé ?

Choisir un LLM

Choisir entre RAG, Fine-Tuning, N-Shot Learning et Prompt Engineering

Considérations sur la protection de la vie privée

Bâtiment après avoir sélectionné votre LLM

Considérations stratégiques pour la personnalisation d'un LLM

Personnalisation avec des plateformes puissantes

FAQ

Résumé

LLMs personnalisés vous permettent de réduire les coûts, de protéger les données sensibles et d'améliorer les performances des tâches spécifiques, ce qui en fait des outils stratégiques pour des solutions d'entreprise sur mesure.
La taille du LLM influence à la fois la qualité et les coûts. Il convient donc d'équilibrer la vitesse de réponse, la précision et le budget avant de décider d'utiliser de grands modèles comme le GPT ou des options plus petites et plus rapides.
Des techniques telles que le RAG, le réglage fin, l'apprentissage n-shot et l'ingénierie prompte sont des outils essentiels pour personnaliser le comportement du LLM , chacun avec des compromis en termes de coût, de complexité et de maintenance.

LLMs transforment la manière dont nous construisons les solutions d'IA. Des modèles prêts à l'emploi plus récents et plus performants sont mis sur le marché en permanence.

On me pose souvent la question de savoir pourquoi quelqu'un devrait opter pour un site LLM personnalisé plutôt que pour une solution toute faite.

Si vous travaillez sur un projet d'IA, comme la construction d'un agent ou d'un chatbot d'IA, vous pouvez opter pour l'utilisation d'un grand modèle de langage personnalisé (LLM).

Il existe de nombreuses raisons d'utiliser un LLM personnalisé pour votre agentLLM et de nombreuses options à votre disposition. Dans cet article, je vais vous présenter les différentes façons de personnaliser un LLM pour les projets d'IA.

Pourquoi utiliser un LLM personnalisé ?

Il y a plusieurs raisons d'utiliser un LLM personnalisé :

Vous souhaitez réduire les coûts en vous concentrant sur une tâche particulière qui est importante pour votre entreprise, ou minimiser la latence.
Vous voudrez peut-être garder toutes les données confidentielles ou utiliser le site interne de votre entreprise LLM.
Il se peut que vous souhaitiez améliorer la qualité des réponses pour une tâche particulière.

Quelle que soit la raison, la personnalisation de votre site LLM vous permet d'optimiser les performances, en équilibrant la précision, la vitesse et le coût pour répondre aux besoins de votre entreprise.

Construire l'IA Chatbots

Créer des chatbots personnalisés

Commencer maintenant

Choisir un LLM

LLMs ont deux qualités qui ont un impact sur les projets d'IA : leur taille (mesurée par le nombre de paramètres) et la qualité des réponses.

On peut considérer les paramètres comme les neurones d'un cerveau. Un cerveau plus gros est souvent associé à l'intelligence, mais ce n'est pas toujours vrai. Certaines parties du cerveau peuvent être hautement optimisées pour certaines tâches, comme la vision.

Pour les projets d'IA, la taille a généralement une incidence sur la vitesse de réponse et sur le coût des réponses. Les projets qui nécessitent une faible latence utilisent souvent des modèles plus petits, mais au détriment de la qualité des réponses.

Les questions à se poser lors du choix d'un modèle

Voici une bonne liste de questions auxquelles il faut pouvoir répondre lors du choix d'un modèle :

Puis-je utiliser un site LLM basé sur l'informatique dématérialisée ou dois-je en héberger un moi-même ?
Quelle doit être la rapidité des réponses ?
Quelle doit être la précision des réponses ?
Combien de dollars mon projet permettra-t-il d'économiser et/ou de générer ? Ensuite, à quel prix doit-il se situer ?
Quelle doit être la longueur de mes réponses ?

D'une manière générale, il est difficile d'accélérer un modèle puissant ou de réduire ses coûts, et il est plus facile d'améliorer un modèle moins précis.

Cependant, il est beaucoup plus rapide de démarrer avec un modèle puissant et, s'il répond aux besoins de votre projet, vous n'aurez peut-être pas besoin d'un effort d'ingénierie aussi important (en outre, il est plus facile à maintenir).

Choisir entre RAG, Fine-Tuning, N-Shot Learning et Prompt Engineering

Cinq concepts généraux permettent d'améliorer la qualité des réponses à LLM :

A partir d'un modèle pré-entraîné
RAG
Mise au point
Invitation à la prise de vue N
Ingénierie rapide

Ces éléments ne sont pas spécifiques à l'utilisation de modèles personnalisés, mais vous devez les prendre en considération, car ils sont étroitement liés les uns aux autres.

A partir d'un modèle

La première chose à faire est de choisir un modèle de départ. Il existe de nombreux classements en ligne qui comparent les différents modèles.

Par exemple :

Hugging Face tient un classement des modèles open source.
Vellum en propose un excellent pour les modèles les plus populaires.

Si votre entreprise dispose d'un modèle interne, envisagez de l'utiliser pour respecter votre budget et préserver la confidentialité des données. Si vous devez héberger le modèle vous-même, optez pour un modèle à code source ouvert.

Un graphique qui contient 4 façons de personnaliser un site LLM.

Mise au point

La mise au point consiste à fournir des exemples à votre modèle afin qu'il apprenne à bien exécuter une tâche donnée. Si vous voulez qu'il excelle à parler de votre produit, vous pouvez lui fournir une série d'exemples des meilleurs appels de vente de votre entreprise.

Si le modèle est libre, demandez-vous si votre équipe dispose d'une capacité d'ingénierie suffisante pour affiner un modèle.

Si le modèle est fermé et fourni en tant que service - GPT-4 ou Claude - vous pouvez généralement demander à vos ingénieurs d'affiner les modèles personnalisés à l'aide d'API. Le prix augmente généralement de manière substantielle avec cette méthode, mais il n'y a que peu ou pas de maintenance.

Mais pour de nombreux cas d'utilisation, le réglage fin n'est pas la première étape de l'optimisation de votre modèle.

La construction d'un bot de connaissances pour les connaissances statiques est un bon exemple de réglage fin. En donnant des exemples de questions et de réponses, il devrait être capable d'y répondre à l'avenir sans avoir à chercher la réponse. Mais ce n'est pas une solution pratique pour les informations en temps réel.

Génération augmentée par récupération

RAG est un nom de fantaisie pour une chose simple que nous avons tous faite sur ChatGPT: coller un texte dans ChatGPT et poser une question à ce sujet.

Un exemple typique est la question de savoir si un certain produit est en stock sur un site de commerce électronique, et un chatbot recherche l'information dans un catalogue de produits (au lieu d'aller sur l'internet).

En termes de rapidité de développement et d'obtention d'informations en temps réel, RAG est indispensable.

Cela n'affecte généralement pas le modèle que vous choisirez, mais rien ne vous empêche de créer un point de terminaison de l'API LLM qui demande des informations et des réponses et d'utiliser ce point de terminaison comme s'il s'agissait d'un point de terminaison à part entière LLM.

L'utilisation de RAG pour un chatbot basé sur la connaissance est souvent plus facile à maintenir, car il n'est pas nécessaire d'affiner un modèle et de le maintenir à jour, ce qui peut également réduire les coûts.

Déployer des agents d'intelligence artificielle ?

Lire notre schéma directeur pour la mise en œuvre d'un agent d'IA

Apprentissage à N coups

Le moyen le plus rapide d'améliorer la qualité des réponses est de fournir des exemples dans un seul appel à l'API LLM .

La plupart d'entre nous utilisent ChatGPT pour donner zéro exemple de ce qu'ils recherchent dans une réponse. L'ajout d'un seul exemple (ou one-shot) suffit généralement à améliorer considérablement la qualité de la réponse.

Plus d'un exemple est considéré comme n-shot. Le n-shot ne modifie pas le modèle, contrairement au fine-tuning. Vous donnez simplement des exemples juste avant de demander une réponse, à chaque fois que vous posez une question.

Mais il ne faut pas abuser de cette stratégie : les modèles LLM ont une taille de contexte maximale et sont tarifés en fonction de la taille du message. Un réglage fin peut supprimer la nécessité d'avoir recours à des exemples à n clichés, mais il faut plus de temps pour y parvenir.

Autres techniques d'ingénierie rapide

Il existe d'autres techniques d'ingénierie rapide, comme la chaîne de pensée, qui obligent les modèles à réfléchir à voix haute avant de trouver une réponse.

La qualité de la réponse s'en trouve améliorée, mais au détriment de la longueur, du coût et de la rapidité de la réponse.

Ma recommandation

Bien que chaque projet ait ses propres besoins, je vais vous donner mon avis sur une approche solide.

Un bon point de départ est l'utilisation d'un modèle prêt à l'emploi qui équilibre vitesse et qualité, comme GPT-4o Mini. Commencez par examiner la qualité des réponses, la vitesse de réponse, le coût, les besoins des fenêtres contextuelles et décidez de ce qui doit être amélioré à partir de là.

Ensuite, avec un cas d'utilisation restreint, vous pouvez essayer une simple ingénierie d'invite, suivie d'un RAG et enfin d'un réglage fin. Chaque modèle qui passe par ces étapes présente des gains de performance, et il peut donc être difficile de déterminer ce qu'il faut utiliser.

Considérations sur la protection de la vie privée

Dans un monde idéal, chaque site LLM serait contrôlé à 100 % et rien ne serait exposé nulle part.

Malheureusement, ce n'est pas ce que nous observons dans la pratique, et ce pour de très bonnes raisons.

La première est simple : elle exige que l'ingénierie héberge et entretienne un modèle personnalisé, ce qui est très coûteux. Lorsque le modèle hébergé est en panne, les mesures de l'entreprise sont affectées, c'est pourquoi le déploiement doit être très solide.

Une autre raison est que les leaders de l'industrie - comme OpenAI, Google et Anthropic - sortent constamment des modèles plus récents, plus performants et moins chers qui rendent tout travail de réglage redondant. C'est le cas depuis la sortie de ChatGPT 3.5 et cela ne semble pas près de changer.

Si votre cas d'utilisation comporte des données extrêmement sensibles, il est judicieux d'utiliser un modèle et de l'optimiser pour votre cas d'utilisation. Si le GDPR est au cœur de vos préoccupations, il existe de nombreux modèles prêts à l'emploi qui sont conformes au GDPR.

Bâtiment après avoir sélectionné votre LLM

Une fois que vous avez choisi un site LLM, vous pouvez commencer à réfléchir à la manière dont vous allez construire et maintenir votre projet d'IA. À titre d'exemple, je prendrai le type de projet qui m'est le plus familier : un agent d'IA ou un chatbot d'IA.

Vous pouvez répondre aux questions suivantes pour définir l'étendue de votre projet :

Où voudrais-je que mon agent d'intelligence artificielle vive ?Slack, WhatsAppun widget de site web, etc.)
Quelles sont les connaissances qu'il doit posséder, où se trouvent-elles ?
Quelles sont les capacités dont il devrait disposer, en dehors de la réponse aux questions de connaissance, le cas échéant ?
Doit-il s'activer lorsque quelque chose se produit dans l'entreprise ?

Décharger l'ingénierie pour économiser des dollars

Pour que votre projet devienne réalité, il est essentiel que votre budget soit le plus serré possible. L'un des moyens d'y parvenir est de réduire le temps d'ingénierie en découplant les exigences.

De nos jours, nous avons accès à des solutions low-code comme Flutterflow, Shopify, qui peuvent être utilisées par des rôles traditionnellement non techniques comme les chefs de produit. Les chatbots ne font pas exception, et certaines plateformes d'automatisation de l'IA vous permettent même d'utiliser votre propre LLM.

Vous pouvez demander aux ingénieurs de se concentrer sur l'hébergement du LLM et la mise en place de la plateforme d'automatisation. Cela libère les analystes commerciaux, les gestionnaires de produits et d'autres rôles connexes pour construire des agents d'intelligence artificielle qui répondent aux exigences de l'entreprise.

Lorsque quelque chose de supplémentaire est nécessaire, ces plateformes permettent généralement aux ingénieurs d'ajouter du code. Vous conservez ainsi les avantages d'un modèle personnalisé, tout en gagnant en flexibilité, en rapidité et en prix.

Offrir une liberté d'action en matière d'ingénierie pour résoudre les problèmes de l'entreprise

D'autre part, il arrive que les problèmes des entreprises soient tout simplement très difficiles à résoudre.

Nous parlons ici d'applications LLM entièrement connectées au réseau, d'applications sur appareil ou de projets nécessitant de doter les chatbots de capacités extrêmement avancées qui ne se limitent pas à la synchronisation de données entre deux plateformes.

Dans ce cas, il est logique de laisser aux ingénieurs la liberté d'utiliser les outils qui leur conviennent le mieux. Il s'agit généralement d'écrire du code, et les parties prenantes jouent simplement le rôle de gestionnaires de projet.

Considérations stratégiques pour la personnalisation d'un LLM

Le choix d'un site LLM personnalisé pour votre projet d'IA ne se résume pas à la sélection du meilleur modèle - il s'agit de prendre des décisions stratégiques en adéquation avec vos objectifs.

Les modèles personnalisés offrent de la flexibilité, du contrôle et la possibilité d'optimiser des tâches spécifiques, mais ils s'accompagnent également d'une complexité accrue. Commencez par un modèle standard, expérimentez l'ingénierie rapide et affinez progressivement.

N'oubliez pas que le bon modèle doit correspondre aux besoins de votre entreprise, et pas seulement à votre technologie stack.

Personnalisation avec des plateformes puissantes

Prêt à faire passer votre projet d'IA à la vitesse supérieure ?

Botpress est une plateforme d'agents d'intelligence artificielle entièrement extensible et flexible. Notre site stack permet aux développeurs de créer des chatbots et des agents d'IA pour tous les cas d'utilisation possibles.

Nous disposons d'une solide plateforme d'éducation, Botpress Academyainsi qu'une chaîne YouTube détaillée. Notre site Discord héberge plus de 20 000 bot builders, ce qui vous permet d'obtenir à tout moment l'assistance dont vous avez besoin.

‍Startbuilding today. C'est gratuit.

Construire l'IA Chatbots

Créer des chatbots personnalisés

Commencer maintenant

FAQ

1. Comment évaluer le retour sur investissement d'un LLM personnalisé pour mon entreprise ?

To evaluate the ROI of investing in a custom LLM for your business, compare total costs (e.g., infrastructure, developer time, fine-tuning, and hosting) against measurable gains like labor reduction and conversion lift.

2. Quels sont les indicateurs clés de performance à suivre pour mesurer l'efficacité d'un LLM personnalisé ?

You should track KPIs such as response accuracy (precision/recall or task completion), latency (average response time), user satisfaction (CSAT/NPS), containment or resolution rate, and cost per interaction. These metrics reflect the technical performance of the model and its impact on business outcomes.

3. Comment puis-je estimer le coût de maintenance à long terme d'une solution LLM personnalisée ?

To estimate long-term maintenance costs for a custom LLM solution, include expenses for infrastructure (cloud compute, storage), engineering updates, retraining or fine-tuning frequency, monitoring tools, and adapting to regulatory changes. If your business data evolves rapidly, expect higher retraining and validation overhead over time.

4. Comment puis-je comparer différents LLMs pour mon secteur d'activité ou mon domaine spécifique ?

Benchmark different LLMs by testing them with representative, domain-specific prompts and comparing their performance on accuracy, clarity, tone, and task relevance. You can use internal datasets or apply open-source industry benchmarks like FinancialQA or MedQA depending on your sector.

5. Quelles sont les normes de conformité qu'un LLM personnalisé doit respecter si je manipule des données d'utilisateur ?

If you’re handling user data, your custom LLM should meet standards like GDPR (for EU data privacy), SOC 2 Type II (for operational security), and HIPAA (if handling healthcare data). The LLM provider should offer features like role-based access, data encryption in transit and at rest, audit logging, and clear policies for data retention and deletion.