Academy
Comment optimiser les fichiers pour RAG
Structurer les données pour le RAG
Dans cette leçon

Lors de la préparation des données pour le RAG, chaque détail du formatage et de la structure du document a son importance. Commençons par l'essentiel : les types de fichiers que vous utilisez.

Tout d'abord, assurez-vous que vos fichiers sont dans des formats pris en charge. Il s'agit des formats les plus courants tels que les PDF, les documents Word, les fichiers HTML, les fichiers Markdown et le texte brut. Le studio Botpress prend en charge tous ces formats de fichiers. En général, évitez d'utiliser des types de fichiers qui ne peuvent pas être facilement analysés, tels que les documents basés sur des images avec un formatage complexe. Sans une extraction appropriée, ces fichiers ne peuvent pas être lus par LLM, ce qui limite la capacité de votre agent à comprendre ou à répondre avec précision.

Lorsque vous téléchargez un fichier destiné à être utilisé comme base de connaissances par un agent sur Botpress, nous le convertissons automatiquement au format markdown. Si vous voulez vous assurer que votre agent fournit des réponses toujours fiables, vous pouvez télécharger vous-même un fichier markdown brut ou utiliser le type de base de connaissances Rich Text, qui n'est également que du markdown.

Au-delà du type de fichier, la manière dont vous organisez le contenu de votre document est tout aussi importante. L'organisation de vos fichiers selon une structure claire et logique - avec des sections, des titres, des en-têtes et des sous-titres distincts - peut grandement améliorer la capacité de votre agent à comprendre et à retrouver les informations. Accordez une attention particulière aux titres de votre document : avec une hiérarchie claire des informations désignée par des titres, LLM peut mieux catégoriser les informations, améliorant ainsi sa capacité à retrouver les connaissances pertinentes en fonction des requêtes des utilisateurs.

L'objectif principal est de rendre votre document facilement compréhensible. En d'autres termes, si vous remettez ce document à quelqu'un qui n'a aucune connaissance de votre secteur d'activité ou de vos services, cette personne doit être en mesure de comprendre les informations qu'il contient.

Botpress utilise une approche sémantique des titres et sous-titres, ce qui signifie qu'au cours de l'étape de vectorisation, nous prêtons attention aux segments logiques de vos fichiers qui devraient être regroupés pour la recherche. Mais nous nous appuyons sur la structure de votre document pour le faire avec précision : si votre titre est analysé comme faisant partie du corps principal de votre texte, cela posera des problèmes à votre agent, qui ne pourra pas extraire les informations de cette section de manière cohérente.

En bref, un peu de temps consacré à l'organisation et à la normalisation de vos dossiers contribue grandement à améliorer la capacité de votre agent à traiter et à récupérer des informations exactes.

Résumé
En bref, un peu de temps consacré à l'organisation et à la normalisation de vos dossiers contribue grandement à améliorer la capacité de votre agent à traiter et à récupérer des informations exactes.
toutes les leçons de ce cours