Lors de la préparation des données pour le RAG, chaque détail du formatage et de la structure des documents compte. Commençons par l’essentiel : les types de fichiers que vous utilisez.
Tout d’abord, assurez-vous que vos fichiers sont dans des formats pris en charge. Cela inclut les types courants comme les PDF, documents Word, fichiers HTML, Markdown et texte brut. Botpress Studio prend en charge tous ces formats. De manière générale, évitez les types de fichiers difficiles à analyser, comme les documents image avec une mise en page complexe. Sans extraction adaptée, ces fichiers ne peuvent pas être lus par un LLM, ce qui limite la capacité de votre agent à comprendre ou à répondre correctement.
Lorsque vous importez un fichier pour l’utiliser comme base de connaissances d’un agent dans Botpress, nous le convertissons automatiquement en markdown. Si vous souhaitez garantir des réponses fiables et cohérentes de la part de votre agent, vous pouvez importer directement un fichier markdown brut, ou utiliser le type de base de connaissances Texte enrichi, qui correspond également à du markdown.
Au-delà du type de fichier, la façon dont vous organisez le contenu de votre document est tout aussi importante. Découper vos fichiers en une structure claire et logique — avec des sections distinctes, des titres, des en-têtes et des sous-titres — améliore nettement la capacité de votre agent à comprendre et retrouver l’information. Portez une attention particulière aux titres de vos documents : grâce à une hiérarchie d’information claire via les titres, un LLM peut mieux classer les informations, ce qui facilite la recherche de connaissances pertinentes selon les requêtes des utilisateurs.
L’idée principale ici est de rendre votre document facile à analyser. Autrement dit, si vous donniez ce document à quelqu’un sans aucun contexte sur votre secteur ou votre service, il devrait tout de même pouvoir comprendre les informations qu’il contient.
Botpress utilise une approche sémantique pour les titres et sous-titres, ce qui signifie qu’à l’étape de vectorisation, nous prêtons attention aux segments logiques de vos fichiers à regrouper pour la recherche. Mais nous nous appuyons sur la structure de votre document pour le faire correctement : si votre titre est interprété comme faisant partie du corps principal du texte, cela posera des problèmes pour que votre agent retrouve systématiquement l’information de cette section.
En résumé, consacrer un peu de temps à organiser et standardiser vos fichiers améliore considérablement la capacité de votre agent à traiter et retrouver des informations fiables.
