5
rag
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Leçon suivante
Leçon suivante
Dans cette leçon

Nous avons beaucoup parlé de l’optimisation du texte, mais si vos documents contiennent des images ou des tableaux, il est important de prendre quelques mesures supplémentaires pour que ces éléments soient également exploitables par votre agent. Les contenus non textuels comme les images, graphiques et tableaux peuvent contenir des informations précieuses, mais sans préparation adéquate, un LLM risque de les ignorer ou de mal les interpréter.

Commençons par les images. Si vos documents comportent des images, qu’il s’agisse d’une photo de produit ou même de texte très stylisé, il est vivement conseillé de les convertir en texte brut avant de téléverser votre fichier. Botpress prétraite vos fichiers de toute façon lors du téléversement, donc pour obtenir des réponses cohérentes, le mieux est de faire la conversion vous-même.

Prenons par exemple ce menu de restaurant stylisé. Avant de le convertir en fichier texte brut, les informations dont dispose le LLM ressemblent à ceci, une fois le document analysé. En revanche, si nous le convertissons en markdown avant de le téléverser (ou en utilisant l’éditeur de texte enrichi intégré de Botpress), nous obtenons des résultats bien plus fiables.

Passons maintenant aux tableaux et aux données structurées. Si vous incluez des tableaux dans vos documents, gardez à l’esprit qu’avant d’effectuer le RAG, vos fichiers sont convertis en markdown. Vous avez alors deux options. Vous pouvez désigner un tableau intégré de Botpress comme base de connaissances, afin que vos informations soient structurées, ou utiliser un tableau au format markdown comme ceci.

Optimiser le contenu non textuel consiste à traiter les images avec un OCR, à ajouter des descriptions pour les visuels complexes et à présenter les tableaux de façon à ce que votre agent IA puisse les exploiter. L’objectif ici est de rendre l’ensemble du jeu de données — texte comme contenu non textuel — facile à lire pour un LLM.

Résumé
Convertissez les images et les documents stylisés en texte brut, optimisez les tableaux avec une mise en forme structurée ou en markdown, et traitez les contenus non textuels pour que votre agent IA puisse interpréter et utiliser correctement toutes les informations de votre jeu de données.
toutes les leçons de ce cours
Fresh green broccoli floret with thick stalks.