5
trapo
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Próxima lección
Próxima lección
En esta lección

Hemos hablado mucho de optimizar el texto, pero si sus documentos contienen imágenes o tablas, es importante tomar algunas medidas adicionales para garantizar que estos elementos también sean utilizables por su agente. El contenido no textual, como imágenes, gráficos y tablas, puede contener información valiosa, pero sin una preparación cuidadosa, un LLM puede ignorar o malinterpretar la información que contienen.

Empecemos por las imágenes. Si tus documentos contienen alguna imagen, como una foto de un producto o incluso un texto muy estilizado, es una buena idea convertirlo a texto sin formato antes de subir el archivo. Botpress preprocesará tus archivos de todos modos una vez que los subas, así que la mejor manera de obtener respuestas coherentes de tus archivos es convertirlos tú mismo.

Tomemos como ejemplo este menú de restaurante estilizado. Antes de convertirlo en un archivo de texto plano, la información con la que tiene que trabajar LLM tiene este aspecto, una vez analizada. En cambio, si lo convertimos a markdown antes de subirlo (o si utilizamos el editor de texto enriquecido integrado en Botpress ), obtendremos resultados mucho más fiables.

A continuación, hablemos de tablas y datos estructurados. Si incluyes tablas en tus documentos, recuerda que antes de realizar el RAG, tus archivos se convierten a markdown. Aquí tienes dos opciones. Puedes designar una tabla incorporada en Botpress como base de conocimientos, de modo que tu información esté estructurada, o puedes utilizar una tabla con formato markdown como ésta.

Optimizar el contenido no textual significa procesar imágenes con OCR, añadir descripciones para elementos visuales complejos y asegurarse de que las tablas se presentan de forma que su agente de IA pueda utilizarlas. En este caso, nuestro objetivo es hacer que todo el conjunto de datos, incluido el contenido textual y no textual, sea fácil de leer para LLM .

Resumen
Convierta imágenes y documentos estilizados en texto sin formato, optimice tablas con formato estructurado o markdown y procese contenido no textual para garantizar que su agente de IA pueda interpretar y utilizar con precisión toda la información de su conjunto de datos.
todas las lecciones de este curso