A la hora de preparar los datos para el GAR, cada detalle del formato y la estructura del documento es importante. Empecemos por lo básico: los tipos de archivo que utilizas.
En primer lugar, asegúrate de que tus archivos están en formatos compatibles. Entre ellos se incluyen los más utilizados, como PDF, documentos de Word, archivos HTML, Markdown y texto sin formato. Botpress Studio admite todos estos formatos de archivo. En general, evita utilizar tipos de archivo que no puedan analizarse fácilmente, como documentos basados en imágenes con un formato complejo. Sin una extracción adecuada, estos archivos no pueden ser leídos por LLM, lo que limita la capacidad de su agente para comprender o responder con precisión.
Cuando usted carga un archivo para utilizarlo como base de conocimientos de un agente en Botpress, convertimos automáticamente el archivo a markdown. Si quiere asegurarse de que su agente proporciona respuestas fiables de forma consistente, puede subir usted mismo un archivo markdown sin procesar, o utilizar el tipo de base de conocimientos Rich Text, que también es solo markdown.
Más allá del tipo de archivo, la forma de organizar el contenido del documento es igual de importante. Dividir los archivos en una estructura clara y lógica -con secciones, títulos, encabezados y subencabezados diferenciados- puede mejorar enormemente la capacidad del agente para comprender y recuperar la información. Presta especial atención a los encabezados de tus documentos: con una jerarquía clara de la información designada mediante encabezados, LLM puede categorizar mejor la información, lo que mejora su capacidad para recuperar conocimientos relevantes en función de las consultas de los usuarios.
La teoría general es que el documento sea fácilmente comprensible. En otras palabras, si se le entrega este documento a alguien sin ningún tipo de conocimiento sobre su sector o servicio, debería ser capaz de entender la información que contiene.
Botpress utiliza un enfoque semántico para los títulos y subtítulos, lo que significa que durante el paso de vectorización prestamos atención a los segmentos lógicos de sus archivos que deben agruparse para su recuperación. Pero confiamos en la estructura de su documento para hacer esto con precisión: si su título está siendo analizado como parte del cuerpo principal de su texto, esto causará problemas en la capacidad de su agente para recuperar información de esta sección de manera consistente.
En resumen, dedicar un poco de tiempo a organizar y normalizar los archivos contribuye en gran medida a mejorar la capacidad del agente para procesar y recuperar información precisa.