Al preparar datos para RAG, cada detalle en el formato y la estructura del documento es importante. Empecemos por lo básico: los tipos de archivo que utilizas.
Primero, asegúrate de que tus archivos estén en formatos compatibles. Esto incluye tipos comunes como PDF, documentos de Word, archivos HTML, Markdown y texto plano. Botpress Studio admite todos estos formatos. En general, evita usar tipos de archivo que no puedan analizarse fácilmente, como documentos basados en imágenes con formatos complejos. Sin una extracción adecuada, estos archivos no pueden ser leídos por un LLM, lo que limita la capacidad de tu agente para comprender o responder correctamente.
Cuando subes un archivo para usarlo como base de conocimientos de un agente en Botpress, lo convertimos automáticamente a markdown. Si quieres asegurarte de que tu agente brinde respuestas fiables de forma constante, puedes subir directamente un archivo markdown sin procesar, o utilizar el tipo de base de conocimientos Rich Text, que también es markdown.
Ahora bien, más allá del tipo de archivo, la forma en que organizas el contenido de tu documento es igual de importante. Dividir tus archivos en una estructura clara y lógica—con secciones, títulos, encabezados y subencabezados diferenciados—puede mejorar mucho la capacidad de tu agente para comprender y recuperar información. Presta especial atención a los encabezados de tus documentos: con una jerarquía de información clara a través de los encabezados, un LLM puede categorizar mejor la información, mejorando su capacidad para recuperar conocimientos relevantes según las consultas de los usuarios.
La idea principal aquí es que tu documento sea fácil de analizar. Es decir, si entregaras este documento a alguien sin ningún contexto sobre tu industria o servicio, esa persona igualmente debería poder entender la información que contiene.
Botpress utiliza un enfoque semántico para los encabezados y subencabezados, lo que significa que durante el paso de vectorización prestamos atención a los segmentos lógicos de tus archivos que deberían agruparse para su recuperación. Pero dependemos de la estructura de tu documento para hacerlo correctamente: si tu título se analiza como parte del cuerpo principal del texto, eso generará problemas en la capacidad de tu agente para recuperar información de esa sección de forma consistente.
En resumen, dedicar un poco de tiempo a organizar y estandarizar tus archivos mejora significativamente la capacidad de tu agente para procesar y recuperar información precisa.
