Cómo optimizar archivos para RAG | Estructuración de datos para RAG

Cursos

Principiante

Tu primer Agente de IA

Interfaz de Studio

Interfaz de Dashboard

Intermedio

Precios

Nodos autónomos

Avanzado

Optimización de archivos para RAG

En esta lección

Al preparar datos para RAG, cada detalle en el formato y la estructura del documento es importante. Empecemos por lo básico: los tipos de archivo que utilizas.

Primero, asegúrate de que tus archivos estén en formatos compatibles. Esto incluye tipos comunes como PDF, documentos de Word, archivos HTML, Markdown y texto plano. Botpress Studio admite todos estos formatos. En general, evita usar tipos de archivo que no puedan analizarse fácilmente, como documentos basados en imágenes con formatos complejos. Sin una extracción adecuada, estos archivos no pueden ser leídos por un LLM, lo que limita la capacidad de tu agente para comprender o responder correctamente.

Cuando subes un archivo para usarlo como base de conocimientos de un agente en Botpress, lo convertimos automáticamente a markdown. Si quieres asegurarte de que tu agente brinde respuestas fiables de forma constante, puedes subir directamente un archivo markdown sin procesar, o utilizar el tipo de base de conocimientos Rich Text, que también es markdown.

Ahora bien, más allá del tipo de archivo, la forma en que organizas el contenido de tu documento es igual de importante. Dividir tus archivos en una estructura clara y lógica—con secciones, títulos, encabezados y subencabezados diferenciados—puede mejorar mucho la capacidad de tu agente para comprender y recuperar información. Presta especial atención a los encabezados de tus documentos: con una jerarquía de información clara a través de los encabezados, un LLM puede categorizar mejor la información, mejorando su capacidad para recuperar conocimientos relevantes según las consultas de los usuarios.

La idea principal aquí es que tu documento sea fácil de analizar. Es decir, si entregaras este documento a alguien sin ningún contexto sobre tu industria o servicio, esa persona igualmente debería poder entender la información que contiene.

Botpress utiliza un enfoque semántico para los encabezados y subencabezados, lo que significa que durante el paso de vectorización prestamos atención a los segmentos lógicos de tus archivos que deberían agruparse para su recuperación. Pero dependemos de la estructura de tu documento para hacerlo correctamente: si tu título se analiza como parte del cuerpo principal del texto, eso generará problemas en la capacidad de tu agente para recuperar información de esa sección de forma consistente.

En resumen, dedicar un poco de tiempo a organizar y estandarizar tus archivos mejora significativamente la capacidad de tu agente para procesar y recuperar información precisa.

Resumen

En resumen, dedicar un poco de tiempo a organizar y estandarizar tus archivos mejora significativamente la capacidad de tu agente para procesar y recuperar información precisa.

todas las lecciones de este curso

Introducción al curso

2 min

Estructuración de datos para RAG

1 min

Preprocesamiento de texto

2 min

Mejorar el contenido de los documentos

2 min

Imágenes y tablas

3 min

Mantenimiento y validación

2 min

Fresh green broccoli floret with thick stalks.