Academy
Como otimizar ficheiros para RAG
Estruturação de dados para RAG
Nesta lição

Ao preparar os dados para o RAG, todos os pormenores da formatação e estrutura dos documentos são importantes. Comecemos pelo básico: os tipos de ficheiros que está a utilizar.

Em primeiro lugar, certifique-se de que os seus ficheiros estão em formatos suportados. Isto inclui os tipos mais utilizados, como PDFs, documentos Word, ficheiros HTML, Markdown e texto simples. O Botpress Studio suporta todos esses formatos de arquivo. Em geral, evite usar tipos de arquivo que não possam ser facilmente analisados, como documentos baseados em imagens com formatação complexa. Sem a extração adequada, estes ficheiros não podem ser lidos por um LLM, o que limita a capacidade do seu agente para compreender ou responder com precisão.

Quando carrega um ficheiro para ser utilizado como base de conhecimentos de um agente em Botpress, convertemos automaticamente o ficheiro para markdown. Se quiser garantir que o seu agente fornece respostas consistentemente fiáveis, pode carregar um ficheiro markdown em bruto ou utilizar o tipo de base de conhecimentos Rich Text, que também é apenas markdown.

Agora, para além do tipo de ficheiro, a forma como organiza o conteúdo do seu documento é igualmente importante. A divisão dos seus ficheiros numa estrutura clara e lógica - com secções, títulos, cabeçalhos e subtítulos distintos - pode melhorar significativamente a capacidade do seu agente para compreender e recuperar informações. Preste especial atenção aos cabeçalhos do seu documento: com uma hierarquia de informação clara designada por cabeçalhos, um LLM pode categorizar melhor a informação, melhorando a sua capacidade de recuperar conhecimento relevante com base nas consultas do utilizador.

A teoria geral aqui é tornar o seu documento facilmente analisável. Por outras palavras, se entregasse este documento a alguém sem qualquer contexto sobre o seu sector ou serviço, essa pessoa deveria ser capaz de compreender a informação nele contida.

Botpress utiliza uma abordagem semântica aos títulos e subtítulos, o que significa que, durante o passo de vectorização, prestamos atenção aos segmentos lógicos dos seus ficheiros que devem ser agrupados para recuperação. Mas dependemos da estrutura do seu documento para o fazer com precisão: se o seu título estiver a ser analisado como parte do corpo principal do seu texto, isso causará problemas na capacidade do seu agente para recuperar consistentemente informações desta secção.

Em suma, um pouco de tempo gasto a organizar e normalizar os seus ficheiros contribui muito para melhorar a capacidade do seu agente para processar e obter informações precisas.

Resumo
Em suma, um pouco de tempo gasto a organizar e normalizar os seus ficheiros contribui muito para melhorar a capacidade do seu agente para processar e obter informações precisas.
todas as lições deste curso