Academy
Como otimizar ficheiros para RAG
Pré-processamento de texto
Nesta lição

Agora que já abordamos os tipos de arquivo e a formatação, vamos mergulhar no pré-processamento de texto. Esta é a etapa em que limpamos e simplificamos o conteúdo de cada documento para facilitar a compreensão e a obtenção das informações corretas pelo seu agente.

Em primeiro lugar, é essencial remover quaisquer dados irrelevantes. Pense se cada parte do conteúdo do seu documento é útil para responder a potenciais perguntas dos utilizadores. Por exemplo, se quiser responder a perguntas sobre um catálogo de produtos, as isenções de responsabilidade legais que não são diretamente relevantes podem causar problemas. A sua remoção pode reduzir significativamente o ruído, tornando o seu conjunto de dados mais limpo e mais fácil de pesquisar. É também uma boa ideia limpar quaisquer metadados extra, bem como rodapés ou cabeçalhos que possam criar distracções durante a indexação.

Outra parte importante deste processo é a simplificação do próprio texto. O jargão, a linguagem técnica ou as frases demasiado complexas podem, por vezes, introduzir ambiguidade. Se o documento for demasiado complexo, pode não só atrasar o processamento, como também levar a respostas pouco claras. Considere reformular secções densas ou remover termos específicos do sector, a menos que sejam absolutamente essenciais.

Se o documento contiver parágrafos longos ou frases complicadas, pode até ser útil utilizar ferramentas de simplificação automatizadas. Estas ferramentas podem decompor uma linguagem densa em frases mais curtas e claras, facilitando a análise e interpretação correta do conteúdo por parte do Botpress .

Em suma, o objetivo aqui é tornar o texto tão simples e relevante quanto possível. Ao remover os dados desnecessários e simplificar a linguagem, está a criar um conjunto de dados optimizado e focado que melhora o desempenho e a precisão da recuperação.

Lembre-se, uma boa regra geral é tratar o seu agente de IA como um novo colega de trabalho sem qualquer contexto sobre o seu produto, sector ou negócio.

Resumo
Remova os dados irrelevantes e simplifique a linguagem para criar um conjunto de dados limpo e direcionado que melhora o desempenho do agente de IA e a precisão da recuperação.
todas as lições deste curso