Academy
Como Otimizar Arquivos para RAG
Estruturando Dados para RAG
2
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Próxima lição
Próxima lição
Nesta lição

Ao preparar dados para RAG, cada detalhe na formatação e estrutura do documento é importante. Vamos começar pelo básico: os tipos de arquivos que você está utilizando.

Primeiro, certifique-se de que seus arquivos estejam em formatos compatíveis. Isso inclui tipos comuns como PDFs, documentos do Word, arquivos HTML, Markdown e texto simples. O Botpress Studio suporta todos esses formatos. De modo geral, evite usar tipos de arquivos que não podem ser facilmente processados, como documentos baseados em imagem com formatação complexa. Sem uma extração adequada, esses arquivos não podem ser lidos por um LLM, o que limita a capacidade do seu agente de compreender ou responder corretamente.

Quando você faz upload de um arquivo para ser usado como base de conhecimento de um agente no Botpress, nós automaticamente convertemos o arquivo para markdown. Se você quiser garantir que seu agente forneça respostas sempre confiáveis, pode enviar um arquivo markdown bruto ou usar o tipo de base de conhecimento Rich Text, que também é apenas markdown.

Agora, além do tipo de arquivo, a forma como você organiza o conteúdo do seu documento é igualmente importante. Dividir seus arquivos em uma estrutura clara e lógica — com seções distintas, títulos, cabeçalhos e subtítulos — pode melhorar muito a capacidade do seu agente de entender e recuperar informações. Preste atenção especial aos cabeçalhos do seu documento: com uma hierarquia de informações bem definida por meio dos cabeçalhos, um LLM consegue categorizar melhor as informações, aumentando a precisão na recuperação de conhecimento relevante conforme as perguntas dos usuários.

A ideia principal aqui é tornar seu documento fácil de ser interpretado. Ou seja, se você entregasse esse documento para alguém sem nenhum contexto sobre seu setor ou serviço, essa pessoa ainda deveria conseguir entender as informações contidas nele.

O Botpress utiliza uma abordagem semântica para títulos e subtítulos, o que significa que, durante a etapa de vetorização, damos atenção a segmentos lógicos dos seus arquivos que devem ser agrupados para recuperação. Mas dependemos da estrutura do seu documento para fazer isso corretamente: se o seu título for interpretado como parte do corpo principal do texto, isso pode causar problemas na capacidade do agente de recuperar informações dessa seção de forma consistente.

Em resumo, dedicar um tempo para organizar e padronizar seus arquivos faz toda a diferença na capacidade do seu agente processar e recuperar informações precisas.

Resumo
Em resumo, dedicar um tempo para organizar e padronizar seus arquivos faz toda a diferença na capacidade do seu agente processar e recuperar informações precisas.
todas as lições deste curso
Fresh green broccoli floret with thick stalks.