Academy
如何为 RAG 优化文件
为 RAG 构建数据结构
在本课中

为 RAG 准备数据时,文件格式和结构中的每个细节都很重要。让我们从最基本的开始:您使用的文件类型。

首先,确保您的文件是受支持的格式。这包括 PDF、Word 文档、HTML 文件、Markdown 和纯文本等常用类型。Botpress Studio 支持所有这些文件格式。一般来说,应避免使用不容易解析的文件类型,如格式复杂的基于图像的文档。如果没有适当的提取,LLM 就无法读取这些文件,从而限制了您的代理理解或准确回复的能力。

当您在Botpress 上传文件作为代理的知识库时,我们会自动将文件转换为 markdown。如果您想确保您的代理提供始终如一的可靠答案,可以自己上传原始标记符文件,或者使用富文本知识库类型,它也只是标记符。

除了文件类型,组织文件内容的方式也同样重要。将文件分成清晰、合理的结构,包括不同的章节、标题、标题和小标题,可以大大提高代理人理解和检索信息的能力。请特别注意文档的标题:通过标题指定清晰的信息层次结构,LLM 可以更好地对信息进行分类,从而提高根据用户查询检索相关知识的能力。

这里的首要理论是使您的文档易于解析。换句话说,如果你把这份文件交给一个对你的行业或服务完全不了解的人,他们应该仍然能够理解其中包含的信息。

Botpress 使用语义方法来处理标题和副标题,这意味着在矢量化步骤中,我们会关注文件中应被组合在一起进行检索的逻辑片段。但是,我们要依靠文件的结构才能准确地完成这项工作:如果标题被解析为正文的一部分,就会给代理从这一部分持续检索信息的能力带来问题。

总之,花一点时间整理和规范您的文件,对提高代理人处理和检索准确信息的能力大有裨益。

摘要
总之,花一点时间整理和规范您的文件,对提高代理人处理和检索准确信息的能力大有裨益。
本课程的所有课程