5
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
下一课
下一课
本课内容

我们已经多次讨论了文本优化,但如果您的文档包含图片或表格,还需要额外采取一些措施,确保这些元素也能被您的代理使用。非文本内容,如图片、图表和表格,可能包含有价值的信息,但如果没有仔细处理,大型语言模型可能会忽略或误解其中的信息。

我们先来说说图片。如果您的文档中包含图片,比如产品照片或非常有设计感的文本,建议在上传文件之前将其转换为纯文本。无论如何,Botpress在您上传文件后都会进行预处理,因此,想要从文件中获得一致的答案,最好的方法就是自己先进行转换。

以这个有设计感的餐厅菜单为例。在转换为纯文本文件之前,LLM能处理的信息在解析后大致如下。如果我们在上传前将其转换为Markdown格式(或使用内置的Botpress富文本编辑器),就能获得更加可靠的结果。

接下来,我们来谈谈表格和结构化数据。如果您的文档中包含表格,请记住,在执行RAG之前,您的文件会被转换为Markdown格式。在这里,您有两个选择:可以将内置的Botpress表格指定为知识库,使信息结构化;或者像这样使用Markdown格式的表格。

优化非文本内容意味着使用OCR处理图片,为复杂的视觉内容添加描述,并确保表格以AI代理能够使用的方式呈现。我们的目标是让整个数据集——包括文本和非文本内容——都便于LLM读取。

摘要
将图片和带有样式的文档转换为纯文本,使用结构化格式或Markdown优化表格,并处理非文本内容,确保您的AI代理能够准确理解并利用数据集中的所有信息。
本课程全部课程
Fresh green broccoli floret with thick stalks.