5
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
下一課
下一課
本課內容

我們已經討論過許多關於優化文字的方式,但如果您的文件包含圖片或表格,還需要額外幾個步驟,確保這些元素同樣能被代理使用。像非文字內容(例如圖片、圖表和表格)可能包含重要資訊,但如果沒有妥善處理,LLM可能會忽略或誤解其中的內容。

我們先從圖片開始。如果您的文件中有任何圖片,無論是產品照片還是設計感很強的文字,建議您在上傳檔案之前,先將其轉換為純文字。Botpress在您上傳檔案後會自動預處理,但為了讓檔案回覆更一致,建議您自行先行轉換。

以這份設計感十足的餐廳菜單為例。在轉換為純文字檔之前,LLM能處理的資訊如圖所示,經過解析後內容有限。如果我們在上傳前將其轉換為Markdown格式(或使用Botpress內建的富文字編輯器),就能獲得更可靠的結果。

接下來談談表格與結構化資料。如果您的文件中包含表格,請記得在執行RAG之前,您的檔案會被轉換為Markdown格式。這裡有兩種做法:您可以將Botpress內建表格設為知識庫,讓資訊結構化;或是像這樣使用Markdown格式的表格。

優化非文字內容,意味著利用OCR處理圖片,為複雜的視覺資料加上描述,並確保表格以AI代理能理解的方式呈現。我們的目標是讓整個資料集——包括文字與非文字內容——都能讓LLM輕鬆讀取。

摘要
將圖片和具設計感的文件轉換為純文字,使用結構化格式或Markdown優化表格,並處理非文字內容,以確保您的AI代理能準確解讀並運用資料集中的所有資訊。
本課程所有單元
Fresh green broccoli floret with thick stalks.