學院
如何最佳化 RAG 檔案
為 RAG 結構化資料
2
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
下一課
下一課
本課內容

在為 RAG 準備資料時,文件的格式與結構每個細節都很重要。我們先從基本的檔案類型開始說明。

首先,請確保你的檔案格式是支援的,包括常見的 PDF、Word 文件、HTML 檔案、Markdown 以及純文字。Botpress Studio 支援這些檔案格式。一般來說,請避免使用難以解析的檔案類型,例如格式複雜的影像型文件。這類檔案若無法正確擷取內容,LLM 就無法讀取,也會限制代理人理解或正確回應的能力。

當你將檔案上傳到 Botpress 作為代理人的知識庫時,我們會自動將檔案轉換為 markdown。如果你希望代理人能夠持續提供可靠的答案,可以直接上傳原始 markdown 檔案,或使用 Rich Text 知識庫類型(本質上也是 markdown)。

除了檔案類型之外,文件內容的組織方式同樣重要。將檔案分成清楚且有邏輯的結構——包含明確的章節、標題、大標與小標——能大幅提升代理人理解與擷取資訊的能力。特別要注意文件的標題階層:有明確資訊層級的標題,LLM 才能更好地分類資訊,提升根據用戶提問擷取相關知識的能力。

整體原則就是讓你的文件容易被解析。換句話說,即使你把這份文件交給完全不了解你產業或服務的人,他們也應該能看懂裡面的資訊。

Botpress 採用語意方式處理標題與小標題,也就是在向量化步驟時,會特別注意檔案中邏輯上應該被歸在一起的區段。但我們必須依賴你文件的結構來準確執行:如果你的標題被解析成正文的一部分,代理人在這個區段擷取資訊時就會出現問題。

簡單來說,花點時間整理和標準化你的檔案,能大幅提升代理人處理與擷取正確資訊的能力。

摘要
簡單來說,花點時間整理和標準化你的檔案,能大幅提升代理人處理與擷取正確資訊的能力。
本課程所有單元
Fresh green broccoli floret with thick stalks.