本課內容
在為 RAG 準備資料時,文件的格式與結構每個細節都很重要。我們先從基本的檔案類型開始說明。
首先,請確保你的檔案格式是支援的,包括常見的 PDF、Word 文件、HTML 檔案、Markdown 以及純文字。Botpress Studio 支援這些檔案格式。一般來說,請避免使用難以解析的檔案類型,例如格式複雜的影像型文件。這類檔案若無法正確擷取內容,LLM 就無法讀取,也會限制代理人理解或正確回應的能力。
當你將檔案上傳到 Botpress 作為代理人的知識庫時,我們會自動將檔案轉換為 markdown。如果你希望代理人能夠持續提供可靠的答案,可以直接上傳原始 markdown 檔案,或使用 Rich Text 知識庫類型(本質上也是 markdown)。
除了檔案類型之外,文件內容的組織方式同樣重要。將檔案分成清楚且有邏輯的結構——包含明確的章節、標題、大標與小標——能大幅提升代理人理解與擷取資訊的能力。特別要注意文件的標題階層:有明確資訊層級的標題,LLM 才能更好地分類資訊,提升根據用戶提問擷取相關知識的能力。
整體原則就是讓你的文件容易被解析。換句話說,即使你把這份文件交給完全不了解你產業或服務的人,他們也應該能看懂裡面的資訊。
Botpress 採用語意方式處理標題與小標題,也就是在向量化步驟時,會特別注意檔案中邏輯上應該被歸在一起的區段。但我們必須依賴你文件的結構來準確執行:如果你的標題被解析成正文的一部分,代理人在這個區段擷取資訊時就會出現問題。
簡單來說,花點時間整理和標準化你的檔案,能大幅提升代理人處理與擷取正確資訊的能力。
摘要
簡單來說,花點時間整理和標準化你的檔案,能大幅提升代理人處理與擷取正確資訊的能力。
本課程所有單元
