Academy
如何為 RAG 優化檔案
為 RAG 建構資料
在本課中

為 RAG 準備資料時,文件格式和結構的每個細節都很重要。讓我們從最基本的開始:您使用的檔案類型。

首先,確保您的檔案是支援的格式。這包括 PDF、Word 文件、HTML 文件、Markdown 和純文字等常用類型。Botpress Studio 支援所有這些檔案格式。一般而言,請避免使用無法輕易解析的檔案類型,例如格式複雜的影像式文件。如果沒有適當的擷取,這些檔案就無法被LLM 讀取,這會限制您的代理瞭解或準確回應的能力。

當您在Botpress 上傳要用作代理知識庫的檔案時,我們會自動將檔案轉換為 markdown。如果您想確保您的代理提供一致可靠的答案,您可以自己上傳原始的 markdown 檔案,或使用 Rich Text 知識庫類型,它也只是 markdown。

除了檔案類型之外,組織文件內容的方式也同樣重要。將您的檔案分割成清晰且符合邏輯的結構 - 包含不同的區段、標題、標題和副標題 - 可以大幅提升您的經紀人理解和擷取資訊的能力。請特別注意文件的標題:透過標題指定明確的資訊階層,LLM 可以更好地對資訊進行分類,從而提高根據使用者查詢檢索相關知識的能力。

這裡最重要的理論是讓您的文件容易被解析。換句話說,如果您將這份文件交給對您的產業或服務完全不瞭解的人,他們應該仍能瞭解其中所包含的資訊。

Botpress 對於標題和副標題使用語義方法,這意味著在向量化步驟中,我們會注意您文件中應該組合起來進行檢索的邏輯片段。但是,我們必須依賴您的文件結構才能準確地做到這一點:如果您的標題被解析為正文的一部分,這將會導致您的代理無法從這一部分持續擷取資訊。

簡而言之,花少許時間整理和標準化您的檔案,就能大大提升您的經紀人處理和檢索準確資訊的能力。

摘要
簡而言之,花少許時間整理和標準化您的檔案,就能大大提升您的經紀人處理和檢索準確資訊的能力。
本課程的所有課程