在本課中

我們已談過許多關於優化文字的內容,但如果您的文件包含圖片或表格,則必須採取一些額外的步驟,以確保您的經紀人也能使用這些元素。圖片、圖表等非文字內容可以保存有價值的資訊,但如果沒有仔細準備,LLM ,可能會忽略或誤解它們所包含的資訊。

讓我們從圖像開始。如果您的文件包含任何圖片,可能是產品的照片,甚至是非常風格化的文字,最好上傳檔案之前將其轉換為純文字。無論如何,一旦您上傳檔案,Botpress 都會對您的檔案進行預處理,因此要從您的檔案中獲得一致的答案,最好的方法就是自己轉換它們。

讓我們以這個風格化的餐廳菜單為例。在將它轉換成純文字檔之前,LLM 要處理的資訊在經過解析之後,就會變成這個樣子。相反地,如果我們在上傳之前將它轉換成 markdown (或使用內建的Botpress 富文字編輯器),那麼我們就可以得到更可靠的結果。

接下來,讓我們談談表格和結構化資料。如果您的文件中包含表格,請記住在執行 RAG 之前,您的文件會轉換為 markdown。在此,您有兩個選擇。您可以將Botpress 內建的表格指定為知識庫,這樣您的資訊就結構化了,或者您也可以使用 Markdown 格式的表格,就像這樣。

優化非文字內容意味著使用 OCR 處理圖片、為複雜的視覺資料添加說明,以及確保表格以您的 AI 代理可以使用的方式呈現。在此,我們的目標是讓整個資料集 - 包括文字和非文字內容 - 讓LLM 容易閱讀。

摘要
將圖片和樣式化文件轉換為純文字、使用結構化格式或 markdown 優化表格,以及處理非文字內容,以確保您的 AI 代理能夠準確詮釋並利用資料集中的所有資訊。
本課程的所有課程