本課內容
現在我們已經介紹過檔案類型與格式,接下來要深入說明文字前處理。這個步驟會清理並簡化每份文件的內容,讓你的代理更容易理解並正確檢索所需資訊。
首先,移除任何無關的資料是很重要的。請思考文件中的每一段內容是否對回答潛在使用者問題有幫助。例如,如果你想回答產品型錄相關問題,與主題無關的法律聲明可能會造成困擾。將這些內容移除可以大幅減少雜訊,讓資料集更乾淨、搜尋更容易。同時,也建議清除多餘的中繼資料,以及可能在索引時造成干擾的頁首或頁尾。
這個流程的另一個重點是簡化文本本身。行話、技術用語或過於複雜的句子有時會造成語意不明。如果文件內容太複雜,不僅會拖慢處理速度,也可能導致答案不清楚。建議將內容較密集的部分重新表述,或移除非必要的專業術語,除非這些用語真的不可或缺。
如果文件中有冗長段落或複雜句子,也可以考慮使用自動簡化工具。這些工具能將艱澀的語句拆解成更短、更清楚的陳述,讓 Botpress 能更準確地分段與理解內容。
簡而言之,這個步驟的目標就是讓文本盡可能簡單明瞭且相關。透過移除不必要的資料並簡化語言,你能建立一個精煉且聚焦的資料集,提升檢索效能與準確性。
請記住,一個實用的原則是把你的 AI 代理當作一位對你的產品、產業或公司完全沒有背景知識的新同事來看待。
摘要
移除無關資料並簡化語言,打造乾淨且聚焦的資料集,提升 AI 智能代理的效能與檢索準確度。
本課程所有單元
