3
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
下一課
下一課
本課內容

現在我們已經介紹過檔案類型與格式,接下來要深入說明文字前處理。這個步驟會清理並簡化每份文件的內容,讓你的代理更容易理解並正確檢索所需資訊。

首先,移除任何無關的資料是很重要的。請思考文件中的每一段內容是否對回答潛在使用者問題有幫助。例如,如果你想回答產品型錄相關問題,與主題無關的法律聲明可能會造成困擾。將這些內容移除可以大幅減少雜訊,讓資料集更乾淨、搜尋更容易。同時,也建議清除多餘的中繼資料,以及可能在索引時造成干擾的頁首或頁尾。

這個流程的另一個重點是簡化文本本身。行話、技術用語或過於複雜的句子有時會造成語意不明。如果文件內容太複雜,不僅會拖慢處理速度,也可能導致答案不清楚。建議將內容較密集的部分重新表述,或移除非必要的專業術語,除非這些用語真的不可或缺。

如果文件中有冗長段落或複雜句子,也可以考慮使用自動簡化工具。這些工具能將艱澀的語句拆解成更短、更清楚的陳述,讓 Botpress 能更準確地分段與理解內容。

簡而言之,這個步驟的目標就是讓文本盡可能簡單明瞭且相關。透過移除不必要的資料並簡化語言,你能建立一個精煉且聚焦的資料集,提升檢索效能與準確性。

請記住,一個實用的原則是把你的 AI 代理當作一位對你的產品、產業或公司完全沒有背景知識的新同事來看待。

摘要
移除無關資料並簡化語言,打造乾淨且聚焦的資料集,提升 AI 智能代理的效能與檢索準確度。
本課程所有單元
Fresh green broccoli floret with thick stalks.