5
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Susunod na aralin
Susunod na aralin
Sa araling ito

Marami na tayong napag-usapan tungkol sa pag-optimize ng teksto, pero kung may mga larawan o talahanayan ang iyong mga dokumento, mahalagang magdagdag ng ilang hakbang para masigurong magagamit din ng iyong agent ang mga ito. Ang di-tekstuwal na nilalaman tulad ng mga larawan, tsart, at talahanayan ay maaaring naglalaman ng mahahalagang impormasyon, ngunit kung hindi maayos ang paghahanda, maaaring balewalain o mali ang pagkaintindi ng LLM sa mga ito.

Simulan natin sa mga larawan. Kung may mga larawan ang iyong mga dokumento—maaaring larawan ng produkto o istiladong teksto—mainam na i-convert muna ito sa payak na teksto bago i-upload ang iyong file. Ipe-preprocess pa rin ng Botpress ang iyong mga file kapag in-upload mo, kaya para makakuha ng pare-parehong sagot mula sa iyong mga file, pinakamainam na ikaw na mismo ang mag-convert nito.

Halimbawa, tingnan natin ang isang istiladong menu ng restawran. Bago ito gawing plaintext file, ganito ang itsura ng impormasyong makukuha ng LLM matapos itong ma-parse. Ngunit kung iko-convert natin ito sa markdown bago i-upload (o gamitin ang built-in na rich text editor ng Botpress), mas mapagkakatiwalaan ang mga resulta.

Ngayon naman, pag-usapan natin ang mga talahanayan at estrukturadong datos. Kung maglalagay ka ng mga talahanayan sa iyong mga dokumento, tandaan na bago isagawa ang RAG, iko-convert muna ang iyong mga file sa markdown. Dito, may dalawang pagpipilian ka. Maaari mong gawing knowledge base ang built-in na talahanayan ng Botpress para maging estrukturado ang iyong impormasyon, o gumamit ng talahanayang naka-format sa markdown tulad nito.

Ang pag-optimize ng di-tekstuwal na nilalaman ay nangangahulugang pagproseso ng mga larawan gamit ang OCR, pagdagdag ng mga deskripsyon para sa mas komplikadong biswal, at pagtiyak na ang mga talahanayan ay nakaayos sa paraang magagamit ng iyong AI agent. Layunin natin dito na gawing madaling basahin ng LLM ang buong dataset—kasama ang teksto at di-tekstuwal na nilalaman.

Buod
I-convert ang mga larawan at istiladong dokumento sa payak na teksto, i-optimize ang mga talahanayan gamit ang estrukturadong pag-format o markdown, at iproseso ang mga di-tekstuwal na nilalaman upang matiyak na tama ang pag-unawa at paggamit ng iyong AI agent sa lahat ng impormasyon sa iyong dataset.
lahat ng aralin sa kursong ito
Fresh green broccoli floret with thick stalks.