Marami kaming napag-usapan tungkol sa pag-optimize ng text, ngunit kung ang iyong mga dokumento ay naglalaman ng mga larawan o mga talahanayan, mahalagang gumawa ng ilang karagdagang hakbang upang matiyak na ang mga elementong ito ay magagamit din ng iyong ahente. Ang nilalamang hindi teksto tulad ng mga larawan, tsart, at talahanayan ay maaaring maglaman ng mahalagang impormasyon, ngunit nang walang maingat na paghahanda, isang LLM maaaring balewalain o maling pakahulugan ang impormasyong nilalaman nito.
Magsimula tayo sa mga larawan. Kung ang iyong mga dokumento ay naglalaman ng anumang mga larawan, na maaaring isang larawan ng isang produkto o kahit na napaka-istilong teksto, magandang ideya na i-convert iyon sa plain text bago i-upload ang iyong file. Botpress Paunang ipoproseso pa rin ang iyong mga file kapag na-upload mo na ang mga ito, kaya ang pinakamahusay na paraan para makakuha ng pare-parehong mga sagot mula sa iyong mga file ay ang mag-convert sa kanila mismo.
Kunin natin ang naka-istilong menu ng restaurant na ito bilang halimbawa. Bago ito i-convert sa isang plaintext file, ang impormasyon na ang LLM kailangang gumawa ng ganito, pagkatapos itong ma-parse. Sa halip, kung iko-convert natin ito sa markdown bago ito i-upload (o gamit ang built-in Botpress rich text editor), pagkatapos ay makakakuha tayo ng mas maaasahang mga resulta.
Susunod, pag-usapan natin ang tungkol sa mga talahanayan at structured data. Kung nagsasama ka ng mga talahanayan sa iyong mga dokumento, tandaan na bago isagawa ang RAG, ang iyong mga file ay iko-convert sa markdown. Dito, mayroon kang dalawang pagpipilian. Maaari kang magtalaga ng built-in Botpress talahanayan bilang isang base ng kaalaman, upang ang iyong impormasyon ay nakabalangkas, o maaari kang gumamit ng isang markdown-formatted na talahanayan tulad nito.
Nangangahulugan ang pag-optimize ng content na hindi texto sa pagpoproseso ng mga larawan gamit ang OCR, pagdaragdag ng mga paglalarawan para sa mga kumplikadong visual, at pagtiyak na maipapakita ang mga talahanayan sa paraang magagamit ng iyong AI agent. Dito, ang aming layunin ay gawing madali ang buong dataset—kabilang ang parehong nilalamang text at hindi teksto—para sa isang LLM magbasa.