Kapag naghahanda ng data para sa RAG, mahalaga ang bawat detalye sa pag-format at istraktura ng dokumento. Magsimula tayo sa mga pangunahing kaalaman: ang mga uri ng file na iyong ginagamit.
Una, tiyaking nasa mga sinusuportahang format ang iyong mga file. Kabilang dito ang mga karaniwang ginagamit na uri tulad ng mga PDF, Word documents, HTML file, Markdown, at plain text. Ang Botpress Sinusuportahan ng studio ang lahat ng mga format ng file na ito. Sa pangkalahatan, iwasang gumamit ng mga uri ng file na hindi madaling ma-parse, gaya ng mga dokumentong nakabatay sa imahe na may kumplikadong pag-format. Kung walang wastong pagkuha, ang mga file na ito ay hindi mababasa ng isang LLM , na naglilimita sa kakayahan ng iyong ahente na maunawaan o tumugon nang tumpak.
Kapag nag-upload ka ng file na gagamitin bilang knowledge base ng ahente Botpress , awtomatiko naming kino-convert ang file sa markdown. Kung gusto mong tiyakin na ang iyong ahente ay nagbibigay ng patuloy na maaasahang mga sagot, maaari kang mag-upload ng isang raw markdown file sa iyong sarili, o gamitin ang Rich Text na uri ng knowledge base, na markdown lang din.
Ngayon, lampas sa uri ng file, ang paraan ng iyong pag-aayos ng nilalaman ng iyong dokumento ay kasinghalaga. Ang paghahati-hati ng iyong mga file sa isang malinaw at lohikal na istraktura—na may natatanging mga seksyon, pamagat, heading, at subheading—ay lubos na makakapagpahusay sa kakayahan ng iyong ahente na maunawaan at makuha ang impormasyon. Bigyang-pansin ang mga heading ng iyong dokumento: na may malinaw na hierarchy ng impormasyon na itinalaga sa pamamagitan ng mga heading, an LLM maaaring mas mahusay na ikategorya ang impormasyon, pagpapabuti ng kakayahan nitong kunin ang may-katuturang kaalaman batay sa mga query ng user.
Ang pangkalahatang teorya dito ay upang gawing madaling ma-parsable ang iyong dokumento. Sa madaling salita, kung ibibigay mo ang dokumentong ito sa isang taong walang anumang konteksto tungkol sa iyong industriya o serbisyo, dapat pa rin nilang maunawaan ang impormasyong nilalaman nito.
Botpress ay gumagamit ng isang semantic na diskarte sa mga heading at subheading, na nangangahulugan na sa panahon ng vectorizing hakbang binibigyang-pansin namin ang mga lohikal na segment ng iyong mga file na dapat pagsama-samahin para sa pagkuha. Ngunit umaasa kami sa istraktura ng iyong dokumento upang gawin ito nang tumpak: kung ang iyong pamagat ay na-parse bilang bahagi ng pangunahing katawan ng iyong teksto, magdudulot iyon ng problema sa kakayahan ng iyong ahente na patuloy na kumuha ng impormasyon mula sa seksyong ito.
Sa madaling salita, ang kaunting oras na ginugugol sa pag-aayos at pag-standardize ng iyong mga file ay napupunta nang malaki sa pagpapabuti ng kakayahan ng iyong ahente na iproseso at makuha ang tumpak na impormasyon.