Academy
Cara Mengoptimumkan Fail untuk RAG
Menstruktur Data untuk RAG
Dalam pelajaran ini

Apabila menyediakan data untuk RAG, setiap butiran dalam pemformatan dokumen dan struktur penting. Mari kita mulakan dengan asas: jenis fail yang anda gunakan.

Pertama, pastikan fail anda dalam format yang disokong. Ini termasuk jenis yang biasa digunakan seperti PDF, dokumen Word, fail HTML, Markdown dan teks biasa. The Botpress Studio menyokong semua format fail ini. Secara umum, elakkan menggunakan jenis fail yang tidak boleh dihuraikan dengan mudah, seperti dokumen berasaskan imej dengan pemformatan yang kompleks. Tanpa pengekstrakan yang betul, fail ini tidak boleh dibaca oleh an LLM , yang mengehadkan keupayaan ejen anda untuk memahami atau bertindak balas dengan tepat.

Apabila anda memuat naik fail untuk digunakan sebagai pangkalan pengetahuan ejen dalam Botpress , kami menukar fail secara automatik kepada penurunan nilai. Jika anda ingin memastikan bahawa ejen anda memberikan jawapan yang boleh dipercayai secara konsisten, anda boleh memuat naik sendiri fail penurunan nilai mentah atau gunakan jenis pangkalan pengetahuan Teks Kaya, yang juga merupakan penurunan harga sahaja.

Kini, selain daripada jenis fail, cara anda menyusun kandungan dokumen anda adalah sama pentingnya. Memecahkan fail anda kepada struktur yang jelas dan logik—dengan bahagian, tajuk, tajuk dan subtajuk yang berbeza—boleh meningkatkan keupayaan ejen anda untuk memahami dan mendapatkan maklumat dengan ketara. Beri perhatian khusus kepada tajuk dokumen anda: dengan hierarki maklumat yang jelas ditetapkan melalui tajuk, a LLM boleh mengkategorikan maklumat dengan lebih baik, meningkatkan keupayaannya untuk mendapatkan semula pengetahuan yang berkaitan berdasarkan pertanyaan pengguna.

Teori menyeluruh di sini adalah untuk menjadikan dokumen anda mudah dihuraikan. Dalam erti kata lain, jika anda menyerahkan dokumen ini kepada seseorang yang tidak mempunyai konteks apa pun tentang industri atau perkhidmatan anda, mereka masih boleh memahami maklumat yang terkandung di dalamnya.

Botpress menggunakan pendekatan semantik untuk tajuk dan subtajuk, yang bermaksud bahawa semasa langkah vektorisasi kami memberi perhatian kepada segmen logik fail anda yang harus dikumpulkan bersama untuk mendapatkan semula. Tetapi kami bergantung pada struktur dokumen anda untuk melakukan perkara ini dengan tepat: jika tajuk anda dihuraikan sebagai sebahagian daripada kandungan utama teks anda, itu akan menyebabkan masalah dalam keupayaan ejen anda untuk mengambil maklumat secara konsisten daripada bahagian ini.

Ringkasnya, sedikit masa yang diluangkan untuk mengatur dan menyeragamkan fail anda sangat membantu ke arah meningkatkan keupayaan ejen anda untuk memproses dan mendapatkan maklumat yang tepat.

Ringkasan
Ringkasnya, sedikit masa yang diluangkan untuk mengatur dan menyeragamkan fail anda sangat membantu ke arah meningkatkan keupayaan ejen anda untuk memproses dan mendapatkan maklumat yang tepat.
semua pelajaran dalam kursus ini