Dalam pelajaran ini

Ketika menyiapkan data untuk RAG, setiap detail dalam format dan struktur dokumen sangat penting. Mari kita mulai dengan hal yang paling mendasar: jenis file yang Anda gunakan.

Pertama, pastikan file Anda dalam format yang didukung. Ini termasuk jenis yang umum digunakan seperti PDF, dokumen Word, file HTML, Markdown, dan teks biasa. Botpress Studio mendukung semua format file ini. Secara umum, hindari menggunakan jenis file yang tidak dapat diuraikan dengan mudah, seperti dokumen berbasis gambar dengan format yang rumit. Tanpa ekstraksi yang tepat, file-file ini tidak dapat dibaca oleh LLM, yang membatasi kemampuan agen Anda untuk memahami atau merespons secara akurat.

Ketika Anda mengunggah file untuk digunakan sebagai basis pengetahuan agen di Botpress, kami secara otomatis mengonversi file tersebut menjadi markdown. Jika Anda ingin memastikan bahwa agen Anda memberikan jawaban yang dapat diandalkan secara konsisten, Anda dapat mengunggah file markdown mentah sendiri, atau menggunakan jenis basis pengetahuan Rich Text, yang juga merupakan markdown.

Sekarang, di luar jenis file, cara Anda mengatur konten dokumen juga sama pentingnya. Membagi file Anda ke dalam struktur yang jelas dan logis-dengan bagian, judul, judul, dan subjudul yang jelas-dapat sangat meningkatkan kemampuan agen Anda untuk memahami dan mengambil informasi. Berikan perhatian khusus pada judul dokumen Anda: dengan hirarki informasi yang jelas yang ditetapkan melalui judul, LLM dapat mengkategorikan informasi dengan lebih baik, sehingga meningkatkan kemampuannya untuk mengambil pengetahuan yang relevan berdasarkan pertanyaan pengguna.

Teori menyeluruh di sini adalah membuat dokumen Anda mudah diuraikan. Dengan kata lain, jika Anda memberikan dokumen ini kepada seseorang yang tidak memiliki konteks apa pun tentang industri atau layanan Anda, mereka masih dapat memahami informasi yang ada di dalamnya.

Botpress menggunakan pendekatan semantik untuk judul dan subjudul, yang berarti bahwa selama langkah vektorisasi, kami memperhatikan segmen logis dari file Anda yang harus dikelompokkan bersama untuk pengambilan. Namun kami mengandalkan struktur dokumen Anda untuk melakukan hal ini secara akurat: jika judul Anda diuraikan sebagai bagian dari bagian utama teks Anda, hal ini akan menyebabkan masalah dalam kemampuan agen Anda untuk mengambil informasi secara konsisten dari bagian ini.

Singkatnya, sedikit waktu yang dihabiskan untuk mengatur dan menstandarisasi file Anda akan sangat membantu meningkatkan kemampuan agen Anda dalam memproses dan mendapatkan informasi yang akurat.

Ringkasan
Singkatnya, sedikit waktu yang dihabiskan untuk mengatur dan menstandarisasi file Anda akan sangat membantu meningkatkan kemampuan agen Anda dalam memproses dan mendapatkan informasi yang akurat.
semua pelajaran dalam kursus ini