Saat menyiapkan data untuk RAG, setiap detail dalam format dan struktur dokumen sangat penting. Mari mulai dari dasar: jenis file yang Anda gunakan.
Pertama, pastikan file Anda menggunakan format yang didukung. Ini termasuk jenis file yang umum seperti PDF, dokumen Word, file HTML, Markdown, dan teks biasa. Botpress Studio mendukung semua format file ini. Secara umum, hindari menggunakan jenis file yang sulit diproses, seperti dokumen berbasis gambar dengan format yang rumit. Tanpa ekstraksi yang tepat, file-file ini tidak dapat dibaca oleh LLM, sehingga membatasi kemampuan agen Anda untuk memahami atau merespons dengan akurat.
Saat Anda mengunggah file untuk digunakan sebagai basis pengetahuan agen di Botpress, kami secara otomatis mengonversi file tersebut ke markdown. Jika Anda ingin memastikan agen Anda memberikan jawaban yang konsisten dan andal, Anda dapat mengunggah file markdown mentah sendiri, atau menggunakan tipe basis pengetahuan Rich Text, yang pada dasarnya juga berupa markdown.
Selain jenis file, cara Anda mengatur isi dokumen sama pentingnya. Membagi file Anda ke dalam struktur yang jelas dan logis—dengan bagian-bagian terpisah, judul, heading, dan subheading—dapat sangat meningkatkan kemampuan agen Anda untuk memahami dan mengambil informasi. Perhatikan secara khusus heading dokumen Anda: dengan hierarki informasi yang jelas melalui heading, LLM dapat mengkategorikan informasi dengan lebih baik, sehingga meningkatkan kemampuannya untuk mengambil pengetahuan yang relevan berdasarkan pertanyaan pengguna.
Prinsip utamanya di sini adalah membuat dokumen Anda mudah diproses. Dengan kata lain, jika Anda memberikan dokumen ini kepada seseorang yang sama sekali tidak memiliki konteks tentang industri atau layanan Anda, mereka tetap harus bisa memahami informasi yang ada di dalamnya.
Botpress menggunakan pendekatan semantik terhadap heading dan subheading, artinya pada tahap vektorisasi kami memperhatikan segmen logis dari file Anda yang seharusnya dikelompokkan untuk pengambilan informasi. Namun, kami bergantung pada struktur dokumen Anda agar proses ini akurat: jika judul Anda diproses sebagai bagian dari isi utama teks, hal ini akan menyebabkan masalah dalam kemampuan agen Anda untuk secara konsisten mengambil informasi dari bagian tersebut.
Singkatnya, sedikit waktu yang dihabiskan untuk mengatur dan menstandarkan file Anda akan sangat membantu meningkatkan kemampuan agen Anda dalam memproses dan mengambil informasi yang akurat.
