2
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Pelajaran seterusnya
Pelajaran seterusnya
Dalam pelajaran ini

Semasa menyediakan data untuk RAG, setiap perincian dalam pemformatan dan struktur dokumen adalah penting. Mari mulakan dengan asas: jenis fail yang anda gunakan.

Pertama, pastikan fail anda dalam format yang disokong. Ini termasuk jenis yang biasa digunakan seperti PDF, dokumen Word, fail HTML, Markdown, dan teks biasa. Botpress Studio menyokong semua format fail ini. Secara amnya, elakkan menggunakan jenis fail yang sukar untuk diproses, seperti dokumen berasaskan imej dengan format yang rumit. Tanpa pengekstrakan yang betul, fail-fail ini tidak dapat dibaca oleh LLM, yang akan mengehadkan keupayaan ejen anda untuk memahami atau memberi respons dengan tepat.

Apabila anda memuat naik fail untuk digunakan sebagai pangkalan pengetahuan ejen dalam Botpress, kami akan menukar fail tersebut secara automatik kepada markdown. Jika anda mahu ejen anda memberikan jawapan yang konsisten dan boleh dipercayai, anda boleh memuat naik fail markdown mentah sendiri, atau gunakan jenis pangkalan pengetahuan Rich Text, yang juga merupakan markdown.

Selain jenis fail, cara anda mengatur kandungan dokumen anda sama pentingnya. Membahagikan fail anda kepada struktur yang jelas dan logik—dengan bahagian, tajuk utama, tajuk kecil, dan sub-tajuk yang berbeza—boleh meningkatkan keupayaan ejen anda untuk memahami dan mendapatkan maklumat. Beri perhatian khusus kepada tajuk dokumen anda: dengan hierarki maklumat yang jelas melalui tajuk, LLM dapat mengkategorikan maklumat dengan lebih baik, sekali gus meningkatkan keupayaannya untuk mendapatkan pengetahuan yang relevan berdasarkan pertanyaan pengguna.

Prinsip utama di sini adalah untuk memastikan dokumen anda mudah diproses. Dalam erti kata lain, jika anda menyerahkan dokumen ini kepada seseorang yang langsung tidak tahu tentang industri atau perkhidmatan anda, mereka masih boleh memahami maklumat yang terkandung di dalamnya.

Botpress menggunakan pendekatan semantik terhadap tajuk dan sub-tajuk, yang bermaksud semasa langkah penvektoran, kami memberi perhatian kepada segmen logik dalam fail anda yang patut digabungkan untuk tujuan pencarian semula. Tetapi kami bergantung pada struktur dokumen anda untuk melakukan ini dengan tepat: jika tajuk anda diproses sebagai sebahagian daripada isi utama teks anda, ini akan menyebabkan masalah dalam keupayaan ejen anda untuk mendapatkan maklumat secara konsisten dari bahagian ini.

Ringkasnya, sedikit masa yang diluangkan untuk mengatur dan menyeragamkan fail anda akan memberi kesan besar dalam meningkatkan keupayaan ejen anda untuk memproses dan mendapatkan maklumat yang tepat.

Ringkasan
Ringkasnya, sedikit masa yang diluangkan untuk mengatur dan menyeragamkan fail anda akan memberi kesan besar dalam meningkatkan keupayaan ejen anda untuk memproses dan mendapatkan maklumat yang tepat.
semua pelajaran dalam kursus ini
Fresh green broccoli floret with thick stalks.