3
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Pelajaran berikutnya
Pelajaran berikutnya
Dalam pelajaran ini

Setelah membahas jenis file dan format, sekarang kita masuk ke tahap pra-pemrosesan teks. Pada langkah ini, kita membersihkan dan menyederhanakan isi setiap dokumen agar lebih mudah dipahami dan diambil informasinya oleh agen Anda.

Pertama, sangat penting untuk menghapus data yang tidak relevan. Pertimbangkan apakah setiap bagian konten dalam dokumen Anda benar-benar berguna untuk menjawab pertanyaan pengguna. Misalnya, jika Anda ingin menjawab pertanyaan tentang katalog produk, penafian hukum yang tidak berkaitan langsung bisa menimbulkan masalah. Menghapus bagian ini dapat secara signifikan mengurangi gangguan, sehingga dataset Anda menjadi lebih bersih dan mudah dicari. Sebaiknya juga bersihkan metadata tambahan, serta footer atau header yang bisa mengganggu saat pengindeksan.

Bagian penting lainnya dari proses ini adalah menyederhanakan teks itu sendiri. Istilah teknis, bahasa yang terlalu rumit, atau kalimat yang terlalu panjang bisa menimbulkan ambiguitas. Jika dokumen terlalu kompleks, hal ini tidak hanya memperlambat pemrosesan, tetapi juga bisa menyebabkan jawaban yang kurang jelas. Pertimbangkan untuk mengubah bagian yang padat atau menghapus istilah khusus industri kecuali memang benar-benar diperlukan.

Jika dokumen Anda berisi paragraf panjang atau kalimat yang rumit, Anda juga bisa menggunakan alat otomatis untuk menyederhanakan teks. Alat-alat ini dapat memecah bahasa yang padat menjadi pernyataan yang lebih singkat dan jelas, sehingga Botpress dapat memproses dan memahami isi dokumen dengan lebih akurat.

Singkatnya, tujuan utamanya adalah membuat teks sesederhana dan setepat mungkin. Dengan menghapus data yang tidak diperlukan dan menyederhanakan bahasa, Anda menciptakan dataset yang lebih terfokus dan meningkatkan performa serta akurasi pencarian informasi.

Ingat, aturan praktis yang baik adalah memperlakukan agen AI Anda seperti rekan kerja baru yang sama sekali belum tahu apa-apa tentang produk, industri, atau bisnis Anda.

Ringkasan
Hapus data yang tidak relevan dan sederhanakan bahasa untuk membuat dataset yang bersih dan terfokus sehingga meningkatkan performa agen AI dan akurasi pencarian informasi.
semua pelajaran di kursus ini
Fresh green broccoli floret with thick stalks.