Dalam pelajaran ini

Kami telah banyak bercakap tentang mengoptimumkan teks, tetapi jika dokumen anda mengandungi imej atau jadual, adalah penting untuk mengambil beberapa langkah tambahan untuk memastikan elemen ini juga boleh digunakan oleh ejen anda. Kandungan bukan teks seperti imej, carta dan jadual boleh menyimpan maklumat berharga, tetapi tanpa penyediaan yang teliti, an LLM boleh mengabaikan atau salah tafsir maklumat yang terkandung di dalamnya.

Mari kita mulakan dengan imej. Jika dokumen anda mengandungi sebarang imej, yang mungkin merupakan foto produk atau teks yang sangat bergaya, adalah idea yang bagus untuk menukarnya kepada teks biasa sebelum memuat naik fail anda. Botpress akan mempraproses fail anda juga sebaik sahaja anda memuat naiknya, jadi cara terbaik untuk mendapatkan jawapan yang konsisten daripada fail anda ialah menukarnya sendiri.

Mari kita ambil menu restoran bergaya ini sebagai contoh. Sebelum menukarnya kepada fail teks biasa, maklumat yang LLM perlu bekerja dengan rupa seperti ini, selepas ia dihuraikan. Sebaliknya, jika kami menukarnya kepada penurunan nilai sebelum memuat naiknya (atau menggunakan perisian terbina dalam Botpress editor teks kaya), maka kami mendapat hasil yang lebih dipercayai.

Seterusnya, mari bercakap tentang jadual dan data berstruktur. Jika anda menyertakan jadual dalam dokumen anda, ingat bahawa sebelum melaksanakan RAG, fail anda ditukar kepada penurunan harga. Di sini, anda mempunyai dua pilihan. Anda boleh menetapkan terbina dalam Botpress jadual sebagai pangkalan pengetahuan, jadi maklumat anda tersusun, atau anda boleh menggunakan jadual berformat turun markah seperti itu.

Mengoptimumkan kandungan bukan teks bermaksud memproses imej dengan OCR, menambah penerangan untuk visual yang kompleks dan memastikan jadual dibentangkan dalam cara yang boleh digunakan oleh ejen AI anda. Di sini, matlamat kami adalah untuk menjadikan keseluruhan set data—termasuk kandungan teks dan bukan teks—mudah untuk LLM untuk membaca.

Ringkasan
Tukar imej dan dokumen yang digayakan kepada teks biasa, optimumkan jadual dengan pemformatan berstruktur atau penurunan nilai, dan proses kandungan bukan teks untuk memastikan ejen AI anda boleh mentafsir dan menggunakan semua maklumat dalam set data anda dengan tepat.
semua pelajaran dalam kursus ini