RAG için veri hazırlarken, belge biçimlendirme ve yapısındaki her ayrıntı önemlidir. Temelden başlayalım: kullandığınız dosya türleri.
Öncelikle, dosyalarınızın desteklenen formatlarda olduğundan emin olun. Buna PDF, Word belgeleri, HTML dosyaları, Markdown ve düz metin gibi yaygın dosya türleri dahildir. Botpress Studio bu dosya formatlarının hepsini destekler. Genel olarak, karmaşık biçimlendirmeye sahip görsel tabanlı belgeler gibi kolayca ayrıştırılamayan dosya türlerinden kaçının. Doğru şekilde çıkarılamayan bu dosyalar, bir LLM tarafından okunamaz ve bu da ajanınızın anlamasını veya doğru yanıt vermesini sınırlar.
Bir dosyayı Botpress'te bir ajanın bilgi tabanı olarak yüklediğinizde, dosya otomatik olarak markdown'a dönüştürülür. Ajanınızın tutarlı ve güvenilir yanıtlar vermesini istiyorsanız, doğrudan ham bir markdown dosyası yükleyebilir veya yine markdown olan Zengin Metin bilgi tabanı türünü kullanabilirsiniz.
Dosya türünün ötesinde, belgenizin içeriğini nasıl organize ettiğiniz de en az onun kadar önemlidir. Dosyalarınızı net ve mantıklı bir yapıya bölmek—belirgin bölümler, başlıklar ve alt başlıklarla—ajanınızın bilgiyi anlamasını ve bulmasını büyük ölçüde kolaylaştırır. Özellikle belge başlıklarınıza dikkat edin: başlıklarla belirlenmiş açık bir bilgi hiyerarşisi sayesinde, bir LLM bilgiyi daha iyi kategorize edebilir ve kullanıcı sorgularına göre ilgili bilgiyi bulma yeteneği artar.
Buradaki temel yaklaşım, belgenizi kolayca ayrıştırılabilir hale getirmektir. Yani, bu belgeyi sektörünüz veya hizmetiniz hakkında hiçbir fikri olmayan birine verseniz bile, içindeki bilgileri anlayabilmelidir.
Botpress, başlıklar ve alt başlıklar için anlamsal bir yaklaşım kullanır; yani vektörleştirme adımında, dosyalarınızda birlikte gruplanması gereken mantıksal bölümlere dikkat ederiz. Ancak bunu doğru yapmak için belgenizin yapısına güveniriz: eğer başlığınız metnin ana gövdesinin bir parçası olarak ayrıştırılıyorsa, bu, ajanınızın bu bölümden tutarlı şekilde bilgi bulmasını zorlaştırır.
Kısacası, dosyalarınızı düzenlemek ve standartlaştırmak için harcayacağınız az bir zaman, ajanınızın doğru bilgiyi işlemesi ve bulmasında büyük fark yaratır.
