RAG için veri hazırlarken, belge biçimlendirme ve yapısındaki her ayrıntı önemlidir. Temel bilgilerle başlayalım: kullandığınız dosya türleri.
Öncelikle, dosyalarınızın desteklenen formatlarda olduğundan emin olun. Bu, PDF'ler, Word belgeleri, HTML dosyaları, Markdown ve düz metin gibi yaygın olarak kullanılan türleri içerir. Botpress Studio tüm bu dosya biçimlerini desteklemektedir. Genel olarak, karmaşık biçimlendirmeye sahip görüntü tabanlı belgeler gibi kolayca ayrıştırılamayan dosya türlerini kullanmaktan kaçının. Uygun ayıklama olmadan, bu dosyalar bir LLM tarafından okunamaz, bu da temsilcinizin doğru anlama veya yanıt verme yeteneğini sınırlar.
Botpress adresinde bir temsilcinin bilgi tabanı olarak kullanılacak bir dosya yüklediğinizde, dosyayı otomatik olarak markdown'a dönüştürürüz. Temsilcinizin sürekli olarak güvenilir yanıtlar verdiğinden emin olmak istiyorsanız, ham bir markdown dosyasını kendiniz yükleyebilir veya sadece markdown olan Zengin Metin bilgi tabanı türünü kullanabilirsiniz.
Şimdi, dosya türünün ötesinde, belgenizin içeriğini düzenleme şekliniz de bir o kadar önemlidir. Dosyalarınızı farklı bölümler, başlıklar, başlıklar ve alt başlıklarla net ve mantıklı bir yapıya bölmek, temsilcinizin bilgileri anlama ve geri alma becerisini büyük ölçüde artırabilir. Belgenizin başlıklarına özellikle dikkat edin: başlıklar aracılığıyla belirlenen net bir bilgi hiyerarşisi ile LLM bilgileri daha iyi kategorize edebilir ve kullanıcı sorgularına dayalı olarak ilgili bilgileri alma yeteneğini geliştirebilir.
Buradaki temel teori, belgenizi kolayca ayrıştırılabilir hale getirmektir. Başka bir deyişle, bu belgeyi sektörünüz veya hizmetiniz hakkında hiçbir bilgiye sahip olmayan birine verseniz, yine de içerdiği bilgileri anlayabilmelidir.
Botpress başlıklar ve alt başlıklar için semantik bir yaklaşım kullanır; bu da vektörleştirme adımı sırasında dosyalarınızın erişim için birlikte gruplandırılması gereken mantıksal bölümlerine dikkat ettiğimiz anlamına gelir. Ancak bunu doğru bir şekilde yapmak için belgenizin yapısına güveniyoruz: başlığınız metninizin ana gövdesinin bir parçası olarak ayrıştırılıyorsa, bu, aracınızın bu bölümden tutarlı bir şekilde bilgi alma becerisinde sorunlara neden olacaktır.
Kısacası, dosyalarınızı düzenlemek ve standartlaştırmak için biraz zaman harcamak, temsilcinizin doğru bilgileri işleme ve alma becerisini geliştirmek için uzun bir yol kat eder.