لقد تحدثنا كثيرًا عن تحسين النص، ولكن إذا كانت مستنداتك تحتوي على صور أو جداول، فمن المهم اتخاذ بعض الخطوات الإضافية لضمان أن تكون هذه العناصر قابلة للاستخدام أيضًا من قبل وكيلك. يمكن أن يحتوي المحتوى غير النصي مثل الصور والمخططات والجداول على معلومات قيّمة، ولكن بدون إعداد دقيق، يمكن أن يتجاهل LLM المعلومات التي تحتويها أو يسيء تفسيرها.
لنبدأ بالصور. إذا كانت مستنداتك تحتوي على أي صور، والتي قد تكون صورة لمنتج أو حتى نص منمق للغاية، فمن الأفضل تحويلها إلى نص عادي قبل تحميل ملفك. Botpress سيعالج ملفاتك مسبقاً على أي حال بمجرد تحميلها، لذا فإن أفضل طريقة للحصول على إجابات متسقة من ملفاتك هي تحويلها بنفسك.
لنأخذ قائمة المطاعم المنمقة هذه على سبيل المثال. قبل تحويلها إلى ملف نص عادي، تبدو المعلومات التي يجب على LLM العمل معها هكذا، بعد تحليلها. بدلًا من ذلك، إذا قمنا بتحويلها إلى تخفيض السعر قبل تحميلها (أو باستخدام محرر النص المنسق المدمج Botpress )، فسنحصل على نتائج أكثر موثوقية.
بعد ذلك، دعنا نتحدث عن الجداول والبيانات المنظمة. إذا كنت تقوم بتضمين جداول في مستنداتك، تذكر أنه قبل إجراء RAG، يتم تحويل ملفاتك إلى ترميز. هنا، لديك خياران. يمكنك تعيين جدول مدمج Botpress كقاعدة معرفية، بحيث تكون معلوماتك منظمة، أو يمكنك استخدام جدول بتنسيق العلامات مثل
إن تحسين المحتوى غير النصي يعني معالجة الصور باستخدام خاصية التعرف الضوئي على الحروف (OCR)، وإضافة أوصاف للمرئيات المعقدة، وضمان تقديم الجداول بطريقة يمكن لوكيل الذكاء الاصطناعي استخدامها. وهدفنا هنا هو جعل مجموعة البيانات بأكملها - بما في ذلك المحتوى النصي وغير النصي - سهلة القراءة على LLM .