الأكاديمية
كيفية تحسين الملفات لـ RAG
المعالجة المسبقة للنصوص
3
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
الدرس التالي
الدرس التالي
في هذا الدرس

بعد أن تناولنا أنواع الملفات وتنسيقاتها، دعونا ننتقل إلى معالجة النصوص المسبقة. في هذه الخطوة، نقوم بتنظيف وتبسيط محتوى كل مستند لجعل فهم وكيلك للمعلومات واسترجاعها أكثر سهولة ودقة.

أولاً، من الضروري إزالة أي بيانات غير ذات صلة. فكّر فيما إذا كان كل جزء من محتوى مستندك مفيدًا للإجابة على أسئلة المستخدمين المحتملة. على سبيل المثال، إذا كنت ترغب في الإجابة على أسئلة حول كتالوج منتج، فقد تتسبب إخلاءات المسؤولية القانونية غير المرتبطة مباشرة في حدوث مشكلات. إزالة هذه الأجزاء يمكن أن يقلل بشكل كبير من التشويش، مما يجعل مجموعة البيانات أكثر نظافة وأسهل في البحث. من الجيد أيضًا تنظيف أي بيانات وصفية إضافية، بالإضافة إلى التذييلات أو رؤوس الصفحات التي قد تشتت الانتباه أثناء الفهرسة.

جزء آخر مهم من هذه العملية هو تبسيط النص نفسه. المصطلحات التقنية أو اللغة المعقدة أو الجمل الطويلة قد تخلق أحيانًا غموضًا. إذا كان المستند معقدًا جدًا، فقد يؤدي ذلك إلى إبطاء المعالجة أو إنتاج إجابات غير واضحة. فكّر في إعادة صياغة الأجزاء الكثيفة أو إزالة المصطلحات الخاصة بالصناعة ما لم تكن ضرورية للغاية.

إذا كان مستندك يحتوي على فقرات طويلة أو جمل معقدة، فقد يكون من المفيد استخدام أدوات التبسيط التلقائي. يمكن لهذه الأدوات تقسيم اللغة المعقدة إلى عبارات أقصر وأكثر وضوحًا، مما يسهل على Botpress تقسيم المحتوى وتفسيره بدقة.

باختصار، الهدف هنا هو جعل النص مباشرًا وذا صلة قدر الإمكان. من خلال إزالة البيانات غير الضرورية وتبسيط اللغة، تقوم بإنشاء مجموعة بيانات مبسطة ومركزة تعزز أداء الاسترجاع ودقته.

تذكّر، من القواعد الجيدة أن تتعامل مع وكيل الذكاء الاصطناعي كما لو كان زميل عمل جديد تمامًا ليس لديه أي معرفة مسبقة عن منتجك أو مجالك أو عملك.

الملخص
قم بإزالة البيانات غير ذات الصلة وبسّط اللغة لإنشاء مجموعة بيانات نظيفة ومركزة تعزز أداء وكيل الذكاء الاصطناعي ودقة الاسترجاع.
جميع الدروس في هذه الدورة
Fresh green broccoli floret with thick stalks.