
إذا كنت تحاول إنشاء chatbot أو محرك بحث، فمن المحتمل أنك سمعت بعض الحديث عن قواعد البيانات المتجهة.
تلعب قواعد البيانات المتجهة دورًا أساسيًا في التفاعل بين البيانات والموارد والاستعلامات، لكن التعامل معها قد يكون شاقًا. لقد مررت بذلك من قبل: التمرير عبر المصطلحات الباطنية مثل التضمينات والبحث الضبابي، ولست متأكدًا مما إذا كنت أفرط في الهندسة أو أنني كنت أفتقد شيئًا أساسيًا.
من الذي يحدد مقاطع الفيديو التي يوصي بها على YouTube؟ كيف تتغلب محركات البحث على الأخطاء المطبعية؟ كيف يظهر لي Instagram دائماً الكلب الرقيق المثالي؟
لنستكشف عالم المتجهات، والتشابه، والبحث الدلالي، وكيف يمكنك إنشاء تطبيقات أكثر تخصيصًا.
ما هي قاعدة بيانات المتجهات؟
تقوم قاعدة البيانات المتجهة بتخزين البيانات كمجموعة من التمثيلات العددية (المعروفة باسم المتجهات) التي تلتقط معنى البيانات. يتيح لك ذلك البحث بناءً على التشابه، بدلاً من مجرد كلمات رئيسية محددة.
إنها تقنية رئيسية وراء أنظمة الدردشة والبحث والتوصيات الحديثة.
كيف تعمل قواعد البيانات المتجهة؟
تقوم قواعد البيانات المتجهة بتخزين النصوص والصور وجداول البيانات كسلسلة من المتجهات، وتسمى أيضًا التضمينات. كل متجه من هذه المتجهات عبارة عن سلسلة من الأرقام التي لا تبدو ظاهريًا مثل الكثير، ولكن تحت الغطاء تجسد المعنى المجرد للبيانات.
لا يتم استبدال هذه البيانات - سواء كانت رسائل البريد الإلكتروني، أو نصوص الاجتماعات، أو أوصاف المنتجات - لتصبح سلسلة من الأرقام، بل يتم فهرستها.

هذه التضمينات الصغيرة والكثيفة تجعل استرجاع المعلومات فعالاً وذا معنى. فهي تسمح لنا بمقارنة العناصر بناءً على التشابه، وليس فقط الكلمات المفتاحية. دعونا نستكشف المكونات المختلفة.
المفاهيم الرئيسية
ما هو نموذج التضمين؟
نماذج التضمين هي نماذج تعلّم آلي مدرّبة على تحويل البيانات إلى تضمينات.
يتم تدريب هذه النماذج على ضغط البيانات في متجه (التضمين الخاص بنا)، ثم إعادة توليدها. يخزن المتجه المضغوط أكبر قدر ممكن من المعلومات الدلالية من البيانات.
وهذا يعني أنها لا تخزن الكلمات فقط، بل الأفكار الكامنة وراءها. على سبيل المثال، قد يلتقط التضمين ما يلي:
- "جرو" و "كلب" مرتبطان ارتباطًا وثيقًا
- "كيف يمكنني إعادة تعيين كلمة المرور الخاصة بي؟" يشبه في معناه "لا يمكنني تسجيل الدخول إلى حسابي"
- تشير عبارة "كمبيوتر محمول ميسور التكلفة" و "كمبيوتر اقتصادي" إلى نفس الشيء
تساعد هذه الأنواع من الأنماط وكلاء الذكاء الاصطناعي ومحركات البحث على مقارنة المدخلات بناءً على المعنى، وليس فقط مطابقة الكلمات الرئيسية.
ما هو البحث الدلالي؟
إذن، كيف تتم مقارنة التضمينات للتشابه؟
كما ذكرنا سابقًا، متجه التضمين هو سلسلة من الأعداد. هذه الأعداد هي تمثيل لنقطة في فضاء عالي الأبعاد. يمكننا أن نتصور الأشياء في فضاء ثنائي الأبعاد أو ثلاثي الأبعاد، لكن ماذا عن 384؟ بدلًا من X وY وZ، لدينا مئات القيم، تجتمع كلها معًا لتحديد نقطة واحدة فريدة.

تسمح لنا هذه المتجهات بقياس مدى "تقارب" قطعتين من المحتوى - ليس من حيث الكلمات، ولكن من حيث المعنى.
يعالج البحث الدلالي الاستعلام إلى متجه، ويبحث في قاعدة البيانات عن أقرب المتجهات. يجب أن تكون متجهات النتائج هذه، من حيث المبدأ، الأكثر تشابهًا مع استعلام المستخدم.

بحث الجار الأقرب التقريبي (ANN)
يتم إجراء البحث الدلالي باستخدام خوارزمية أقرب جار تقريبي (ANN). الهدف من ANN هو الإجابة عن السؤال: "أي المتجهات في قاعدة البيانات الخاصة بي هو الأكثر تشابهًا مع استعلامي؟
هناك العديد من خوارزميات الشبكات العصبية الاصطناعية لكل منها نقاط قوتها. على سبيل المثال:
عالم صغير قابل للملاحة الهرمي (HNSW)
تم تحسين HNSW للبحث في الوقت الفعلي وبزمن تأخير منخفض. إنه رائع لموجزات المحتوى المخصَّص وأنظمة التوصيات - أي أي سيناريو يتطلب البحث بسرعة من خلال البيانات التي يتم تحديثها بشكل متكرر.
فهرس الملفات المقلوب (IVF)
يعد IVF أكثر ملاءمة للبيانات واسعة النطاق وغير المتغيرة في الغالب. فكر في كتالوجات التجارة الإلكترونية، أو أدلة الأوراق الأكاديمية.
من الناحية العملية، سيتم إخفاء الخوارزمية في المحرك أو المنصة المستخدمة لتنفيذ البحث.
حالات استخدام قواعد البيانات المتجهة
والآن بعد أن فهمنا كيف يتم إنشاء المتجهات ومطابقتها، دعونا نلقي نظرة على الطرق المختلفة التي يمكننا استخدامها لتشغيل التطبيقات.
التوليد المعزز للاسترجاع (RAG)
يبدو أن استراتيجية توليد LLM هذه هي حديث المدينة، ولسبب وجيه: إن RAG موثوقة ودقيقة وتوفر استجابات محددة، وكل ذلك أصبح ممكناً باستخدام قواعد بيانات المتجهات.
باستخدام نموذج RAG، يتم تضمين استعلام المستخدم ومقارنته ببقية قاعدة البيانات للعناصر المماثلة. ثم يشير النموذج إلى هذه العناصر عند إنشاء استجابة.
يتفادى RAG الاعتماد على المعرفة الداخلية للنموذج أو تاريخ المحادثة، وكلاهما قد يكون خاطئًا أو غير ذي صلة.
لنفترض أنك سألت عن ملخص لطفولة نابليون. استجابة النموذج معقولة، ولكن هل هي دقيقة؟ باستخدام RAG، سيتم استخدام المستندات ذات الصلة باستعلامك لتوجيه استجابة النموذج. بهذه الطريقة، يمكنك التحقق من المورد الأساسي، مع الحفاظ على إمكانية التحقق من مخرجات النموذج.
إذا كنت تريد أن ترى كيف يبدو ذلك عمليًا، فإليك دليل لإنشاء chatbot باستخدام RAG.
توصيات المنتج والمحتوى
لا تُستخدم قواعد البيانات المتجهة فقط للرد على استفسارات المستخدم. يمكن استخدامها أيضًا لتحسين تجربة المستخدم.
يتيح تتبُّع سجل تصفُّح المستخدمين وتجميع العناصر المتشابهة للشركات تحديد أفضل منتج أو محتوى للتوصية به للمستخدم.
هذا مثال رائع لما نشير إليه باسم الخوارزمية: توصيات المحتوى الاستراتيجي والإعلانات المستهدفة.
فكّر في منصة لمشاركة الفيديو: كل فيديو له تضمين خاص به مخزّن في قاعدة البيانات. عندما تشاهد أحدها، يمكن للنظام أن يقترح عليك مقاطع فيديو أخرى ذات تضمينات قريبة - أي محتوى مشابه، حتى لو كانت العناوين أو العلامات مختلفة تماماً.
وبمرور الوقت، يصبح سجل ساعتك نوعاً من "سحابة" مخصصة من التضمينات، مما يساعد النظام على فهم تفضيلاتك والتوصية بما تريد أن تراه بعد ذلك.
فوائد قواعد البيانات المتجهة على قواعد البيانات التقليدية
والآن بعد أن أصبح لدينا فكرة عن كيفية عمل قواعد البيانات المتجهة، دعنا نتحدث عن المزايا التي توفرها لك في روبوتات الدردشة ومحركات البحث؟
1. توفر المزيد من السياق لروبوتات الدردشة الآلية
يتعرض LLMs والمطورون للنسيان والهلوسة في المحادثات الطويلة. ليس لدى المستخدمين والمطورين إحساس واضح بالمعلومات التي يتم الاحتفاظ بها.
باستخدام استراتيجيات مثل RAG، يقوم النموذج بالبحث في قاعدة البيانات مقابل استعلامك للعثور على أي معلومات مطلوبة لإعطاء إجابة دقيقة.
فبدلاً من تذكير النموذج وتصحيحه للمرة الألف، تقوم قواعد البيانات المتجهة بتخزين المعلومات ذات الصلة والإشارة إليها صراحةً.

2. يجعلون نتائج البحث متسامحة مع الأخطاء المطبعية
حتى لو كنا نعرف الكلمات المفتاحية بدقة، فإن البحث فوضوي.
مسترد الجولف ≠ المسترد الذهبي، ولكن يجب أن يكون محرك البحث الخاص بك على دراية أفضل.
إذا كنا نقوم بمطابقة الاستعلامات حرفيًا، فإن الخطأ المطبعي أو الخطأ الإملائي في كتابة كلمة ما سيؤدي إلى استبعاد خيار ذي صلة.
عندما نقوم بتجريد معنى استعلام البحث، فإن التهجئة أو الصياغة المحددة لا تهمنا كثيرًا.
3. تسمح للمستخدمين بإجراء بحث ضبابي
البحث لا يتعلق بالكلمات المفتاحية بقدر ما يتعلق بـ ✨المشاعر.
يتيح لك تجريد النص في متجه التضمين تخزينه في فضاء فيبي غير قابل للوصف. لذا، ظاهرياً
"أين يمكنني الحصول على مشروب أبيض مسطح رائع هنا؟"
لا يبدو أن
"أفضل الأماكن القريبة لتناول الكافيين",
لكن محرك البحث الخاص بك سوف يطابقهما معاً. هذا ممكن لأن تضمين العبارتين متقارب جداً، على الرغم من اختلاف صياغتهما.
4. يمكن مقارنة قواعد البيانات المتجهة عبر الطرائق
تأتي البيانات في جميع الأشكال والأحجام والأنواع. غالبًا ما نحتاج إلى مقارنة البيانات عبر أنواع مختلفة. على سبيل المثال، استخدام النص للبحث عن صور المنتجات وتصفيتها.
يتم تدريب النماذج متعددة الوسائط على مقارنة أنواع مختلفة من البيانات، مثل النصوص والصور والصوت والفيديو.
هذا يجعل من السهل التحدث عن المحتوى الخاص بك. ابحث عن منتج من خلال وصف صورته، أو اسأل عن الرسوم البيانية باستخدام لغة بسيطة.
كيفية بناء وكيل ذكاء اصطناعي بقدرات بحث ذكية
إذا كنت جديدًا في مجال البحث الدلالي، فربما تكون مليئًا بالأسئلة:
كيف أقوم بإعداد بياناتي؟
ما هي البيانات التي يجب تضمينها؟
ما هو نموذج التضمين الذي يجب أن أستخدمه... وكيف أعرف أنه يعمل؟
لحسن الحظ، لست مضطرًا إلى معرفة كل شيء مقدمًا. إليك كيفية البدء ببضع خطوات سهلة:
1. تحديد حالة الاستخدام الخاصة بك
ابدأ بشيء بسيط ومفيد. إليك بعض الأمثلة لتحفيزك على البدء:
- A chatbot للبيع بالتجزئة يساعد العملاء في العثور على المنتجات المناسبة بناءً على احتياجاتهم وتفضيلاتهم. اسأله، "ما هو الجاكيت الشتوي المناسب للمشي لمسافات طويلة والذي يقل سعره عن 150 دولاراً؟
- A روبوت التذاكر يقوم بفرز طلبات الموظفين المتعلقة بتكنولوجيا المعلومات في الوقت الفعلي. اسأل، "هل هناك أي تذاكر ذات أولوية عالية تتعلق بالوصول إلى الشبكة الافتراضية الخاصة لم يتم تعيينها بعد؟
- A أتمتة العمليات التجارية وكيل يدير تنفيذ الطلبات من البداية إلى النهاية. اسأله، "هل تم شحن طلب سميث حتى الآن، وهل أرسلنا رسالة التأكيد بالبريد الإلكتروني؟
كل ذلك سريع الإنشاء، وسهل الاختبار، وذو قيمة فورية.
2. اختر منصتك
إذا كنت تشعر بأن قواعد البيانات المتجهة مربكة أو مجردة، فهناك الكثير من منصاتchatbot التي تتعامل مع التضمينات والتجميع من خلف الكواليس.
3. اجمع بياناتك
ابدأ بما لديك بالفعل - الملفات النصية وملفات PDF وجداول البيانات. منصة جيدة تتعامل مع التنسيق نيابة عنك. ما عليك سوى تحميل المحتوى الخاص بك، وستتولى المنصة عملية التضمين والفهرسة خلف الكواليس.
ستعتمد بعض التفاصيل على النظام الأساسي الذي تستخدمه. إليك بعض النصائح لتحقيق أقصى استفادة من بياناتك.
4. إضافة وصف
اكتب وصفًا موجزًا بلغة بسيطة لماهية الروبوت الخاص بك.
يساعد ذلك في تحديد الأسلوب والتوقعات: كيف يجب أن يتحدث الروبوت إلى المستخدمين، وأنواع الأسئلة التي يمكن أن يتوقعها، والبيانات التي يمكنه الرجوع إليها.
على سبيل المثال:
"أنت مساعد دعم لفريق الموارد البشرية. ساعد الموظفين في العثور على السياسات والإجابة على الأسئلة المتعلقة بإجازة نهاية الخدمة والمزايا. استخدم المعلومات من دليل الموظف ووثائق الموارد البشرية. كن واضحاً ومهذباً. إذا كنت لا تعرف شيئًا ما، اطلب من المستخدم الاتصال بالموارد البشرية."
5. الاختبار والتعديل
اختبر إعدادك باستخدام استفسارات حقيقية. اسأل ما قد يطلبه عملاؤك. هل النتائج ذات صلة؟ هل هي دقيقة؟

قم بتعديل الروبوت الخاص بك حسب الحاجة:
- نتائج غير مكتملة؟ ارفع عدد القطع للحصول على إجابات أكثر اكتمالاً.
- استجابة بطيئة؟ اختر طرازاً أسرع.
- إجابات غير صحيحة؟ جرّب نموذجاً أكثر دقة، أو أضف بيانات ذات صلة.
المنصات قابلة للتخصيص إلى حد كبير، لذا فإن حل المشكلات عادةً ما يكون مجرد مسألة تهيئة، مثل اللعب بالنماذج المتاحة أو تغيير الأوصاف.
بناء قدرات بحث أكثر ذكاءً
مع التطورات الأخيرة في مجال الذكاء الاصطناعي، لم تعد البيانات القابلة للبحث مجرد أمر لطيف - بل أصبحت هي التوقع الافتراضي.
لستَ مضطرًا لإتقان ANN أو التضمينات لإنشاء محركات بحث أكثر ذكاءً. تمنحك منصتنا أدوات التوصيل والتشغيل للبحث الدلالي والتوليد المعزز للاسترجاع. لا حاجة لإعداد البيانات.
ابدأ البناء اليوم. إنه مجاني.
جدول المحتويات
شارك هذا على: