- يقوم المساعد الصوتي المدعوم بالذكاء الاصطناعي بتحويل الكلام إلى نص، وتفسير النية، واسترجاع المعلومات، والرد عبر تحويل النص إلى كلام.
- تشمل التقنيات الأساسية التعرف التلقائي على الكلام (ASR)، ومعالجة اللغة الطبيعية (NLP)، واسترجاع المعلومات المدعوم بالتوليد (RAG)، وتكامل واجهات البرمجة (API) لتنفيذ المهام وإجراء المحادثات الديناميكية.
- تقدم الروبوتات الصوتية سرعة وسهولة وصول وتخصيص وتجربة استخدام بدون استخدام اليدين في مختلف القطاعات.
- تشمل حالات الاستخدام الرعاية الصحية، والخدمات المصرفية، ودعم العملاء، والتجزئة، مما يعزز الكفاءة وتجربة المستخدم.
اضطررت لتغيير صوت ChatGPT إلى الرجل البريطاني المنزعج. أخشى أن أقع في حب الصوت إذا كان ودوداً جداً.
مثل ذلك الرجل. في ذلك الفيلم.
دعونا نتحدث عن المساعدين الصوتيين.
كانت Siri في السابق محط السخرية. لكن بينما كنا منشغلين بسؤال Siri عن كيفية إخفاء جثة، تسللت تقنيات الذكاء الاصطناعي الصوتي بهدوء إلى جميع جوانب السوق. اعتباراً من عام 2025، تعتبر 67٪ من المؤسسات الذكاء الاصطناعي الصوتي جزءاً أساسياً من أعمالها.
تدرك تلك المؤسسات أن وكلاء الذكاء الاصطناعي يصبحون أفضل عند تزويدهم بقدرات صوتية.
وبالمناسبة، ذلك الفيلم الذي ذكرته؟ ليس بعيداً عن الواقع. من المتوقع أن يكون استحواذ Open AI الأخير على io بهدف بناء مساعد صوتي غير تدخلي وواعٍ باستمرار.
تعرفون، رفيق صغير في أذنك طوال الوقت.
وهكذا وصلنا إلى هنا: أصبحت Alexa أكثر شهرة كمنتج من كونها اسماً لشخص، ومديرو شركات الذكاء الاصطناعي يلتقطون صور خطوبة معاً، وثلثا الشركات قد قاموا بالفعل بـتحديد الموعد.
وإذا لم تكن مواكباً، فأنت يا أختي متأخر.
وهذا أمر مفهوم. فالتقنية غامضة، ولا يوجد الكثير ممن يشرحون كيف تعمل. لكن هل تعرف من لديه شهادة عليا في تقنيات الكلام؟
(لا يمكنك أن ترى، لكنني أرفع إبهامي.)
(...تعرف من أيضاً لا يستطيع أن يرى؟ المساعدون الصوتيون.)
(أبتعد عن الموضوع.)
أكتب هذا المقال لأطلعك على آخر المستجدات. سنتحدث عن المساعدين الصوتيين المدعومين بالذكاء الاصطناعي: كيف يعملون، وما الذي يمكنك فعله بهم، ولماذا تتجه العديد من الشركات إلى دمجهم في عملياتها.
ما هو المساعد الصوتي المدعوم بالذكاء الاصطناعي؟
المساعد الصوتي المدعوم بالذكاء الاصطناعي هو برنامج يستخدم الذكاء الاصطناعي لمعالجة الكلام، وفهمه، وتنفيذ المهام، وتقديم الردود للمستخدم. تُستخدم هذه المساعدات في مختلف القطاعات وحالات الاستخدام، مما يضيف طابعاً شخصياً لإدارة المهام ودعم العملاء.
كيف يعمل المساعد الصوتي المدعوم بالذكاء الاصطناعي؟

المساعدون الصوتيون المدعومون بالذكاء الاصطناعي هم تنسيق معقد لتقنيات الذكاء الاصطناعي. في الثواني القليلة بين التقاط كلام المستخدم وتوليد الرد، يتم تفعيل عدة عمليات لضمان تفاعل سلس.
التعرف التلقائي على الكلام (ASR)
يُطلق أحياناً على التعرف التلقائي على الكلام اسم تحويل الكلام إلى نص، لأنه يقوم بذلك بالضبط.
عندما يتحدث المستخدم إلى جهازه – سواء كان هاتفاً أو مساعداً منزلياً أو لوحة قيادة سيارة – يتم تحويل كلامه إلى نص. لتحقيق ذلك، يتم تدريب الشبكات العصبية العميقة على توقع نص التسجيل الصوتي.
بعد التدريب على آلاف الساعات من بيانات الكلام لملايين المقاطع المختلفة التي تشمل متحدثين ولهجات وظروف ضوضاء متنوعة، تصبح هذه النماذج فعالة جداً في النسخ.
وهذا أمر مهم – يجب أن تكون الخطوة الأولى في النظام متعدد الطبقات قوية.
معالجة اللغة الطبيعية (NLP)
بعد تحويل الكلام إلى نص، ينتقل النموذج إلى تفسيره.
NLP هو المفهوم الشامل لجميع التقنيات المستخدمة لتحليل استفسار المستخدم (كنص مكتوب) إلى نية ووحدات ذات معنى.
التعرف على النية
النص غير منظم، واستخلاص المعنى منه ليس مهمة بسيطة. انظر إلى الاستفسارات التالية:
- "جدول مكالمة مع أنيقة يوم الثلاثاء الساعة 1."
- "هل يمكنك تشغيل شير؟"
- "ما الذي يتناسب مع جبن الماعز؟"
سيكون لدى المساعد الذكي مجموعة محدودة من النوايا المبرمجة مسبقاً. بالنسبة لروبوتنا، قد تشمل:
- حجز المواعيد
- تشغيل الوسائط
- وربما البحث على الإنترنت، و
- إجراء محادثة عادية
مهمة التعرف على النية هي تصنيف كل استفسار من المستخدم ضمن إحدى هذه الفئات.
فإلى أي فئة تندرج أمثلتنا؟
"جدول مكالمة..." جاءت بصيغة الأمر. واضحة نسبياً. "هل يمكنك...؟" جاءت كسؤال، لكنها أيضاً أمر، مثل الاستفسار السابق. في كلتا الحالتين، تفهم بشكل حدسي الفعل المطلوب، لكن من الصعب وضعه في صيغة رسمية.
"ما الذي يتناسب مع ...؟" بسيطة – نوعاً ما.
نعرف نوع الإجابة المطلوبة: طعام. لكن ليس واضحاً تماماً من أين يجب أن يحصل المساعد على الإجابة.
هل يجب أن يبحث على الإنترنت؟ إذا كان الأمر كذلك، كم عدد الإجابات التي يجب أن يقدمها؟ النتيجة الأولى قد لا تكون كافية، لكن تقديم العديد من الإجابات قد يعقد المهمة.
من ناحية أخرى، ربما يمكنه الاعتماد على معرفته الداخلية – لكننا نسبق الأحداث هنا.
الخلاصة: الخيار ليس دائماً بسيطاً، وتعقيد هذه المهمة مرتبط بتصميم أو شخصية الروبوت بقدر ارتباطه باستفسار المستخدم.
التعرف على الكيانات المسماة
إلى جانب معرفة المهمة المطلوبة، يحتاج الروبوت إلى التعرف على المعلومات المقدمة.
يهتم التعرف على الكيانات المسماة بـاستخراج الوحدات ذات المعنى – أو الكيانات المسماة – من النص غير المنظم. على سبيل المثال، تحديد أسماء الأشخاص أو الفنانين أو التواريخ في استفسار المستخدم.
لنعد إلى الاستفسار الأول:
- "جدول مكالمة مع أنيقة يوم الثلاثاء الساعة 1."
أنيقة هي شخص، ومن المفهوم من الاستفسار أن المستخدم يعرفها. وهذا يعني على الأرجح أنها جهة اتصال.

في هذه الحالة، ستكون "جهة الاتصال" مبرمجة مسبقاً ككيان، وسيكون لدى الروبوت إمكانية الوصول إلى جهات اتصال المستخدم.
وينطبق ذلك على الأوقات، والمواقع، وأي معلومات ذات معنى قد تكون مخفية في استفسار المستخدم.
استرجاع المعلومات
بعد فهم ما تريده، يجب على المساعد الصوتي البحث عن المعلومات ذات الصلة لمساعدته في الرد. المساعد الجيد سيكون مزوداً بمجموعة كاملة من الإضافات لتلبية احتياجاتك.
تحدثنا سابقاً عن المعرفة الداخلية. ربما أبهرك في وقت ما النماذج اللغوية الكبيرة (LLM) ومعرفتها الواسعة. وهذا مثير للإعجاب، لكن كلما أصبحت استفساراتك أكثر تخصصاً تبدأ تظهر بعض الثغرات.
استرجاع المعلومات المدعوم بالتوليد (RAG)
المساعد الجيد لديه إمكانية الوصول إلى مصادر معرفة خارجية – لا يعتمد فقط على المعرفة التي اكتسبها أثناء التدريب. RAG يوجه ردود الذكاء الاصطناعي بناءً على تلك المعرفة.
المعرفة هنا تعني الوثائق أو الجداول أو الصور أو أي شيء يمكن معالجته رقمياً.
يبحث في الوثائق، ويستخرج العناصر الأكثر ارتباطاً باستفسار المستخدم ويستخدمها لـإثراء ردود النموذج.
- أحياناً يكون الهدف تعزيز دقة معلومات النموذج اللغوي الكبير، مثل الرجوع إلى الأدبيات الأكاديمية أثناء البحث.
- وأحياناً يكون الهدف إتاحة معلومات لا يمكن للنموذج الوصول إليها عادةً، مثل بيانات العملاء.
وفي كلتا الحالتين، هناك ميزة إضافية وهي إمكانية الاستشهاد بالمصادر، مما يجعل الردود أكثر موثوقية وقابلة للتحقق.
واجهات برمجة التطبيقات والتكاملات (APIs)
بنفس الطريقة التي يمكن للنموذج اللغوي الكبير من خلالها التفاعل مع المعلومات الخارجية، تتيح واجهات البرمجة والتكاملات له التفاعل مع تقنيات خارجية.
هل ترغب في حجز موعد Google Meets عبر Calendly للمتابعة مع عميل محتمل في HubSpot تم تقييمه باستخدام Clearbit؟ ما لم تكن قد أنشأت بنفسك تقنيات التقويم والاجتماعات المرئية وإدارة علاقات العملاء والتحليلات (وهو أمر غير مستحسن)، ستحتاج إلى التكامل 🔌⚡️.
عادةً ما توفر هذه الأدوات الخارجية واجهات برمجة تطبيقات تتيح تنفيذ العمليات من قبل تقنيات مؤتمتة أخرى – مثل وكيلك الذكي.

التكاملات تجعل من الأسهل بكثير ربط الروبوت بالتقنيات الخارجية. تم بناؤها على واجهة برمجة تطبيقات (API)، لتغطي التعقيدات بحيث يمكنك توصيل وكيلك بسهولة.
الاستجابة وتحويل النص إلى كلام (TTS)
بعد تحويل إدخال المستخدم إلى نص، وتحليل نيته، واسترجاع المعلومات ذات الصلة، وتنفيذ المهمة المطلوبة.
حان الآن وقت الرد.
سواء كان ذلك بالإجابة على سؤال المستخدم أو تأكيد تنفيذ المهمة المطلوبة، فإن روبوت الصوت غالبًا ما يقدم استجابة.
تحويل النص إلى كلام (TTS)
المقابل لتحويل الكلام إلى نص هو توليد الكلام، أو تحويل النص إلى كلام.
هذه نماذج مدربة أيضًا على أزواج من الكلام والنص، وغالبًا ما يتم تكييفها حسب المتحدث والتنغيم والعاطفة لإنتاج كلام يشبه الإنسان.
تحويل النص إلى كلام يغلق الحلقة التي تبدأ وتنتهي بكلام الإنسان (أو ما يشبهه).
فوائد المساعدين الصوتيين
إضافة طبقة صوتية فوق وظائف الذكاء الاصطناعي تحسن التجربة بشكل عام. صحيح أنها شخصية وبديهية، لكنها تقدم أيضًا مزايا على مستوى الأعمال.
الصوت أسرع من النص
مع انتشار روبوتات الدردشة، أصبح المستخدمون معتادين على الردود السريعة. ومع المساعدين الصوتيين المدعومين بالذكاء الاصطناعي، تمكنا أيضًا من تسريع وقت الإدخال.
وكلاء الذكاء الاصطناعي الصوتي يوفرون علينا عناء صياغة جمل صحيحة. بدلاً من ذلك، يمكنك التحدث بشكل عفوي وسيتمكن الروبوت من فهمك.
وينطبق الأمر نفسه على الردود. أعترف أن القراءة قد تكون مملة– لكن الأمر يختلف عندما يتم سرد الردود لك صوتيًا.
استجابات على مدار الساعة
وهذا نوع آخر من السرعة. مع العمل عن بُعد والمعاملات التجارية عبر القارات، من المستحيل تغطية جميع المناطق الزمنية وساعات العمل المطلوبة.
يجب أن تكون التفاعلات الصوتية متاحة للجميع، وليس فقط للعملاء ضمن ساعات عمل معينة. ومع المساعدين الصوتيين المدعومين بالذكاء الاصطناعي، يمكن تحقيق ذلك.
تفاعلات أكثر تخصيصًا
الكلام يتجاوز الكلمات فقط. وجود روبوت صوتي يخلق تجربة أكثر شخصية ويعزز ثقة المستخدم. ومع الصفات البشرية لـ روبوتات الدردشة المدعومة بالذكاء الاصطناعي، تضيف الطبقة الصوتية رابطًا أقوى.
سهولة التكامل
كون المساعدين الصوتيين لا يحتاجون إلى استخدام اليدين يعني أيضًا أنهم لا يحتاجون إلى واجهة مستخدم. لا يتطلبون شاشات أو استخدام العينين– ولهذا السبب هم شائعون في السيارات.
في الواقع، يمكن دمجهم في أي مكان يمكن توصيل ميكروفون فيه. هذا شرط بسيط جدًا، ليس فقط لأن الميكروفونات صغيرة الحجم، بل لأنها متوفرة في كل مكان بالفعل: الحواسيب، الهواتف الذكية، وحتى الهواتف الأرضية.
اذكر تقنية متقدمة أخرى يمكن الوصول إليها عبر الهواتف الدوارة.

أكثر سهولة في الوصول
"دون استخدام اليدين" لا يتعلق فقط بالراحة. بالنسبة للأشخاص ذوي الاحتياجات المختلفة، قد يكون ذلك ضرورة.
المساعدون الصوتيون متاحون للأشخاص ذوي التنوع في الحركة أو الرؤية أو القدرة على القراءة والكتابة، والذين قد يواجهون صعوبة مع واجهات الذكاء الاصطناعي التقليدية.
حالات استخدام روبوتات الصوت عبر الصناعات
إذًا، اقتنعت بروبوتات الصوت. رائع. لكن كيف يمكنك استخدامها؟
الخبر السار هو أن كل صناعة تقريبًا يمكن تحسينها بالذكاء الاصطناعي الصوتي.
الرعاية الصحية
إجراءات الرعاية الصحية معروفة بأنها مرهقة. ولسبب وجيه: العمل حساس ويجب أن يتم بدقة. هذا المجال بحاجة ماسة لأتمتة الذكاء الاصطناعي، بشرط أن تكون موثوقة وفعالة.
نشهد تطبيقات الذكاء الاصطناعي في الرعاية الصحية بالفعل، ويضيف الصوت العديد من الفرص الجديدة للتحسين.
مثال جيد على ذلك هو الاستبيانات الطبية: المعلومات الشخصية، التاريخ الطبي، وغيرها.
هذه مملة. لكنها مهمة.
التحسن في السرعة والإنتاجية يخفف العبء عن العاملين في الرعاية الصحية، وتدفق المحادثة الشبيه بالبشر يكسر رتابة الإجابة على الأسئلة المتكررة.
تم أخذ سهولة الوصول في الاعتبار، وبفضل سلسلة العمليات المتعددة الطبقات التي ناقشناها سابقًا، أؤكد لك أن التقنية موثوقة.
الخدمات المصرفية
وبالحديث عن الأعمال الحساسة والمرهقة.
أمور مثل التحقق من رصيد الحساب وتحديث المعلومات هي معاملات بسيطة نسبيًا، لكنها تتطلب طبقات من الحماية لتقليل الأخطاء والاحتيال.
يتولى المساعد الصوتي لدى NatWest التعامل مع المعاملات الروتينية، مما يتيح للوكلاء البشريين قضاء وقت أطول في التفاعلات الحساسة أو المعقدة، مما يؤدي إلى زيادة رضا العملاء بنسبة 150% دون المساس بالأمان.
دعم العملاء
وفي مجال أتمتة المكالمات الروتينية، تمكن مساعد Vodafone الصوتي SuperTOBI من رفع مؤشر رضا العملاء (NPS) من 14 إلى 64.
وذلك لأن تفاعلات خدمة العملاء متكررة، ويتم الرد على استفسارات العملاء بنفس الطريقة سواء من شخص أو وكيل. ولا يتم تجاهل الحالات الخاصة– بل يتم تحويلها إلى الوكلاء البشريين.
التجزئة
أفتقد أحيانًا الأيام التي كنت أتحدث فيها مع البائع.
المشكلة أنهم مشغولون جدًا للتعرف على كتالوج المتجر وسياساته، ناهيك عن الوقت الذي يستغرقه التعامل مع كل عميل على حدة.
ظهور مساعدين مبيعات صوتيين مثل MyLow من Lowe’s: مساعد مبيعات افتراضي يقدّم معلومات حول تفاصيل المنتجات، والمخزون، والسياسات.
تبرز قوة المعرفة العامة لنماذج اللغة الكبيرة هنا: فهي لا تكتفي بتقديم معلومات خاصة بـ Lowe’s، بل تستخدم معرفتها بالتصميم الداخلي لإرشاد العملاء حول ديكور المنزل.
لا يزال بعض العملاء يبحثون عن التفاعل البشري. ولحسن الحظ، MyLow متاح أيضًا لموظفي المبيعات. يمكن للموظفين الحصول على المعلومات التي يحتاجونها من MyLow ومساعدة العميل بأنفسهم.
ابدأ بتقديم مساعدي الصوت المدعومين بالذكاء الاصطناعي
المساعدون الصوتيون المدعومون بالذكاء الاصطناعي هم الخيار الواضح. الكفاءة والشخصية دون التضحية بالجانب الإنساني– مكسب للطرفين.
يقدم Botpress أداة بناء قابلة للتخصيص بالسحب والإفلات، وإشراف بشري عند الحاجة، ومجموعة من التكاملات الجاهزة، بالإضافة إلى طبقة صوتية تندمج بسلاسة مع وكيلك.
روبوتاتنا واضحة وسهلة الاستخدام، لكنها ليست بسيطة بأي حال من الأحوال.
ابدأ البناء اليوم. إنه مجاني.
الأسئلة الشائعة
ما مدى دقة المساعدين الصوتيين المدعومين بالذكاء الاصطناعي في فهم اللهجات المختلفة أو صعوبات النطق؟
المساعدون الصوتيون المدعومون بالذكاء الاصطناعي يزدادون دقة مع اللهجات المتنوعة بفضل التدريب على مجموعات بيانات عالمية، لكن الدقة لا تزال تنخفض مع اللهجات الإقليمية القوية أو النطق غير المعتاد أو صعوبات النطق. بعض الأنظمة مثل Google وMicrosoft تقدم نماذج مخصصة للهجات، لكن المستخدمين الذين لديهم تحديات نطق كبيرة قد يواجهون معدلات خطأ أعلى ويحتاجون إلى تخصيص أو حلول متخصصة.
هل يمكن أن يعمل المساعد الصوتي المدعوم بالذكاء الاصطناعي دون اتصال بالإنترنت أم أنه يحتاج دائماً إلى اتصال؟
يمكن أن يعمل المساعد الصوتي المدعوم بالذكاء الاصطناعي دون اتصال إذا استخدم نماذج التعرف على الكلام ومعالجة اللغة على الجهاز نفسه، لكن هذا غالبًا ما يحده بمهام بسيطة فقط ودون الوصول إلى بيانات خارجية في الوقت الفعلي. معظم المساعدين المتقدمين يعتمدون على الإنترنت للمعالجة السحابية والحصول على معلومات حديثة.
ما مدى أمان البيانات التي تتم مشاركتها مع المساعدين الصوتيين المدعومين بالذكاء الاصطناعي، خاصة في القطاعات الحساسة مثل الرعاية الصحية والمصارف؟
يتم تأمين البيانات التي تتم مشاركتها مع المساعدين الصوتيين المدعومين بالذكاء الاصطناعي في القطاعات الحساسة مثل الرعاية الصحية والبنوك من خلال التشفير والامتثال للوائح مثل HIPAA وGDPR أو PCI DSS. ومع ذلك، يجب على الشركات اختيار مزودين لديهم شهادات أمان قوية وتجنب نقل معلومات التعريف الشخصية.
هل إضافة واجهة صوتية إلى روبوت دردشة قائم أمر مكلف؟
إضافة واجهة صوتية إلى روبوت دردشة موجود يمكن أن تكون غير مكلفة نسبيًا (باستخدام واجهات برمجة التطبيقات السحابية مثل Google Text-to-Speech أو طبقات الصوت من Botpress) أو أكثر تكلفة إذا تطلب الأمر تطويرًا مخصصًا أو دمجًا مع أنظمة خاصة. العديد من المنصات تقدم الآن التكامل الصوتي كميزة، مما يقلل التكاليف إلى بضع مئات من الدولارات شهريًا للاستخدام المتوسط، لكن عمليات النشر واسعة النطاق مع أصوات مخصصة أو متطلبات أمان خاصة قد تصل إلى مستويات تسعير المؤسسات بعشرات الآلاف من الدولارات.
ما مدى سرعة تمكّن الشركات من نشر مساعد صوتي مدعوم بالذكاء الاصطناعي من الصفر؟
يمكن للشركات نشر مساعد صوتي ذكي أساسي خلال بضع ساعات فقط باستخدام منصات بدون كود أو القوالب الجاهزة، خاصة للمهام البسيطة مثل الأسئلة الشائعة أو توجيه المكالمات. أما المساعدات الصوتية الأكثر تعقيدًا التي تتكامل مع الأنظمة الخلفية وتدعم الحوار الطبيعي، فعادةً ما تستغرق عدة أسابيع إلى أشهر لتطويرها.





.webp)
