ما هو المساعد الصوتي؟
المساعد الصوتي هو برنامج يمكنه فهم الأوامر المنطوقة بلغة طبيعية والاستجابة لها. يمكن أيضا تسميتهم بالمساعدين الأذكياء وقد يكون هذا وصفا أكثر دقة لأنه في كثير من الحالات يمكن ربطهم بالنص عبر الدردشة. بالطبع ، تعرف أيضا باسم الروبوتات.
في السنوات الأخيرة ، تم اعتماد المساعدين الصوتيين بشكل خاص في شكل مساعدين منزليين يتم تنشيطهم صوتيا مثل Alexa و Google Home.
تسمح هذه المنتجات للمستخدمين بأمر البرامج بالقيام بالأشياء بأصواتهم فقط. على سبيل المثال ، يمكن للمستخدم تشغيل الموسيقى على Spotify أو تشغيل مقطع فيديو على Youtube فقط عن طريق أمر المساعد الصوتي الذكي للقيام بذلك.
أصبح جهاز المساعد الشخصي ممكنا بفضل الاختراقات في الذكاء الاصطناعي ، وتحديدا في مجال يسمى معالجة اللغة الطبيعية.
كيف يستخدم المساعدون الصوتيون البرمجة اللغوية العصبية للتعرف على الصوت؟
معالجة اللغة الطبيعية هي تقنية تمكن أجهزة الكمبيوتر من فهم القصد من وراء العبارة المنطوقة. هذا يختلف عن التعرف على الكلام الذي ينسخ الكلمات المنطوقة إلى نص. بالطبع ، هناك حاجة أيضا إلى التعرف على الكلام للمساعدين الرقميين الذين يتم التحكم فيهم صوتيا. يقوم التعرف على الكلام بنسخ الكلمات المنطوقة إلى نص وتحدد معالجة اللغة الطبيعية نية المستخدم وراء النص.
تعد معالجة اللغة الطبيعية مهمة ومفيدة لأن البشر يوجهون المساعدين الصوتيين باستخدام عبارات مختلفة لها نفس المعنى. على سبيل المثال ، يمكنهم أن يقولوا ، "تشغيل X على Youtube" ، أو "يرجى العثور على X على Youtube وتشغيله" أو "على Youtube ، يرجى تشغيل الأغنية X" ، إلخ.
يمكن للبرمجة اللغوية العصبية اكتشاف أن كل هذه العبارات لها نفس المعنى. هذا مفيد للبشر ، بصرف النظر عن حقيقة أنه يمكنهم التفاعل مع الجهاز بالصوت فقط لأنهم لا يحتاجون إلى تذكر أمر أو بناء جملة دقيق لتشغيل الجهاز. من السهل أيضا على المطورين تعلم كيفية الإعداد ، ولهذا السبب يعد جزءا مهما من أي إطار عمل للروبوت.
إيجابيات وسلبيات المساعدين الصوتيين
كما سيخبرك أي شخص حاول بالفعل استخدام مساعد صوتي ، فهي جيدة لأشياء ولكنها ليست مثالية. لا يمكنك إجراء محادثة شبيهة بالبشر معهم على سبيل المثال. ستنهار المحادثة بسرعة إذا حاولت.
من الصعب أيضا معرفة ما يمكنهم أو لا يمكنهم فعله بمجرد التفاعل معهم. اتضح أن الصوت هو واجهة ضعيفة لاسترداد الكثير من المعلومات بسرعة. يعد مسح صفحة ويب ، على سبيل المثال ، طريقة أفضل بكثير للحصول على المعلومات بسرعة.
ما يجيدونه هو الأوامر أو الأسئلة لمرة واحدة. إنها تعمل بشكل جيد خاصة في الحالة التي يعرف فيها المستخدم بالضبط النتيجة التي يرغب فيها ، على سبيل المثال ، يريدون تشغيل مقطع فيديو معين على youtube يعرفون اسمه وحيث تكون الإجابة على السؤال عبارة بسيطة ، مثل الإجابة على "ما هي درجة الحرارة في مدينتي؟".
غالبا ما ننسى أن هؤلاء المساعدين الصوتيين هم ببساطة واجهة برمجية أخرى. نحن نسميهم مساعدين لأنه يمكنك التحدث إليهم ، وبالتالي من السهل تصورهم على أنهم يتمتعون بنوع من الجودة الشبيهة بالإنسان. يتم تعزيز هذه الفكرة بشكل أكبر من خلال حقيقة أنه يتعين علينا الاتصال بهم بالاسم بكلمة ساخنة ، "Hey Google" و "Alexa" و "Siri" لتنشيطهم. إذا لم يكن لدينا كلمة ساخنة ، فلن يعرفوا متى يتم التحدث إليهم وبالتالي متى يستجيبون. الكلمة الساخنة تغسل أدمغتنا للتفكير في المساعد الصوتي كنوع من التفكير كمساعد بشري تقريبا أكثر من كونه واجهة برمجية. وهو يغسل أدمغة الأطفال الصغار للاعتقاد بأن Google أو Alexa هي نوع من الحميات التي قد تسبب لهم بعض الضرر الدائم عندما يكتشفون أن هذه شركات تهيمن على العالم.
في الواقع ، المساعدون الصوتيون هم مجرد واجهة برمجية أخرى ، أي ما يعادل على سبيل المثال واجهة رسومية. تؤدي الواجهة الرسومية دورا مشابها للواجهة الصوتية ولكن لا يمكن إضفاء الطابع الإنساني عليها بنفس الطريقة.
يتم استخدام واجهات الصوت بشكل مختلف عن الواجهات الرسومية بالطبع. اتضح أن الواجهات الصوتية تستخدم عادة بالإضافة إلى الواجهات الرسومية ولكن ليس العكس.
ويرجع ذلك جزئيا إلى أن الواجهات الرسومية قد تم إنشاؤها بالفعل لمعظم التطبيقات ، وبالتالي فإن إضافة واجهة صوتية إليها تتيح للمستخدمين طريقة أخرى للتفاعل مع البرنامج. مثل مطالبة مساعد صوتي بتشغيل فيديو يوتيوب. يمكنك تشغيل الفيديو باستخدام الواجهة الرسومية ولكن سيكون القيام بذلك أبطأ.
يمكن القول أيضا أن الواجهة الرسومية أكثر اكتمالا من الواجهة الصوتية حيث سيكون من الصعب جدا القيام ببعض المهام باستخدام الصوت الذي يمكن القيام به بسهولة على واجهة رسومية. لفهم هذه النقطة ، تخيل محاولة جعل زميلك ينشئ جدول بيانات لك من خلال إعطائه تعليمات عبر الهاتف مقابل إنشاء جدول البيانات بنفسك باستخدام الواجهة الرسومية.
في حين أن الواجهات الصوتية لا غنى عنها عادة ، إلا أنها توفر مستوى جديدا من الراحة في مواقف معينة. عادة ما تكون هذه راحة يمكنك العيش بدونها إذا لزم الأمر إلا في الظروف النادرة التي يكون فيها التفاعل بدون استخدام اليدين ضروريا.
مستقبل المساعدين الصوتيين
نظرا لقيودها ، فإن السؤال هو ما إذا كان المساعدون الصوتيون سيصبحون أكثر أهمية في المستقبل أم أنهم سيظلون منتجا هامشيا.
من الواضح لنا أن المساعدين الصوتيين سيصبحون أكثر شيوعا ويستخدمون على نطاق واسع في المستقبل لسبب واحد ، سيتم دمجهم بالكامل مع واجهات المستخدم الرسومية.
في حين أنه من الصعب استبدال واجهات المستخدم الرسومية بالصوت ، فمن الممكن جدا الجمع بين واجهة صوتية ورسومية. يتم ذلك إلى حد محدود للغاية في الوقت الحالي باستخدام مساعد Google (الذي يسمح لصفحة الويب بتوفير السياق) و Bixby.
سيدمج الجيل التالي من الواجهات التي سنسميها واجهات "الجمع" الرسومات والنصوص والصوت في أفضل تجربة للمستخدم. لن يسمح هذا فقط للمستخدمين بإنجاز المهام بشكل أسرع وبأقل منحنى تعليمي (لأن الصوت يسمح للمستخدمين بالتفاعل مع البرامج دون معرفة الأوامر الدقيقة) ولكن مراقبة التفاعلات الذكاء الاصطناعي ستسمح للواجهات بالتطور والتحسن من تلقاء نفسها.
ستعمل التعليمات الصوتية عند تشغيل التطبيق لأول مرة بشكل مختلف بمجرد أن يتعلم التطبيق من آلاف التفاعلات ما هو أفضل مسار للعمل.
من المثير للاهتمام أيضا التفكير في كيفية اعتماد الصوت بالكامل ، يجب أن يكون هناك تغيير في سلوك المستخدم. في الوقت الحالي ، يكتب الأشخاص نصا ويستخدمون واجهات رسومية على هواتفهم الذكية أكثر بكثير مما يتحدثون في هواتفهم ويستخدمون المساعدين الصوتيين.
هذا لأن تقنية التعرف على الصوت ليست مثالية. لعقود من الزمان ، كانت هناك اختصارات صوتية على الهواتف وأجهزة الكمبيوتر ، لكن هذه الاختصارات لم تستخدم على نطاق واسع لأن معدلات الخطأ كانت عالية جدا لدرجة أن ألم حساب الخطأ فاق فائدة الراحة بعد أن تلاشت الجدة.
تخيل لو كان التعرف على الصوت مثاليا ولم تكن هناك معدلات خطأ.
في هذه الحالة ، سيكون من الأسرع بكثير على الأشخاص "كتابة" بريد إلكتروني ، على سبيل المثال ، باستخدام الصوت بدلا من الكتابة على هواتفهم الذكية. بمجرد الوصول إلى هذه النقطة الحرجة ، ستكون المساعدة الصوتية في كل مكان لهذه الأنواع من المهام.
لكي تقلع الروبوتات ، يجب أن تعمل كل من تقنية البرمجة اللغوية العصبية والتعرف على الصوت على مستوى عال. بينما يعمل التعرف على الصوت بشكل جيد للغاية بالفعل ، فإن البرمجة اللغوية العصبية ، كما ناقشنا ، تعمل بشكل جيد فقط للمجالات الضيقة.
النقطة المثيرة للاهتمام هنا هي أن التعرف على الصوت يعمل بشكل أفضل في المجالات الضيقة لأسباب واضحة ، فهناك كلمات أقل بكثير يمكن أن يقولها المستخدم.
هذا يعني أننا بالفعل في مرحلة القدرة على خلق chatbots التي تكاد تكون مثالية في مجال ضيق. ما عليك سوى الاستماع إلى العروض التوضيحية على Google Duplex.
سيؤدي ذلك إلى اعتماد سريع للغاية للصوت بمجرد حل الاكتشاف والمشكلات ذات الصلة.
الصوت أولا
الفكرة هي أن الصوت سيكون أول منفذ للاتصال عندما يحتاج شخص ما إلى المساعدة.
في عالم الصوت أولا ، ستصبح الأجهزة غير مرئية أكثر حيث سيحتاج الأشخاص فقط إلى النظر إليها للمهام التي لا يمكنهم استخدام الصوت للقيام بها.
لن يكون لدى الناس جهاز واحد فقط في غرفة المعيشة الخاصة بهم ، بل سيكون لديهم جهاز صوت رخيص في كل غرفة. سيتم توصيل هذه الأجهزة ببعضها البعض وأجهزة إنترنت الأشياء والهواتف الذكية وأجهزة الكمبيوتر. قد تتمكن بعض هذه الأجهزة من عرض الصور على الجدران.
سيتمكن الناس من طرح الأسئلة أو إعطاء الأوامر أثناء الاستحمام أو تنظيف أسنانهم. لن يضطروا إلى تذكر الأشياء لإخبار الروبوت الصوتي في الطابق السفلي.
ستكون هناك طرق أفضل بكثير لاكتشاف الوظائف و "تدريب" البشر على كيفية استخدام الروبوتات بكفاءة.
في حين أن هناك العديد من المشاكل مع أجهزة المساعد الصوتي في الوقت الحالي ، فإن معظم هذه المشكلات تتعلق بكيفية استخدامها بدلا من التكنولوجيا الأساسية. نعتقد أنه في فترة زمنية قصيرة ستظهر التطبيقات القاتلة للصوت وسيكون هذا حدثا يغير قواعد اللعبة للطريقة التي يتم بها استخدام البرنامج. سيتطلب ذلك أيضا بعض التوحيد القياسي لتقنيات وبروتوكولات الصوت ، لكن هذه عقبات لن تعيق التقدم لفترة طويلة.
نتطلع إلى عالم من الراحة المطلقة حيث تكون الأجهزة الصوتية جاهزة للمساعدة في أي مكان أو وقت تقريبا.
جدول المحتويات
ابق على اطلاع دائم بأحدث ما توصل إليه وكلاء الذكاء الاصطناعي
شارك هذا على: