في حين أن الكثيرين في الصناعة قد يجادلون بأن "الشيء الكبير التالي" في التكنولوجيا هو blockchain ، الذكاء الاصطناعي استبدال العمال البشريين أو الواقع المعزز ، هناك تقنية واحدة حاسمة يتم التقليل من شأنها: واجهة المستخدم الصوتية.
تشير الأبحاث إلى أن 50٪ من استعلامات البحث ستتم من خلال البحث الصوتي بحلول عام 2020. ومع ذلك ، فإن ما يقلل من شأن هذا البحث هو أن التحسينات الصغيرة في واجهة المستخدم الصوتية لديها القدرة على تغيير نموذج التفاعل الحالي بين الإنسان والحاسوب بالكامل. يتجاوز هذا حالة استخدام البحث نحو استبدال واجهة المستخدم الصوتية أو دمجها بعمق مع واجهات المستخدم والتطبيقات الرسومية.
تسمح واجهة المستخدم الصوتية للأشخاص بالتواصل مع الأجهزة باللغة المنطوقة الطبيعية من خلال مكبرات الصوت الذكية والأجهزة الأخرى الموجودة حاليا في أجهزة مثل Alexa أو Google Home. التحدث أمر أساسي للطريقة التي ننجز بها الأشياء مع البشر الآخرين ، وسيكون أساسيا للطريقة التي ننجز بها الأشياء باستخدام أجهزة الكمبيوتر في المستقبل.
ومع ذلك ، هذا رأي هامشي حاليا.
في حين أن معظم خبراء التكنولوجيا يتفقون على أن الصوت سيستمر في تطوير دوره الحالي في النظام البيئي للتكنولوجيا ، أو على الأقل ينمو بشكل تدريجي مع تحسن التكنولوجيا ، فإن توقعي هو أن الصوت هو الحدث الرئيسي في حد ذاته. سوف تهيمن على تفاعلاتنا مع البرامج والأجهزة ، وحتى تصبح بنفس أهمية واجهة المستخدم الرسومية.
كما ذكرنا ، هذا ليس رأيا سائدا. يدرك العديد من خبراء الصناعة أن الصوت لا يزال حداثة ولم يحقق ملاءمة مثالية لسوق المنتج حتى الآن. بعض أصحاب رأس المال المغامر البارزين ، على سبيل المثال ، لديهم رأي مفاده أنه حتى يتم تحقيق الذكاء الاصطناعي المعمم ، ستظل تقنية الصوت دائما متخصصة للغاية.
بسبب العديد من القيود الحالية للمساعدين الصوتيين ، يصعب على الناس تخيل الصوت على أنه الموجة التالية من التكنولوجيا. في رأيي ، صوت اليوم يشبه الطلب الهاتفي على شبكة الإنترنت في وقت مبكر '90s. في ذلك الوقت ، كانت التجربة عبر الإنترنت سيئة للغاية لدرجة أنه كان من الصعب تصور ما سيكون ممكنا بمجرد تحسين عرض النطاق الترددي. قدم كبار المفكرين جميع أنواع التنبؤات للإنترنت التي تبدو محافظة بشكل سخيف في الإدراك المتأخر - حتى أن بعض الخبراء توقعوا أنه لن يكون لها تأثير على الاقتصاد أكثر من أجهزة الفاكس.
توقعات الناس للصوت متحفظة بالمثل اليوم ، ويرجع ذلك جزئيا إلى مدى صعوبة تجربة الصوت. الافتراض هو أنه حتى يتم تحقيق الذكاء الاصطناعي المعمم ، فإن أداء الروبوتات سيكون ضعيفا في المحادثات - ولن تكون التكنولوجيا رائعة أبدا حتى chatbots قادرة على إجراء محادثة قريبة من الإنسان مع المستخدم. ومع ذلك ، فإن هذا الافتراض فيما يتعلق بالحاجة إلى الذكاء الاصطناعي المعمم معيب: هناك بالتأكيد طرق للحصول على chatbots لتحقيق أداء شبه بشري باستخدام التكنولوجيا الحالية.
بالنسبة لمساعدي السماعات الذكية العامة ، فإن تغطية الموضوع واسعة جدا ، بحيث يجب أن يكونوا تعلموا ذاتيا بالكامل تقريبا. لسوء الحظ ، فإن التكنولوجيا الحالية ليست جيدة بما يكفي لإنشاء روبوتات التعلم الذاتي تلقائيا يمكنها التعامل مع المحادثات متعددة الأدوار مع البشر. إذا كانت هذه التكنولوجيا موجودة بالفعل ، فسنكون قادرين على طرح أسئلة متابعة على Google. لكن وجود روبوتات ذكية تبني نفسها يشبه محاولة جعل تطبيق الهاتف الذكي يبني نفسه دون أي تدخل بشري - إنه ببساطة غير ممكن في الوقت الحالي.
هناك طريقة أخرى لتحقيق محادثة على مستوى بشري تقريبا مع الروبوتات: تضييق نطاقها بشكل كبير. تماما كما هو الحال بالنسبة للتطبيقات ، يمكن للمطورين إنشاء روبوتات متطورة لمهام محددة ، وبرمجتها يدويا للمشاركة في محادثة هادفة. مع هذه الأنواع من الروبوتات ، سيأتي اختراق الصوت: ستستضيف مكبرات الصوت الذكية والهواتف والأجهزة الأخرى هذه الأنواع من الروبوتات ، مما يخلق فرصا كبيرة لأول المحركين الذين يحصلون على الأشياء بشكل صحيح.
معالجة قضايا الروبوتات الصوتية اليوم
لفهم الفرق بشكل حدسي بين تجربة الروبوتات الصوتية الحالية وما ستبدو عليه هذه التكنولوجيا في المستقبل ، نحتاج إلى البدء بفهم سبب كون الجهاز الصوتي حاليا مكافئا لتصفح الويب على مودم الطلب الهاتفي.
أولا ، لا تزال التفاعلات الأساسية مع الروبوت الصوتي سيئة للغاية. يجب عليك معالجة الجهاز على وجه التحديد بكلمة ساخنة ، وبعد ذلك يجب عليك الانتظار لمعرفة ما إذا كان قد تم تنشيط الروبوت بنجاح أم لا. إذا تم تنشيطه ، فأنت بحاجة إلى التحدث بعد الصافرة بسرعة بطيئة ولكن متسقة وصياغة جملك لتشمل جميع المعلمات الضرورية - تقريبا كما لو كنت تتحدث في عبارة SQL. إذا توقفت للتفكير في أي لحظة ، فسوف يفشل تفاعلك وستحتاج إلى العودة إلى البداية.
لنلق نظرة على مثال واقعي:
أنت تقول ، "مرحبا ، جوجل".
هناك توقف مؤقت أثناء انتظار الإقرار بأن الجهاز قد تم تنشيطه.
إذا تم تفعيله ، فتابع طلبك:
"العب" Dark Horse "لكاتي بيري على YouTube ، على تلفزيون غرفة المعيشة."
هناك تأخير آخر بينما يعالج الجهاز ما قلته.
إذا نجح طلبك ، فسيبدأ حدوث شيء ما على التلفزيون وسيتم تشغيل الفيديو.
إذا لم تنجح ، فعليك العودة إلى البداية والمحاولة مرة أخرى ، ربما ببنية جملة مختلفة أو كلمات مختلفة أو مجرد محاولة التحدث بشكل أكثر وضوحا.
هذه التجربة مليئة بالتأخيرات والأخطاء المحتملة ويمكن أن تستغرق العديد من عمليات إعادة التشغيل لإنجاز المهام. بالإضافة إلى ذلك ، فإن الروبوت الصوتي ليس ذكيا بعد ولن يستجيب للأوامر أو الاستفسارات ذات الصلة فيما يتعلق بما تفعله.
طريقة جديدة للتفاعل مع الروبوتات الصوتية
أسهل طريقة لتخيل التفاعلات مع الروبوتات الذكية في المستقبل هي تصوير مشغل بشري يتحكم في الجهاز ويعطيه تعليمات خاصة فيما يتعلق بتشغيل YouTube (ولا شيء آخر).
الفرق الأول هو في سرعة التفاعل. يمكنك التحدث إلى المشغل "البشري" بسرعة عادية ، دون توقف مؤقت أو تأخير في الاستجابة ، ولا توجد مشاكل إذا توقفت مؤقتا أثناء التحدث. يمكنك أيضا الإشارة إلى المشغل البشري في منتصف الجملة - على سبيل المثال ، "أريد مشاهدة التلفزيون - أنت تعرف ماذا ، Alexa ، يرجى وضع شيء ما على YouTube." في الواقع ، قد لا تضطر إلى قول اسمهم (الكلمة الساخنة) على الإطلاق لحملهم على الرد.
سيكون هذا الروبوت الشبيه بالإنسان مرنا أيضا من حيث كيفية تفاعله معك:
أنت: "أليكسا ، أريد مشاهدة YouTube."
أليكسا: "بالتأكيد ، على أي تلفزيون؟"
أنت: "على تلفزيون المطبخ - ربما شيء من كاتي بيري."
أليكسا: "هل لديك أغنية معينة في الاعتبار؟"
أنت: "لا ، ماذا يمكنك أن تقترح؟"
الإنسان: "هدير" ، "حصان أسود"؟ لقد وضعت المزيد من الاقتراحات على الشاشة."
أنت: "عظيم ، شكرا. العب "ساخن وبارد".
هذا هو مستقبل تفاعلات الروبوت: سلسة وسلسة وسهلة التحدث حول المهمة أو الموضوع المطروح. تخيل عالما واسعا من هذه الروبوتات مع عالم واسع بنفس القدر من الأجهزة الصوتية الرخيصة والسلعية. سيكون الأمر مثل وجود مشغل بشري يقف في كل غرفة وبجانب كل جهاز. سيظل هناك الكثير من واجهات المستخدم الرسومية ، ولكن سيكون استخدامها أسهل بكثير من خلال الروبوت.
الدخول إلى مستقبل الصوت
اليوم ، من الشائع رؤية الموظفين في أماكن مثل محطات المترو والمطارات ومحلات السوبر ماركت يقدمون المساعدة لأولئك الذين يستخدمون شاشات اللمس ذاتية الخدمة - على سبيل المثال ، الشخص الذي يساعدك في استخدام آلات تسجيل الوصول للحصول على بطاقة الصعود إلى الطائرة في المطار. تخيل ، مع ذلك ، أن هذا الشخص يمكنه بالفعل التفاعل مباشرة مع تطبيق تسجيل الوصول - مما يعني أنه في منتصف عملية تسجيل الوصول ، يمكنك إخبار الجهاز أنك تريد تغيير مقعدك من الموضع الذي اخترته في الأصل ، وسيقوم التطبيق بإحضار الشاشة ذات الصلة لك - كل ذلك دون مساعدة مساعد بشري.
هذا هو المستقبل: سيتم تضمين روبوت صوتي في كل جهاز أو خدمة تريد التفاعل معها أو الوصول إليها ، وستفعل على الفور ما تأمر به. لن تحتاج بعد الآن إلى إخراج هاتفك أو الكمبيوتر المحمول لإنجاز شيء ما - بدلا من ذلك ، كل ما عليك فعله هو أن تقول بصوت عال ما تحتاجه ، وسيقع كل شيء في مكانه من هناك.
سيكون الانتقال إلى الصوت في النهاية حول شيء بسيط مثل الراحة. في عالمنا الحديث ، يريد الناس القيام بالأشياء بسرعة بأقل قدر من المتاعب ، والسرعة مهمة أكثر من أي وقت مضى. على الرغم من أن غالبية المتصلين بصناعة روبوتات الدردشة لا يتوقعون ذلك حاليا ، إلا أن أولئك منا الذين يبحثون ويطورون التكنولوجيا يتوقعون آثارا هائلة على العمليات التجارية والتسويق والمبيعات والعلامات التجارية وتوزيع المنتجات والمزيد. الصوت هو مستقبل التكنولوجيا ، ونحن بالفعل في منتصف الطريق.
شارك هذا على:
قم ببناء روبوت الدردشة الذكاء الاصطناعي المخصص الخاص بك مجانا
ابدأ في إنشاء روبوت GPT مخصص من خلال واجهة السحب والإفلات البديهية.
ابدأ - إنه مجاني! 🤖بطاقة الائتمان غير مطلوبة
ابق على اطلاع بأحدث ما الذكاء الاصطناعي chatbots