- يقوم ASR بتحويل الكلام إلى نص باستخدام التعلّم الآلي، مما يتيح إمكانية إصدار الأوامر الصوتية والنسخ في الوقت الفعلي.
- تحوّلت أنظمة ASR الحديثة من النماذج الصوتية المنفصلة (HMM-GMM) إلى نماذج التعلّم العميق التي تتنبأ بكلمات كاملة.
- يقاس أداء ASR بمعدل الخطأ في الكلمات (WER)، حيث تأتي الأخطاء من الاستبدالات أو الحذف أو الإدراج؛ انخفاض معدل الخطأ في الكلمات = جودة نسخ أفضل.
- يركز مستقبل ASR على المعالجة على الجهاز من أجل الخصوصية ودعم اللغات منخفضة الموارد.
متى كانت آخر مرة شاهدت فيها شيئًا ما بدون ترجمة؟
كانت اختيارية في السابق، لكنها الآن تتردد عبر مقاطع الفيديو القصيرة سواء أردنا ذلك أم لا. أصبحت التسميات التوضيحية جزءًا لا يتجزأ من المحتوى لدرجة أنك تنسى وجودها.
إن التعرف التلقائي على الكلام (ASR) - القدرة على أتمتة تحويل الكلمات المنطوقة إلى نص بسرعة ودقة - هي التكنولوجيا التي تدعم هذا التحول.
عندما نفكر في الوكيل الصوتي للذكاء الاصطناعي، فإننا نفكر في اختيار كلماته وطريقة إلقائه والصوت الذي يتحدث به.
ولكن من السهل أن ننسى أن سلاسة تفاعلاتنا تعتمد على فهم الروبوت لنا. والوصول إلى هذه النقطة - فهم الروبوت لك من خلال "أم" و "آه" في بيئة صاخبة - لم يكن نزهة في الحديقة.
سنتحدث اليوم عن التقنية التي تدعم هذه التسميات التوضيحية: التعرف التلقائي على الكلام (ASR).
اسمح لي بتقديم نفسي: أنا حاصل على درجة الماجستير في تكنولوجيا الكلام، وفي وقت فراغي أحب أن أقرأ عن أحدث ما توصلت إليه تكنولوجيا النطق، بل وأقوم ببناء الأشياء.
سأشرح لك أساسيات تقنية ASR، وألقي نظرة خاطفة تحت غطاء المحرك على هذه التقنية، وسأخمن إلى أين يمكن أن تذهب هذه التقنية بعد ذلك.
ما هو ASR؟
التعرّف التلقائي على الكلام (ASR)، أو تحويل الكلام إلى نص (STT) هي عملية تحويل الكلام إلى نص مكتوب من خلال استخدام تقنية التعلم الآلي.
غالبًا ما تدمج التقنيات التي تتضمن الكلام في كثير من الأحيان ASR في بعض الصفات؛ يمكن أن يكون ذلك من أجل التعليق على الفيديو، أو تدوين تفاعلات دعم العملاء لتحليلها، أو جزء من تفاعل المساعد الصوتي، على سبيل المثال لا الحصر.
خوارزميات تحويل الكلام إلى نص
لقد تغيرت التقنيات الأساسية على مر السنين، ولكن جميع التكرارات كانت تتألف من عنصرين بشكل أو بآخر: البيانات والنموذج.
في حالة ASR، تكون البيانات في حالة ASR عبارة عن ملفات صوتية للغة المنطوقة والنسخ المقابلة لها.
النموذج هو الخوارزمية المستخدمة للتنبؤ بالنسخ من الصوت. يتم استخدام البيانات المصنفة لتدريب النموذج، بحيث يمكنه التعميم عبر أمثلة الكلام غير المرئية.

إنه يشبه إلى حد كبير كيف يمكنك أن تفهم سلسلة من الكلمات، حتى لو لم تسمعها من قبل بهذا الترتيب المحدد، أو إذا كانت تنطق من شخص غريب.
مرة أخرى، لقد تغيرت أنواع النماذج وتفاصيلها بمرور الوقت، وكل التقدم في السرعة والدقة يعود إلى حجم ومواصفات مجموعات البيانات والنماذج.
جانب سريع: استخراج الميزات
لقد تحدثت عن الميزات أو التمثيلات في مقالتي عن تحويل النص إلى كلام. يتم استخدامها في نماذج ASR في الماضي والحاضر.
استخراج الميزات - أي تحويل الكلام إلى ميزات - هو الخطوة الأولى في جميع خطوط أنابيب ASR تقريبًا.
وخلاصة الأمر أن هذه السمات، التي غالبًا ما تكون مخططات طيفية هي نتيجة عملية حسابية رياضية تُجرى على الكلام، وتحول الكلام إلى صيغة تؤكد على أوجه التشابه بين الكلام، وتقلل من الاختلافات بين المتحدثين.
بمعنى أن نفس الكلام الذي ينطقه متحدثان مختلفان سيكون له مخططان طيفيان متشابهان، بغض النظر عن مدى اختلاف صوتيهما.
أشير إلى ذلك لأعلمك أنني سأتحدث عن النماذج التي "تتنبأ بالنصوص من الكلام". هذا ليس صحيحًا من الناحية الفنية؛ فالنماذج تتنبأ من الميزات. لكن يمكنك التفكير في مكون استخراج الميزات كجزء من النموذج.
ASR ASR المبكر: HMM-GMM
نماذج ماركوف المخفية (HMMs ) ونماذج المزيج الغاوسي (GMMs ) هي نماذج تنبؤية من قبل أن تتولى الشبكات العصبية العميقة.
هيمنت HMMs على ASR حتى وقت قريب.
بالنظر إلى ملف صوتي، يتنبأ HMM بمدة الصوت، ويتنبأ GMM بمدة الصوت نفسه.
يبدو ذلك معكوساً، وهو كذلك نوعاً ما:
- HMM: "أول 0.2 ثانية هي أول 0.2 ثانية فونيم."
- GMM: "هذا الفونيم هو G، كما في غاري."
يتطلب تحويل مقطع صوتي إلى نص بعض المكونات الإضافية، وهي
- قاموس النطق: قائمة شاملة بالكلمات الواردة في المفردات مع ما يقابلها من نطقها.
- نموذج لغوي: تركيبات الكلمات في المفردات واحتمالات تزامنها مع بعضها البعض.
لذا، حتى لو توقعت GMM /f/ على /s/، فإن نموذج اللغة يعرف أنه من المرجح أن المتكلم قال "قرشًا لأفكارك"، وليس "فوت".
لقد كان لدينا كل هذه الأجزاء لأنه، بصراحة، لم يكن أي جزء من خط الأنابيب هذا جيدًا بشكل استثنائي.
قد يخطئ HMM في التنبؤ بالمحاذاة، وقد يخطئ GMM في الأصوات المتشابهة: /s/ و /f/، و /p/ و /t/، ولا تجعلني أبدأ حتى في حروف العلة.
ومن ثم يقوم النموذج اللغوي بتنظيف فوضى الصوتيات غير المترابطة إلى شيء أكثر لغة.
اختبار السبر الآلي الشامل مع التعلّم العميق
تم دمج الكثير من أجزاء خط أنابيب ASR منذ ذلك الحين.

فبدلاً من تدريب نماذج منفصلة للتعامل مع التهجئة والمحاذاة والنطق، يأخذ نموذج واحد الكلام ويخرج كلمات مكتوبة بشكل صحيح (على أمل) الكلمات الصحيحة، وفي الوقت الحاضر، الطوابع الزمنية أيضًا.
(على الرغم من أن التطبيقات غالبًا ما تصحح أو "تعيد تسجيل" هذا الناتج باستخدام نموذج لغوي إضافي).
هذا لا يعني أن العوامل المختلفة - مثل المحاذاة والتهجئة - لا تحظى باهتمام فريد. لا تزال هناك جبال من المؤلفات التي تركز على تنفيذ الإصلاحات للمشاكل المستهدفة للغاية.
وهذا يعني أن الباحثين يتوصلون إلى طرق لتغيير بنية النموذج الذي يستهدف عوامل محددة في أدائه، مثل
- وحدة فك ترميز شبكة RNN-محول محول مشروط بالمخرجات السابقة لتحسين التهجئة.
- تصغير التلافيف التلافيفي للحد من المخرجات الفارغة، وتحسين المحاذاة.
أعلم أن هذا هراء. أنا فقط أسبق مديري في العمل وأقول له "هل يمكنك أن تعطي مثالاً باللغة الإنجليزية البسيطة؟"
الإجابة هي لا.
لا أستطيع.
كيف يتم قياس الأداء في ASR؟
عندما تقوم ASR بعمل سيء تعرفه.
I’ve seen caramelization transcribed as communist Asians. هشاشة إلى كريس ب - فهمت الفكرة.
المقياس الذي نستخدمه لعكس الأخطاء رياضيًا هو معدل الخطأ في الكلمات (WER). معادلة WER هي:

أين:
- S هو عدد الاستبدالات (الكلمات التي تم تغييرها في النص المتوقع لمطابقة النص المرجعي)
- D هو عدد المحذوفات (الكلمات المفقودة من الإخراج، مقارنة بالنص المرجعي)
- I هو عدد الإضافات (الكلمات الإضافية في الإخراج، مقارنة بالنص المرجعي)
- N هو إجمالي عدد الكلمات في المرجع
لنفترض أن المرجع هو "جلس القط".
- إذا كانت مخرجات النموذج "غرقت القطة"، فهذا استبدال.
- إذا كانت مخرجات النموذج "جلس القط"، فهذا حذف.
- إذا كانت تخرج "جلس القط"، فهذا إدراج.
ما هي تطبيقات ASR؟
ASR هي أداة أنيقة.
كما أنها ساعدتنا على تحسين جودة حياتنا من خلال تحسين السلامة وسهولة الوصول والكفاءة في الصناعات الحيوية.
الصحيه
عندما أخبر الأطباء بأنني أبحث في مجال التعرّف على الكلام، يقولون "أوه، مثل Dragon".
قبل أن يتوفر لدينا الذكاء الاصطناعي التوليدي في مجال الرعاية الصحية، كان الأطباء يدونون ملاحظات شفهية بمعدل 30 كلمة في الدقيقة بمفردات محدودة.
لقد نجح برنامج ASR بشكل كبير في الحد من الإرهاق الذي يعاني منه الأطباء على نطاق واسع.
يوازن الأطباء بين جبال من الأعمال الورقية والحاجة إلى الاهتمام بمرضاهم. في وقت مبكر من عام 2018، كان الباحثون يطالبون باستخدام النسخ الرقمي في الاستشارات لتحسين قدرة الأطباء على تقديم الرعاية.
ويرجع ذلك إلى أن الاضطرار إلى توثيق الاستشارات بأثر رجعي لا يأخذ فقط من وقت المواجهة مع المرضى، ولكنه أيضًا أقل دقة بكثير من تلخيصات تدوين الاستشارات الفعلية.
المنازل الذكية
لدي هذه النكتة
عندما أرغب في إطفاء الأنوار ولكني لا أشعر برغبة في النهوض، أقوم بالتصفيق مرتين متتاليتين - كما لو كان لديّ مصفق.
شريكي لا يضحك أبداً.
تبدو المنازل الذكية التي تعمل بالصوت وكأنها مستقبلية ومتساهلة بشكل مخجل. أو هكذا يبدو.
بالتأكيد، إنها مريحة، ولكنها في كثير من الحالات تجعل من الممكن القيام بأشياء غير متاحة في حالات أخرى.
ومن الأمثلة الرائعة على استهلاك الطاقة: إجراء تعديلات طفيفة على الإضاءة ومنظم الحرارة لن يكون مجديًا طوال اليوم إذا كان عليك النهوض والتلاعب بقرص التحكم في درجة الحرارة.
إن تفعيل الصوت يعني أن هذه التعديلات الطفيفة ليست فقط أسهل في إجراء هذه التعديلات الطفيفة، ولكنها تقرأ الفروق الدقيقة في الكلام البشري.
على سبيل المثال، يمكنك أن تقول "هل يمكنك جعل درجة الحرارة أكثر برودة؟ يستخدم المساعد معالجة اللغة الطبيعية لترجمة طلبك إلى تغيير في درجة الحرارة، مع الأخذ في الاعتبار مجموعة كبيرة من البيانات الأخرى: درجة الحرارة الحالية، وتوقعات الطقس، وبيانات استخدام منظم الحرارة للمستخدمين الآخرين، وما إلى ذلك.
أنت تقوم بالجزء البشري وتترك الأمور المتعلقة بالكمبيوتر للكمبيوتر.
يمكنني القول أن هذا أسهل بكثير من أن تضطر إلى تخمين عدد الدرجات التي يجب أن تخفض الحرارة بناءً على شعورك.
كما أنها أكثر كفاءة في استهلاك الطاقة: هناك تقارير عن عائلات خفضت استهلاك الطاقة بنسبة 80% باستخدام الإضاءة الذكية التي تعمل بالصوت كمثال واحد.
دعم العملاء
لقد تحدثنا عن هذا الأمر مع الرعاية الصحية، ولكن التدوين والتلخيص أكثر فعالية بكثير من قيام الأشخاص بإعطاء ملخصات بأثر رجعي للتفاعلات.
مرة أخرى، إنها توفر الوقت وتكون أكثر دقة. ما نتعلمه مرارًا وتكرارًا هو أن الأتمتة توفر الوقت للأشخاص للقيام بعملهم بشكل أفضل.
ولا ينطبق ذلك في أي مكان أكثر من دعم العملاء، حيث يحقق دعم العملاء المعزز بميزة ASR معدل حل أعلى بنسبة 25% من المكالمات الأولى.
تساعد عملية النسخ والتلخيص على أتمتة عملية اكتشاف الحل بناءً على شعور العميل واستفساره.
المساعدون داخل السيارة
نحن نقتبس من مساعدي المنزل هنا، لكن الأمر يستحق الذكر.
يقلل التعرف على الصوت من العبء الإدراكي والتشتيت البصري للسائقين.
ونظراً لأن حالات تشتيت الانتباه تمثل ما يصل إلى 30% من حوادث الاصطدام، فإن تطبيق هذه التقنية أمر لا يحتاج إلى تفكير.
علم أمراض النطق
يُستخدم ASR منذ فترة طويلة كأداة لتقييم أمراض النطق وعلاجها.
من المفيد أن تتذكر أن الآلات لا تقوم فقط بأتمتة المهام، بل تقوم بأشياء لا يستطيع البشر القيام بها.
يمكن للتعرّف على الكلام اكتشاف التفاصيل الدقيقة في الكلام التي تكاد تكون غير محسوسة للأذن البشرية، والتقاط تفاصيل الكلام المتأثر الذي قد لا يُلاحظه الرادار.
مستقبل ASR
لقد أصبحت STT جيدة بما فيه الكفاية بحيث لم نعد نفكر في الأمر بعد الآن.
ولكن خلف الكواليس، يعمل الباحثون بجد على جعلها أكثر قوة وسهولة - وأقل وضوحًا.
لقد اخترت بعض الاتجاهات المثيرة التي تستفيد من التطورات في ASR، وأضفت بعض أفكاري الخاصة.
التعرف على الكلام على الجهاز
تعمل معظم حلول ASR في السحابة. أنا متأكد من أنك سمعت ذلك من قبل. هذا يعني أن النموذج يعمل على كمبيوتر بعيد، في مكان آخر.
إنهم يفعلون ذلك لأن معالج هاتفك الصغير لا يمكنه بالضرورة تشغيل نموذجهم الضخم، وإلا فسيستغرق الأمر وقتاً طويلاً لنسخ أي شيء.
وبدلاً من ذلك، يتم إرسال الصوت الخاص بك، عبر الإنترنت، إلى خادم بعيد يقوم بتشغيل وحدة معالجة رس ومات ( GPU ) ثقيلة جداً بحيث لا يمكنك حملها في جيبك. تقوم وحدة معالجة الرسومات بتشغيل نموذج ASR، وتعيد النسخ إلى جهازك.

ولأسباب تتعلق بكفاءة الطاقة والأمان (لا يريد الجميع أن تطوف بياناتهم الشخصية في الفضاء الإلكتروني)، تم بذل الكثير من الأبحاث في صنع نماذج مدمجة بما يكفي لتشغيلها مباشرةً على جهازك، سواء كان هاتفاً أو حاسوباً أو محرك متصفح.
لقد كتبتُ أطروحتي عن تكميم نماذج ASR حتى يمكن تشغيلها على الجهاز. Picovoice هي شركة كندية تقوم ببناء ذكاء اصطناعي صوتي منخفض الكمون على الجهاز، ويبدو أنها رائعة.
يتيح ASR على الجهاز إمكانية النسخ بتكلفة أقل، مع إمكانية خدمة المجتمعات ذات الدخل المنخفض.
نسخة-واجهة المستخدم الأولى
تتقلص الفجوة بين التسجيلات الصوتية والنصوص. ماذا يعني هذا؟
تتيح لك برامج تحرير الفيديو مثل Premiere Pro وDescript التنقل في تسجيلاتك من خلال نص: انقر على كلمة ما وستنقلك إلى الطابع الزمني.
هل كان عليك القيام ببعض اللقطات؟ اختر مفضلتك وامسح الأخريات، بأسلوب محرر النصوص. يقوم تلقائيًا بتشذيب الفيديو لك.
من المحبط للغاية القيام بهذا النوع من التحرير باستخدام شكل موجي فقط، ولكنه سهل للغاية عندما يكون لديك محررين يعتمدون على النصوص.
وبالمثل، تقوم خدمات المراسلة مثل WhatsApp بنسخ ملاحظاتك الصوتية وتتيح لك التنقيب فيها عبر النص. مرر إصبعك فوق كلمة ما، وسيتم نقلك إلى ذلك الجزء من التسجيل.

قصة مضحكة: لقد بنيت بالفعل شيئًا كهذا قبل أسبوع تقريبًا من إعلان Apple عن ميزة مماثلة.
توضّح هذه الأمثلة كيف أن التقنيات المعقدة تحت الغطاء تجلب البساطة والبديهية لتطبيقات المستخدم النهائي.
الإنصاف والإدماج واللغات منخفضة الموارد
لم ننتصر في المعركة بعد.
يعمل ASR بشكل رائع في اللغة الإنجليزية وغيرها من اللغات الشائعة ذات الموارد الجيدة. ليس هذا هو الحال بالضرورة بالنسبة للغات منخفضة الموارد.
هناك فجوة في الأقليات اللهجية، والكلام المتأثر، ومشاكل أخرى تتعلق بالمساواة في تكنولوجيا الصوت.
آسف لإعاقة المشاعر الجيدة. هذا القسم يسمى "مستقبل" ASR. وأختار أن أتطلع إلى مستقبل نفخر به.
إذا أردنا أن نتقدم، فعلينا أن نفعل ذلك معًا، وإلا فإننا نخاطر بزيادة عدم المساواة المجتمعية.
ابدأ باستخدام ASR اليوم
بغض النظر عن نشاطك التجاري، فإن استخدام ASR لا يحتاج إلى تفكير - إلا أنك ربما تتساءل عن كيفية البدء. كيف تطبق ASR؟ كيف تمرر تلك البيانات إلى أدوات أخرى؟
يأتي Botpress مزوداً ببطاقات نسخ سهلة الاستخدام. يمكن دمجها في تدفق السحب والإفلات، معززة بعشرات عمليات التكامل عبر التطبيقات وقنوات الاتصال.
ابدأ البناء اليوم. إنه مجاني.
الأسئلة الأكثر تداولًا
ما مدى دقة اختبار ASR الحديث للهجات المختلفة والبيئات الصاخبة؟
تتسم أنظمة ASR الحديثة بالدقة المذهلة في اللهجات الشائعة في اللغات الرئيسية، حيث تحقق معدلات خطأ في الكلمات (WER) أقل من 10% في ظروف نظيفة، ولكن الدقة تنخفض بشكل ملحوظ مع اللهجات الثقيلة أو اللهجات أو الضوضاء الخلفية الكبيرة. تقوم شركات مثل Google وMicrosoft بتدريب النماذج على بيانات الكلام المتنوعة، ولكن لا يزال النسخ المثالي في البيئات الصاخبة يمثل تحديًا.
هل يمكن الاعتماد على ASR لكتابة المصطلحات المتخصصة أو المصطلحات الخاصة بالصناعة؟
يُعد التعرف الصوتي التلقائي على المصطلحات أقل موثوقية خارج الصندوق بالنسبة للمصطلحات المتخصصة أو المصطلحات الخاصة بالصناعة لأن بيانات التدريب الخاصة به عادةً ما تميل نحو الكلام العام؛ حيث يمكن أن يتم كتابة الكلمات غير المألوفة بشكل خاطئ أو حذفها. ومع ذلك، تسمح الحلول المؤسسية بمفردات مخصصة ونماذج لغوية خاصة بالمجال وقواميس النطق لتحسين التعرف على المصطلحات التقنية في مجالات مثل الرعاية الصحية أو القانون أو الهندسة.
ما الفرق بين أدوات ASR المجانية والحلول على مستوى المؤسسات؟
يكمن الفرق بين أدوات ASR المجانية والحلول على مستوى المؤسسات في الدقة وقابلية التوسع والتخصيص وضوابط الخصوصية: غالبًا ما تحتوي الأدوات المجانية على معدلات أخطاء أعلى، ودعم لغوي محدود، وحدود قصوى للاستخدام، بينما توفر حلول المؤسسات معدلات خطأ أقل، وتخصيصًا خاصًا بالمجال، وعمليات تكامل، واتفاقيات مستوى الخدمة (SLAs)، وميزات أمان قوية للتعامل مع البيانات الحساسة.
كيف تحمي ASR خصوصية المستخدم والمعلومات الحساسة أثناء النسخ؟
يحمي ASR خصوصية المستخدم من خلال التشفير أثناء نقل البيانات ويوفر خيارات مثل تشغيل النماذج على الجهاز لتجنب إرسال بيانات الكلام إلى خوادم خارجية. يتوافق العديد من مقدمي خدمات المؤسسات أيضًا مع لوائح الخصوصية مثل اللائحة العامة لحماية البيانات أو قانون حماية خصوصية البيانات (HIPAA) ويمكنهم إخفاء هوية البيانات لحماية المعلومات الحساسة.
ما مدى تكلفة خدمات ASR المستندة إلى السحابة مقابل الحلول القائمة على الأجهزة؟
وعادةً ما تتقاضى خدمات السحابة المستندة إلى السحابة رسومًا لكل دقيقة صوتية أو حسب مستويات الاستخدام، وتتراوح التكاليف بين 0.03 دولار أمريكي و1.00 دولار أمريكي فأكثر للدقيقة الواحدة حسب الدقة والميزات، بينما تتضمن الحلول على الأجهزة تكاليف التطوير مقدماً ورسوم الترخيص.