- تعمل ميزة تحويل النص إلى كلام (TTS) على تحويل النص إلى كلام نابض بالحياة باستخدام شبكات عصبية للحصول على نغمة طبيعية وجودة صوت.
- تقوم خطوط أنابيب تحويل النص إلى كلام بمعالجة النصوص، وتحليل اللغويات، وتوليد المخططات الطيفية، وتوليف الصوت باستخدام أجهزة ترميز الصوت.
- تعمل خدمات تحويل النص إلى كلام على تشغيل روبوتات المحادثة وأنظمة الملاحة والترفيه وأدوات الرعاية الصحية والتعليم الشامل.
- تعمل خدمات تحويل النص إلى كلام عالي الجودة على تحسين الوضوح، وصوت العلامة التجارية، وسهولة الوصول، وثقة المستخدم في مختلف المجالات.
تتحدث الهولندية ChatGPT الهولنديةبلكنة ألمانية (أحياناً). إذا كان ذلك عن قصد، فهو لئيم. وإذا لم تكن كذلك، فهي رائعة.
وفي كلتا الحالتين، يمكن القول إن المساعد الصوتي للذكاء الاصطناعي قد قطع شوطاً طويلاً منذ أن كان سام من مايكروسوفت. في الواقع، لقد قطعوا شوطاً طويلاً جداً منذ أن درست تكنولوجيا الكلام قبل بضع سنوات.
وأنا هنا لأخبرك عن المكان الذي وصلنا إليه.
لقد كنا نؤلف الأساطير حول الكلام المركب منذ عام 1968 على الأقل، منذ ظهور الروبوت HAL في فيلم 2001: A Space Odyssey.

وبعيدًا عن كونه أمرًا مرموقًا ومستقبليًا، فقد أصبح منذ ذلك الحين معيارًا: 89% من المستهلكين يربطون اختيارهم للجهاز بما إذا كان يدعم الصوت أم لا.
وبعبارة أخرى، "لا تساعدني فقط، تحدث معي".
سأناقش في هذه المقالة تحويل النص إلى كلام - تحويل النص إلى صوت منطوق. سأتحدث عن ما يجري تحت الغطاء، والطرق المختلفة التي تُستخدم بها هذه التقنية في مختلف المجالات.
ما هو تحويل النص إلى كلام؟
TTS هي عملية تحويل النص إلى صوت منطوق مركب. كانت الإصدارات المبكرة تعتمد على تقريب المسالك الصوتية البشرية ميكانيكياً وتجميع التسجيلات الصوتية معاً. أما في الوقت الحاضر، تستخدم أنظمة تحويل النص إلى كلام خوارزميات الشبكات العصبية العميقة لتقديم كلام ديناميكي شبيه بالبشر.
توجد نماذج مختلفة اعتمادًا على حالة الاستخدام، مثل التوليد في الوقت الفعلي لنماذج المحادثة، والتعبير الذي يمكن التحكم فيه، والقدرة على تكرار الصوت.
كيف يعمل تحويل النص إلى كلام؟
تشتمل ترجمة النص عبر الصوت على 3 خطوات رئيسية: أولاً، تتم معالجة النص المُدخَل لتهجئة الرموز والتعبيرات والاختصارات. ثم يتم تمرير النص المعالج من خلال الشبكات العصبية التي تقوم بتحويله إلى تمثيل صوتي (مخطط طيفي). وأخيراً، يتم تحويل التمثيل إلى كلام.
كما ذكرت لك، قام الباحثون بالتدوير عبر عدد من المقاربات لتحويل النص إلى كلام. النهج الذي وصلنا إليه (وأعتقد أننا سنبقى فيه لبعض الوقت) يستخدم تركيب الكلام القائم على الشبكة العصبية.
إن نمذجة طبقات الظواهر اللغوية التي تؤثر على النطق - النطق والسرعة والتنغيم - مهمة معقدة.

حتى مع وجود قدرات الصندوق الأسود شبه السحرية للشبكات العصبية، يعتمد نظام تحويل النص إلى كلام على مجموعة من المكونات لتقريب الكلام.
من الصعب تحديد خط أنابيب واحد على وجه الدقة؛ فالتقنيات الجديدة تظهر يميناً ويساراً، وتهدد بجعل التقنيات السابقة لها قديمة.
هناك عدد قليل من المكونات العامة الموجودة في معظم أنظمة TTS بشكل أو بآخر.
1. معالجة النصوص
معالجة النص هي الخطوة التي يحدد فيها نظام TTS الكلمات التي سيتم نطقها. يتم تهجئة الاختصارات والتواريخ ورموز العملات، ويتم حذف علامات الترقيم.
هذا ليس دائمًا أمرًا تافهًا. هل كلمة "دكتور" تعني طبيب أم سائق؟ ماذا عن CAD؟ الدولار الكندي أم التصميم بمساعدة الحاسوب؟
يمكن استخدام معالجة اللغة الطبيعية(NLP) في معالجة النصوص للمساعدة في التنبؤ بالتفسير الصحيح بناءً على السياق المحيط. فهي تقيّم كيف يتناسب المصطلح الغامض (على سبيل المثال، "دكتور") مع الجملة ككل، ففي عبارة "نصح الدكتور بيرون بعدم القيام بذلك"، تقوم البرمجة اللغوية العصبية اللغوية الطبيعية بحل كلمة دكتور إلى دكتور .
2. التحليل اللغوي
وبمجرد معالجة النص، يتحول النموذج من "ماذا يجب أن أقول؟" إلى "كيف يجب أن أقولها؟
التحليل اللغوي هو الجزء المسؤول عن تفسير كيفية إلقاء الجملة من حيث نبرة الصوت والنغمة والمدة. وبعبارة أخرى:
- كم يجب أن يكون طول كل صوت أو مقطع أو كلمة؟
- هل يجب أن يرتفع التنغيم؟ أم ينخفض؟
- ما الكلمة التي يتم التأكيد عليها؟
- كيف يمكن للتغيير في الحجم أن يعكس التغير في الحجم العاطفة المقصودة؟
ما أهمية البروسودي
وقت القصة: عملت لفترة وجيزة كمستشار لفريق يقوم ببناء نماذج لتحويل النص إلى كلام. وقد اتضح لي مدى تأثير النطق على وضوح الجملة أو عدم وضوحها. سأوضح لك ما أعنيه.
فيما يلي 3 توصيلات لجملة "هل كنت تتوقع ذلك؟"
الأول رائع. الوقفة بعد "واو"، والوقف بعد "واو"، والنصب على المقطع الثاني من كلمة "تتوقع" (ex-PEC-ting). 10/10.
أما المقطع الثاني فيلتقط بالكاد صفة الاستفهام من خلال التصريف في الكلمة الأخيرة ("... متوقعًا ذلك"). فيما عدا ذلك، فإن بقية المقاطع هي بنفس الطول تقريبًا، مع عدم وجود اختلاف في الصوت أو درجة الصوت. كنت أقول لزبائني أن "يضربوا لوحة الرسم".
آخر واحد هو حالة مثيرة للاهتمام: إن همزة "من" رائعة - عالية وطويلة وذات نغمة هابطة. يحدث الانعطاف الصاعد للسؤال على مدار "هل كنت"، ويبقى في الأساس ثابتًا طوال الوقت.
هذا هو المكان الذي تتوقف فيه العديد من أنظمة تحويل النص إلى كلام في منتصف الطريق: بسيطة بما فيه الكفاية مع توصيل معقول. الأمر هو أن هذه ليست الطريقة التي ستقولها - على الأقل ليس في معظم السياقات.
في الأنظمة القديمة، كان يتم التنبؤ بهذه الصفات من خلال مكونات منفصلة: يقوم أحد النماذج بحساب المدة التي يجب أن يستغرقها كل صوت، ويقوم نموذج آخر بتخطيط كيفية ارتفاع وانخفاض درجة الصوت.
في الوقت الحاضر، أصبحت الأمور أكثر ضبابية.
تميل الشبكات العصبية إلى تعلم هذه الأنماط من تلقاء نفسها من خلال استيعاب التفاصيل الدقيقة لمجموعات بيانات التدريب الضخمة.
3. النمذجة الصوتية
النمذجة الصوتية هي التي يتم فيها تمرير النص المعياري (والسمات اللغوية المتوقعة، إن وجدت) من خلال شبكة عصبية تُخرج تمثيلاً وسيطاً.
المخططات الطيفية وتمثيلات الكلام
عادةً ما يكون التمثيل الوسيط عبارة عن مخطط طيفي - تمثيل التردد عبر الزمن لإشارة صوتية - على الرغم من أن هذا الأمر يتغير.
هذا هو التمثيل الذي تم إنشاؤه بواسطة نموذج TTS من نص الإدخال "واو، هل كنت تتوقع ذلك؟

هذه الصورة ثنائية الأبعاد هي في الواقع 146 شريحة رأسية تحتوي كل منها على 80 تردداً. تكون الترددات الأقوى أكثر سطوعاً، والأضعف تكون مظلمة.
إليك ما تبدو عليه الخطوة الزمنية العاشرة (أو العمود)، بعد تدويرها 90 درجة إلى اليمين:

يمكنك رؤية الترددات الفردية وطاقاتها.
للوهلة الأولى لا يبدو المخطط الطيفي كثيراً، لكن بعض الظواهر اللغوية الواضحة موجودة هنا:
- هذه الموجات المحددة بوضوح هي حروف العلة أو الأصوات الشبيهة بحروف العلة مثل /w/ و /r/ و /l/.
- تمثل البقع الداكنة الصمت. قد تكون هذه نقاط توقف مؤقتة لعلامات الترقيم.
- تمثل كتل الطاقة في الأعلى ضوضاء، مثل الضوضاء التي تسمعها في /s/s/، و/sh/، و/f/
في الواقع، يمكنك حتى أن تصطف الكلمات في المخطط الطيفي إذا نظرت بعناية.

تُستخدم المخططات الطيفية، بأشكالها المختلفة، على نطاق واسع في تمثيلات تقنية الكلام لأنها وسيط جيد جداً بين الكلام الخام والنص.
سيكون لتسجيلين لنفس الجملة المنطوقة من قبل متكلمين مختلفين أشكال موجية مختلفة جدًا، ولكن المخططات الطيفية متشابهة جدًا.
4. تركيب الصوت (الترميز الصوتي)
مرحلة التركيب هي المرحلة التي يتم فيها تحويل المخطط الطيفي إلى صوت.
وتسمى التقنية التي تقوم بهذا التحويل باسم " مُكوِّن الصوت". وهي عبارة عن نماذج شبكات عصبية مدرّبة على إعادة بناء إشارات الكلام بناءً على تمثيلات المخطط الطيفي.
يعود سبب تقسيم التمثيل ونمذجة إشارة الكلام إلى وحدتين منفصلتين إلى التحكم: الأولى تتعلق بنمذجة النطق وإيصال الكلمات بدقة، والثانية تتعلق بأسلوب الإلقاء وواقعيته.
باستخدام المخطط الطيفي يمكننا التمييز بين /s/ مقابل /sh/، أو /ee/ (كما في هيت) مقابل /ih/ (كما في ضرب)، ولكن الأسلوب والشخصية تأتي من التفاصيل الدقيقة التي ينتجها المُصَوِّر.
فيما يلي مقارنة بين توليفات بين النماذج الصوتية المختلفة ومُكوِّدات الصوت. وهي توضح كيف يمزج الباحثون ويطابقون بين النماذج الصوتية ومُكوِّنات الصوت، ويحسِّنون من أجل الحصول على أفضل نتيجة إجمالية.
ولكن مجدداً، كما هو الحال مع جميع المكونات الأخرى، نشهد الاستغناء التدريجي عن المخططات الطيفية لصالح الطرازات المتكاملة.
ما هي حالات استخدام نظام نقل النص الفائق؟
تُعد القدرة على توليد لغة منطوقة ديناميكية أداة أساسية في مختلف الصناعات.
لا يتعلق الأمر فقط بخدم الروبوتات المتطورة - فهو يساعدنا على تحقيق الكفاءة وسهولة الوصول والسلامة.
روبوتات المحادثة والمساعدات الصوتية
كنت تعلم أنني كنت سأقولها 😉
بين فهم أوامرك، وتحديث قوائم البقالة الخاصة بك، وتحديد المواعيد، من السهل أن نعتبر تطور - وأهمية - الكلام المركب في وكلاء الذكاء الاصطناعي أمراً مفروغاً منه.
الوكيل الجيد، (أي الوكيل القابل للاستخدام ) يجب أن يكون له صوت يناسب الفاتورة: مرحبًا بما يكفي لتلبية الأوامر، وإنسانيًا بما يكفي لجعل المستخدم يعتقد أنه قادر على تلبيتها.
يتم إجراء الكثير من الأبحاث والهندسة لكسب المستخدمين في جزء من الثانية التي يستغرقها تحديد ما إذا كان مساعد الذكاء الاصطناعي يبدو "صحيحاً" أم لا.
من ناحية الأعمال: يمثل chatbot الخاص بك علامتك التجارية. التحسينات في تقنية تحويل النص إلى كلام يعني خيارات لعلامة تجارية صوتية أفضل وخدمة عملاء أكثر فعالية.
الملاحة والنقل
لا شيء يجعلك تدرك أهمية الترجمة الفورية الفورية الفورية الجيدة مثل أن يخطئ نظام تحديد المواقع العالمي (GPS) في نطق اسم شارع ما أثناء القيادة.
يعد نظام الملاحة عبر نظام تحديد المواقع العالمي (GPS) مثالاً رائعاً على تألق نظام نقل النص الفائق: فأعيننا مشغولة، وتقديم المعلومات المسموعة لا يتعلق فقط بالراحة بل بالسلامة.
وينطبق ذلك أيضاً على المطارات وأنظمة النقل العام. فبالنسبة للأنظمة المصممة بشكل معقد وذات الحجم الكبير مثل محطات القطارات ومحطات المطارات، فإن الكلام المركب أمر بالغ الأهمية.
بدون خدمة نقل النص الفوري، فإننا نعتمد على الإعلانات المباشرة، والتي غالبًا ما تكون متسرعة وغير مفهومة، أو تسجيلات مجمعة للأسماء والمحطات والأوقات وما إلى ذلك، والتي يصعب الاستماع إليها بصراحة.
ونظراً لأن الدراسات تُظهر وجود صلة قوية بين الطبيعة والوضوح، فإن تحويل النص إلى كلام فائق الجودة أمر لا بد منه لصناعة نقل قوية.
الترفيه والإعلام
أصبح السرد والوسائط متعددة اللغات متاحًا بشكل أكبر مع التحسينات التي طرأت على تكنولوجيا الكلام الاصطناعي.
وبدلاً من استبدال الموهبة، تساعد تقنية الكلام في تعزيز الأداء الدرامي بدلاً من أن تحل محل الموهبة.
قدم فال كيلمر، بعد أن فقد صوته بسبب سرطان الحنجرة، أداءً مؤثراً بصوته الأصلي في فيلم Top Gun: مافريك (2022) بفضل الذكاء الاصطناعي.
كما تتيح خدمة تحويل النص إلى كلام أيضًا لمطوري الألعاب إعطاء ألفاظ متنوعة ومعبرة للشخصيات غير القابلة للعب (NPCs)، وهو أمر غير ممكن.
الصحيه
تعني التحسينات في خدمات نقل النص عبر الإنترنت تحسينات في إمكانية الوصول في جميع المجالات.
تعالج تقنيات رعاية المسنين مسألة المرافقة والمساعدة في آن واحد. وتعتمد هذه التقنية على قابلية التخصيص التي توفرها تقنية TTS: فالنغمات الرقيقة والسرعات المتغيرة والتنغيم الدقيق كلها جزء من تقديم المساعدة الفعالة والكريمة.
كما يتم استخدام خدمات نقل النص عبر الإنترنت لتحسين إمكانية الوصول بين الشباب.
تقوم مجموعة أكابيلا بتطوير تقنيات للأطفال الذين يعانون من اضطرابات في إنتاج الكلام، من بين أمور أخرى. يزيد الكلام الاصطناعي من قدراتهم التعبيرية واستقلاليتهم، مع الحفاظ على خصائصهم الصوتية.
التعليم والتعلم الشامل للجميع
لقد صادفنا الكلام الاصطناعي في تطبيقات تعلم اللغة. ولكن هذا مجرد غيض من فيض.
على سبيل المثال، أحد عوائق الدخول في التعلم المستقل هو القدرة على القراءة. بالنسبة للأطفال والأشخاص الذين يعانون من إعاقات بصرية وبعض صعوبات التعلم، فإن ذلك ليس ممكنًا بالضرورة. وهذا يضع الكثير من العبء على المعلمين المرهقين في الفصول الدراسية المكتظة.
طبقت إحدى المناطق التعليمية في كاليفورنيا نظام TTS لخلق بيئة تعليمية أكثر شمولاً للطلاب ذوي الاحتياجات الخاصة.
كما هو الحال بالنسبة لرعاية المسنين، تعتمد تكنولوجيا التعليم على الأصوات الرحيمة التي تقدم بوضوح وتركيز شديدين. تتيح المعلمات القابلة للتعديل للمدرسين إمكانية دمج هذه التقنيات في دروسهم، مما يساعد الطلاب على الشعور بمزيد من الاندماج.
احصل على أفضل ما يناسب احتياجاتك
بغض النظر عن مجال عملك، يمكن القول أن الذكاء الاصطناعي الصوتي مهم للغاية. وخدمات نقل النص الصوتي التي تطبقها تتحدث حرفياً عن عملك، لذا يجب أن تكون موثوقة وقابلة للتخصيص.
يتيح لك Botpress إنشاء روبوتات قوية وقابلة للتخصيص بدرجة كبيرة مع مجموعة من عمليات التكامل والنشر عبر جميع قنوات الاتصال الشائعة. لن يثير وكيل الصوت الخاص بك الإعجاب فحسب، بل سيعمل أيضاً.
ابدأ البناء اليوم. إنه مجاني.
الأسئلة الأكثر تداولًا
هل هناك لغات أو لهجات تكافح أنظمة تحويل النص إلى كلام عامية لدعمها؟
نعم، هناك لغات ولهجات تكافح أنظمة تحويل النص إلى كلام لدعمها، خاصةً اللغات منخفضة الموارد التي تفتقر إلى مجموعات بيانات كبيرة من الكلام والنصوص المسجلة. غالبًا ما تشكل الاختلافات مثل اللهجات الإقليمية واللغات النغمية ولغات السكان الأصليين تحديات لأنها تتطلب قواعد نطق دقيقة ونبرة صوتية لم يتم تدريب النماذج القياسية عليها. حتى بالنسبة للغات المحكية على نطاق واسع، يمكن أن تؤدي الاختلافات في اللهجات إلى نطق خاطئ أو كلام غير طبيعي.
ما مدى قابلية تخصيص أصوات TTS من حيث درجة الصوت والسرعة والانفعال؟
أصبحت أصوات تحويل النص إلى كلام اليوم قابلة للتخصيص بدرجة كبيرة من حيث نبرة الصوت والسرعة والعاطفة، وذلك بفضل البنى الحديثة للشبكات العصبية التي تسمح بالتحكم الدقيق في النغمة والأسلوب. وتسمح العديد من أنظمة تحويل النص إلى كلام التجارية للمستخدمين بضبط معدل التحدث وأنماط التنغيم والحجم والنبرة التعبيرية لتناسب سياقات مختلفة، مثل السرد الهادئ أو الإعلانات المتحمسة أو الحوار المتعاطف. ومع ذلك، تختلف درجة التحكم باختلاف البائعين - فبعضها لا يقدم سوى منزلقات أساسية للسرعة ودرجة الصوت، بينما يعرض البعض الآخر معلمات مفصلة للتعبير العاطفي والجرس الصوتي.
ما مدى أمان البيانات الصوتية التي تتم معالجتها بواسطة أنظمة TTS؟
يعتمد أمن البيانات الصوتية التي تتم معالجتها بواسطة أنظمة تحويل النص إلى كلام على المزود وطريقة النشر. وعادةً ما تقوم خدمات تحويل النص إلى كلام عبر السحابة بتشفير البيانات أثناء النقل وفي حالة السكون، ولكن إرسال المعلومات الحساسة إلى خوادم خارجية يمكن أن يشكل مخاطر على الخصوصية إذا لم تكن هناك اتفاقيات مناسبة وتدابير امتثال مثل اللائحة العامة لحماية البيانات أو قانون حماية خصوصية البيانات (HIPAA). توفر عمليات النشر المحلية أو عمليات النشر على الحافة أمانًا أعلى لأن الصوت والنص لا يغادران أبدًا البنية التحتية للمؤسسة، مما يقلل من تعرض الأطراف الثالثة للخطر.
ما مدى تكلفة تنفيذ حلول تحويل النص إلى كلام عالي الجودة للشركات؟
يمكن أن يتراوح تنفيذ حلول تحويل النص إلى كلام عالي الجودة للشركات من بضع مئات من dollars شهرياً لواجهات برمجة التطبيقات المستندة إلى السحابة مع استخدام معتدل، إلى عشرات أو مئات الآلاف لتطوير الصوت المخصص أو عمليات النشر داخل المؤسسة. تتضمن التكاليف عادةً رسوم الترخيص، وتكاليف الدفع لكل حرف أو الدفع لكل دقيقة استخدام، وجهود التكامل والتطوير، وربما رسوم المواهب الصوتية في حالة إنشاء صوت مخصص. وغالباً ما تبدأ الشركات الصغيرة بالخدمات القائمة على الاشتراك، بينما قد تستثمر الشركات الكبيرة في حلول مخصصة من أجل اتساق العلامة التجارية والخصوصية.
ما هو مقدار بيانات التدريب اللازمة لإنشاء صوت عالي الجودة لترجمة النص إلى اللغة الإنجليزية؟
عادةً ما يتطلب بناء صوت عالي الجودة لتحويل النص إلى كلام عدة ساعات إلى عشرات الساعات من الكلام النظيف المسجل باحترافية، ومن الناحية المثالية من نفس المتحدث وفي ظروف تسجيل متسقة. يمكن للأنظمة العصبية الحديثة لتحويل النص إلى كلام مثل Tacotron أو FastSpeech تحقيق جودة جيدة بأقل من ساعتين إلى 5 ساعات من البيانات، ولكن الحصول على أصوات طبيعية ومعبرة وقوية للغاية يستغرق في الغالب من 10 إلى 20 ساعة أو أكثر. بالنسبة لاستنساخ الأصوات أو الأصوات المعبرة للغاية، هناك حاجة إلى مجموعات بيانات أكبر وتسجيلات متنوعة تغطي مختلف الأنماط والمشاعر والسياقات.