- Text-to-speech (TTS) menukar teks kepada pertuturan seperti hidup menggunakan rangkaian saraf untuk prosodi semula jadi dan kualiti suara.
- Saluran paip TTS memproses teks, menganalisis linguistik, menjana spektrogram dan mensintesis audio dengan vocoder.
- TTS memperkasa chatbots, sistem navigasi, hiburan, alatan penjagaan kesihatan dan pendidikan inklusif.
- TTS berkualiti tinggi meningkatkan kejelasan, suara jenama, kebolehaksesan dan kepercayaan pengguna merentas industri.
Belanda ChatGPT bercakap dengan loghat Jerman (kadang-kadang). Kalau sengaja memang keji. Jika tidak, maka ia menarik.
Sama ada cara, adalah selamat untuk mengatakan bahawa pembantu suara AI telah pergi jauh dari Microsoft Sam . Malah, ia telah berjalan agak jauh sejak saya mempelajari teknologi pertuturan beberapa tahun lalu.
Dan saya di sini untuk memberitahu anda tentang di mana kami telah mendarat.
Kami telah membuat mitos tentang pertuturan yang disintesis sejak sekurang-kurangnya 1968, sejak kemunculan robot HAL pada tahun 2001: A Space Odyssey.

Jauh daripada berprestij dan futuristik, ia telah menjadi standard: 89% pengguna menetapkan pilihan peranti mereka sama ada peranti itu mempunyai sokongan suara atau tidak.
Dalam erti kata lain, "Jangan hanya membantu saya; bercakap dengan saya ".
Dalam artikel ini saya akan membincangkan teks ke pertuturan– penukaran teks kepada audio pertuturan. Saya akan bercakap tentang perkara yang berlaku di bawah hud, dan cara berbeza teknologi ini digunakan merentas industri.
Apakah Text-to-Speech?
TTS ialah proses menukar teks kepada audio pertuturan yang disintesis . Versi awal adalah berdasarkan menghampiri secara mekanikal saluran vokal manusia dan mencantumkan rakaman audio. Pada masa kini, sistem TTS menggunakan algoritma rangkaian saraf dalam untuk menyampaikan ujaran yang dinamik seperti manusia.
Model yang berbeza wujud bergantung pada kes penggunaan, seperti penjanaan masa nyata untuk model perbualan, ekspresi boleh dikawal dan keupayaan untuk meniru suara.
Bagaimanakah Text-to-Speech berfungsi?
TTS mempunyai 3 langkah utama: pertama, teks input diproses untuk mengeja simbol, ungkapan dan singkatan. Teks yang diproses kemudiannya disalurkan melalui rangkaian saraf yang mengubahnya menjadi perwakilan akustik (spektrogram). Akhirnya, representasi bertukar menjadi ucapan.
Seperti yang saya nyatakan, penyelidik telah melalui beberapa pendekatan kepada TTS. Yang kami telah mendarat (dan di mana saya rasa kami akan tinggal untuk beberapa lama) menggunakan sintesis pertuturan berasaskan rangkaian saraf.
Memodelkan lapisan fenomena linguistik yang mempengaruhi sesuatu ujaran– sebutan, kelajuan, intonasi– adalah satu tugas yang terlibat.

Walaupun dengan keupayaan kotak hitam seakan ajaib rangkaian saraf, sistem TTS bergantung pada sekumpulan komponen untuk anggaran pertuturan.
Sukar untuk menyematkan satu saluran paip yang tepat; teknologi baharu muncul kiri dan kanan, mengancam untuk menjadikan pendahulunya usang.
Terdapat beberapa komponen umum yang wujud dalam kebanyakan sistem TTS dalam satu bentuk atau yang lain.
1. Pemprosesan Teks
Pemprosesan teks ialah langkah di mana sistem TTS menentukan perkataan yang akan diucapkan. Singkatan, tarikh dan simbol mata wang dinyatakan, dan tanda baca dihapuskan.
Ini tidak selalunya remeh. Adakah “ Dr. ” bermaksud doktor atau pemandu ? Bagaimana dengan CAD ? Dolar Kanada atau reka bentuk bantuan komputer ?
Pemprosesan bahasa semula jadi ( NLP ) boleh digunakan dalam pemprosesan teks untuk membantu meramalkan tafsiran yang betul berdasarkan konteks sekeliling. Ia menilai bagaimana istilah samar-samar (contohnya, " Dr." ) sesuai dengan ayat secara keseluruhan, jadi dalam frasa "Dr. Perron menasihatkannya", NLP akan menyelesaikan dr. kepada doktor .
2. Analisis Linguistik
Setelah teks diproses, model beralih daripada "Apa yang perlu saya katakan?" kepada "Bagaimana saya harus mengatakannya?"
Analisis linguistik ialah bahagian TTS yang bertanggungjawab untuk mentafsir cara sesuatu ayat harus disampaikan dari segi nada, nada dan tempoh. Dengan kata lain:
- Berapa lama sepatutnya setiap bunyi, suku kata, atau perkataan?
- Perlukah intonasi meningkat? Jatuh?
- Perkataan manakah yang ditekankan?
- Bagaimanakah perubahan kelantangan dapat mencerminkan emosi yang dimaksudkan?
Mengapa Prosody Penting
Masa cerita: Saya mengadakan perundingan pertunjukan ringkas untuk model TTS pembinaan pasukan. Ia menjadi jelas betapa prosodi membuat atau memecahkan kebolehfahaman ayat . Saya akan tunjukkan kepada anda apa yang saya maksudkan.
Berikut ialah 3 penyampaian ayat "Whoa, adakah anda menjangkakan itu?"
Yang pertama adalah hebat. Jeda selepas "Whoa", fleksi ke atas pada suku kata kedua "mengharapkan" (ex-PEC-ting). 10/10.
Yang kedua hampir tidak menangkap kualiti soalan dengan mengubah perkataan terakhir (“... mengharapkan ITU ”). Selain daripada itu, suku kata selebihnya adalah lebih kurang sama panjangnya, tanpa variasi dalam kelantangan atau pic. Saya akan memberitahu pelanggan saya untuk "memukul papan lukisan".
Kes yang terakhir ialah kes yang menarik: "Whoah is great– kuat, panjang dan dengan kontur jatuh. Infleksi meningkat soalan berlaku sepanjang " adakah anda" , dan pada asasnya memegang nada yang stabil sepanjang.
Di sinilah banyak sistem TTS pertengahan jalan berhenti: cukup mudah dengan penghantaran yang munasabah. Perkara itu, bukan bagaimana anda akan mengatakannya– sekurang-kurangnya tidak dalam kebanyakan konteks.
Dalam sistem yang lebih lama, kualiti ini telah diramalkan oleh komponen yang berasingan: satu model akan mengira berapa lama setiap bunyi akan bertahan, satu lagi akan memetakan bagaimana nada harus naik dan turun.
Pada masa kini, keadaan menjadi lebih kabur.
Rangkaian saraf cenderung mempelajari corak ini sendiri dengan menghayati kehalusan halus set data latihan besar-besaran.
3. Permodelan Akustik
Pemodelan akustik ialah tempat teks yang dinormalisasi (dan ciri linguistik yang diramalkan, jika ada) melalui rangkaian saraf yang menghasilkan perwakilan perantaraan.
Spektrogram dan Perwakilan Pertuturan
Perwakilan perantaraan biasanya merupakan spektrogram – perwakilan frekuensi-over-time bagi isyarat audio – walaupun itu berubah.
Berikut ialah perwakilan yang dijana oleh model TTS daripada teks input kami " Whoa, adakah anda menjangkakan itu? ":

Imej 2 dimensi ini sebenarnya ialah 146 kepingan menegak, setiap satu mengandungi 80 frekuensi. Frekuensi yang lebih kuat adalah lebih terang, dan yang lebih lemah adalah gelap.
Berikut ialah rupa langkah (atau lajur) kali ke-10, diputar 90 darjah ke kanan:

Anda boleh melihat frekuensi individu dan tenaga mereka.
Pada pandangan pertama spektrogram tidak kelihatan seperti banyak, tetapi beberapa fenomena linguistik yang jelas terdapat di sini:
- Gelombang tersebut garis yang ditakrifkan dengan jelas ialah vokal atau bunyi seperti vokal seperti /w/, /r/, dan /l/.
- Tompok hitam mewakili kesunyian. Itu boleh jadi jeda untuk tanda baca.
- Gumpalan tenaga yang tinggi mewakili bunyi, seperti bunyi yang anda dengar dalam /s/, /sh/ dan /f/
Malah, anda juga boleh menyusun perkataan dalam spektrogram jika anda melihat dengan teliti.

Spektrogram, dalam pelbagai bentuknya, digunakan secara meluas dalam teknologi pertuturan kerana ia merupakan perantaraan yang sangat baik antara pertuturan mentah dan teks .
Dua rakaman ayat yang sama yang dituturkan oleh penutur yang berbeza akan mempunyai bentuk gelombang yang sangat berbeza, tetapi spektrogram yang sangat serupa.
4. Mensintesis Audio (Pengekodan Suara)
Peringkat sintesis ialah di mana spektrogram ditukar kepada audio.
Teknologi yang melakukan penukaran ini dipanggil vocoder . Ia adalah model rangkaian saraf yang dilatih untuk membina semula isyarat pertuturan berdasarkan perwakilan spektrogram mereka.
Sebab pembahagian perwakilan dan pemodelan isyarat pertuturan kepada modul yang berasingan adalah mengenai kawalan: yang pertama adalah mengenai pemodelan tepat sebutan dan penyampaian perkataan, dan seterusnya adalah mengenai gaya dan realistik penyampaian.
Dengan spektrogram kita boleh membezakan antara /s/ vs /sh/, atau /ee/ (seperti dalam haba ) vs. /ih/ (seperti dalam hit ), tetapi gaya dan personaliti datang daripada butiran halus yang dihasilkan oleh vocoder.
Berikut ialah perbandingan gabungan antara model akustik dan vocoder yang berbeza. Ia menggambarkan cara penyelidik menggabungkan dan memadankan model akustik dan vocoder, dan mengoptimumkan untuk hasil keseluruhan yang terbaik.
Tetapi sekali lagi, seperti semua komponen lain, kami melihat spektrogram dihentikan secara berperingkat memihak kepada model semua-dalam-satu.
Apakah Kes Penggunaan TTS?
Keupayaan untuk menjana bahasa pertuturan yang dinamik ialah alat penting merentas industri.
Ia bukan sahaja mengenai pelayan robot yang canggih – ia membantu kami mencapai kecekapan, kebolehcapaian dan keselamatan.
Chatbots dan Pembantu Suara
Anda tahu saya akan mengatakannya 😉
Antara memahami arahan anda, mengemas kini senarai barangan runcit anda dan menetapkan janji temu, mudah untuk mengambil mudah tentang kecanggihan– dan kepentingan– ucapan yang disintesis dalam ejen AI .
Ejen yang baik, (iaitu yang boleh digunakan ) perlu mempunyai suara yang sesuai dengan rang undang-undang: cukup mengalu-alukan untuk meminta arahan, dan cukup manusia untuk membuat pengguna percaya ia boleh memenuhinya.
Banyak penyelidikan dan kejuruteraan dilakukan untuk memenangi pengguna dalam sepersekian saat yang diperlukan untuk memutuskan sama ada pembantu AI berbunyi "betul" atau tidak.
Dari segi perniagaan: chatbot anda mewakili jenama anda. Penambahbaikan dalam teknologi TTS bermakna pilihan untuk penjenamaan suara yang lebih baik dan perkhidmatan pelanggan yang lebih berkesan.
Hiburan dan Media
Narasi dan media berbilang bahasa telah menjadi lebih tersedia dengan penambahbaikan pada teknologi pertuturan sintetik.
Daripada menggantikan bakat, teknologi pertuturan membantu menambah persembahan dramatik.
Val Kilmer, yang kehilangan suaranya akibat kanser tekak, menyampaikan persembahan ikhlas dengan suara asalnya dalam Top Gun: Maverick (2022) terima kasih kepada AI .
TTS juga membenarkan pembangun permainan memberikan ungkapan ekspresif yang pelbagai kepada watak tidak boleh dimainkan (NPC), satu pencapaian yang tidak boleh dilaksanakan.
Penjagaan kesihatan
Penambahbaikan dalam TTS bermakna peningkatan kepada kebolehaksesan secara menyeluruh.
Teknologi penjagaan warga emas menangani masalah persahabatan dan bantuan secara serentak. Teknologi ini bergantung pada kebolehsesuaian yang ditawarkan oleh TTS: nada belas kasihan, kelajuan berubah-ubah dan intonasi yang berhati-hati adalah sebahagian daripada menawarkan bantuan yang berkesan dan bermaruah.
TTS juga digunakan untuk meningkatkan kebolehcapaian di kalangan golongan muda.
Kumpulan Acapela membangunkan, antara lain, teknologi untuk kanak-kanak yang mengalami gangguan pengeluaran pertuturan. Ucapan sintetik menambah keupayaan ekspresif dan kebebasan mereka, sambil mengekalkan ciri vokal mereka.
Pendidikan dan Pembelajaran Inklusif
Kami telah menemui pertuturan sintetik dalam apl pembelajaran bahasa. Tetapi itu hanyalah puncak gunung ais.
Sebagai contoh, halangan kemasukan dalam pembelajaran bebas ialah kebolehan membaca. Bagi kanak-kanak, orang yang cacat penglihatan, dan ketidakupayaan pembelajaran tertentu, itu tidak semestinya mungkin. Ini memberi banyak beban kepada guru yang bekerja terlalu banyak di dalam bilik darjah yang terlalu sesak.
Sebuah daerah sekolah di California telah melaksanakan TTS untuk mewujudkan persekitaran pembelajaran yang lebih inklusif untuk pelajar berkeperluan khas.
Sama seperti dalam hal penjagaan warga tua, teknologi pendidikan bergantung pada suara belas kasihan yang disampaikan dengan kejelasan dan penekanan yang murni. Parameter yang boleh diubah suai membolehkan guru mengintegrasikan teknologi ini ke dalam pelajaran mereka, membantu pelajar berasa lebih disertakan.
Dapatkan TTS Terbaik untuk Keperluan Anda
Tidak kira industri anda, adalah selamat untuk mengatakan bahawa AI suara adalah relevan. Dan TTS yang anda laksanakan secara literal bercakap untuk perniagaan anda, jadi ia perlu boleh dipercayai dan boleh disesuaikan.
Botpress membolehkan anda membina bot yang berkuasa dan boleh disesuaikan dengan set penyepaduan dan penggunaan merentas semua saluran komunikasi biasa. Ejen suara anda bukan sahaja akan menarik perhatian, ia akan berfungsi.
Mula membina hari ini . Ia percuma.
Soalan lazim
Adakah terdapat bahasa atau dialek yang sukar disokong oleh sistem TTS?
Ya, terdapat bahasa dan dialek yang sukar disokong oleh sistem TTS, terutamanya bahasa sumber rendah yang kekurangan set data besar pertuturan dan teks yang dirakam. Variasi seperti dialek serantau, bahasa tonal dan bahasa asli sering menimbulkan cabaran kerana ia memerlukan peraturan sebutan dan prosodi yang bernuansa yang model standard belum dilatih. Walaupun untuk bahasa yang digunakan secara meluas, perbezaan dialek boleh menyebabkan salah sebutan atau pertuturan yang tidak wajar.
Sejauh manakah suara TTS boleh disesuaikan dari segi nada, kelajuan dan emosi?
Suara TTS hari ini sangat disesuaikan dalam nada, kelajuan dan emosi, terima kasih kepada seni bina rangkaian saraf moden yang membolehkan kawalan terperinci ke atas prosodi dan gaya. Banyak sistem TTS komersial membenarkan pengguna melaraskan kadar pertuturan, corak intonasi, kelantangan dan nada ekspresif agar sesuai dengan konteks yang berbeza, seperti penceritaan yang tenang, pengumuman teruja atau dialog empati. Walau bagaimanapun, tahap kawalan berbeza mengikut vendor—sesetengahnya hanya menawarkan peluncur asas untuk kelajuan dan nada, manakala yang lain mendedahkan parameter terperinci untuk ekspresi emosi dan timbre vokal.
Sejauh manakah data suara diproses oleh sistem TTS selamat?
Keselamatan data suara yang diproses oleh sistem TTS sangat bergantung pada pembekal dan kaedah penggunaan. Perkhidmatan TTS berasaskan awan biasanya menyulitkan data dalam transit dan dalam keadaan rehat, tetapi menghantar maklumat sensitif kepada pelayan luaran masih boleh menimbulkan risiko privasi jika perjanjian dan langkah pematuhan yang betul seperti GDPR atau HIPAA tidak disediakan. Penggunaan di premis atau tepi memberikan keselamatan yang lebih tinggi kerana audio dan teks tidak pernah meninggalkan infrastruktur organisasi, mengurangkan pendedahan kepada pihak ketiga.
Berapa mahalkah untuk melaksanakan penyelesaian TTS berkualiti tinggi untuk perniagaan?
Melaksanakan penyelesaian TTS berkualiti tinggi untuk perniagaan boleh terdiri daripada beberapa ratus dollars sebulan untuk API berasaskan awan dengan penggunaan sederhana, kepada puluhan atau ratusan ribu untuk pembangunan suara tersuai atau penempatan perusahaan di premis. Kos biasanya termasuk yuran pelesenan, kos penggunaan bayar setiap watak atau bayar setiap minit, usaha penyepaduan dan pembangunan, dan mungkin yuran bakat suara jika mencipta suara tersuai. Perniagaan kecil selalunya bermula dengan perkhidmatan berasaskan langganan, manakala perusahaan yang lebih besar mungkin melabur dalam penyelesaian yang ditempah khas untuk konsistensi dan privasi jenama.
Berapa banyak data latihan yang diperlukan untuk membina suara TTS berkualiti tinggi?
Membina suara TTS berkualiti tinggi biasanya memerlukan beberapa jam hingga berpuluh-puluh jam pertuturan yang bersih dan dirakam secara profesional, idealnya daripada pembesar suara yang sama dan dalam keadaan rakaman yang konsisten. Sistem TTS saraf moden seperti Tacotron atau FastSpeech boleh mencapai kualiti yang baik dengan sekurang-kurangnya 2–5 jam data, tetapi untuk mencapai suara yang sangat semula jadi, ekspresif dan mantap selalunya mengambil masa 10–20 jam atau lebih. Untuk pengklonan suara atau suara yang sangat ekspresif, set data yang lebih besar dan rakaman yang pelbagai meliputi pelbagai gaya, emosi dan konteks diperlukan.