- Text-to-speech (TTS) mengubah teks menjadi ucapan yang hidup menggunakan jaringan saraf untuk prosodi dan kualitas suara yang alami.
- Pipeline TTS memproses teks, menganalisis linguistik, menghasilkan spektogram, dan mensintesis audio dengan vocoder.
- TTS mendukung chatbot, sistem navigasi, hiburan, alat kesehatan, dan pendidikan inklusif.
- TTS berkualitas tinggi meningkatkan kejelasan, suara merek, aksesibilitas, dan kepercayaan pengguna di seluruh industri.
Orang Belanda ChatGPT berbicara dengan aksen Jerman (kadang-kadang). Jika memang sengaja, itu berarti kejam. Jika tidak, maka itu menarik.
Apa pun itu, dapat dikatakan bahwa asisten suara AI telah berkembang jauh dari Sam milik Microsoft. Faktanya, mereka telah berkembang cukup jauh sejak saya mempelajari teknologi suara beberapa tahun yang lalu.
Dan saya di sini untuk memberi tahu Anda tentang di mana kami mendarat.
Kita telah membuat mitos tentang ucapan yang disintesis setidaknya sejak tahun 1968, sejak kemunculan robot HAL dalam film 2001: A Space Odyssey.

Jauh dari kesan prestisius dan futuristik, hal ini telah menjadi standar: 89% konsumen menentukan pilihan perangkat mereka berdasarkan apakah perangkat tersebut memiliki dukungan suara atau tidak.
Dengan kata lain, "Jangan hanya membantu saya, tetapi bicaralah dengan saya".
Dalam artikel ini saya akan membahas text-to-speech- konversi teks menjadi audio yang diucapkan. Saya akan membahas tentang apa yang terjadi di balik layar, dan berbagai cara teknologi ini digunakan di seluruh industri.
Apa yang dimaksud dengan Text-to-Speech?
TTS adalah proses mengubah teks menjadi audio lisan yang disintesis. Versi awal didasarkan pada perkiraan saluran vokal manusia secara mekanis dan menggabungkan rekaman audio. Saat ini, sistem TTS menggunakan algoritme jaringan syaraf tiruan yang dalam untuk menghasilkan ucapan yang dinamis dan mirip manusia.
Model yang berbeda tersedia tergantung pada kasus penggunaan, seperti pembuatan real-time untuk model percakapan, ekspresi yang dapat dikontrol, dan kemampuan untuk meniru suara.
Bagaimana cara kerja Text-to-Speech?
TTS memiliki 3 langkah utama: pertama, teks input diproses untuk mengeja simbol, ekspresi dan singkatan. Teks yang diproses kemudian dilewatkan melalui jaringan saraf yang mengubahnya menjadi representasi akustik (spektogram). Terakhir, representasi tersebut diubah menjadi ucapan.
Seperti yang saya sebutkan, para peneliti telah melakukan sejumlah pendekatan untuk TTS. Pendekatan yang kami pilih (dan menurut saya akan terus digunakan untuk beberapa waktu) menggunakan sintesis ucapan berbasis jaringan syaraf tiruan.
Memodelkan lapisan fenomena linguistik yang memengaruhi sebuah ucapan - pengucapan, kecepatan, intonasi - adalah tugas yang rumit.

Bahkan dengan kemampuan kotak hitam semu dari jaringan saraf, sistem TTS bergantung pada sekumpulan komponen untuk memperkirakan ucapan.
Sulit untuk menentukan satu jalur yang tepat; teknologi baru bermunculan di kiri-kanan, mengancam untuk membuat pendahulunya menjadi usang.
Ada beberapa komponen umum yang ada di sebagian besar sistem TTS dalam satu bentuk atau lainnya.
1. Pemrosesan Teks
Pemrosesan teks adalah langkah di mana sistem TTS menentukan kata-kata yang akan diucapkan. Singkatan, tanggal, dan simbol mata uang dieja, dan tanda baca dihilangkan.
Hal ini tidak selalu sepele. Apakah "Dr." berarti dokter atau sopir? Bagaimana dengan CAD? Dolar Kanada atau desain berbantuan komputer?
Pemrosesan bahasa alami(NLP) dapat digunakan dalam pemrosesan teks untuk membantu memprediksi interpretasi yang benar berdasarkan konteks di sekitarnya. NLP mengevaluasi bagaimana istilah yang ambigu (misalnya, "Dr.") cocok dengan kalimat secara keseluruhan, sehingga dalam frasa "Dr. Perron menyarankan untuk tidak melakukannya", NLP akan mengubah dr. menjadi dokter .
2. Analisis Linguistik
Setelah teks diproses, model bergeser dari "Apa yang harus saya katakan?" menjadi "Bagaimana saya harus mengatakannya?"
Analisis linguistik adalah bagian dari TTS yang bertanggung jawab untuk menafsirkan bagaimana sebuah kalimat harus disampaikan dalam hal nada, nada dan durasi. Dengan kata lain:
- Berapa panjang setiap bunyi, suku kata, atau kata?
- Haruskah intonasi naik? Jatuh?
- Kata mana yang ditekankan?
- Bagaimana perubahan volume dapat mencerminkan emosi yang dimaksudkan?
Mengapa Prosody Penting
Waktunya bercerita: Saya pernah melakukan konsultasi singkat untuk model TTS pembangunan tim. Menjadi jelas betapa prosodi dapat membuat atau menghancurkan kejelasan sebuah kalimat. Saya akan tunjukkan kepada Anda apa yang saya maksud.
Berikut ini adalah 3 penyampaian kalimat "Wah, apakah Anda mengharapkan itu?"
Yang pertama sangat bagus. Jeda setelah "Whoa", infleksi ke atas pada suku kata kedua dari "mengharapkan" (ex-PEC-ting). 10/10.
Yang kedua nyaris tidak menangkap kualitas pertanyaan dengan memberikan infleksi pada kata terakhir ("... mengharapkan ITU"). Selain itu, suku kata lainnya memiliki panjang yang kurang lebih sama, tanpa variasi volume atau nada. Saya akan memberitahu klien saya untuk "mulai menggambar".
Yang terakhir adalah kasus yang menarik: "Whoah sangat bagus - keras, panjang, dan dengan kontur yang jatuh. Infleksi naik pada pertanyaan terjadi selama "were you", dan pada dasarnya memiliki nada yang stabil di sepanjang pertanyaan.
Di sin ilah banyak sistem TTS yang berada di tengah-tengah: cukup sederhana dengan penyampaian yang masuk akal. Masalahnya, ini bukan seperti yang Anda ucapkan - setidaknya tidak dalam sebagian besar konteks.
Pada sistem yang lebih lama, kualitas ini diprediksi oleh komponen yang terpisah: satu model akan menghitung berapa lama setiap suara akan bertahan, model lainnya akan memetakan bagaimana nada akan naik dan turun.
Saat ini, segala sesuatunya menjadi lebih kabur.
Jaringan saraf cenderung mempelajari pola-pola ini dengan sendirinya dengan menginternalisasi seluk-beluk halus dari kumpulan data pelatihan yang sangat besar.
3. Pemodelan Akustik
Pemodelan akustik adalah di mana teks yang dinormalisasi (dan fitur linguistik yang diprediksi, jika ada) dilewatkan melalui jaringan saraf yang menghasilkan representasi perantara.
Spektogram dan Representasi Ucapan
Representasi perantara biasanya berupa spektogram - representasi frekuensi terhadap waktu dari sinyal audio - meskipun hal ini sedang berubah.
Berikut adalah representasi yang dihasilkan oleh model TTS dari teks masukan kami "Wah, apakah Anda mengharapkan itu?":

Gambar 2 dimensi ini sebenarnya adalah 146 irisan vertikal, masing-masing berisi 80 frekuensi. Frekuensi yang lebih kuat lebih terang, dan frekuensi yang lebih lemah lebih gelap.
Berikut ini adalah tampilan langkah (atau kolom) ke-10, diputar 90 derajat ke kanan:

Anda dapat melihat frekuensi individu dan energinya.
Pada pandangan pertama, spektogram tidak terlihat banyak, tetapi ada beberapa fenomena linguistik yang jelas di sini:
- Garis-garis gelombang yang jelas itu adalah vokal atau bunyi yang mirip vokal, seperti /w/, /r/, dan /l/.
- Bintik hitam melambangkan keheningan. Itu bisa menjadi jeda untuk tanda baca.
- Gumpalan energi di atas mewakili kebisingan, seperti suara yang Anda dengar dalam /s/, /sh/, dan /f/
Malahan, Anda bahkan bisa menyusun kata-kata dalam spektogram jika Anda mencermati dengan saksama.

Spektogram, dalam berbagai bentuknya, merupakan representasi yang banyak digunakan dalam teknologi ucapan karena merupakan perantara yang sangat baik antara ucapan mentah dan teks.
Dua rekaman kalimat yang sama yang diucapkan oleh pembicara yang berbeda akan memiliki bentuk gelombang yang sangat berbeda, tetapi spektogramnya sangat mirip.
4. Mensintesis Audio (Vocoding)
Tahap sintesis adalah tahap di mana spektogram diubah menjadi audio.
Teknologi yang melakukan konversi ini disebut vocoder. Vokoder adalah model jaringan saraf yang dilatih untuk merekonstruksi sinyal ucapan berdasarkan representasi spektogramnya.
Alasan untuk memisahkan representasi dan pemodelan sinyal ucapan ke dalam modul terpisah adalah tentang kontrol: yang pertama adalah tentang pemodelan pengucapan dan penyampaian kata-kata secara akurat, dan yang berikutnya adalah tentang gaya dan realistisnya penyampaian.
Dengan spektogram, kita bisa membedakan antara /s/ vs /sh/, atau /ee/ (seperti dalam heat) vs /ih/ (seperti dalam hit), tetapi gaya dan kepribadian berasal dari detail halus yang dihasilkan oleh vocoder.
Berikut ini adalah perbandingan kombinasi antara model akustik dan vocoder yang berbeda. Ini menggambarkan bagaimana para peneliti memadupadankan model akustik dan vocoder, dan mengoptimalkan untuk mendapatkan hasil terbaik secara keseluruhan.
Tetapi sekali lagi, seperti semua komponen lainnya, kami melihat spektogram dihapuskan secara bertahap demi model all-in-one.
Apa Saja Kasus Penggunaan TTS?
Kemampuan untuk menghasilkan bahasa lisan yang dinamis adalah alat yang penting di seluruh industri.
Ini bukan hanya tentang robot pelayan yang canggih - ini membantu kita mencapai efisiensi, aksesibilitas, dan keamanan.
Chatbots dan Asisten Suara
Anda tahu saya akan mengatakannya 😉
Antara memahami perintah Anda, memperbarui daftar belanjaan, dan mengatur janji temu, mudah sekali untuk menganggap remeh kecanggihan - dan pentingnya - ucapan yang disintesis pada agen AI.
Agen yang baik, (yaitu yang dapat digunakan ) harus memiliki suara yang sesuai dengan kebutuhan: cukup ramah untuk meminta perintah, dan cukup manusiawi untuk membuat pengguna percaya bahwa agen tersebut dapat memenuhinya.
Banyak penelitian dan rekayasa yang dilakukan untuk mengambil hati pengguna dalam sepersekian detik yang diperlukan untuk memutuskan apakah asisten AI terdengar "benar" atau tidak.
Dari sisi bisnis: chatbot Anda mewakili merek Anda. Peningkatan dalam teknologi TTS berarti opsi untuk branding suara yang lebih baik dan layanan pelanggan yang lebih efektif.
Hiburan dan Media
Narasi dan media multibahasa telah menjadi lebih tersedia dengan peningkatan teknologi ucapan sintetis.
Alih-alih menggantikan talenta, teknologi bicara membantu meningkatkan pertunjukan yang dramatis.
Val Kilmer, yang kehilangan suaranya karena kanker tenggorokan, memberikan penampilan yang menyentuh hati dengan suara aslinya di Top Gun: Maverick (2022) berkat teknologi AI.
TTS juga memungkinkan pengembang game memberikan ucapan yang beragam dan ekspresif kepada karakter yang tidak dapat dimainkan (NPC), suatu hal yang tidak mungkin dilakukan.
Kesehatan
Perbaikan di TTS berarti peningkatan aksesibilitas di seluruh bagian.
Teknologi perawatan lansia menangani masalah persahabatan dan bantuan secara bersamaan. Teknologi ini bergantung pada kemampuan penyesuaian yang ditawarkan TTS: nada yang penuh kasih sayang, kecepatan yang bervariasi, dan intonasi yang cermat, semuanya merupakan bagian dari penawaran bantuan yang efektif dan bermartabat.
TTS juga digunakan untuk meningkatkan aksesibilitas di kalangan masyarakat yang lebih muda.
Acapela Group mengembangkan, antara lain, teknologi untuk anak-anak dengan gangguan produksi bicara. Pidato sintetis meningkatkan kemampuan ekspresif dan kemandirian mereka, sambil mempertahankan karakteristik vokal mereka.
Pendidikan dan Pembelajaran Inklusif
Kami telah menemukan ucapan sintetis dalam aplikasi pembelajaran bahasa. Namun, itu hanyalah puncak gunung es.
Sebagai contoh, hambatan masuk dalam pembelajaran mandiri adalah kemampuan membaca. Bagi anak-anak, penyandang tunanetra, dan ketidakmampuan belajar tertentu, hal tersebut belum tentu memungkinkan. Hal ini membebani para guru yang sudah bekerja terlalu keras di ruang kelas yang penuh sesak.
Sebuah distrik sekolah di California telah menerapkan TTS untuk menciptakan lingkungan belajar yang lebih inklusif bagi siswa berkebutuhan khusus.
Seperti halnya dalam kasus perawatan lansia, teknologi pendidikan bergantung pada suara yang penuh kasih yang disampaikan dengan kejelasan dan penekanan yang murni. Parameter yang dapat dimodifikasi memungkinkan guru untuk mengintegrasikan teknologi ini ke dalam pelajaran mereka, sehingga membantu siswa merasa lebih dilibatkan.
Dapatkan TTS Terbaik untuk Kebutuhan Anda
Apa pun industri Anda, dapat dikatakan bahwa AI suara relevan. Dan TTS yang Anda terapkan secara harfiah berbicara untuk bisnis Anda, sehingga harus dapat diandalkan dan dapat disesuaikan.
Botpress memungkinkan Anda membangun bot yang kuat dan sangat dapat disesuaikan dengan serangkaian integrasi dan penyebaran di semua saluran komunikasi umum. Agen suara Anda tidak hanya akan mengesankan, tetapi juga akan berhasil.
Mulai membangun hari ini. Gratis.
Hal-hal yang sering ditanyakan
Apakah ada bahasa atau dialek yang sulit didukung oleh sistem TTS?
Ya, ada beberapa bahasa dan dialek yang sulit didukung oleh sistem TTS, terutama bahasa-bahasa dengan sumber daya rendah yang tidak memiliki kumpulan data rekaman ucapan dan teks yang besar. Variasi seperti dialek regional, bahasa tonal, dan bahasa asli sering kali menimbulkan tantangan karena memerlukan aturan pengucapan dan prosodi yang berbeda yang belum dilatih oleh model standar. Bahkan untuk bahasa yang digunakan secara luas, perbedaan dialek dapat menyebabkan kesalahan pengucapan atau ucapan yang terdengar tidak alami.
Seberapa dapatkah suara TTS disesuaikan dalam hal nada, kecepatan, dan emosi?
Suara TTS saat ini sangat dapat disesuaikan dalam hal nada, kecepatan, dan emosi, berkat arsitektur jaringan saraf modern yang memungkinkan kontrol yang sangat halus atas prosodi dan gaya. Banyak sistem TTS komersial yang memungkinkan pengguna menyesuaikan kecepatan bicara, pola intonasi, volume, dan nada ekspresif agar sesuai dengan konteks yang berbeda, seperti narasi yang tenang, pengumuman yang menggembirakan, atau dialog yang penuh empati. Namun, tingkat kontrol bervariasi menurut vendor-beberapa hanya menawarkan slider dasar untuk kecepatan dan nada, sementara yang lain mengekspos parameter rinci untuk ekspresi emosional dan warna suara.
Seberapa amankah data suara yang diproses oleh sistem TTS?
Keamanan data suara yang diproses oleh sistem TTS sangat bergantung pada penyedia dan metode penerapannya. Layanan TTS berbasis cloud biasanya mengenkripsi data saat transit dan saat tidak aktif, tetapi mengirimkan informasi sensitif ke server eksternal masih dapat menimbulkan risiko privasi jika perjanjian yang tepat dan langkah-langkah kepatuhan seperti GDPR atau HIPAA tidak tersedia. Penerapan di tempat atau di tepi memberikan keamanan yang lebih tinggi karena audio dan teks tidak pernah meninggalkan infrastruktur organisasi, sehingga mengurangi eksposur ke pihak ketiga.
Seberapa mahal menerapkan solusi TTS berkualitas tinggi untuk bisnis?
Menerapkan solusi TTS berkualitas tinggi untuk bisnis dapat berkisar dari beberapa ratus dollars per bulan untuk API berbasis cloud dengan penggunaan sedang, hingga puluhan atau ratusan ribu untuk pengembangan suara khusus atau penerapan perusahaan di tempat. Biaya biasanya mencakup biaya lisensi, biaya penggunaan bayar per karakter atau bayar per menit, upaya integrasi dan pengembangan, dan mungkin biaya talenta suara jika membuat suara khusus. Bisnis kecil sering kali memulai dengan layanan berbasis langganan, sementara perusahaan yang lebih besar dapat berinvestasi dalam solusi yang dipesan lebih dahulu untuk konsistensi dan privasi merek.
Berapa banyak data pelatihan yang diperlukan untuk membuat suara TTS berkualitas tinggi?
Untuk membuat suara TTS berkualitas tinggi biasanya membutuhkan beberapa jam hingga puluhan jam untuk rekaman suara yang bersih dan direkam secara profesional, idealnya dari pembicara yang sama dan dalam kondisi perekaman yang konsisten. Sistem TTS neural modern seperti Tacotron atau FastSpeech dapat mencapai kualitas yang layak hanya dengan 2-5 jam data, tetapi untuk mendapatkan suara yang sangat alami, ekspresif, dan kuat sering kali membutuhkan waktu 10-20 jam atau lebih. Untuk kloning suara atau suara yang sangat ekspresif, diperlukan kumpulan data yang lebih besar dan rekaman yang beragam yang mencakup berbagai gaya, emosi, dan konteks.