- ASR mengubah ucapan menjadi teks menggunakan pembelajaran mesin, memungkinkan perintah suara dan transkripsi waktu nyata.
- Sistem ASR modern telah bergeser dari model fonem terpisah (HMM-GMM) ke model pembelajaran mendalam yang memprediksi seluruh kata.
- Performa ASR diukur dengan Word Error Rate (WER), dengan kesalahan yang berasal dari substitusi, penghapusan, atau penyisipan; WER yang lebih rendah = kualitas transkripsi yang lebih baik.
- Masa depan ASR difokuskan pada pemrosesan pada perangkat untuk privasi dan dukungan untuk bahasa dengan sumber daya rendah.
Kapan terakhir kali Anda menonton sesuatu tanpa teks?
Teks dulunya hanya opsional, tetapi sekarang teks selalu ada di video berdurasi pendek, entah kita menginginkannya atau tidak. Teks begitu tertanam dalam konten sehingga Anda lupa bahwa mereka ada di sana.
Pengenalan ucapan otomatis (ASR) - kemampuan untuk mengotomatiskan konversi kata-kata yang diucapkan menjadi teks dengan cepat dan akurat - adalah teknologi yang mendukung pergeseran ini.
Ketika kita berpikir tentang agen suara AI, kita berpikir tentang pilihan kata, penyampaian, dan suara yang digunakannya.
Namun, kita mudah lupa bahwa kelancaran interaksi kita bergantung pada kemampuan bot untuk memahami kita. Dan untuk mencapai titik ini - bot memahami Anda melalui kata "um" dan "ah" di lingkungan yang bising - bukanlah hal yang mudah.
Hari ini, kita akan berbicara tentang teknologi yang mendukung teks tersebut: pengenalan ucapan otomatis (ASR).
Izinkan saya untuk memperkenalkan diri: Saya memiliki gelar master di bidang teknologi bicara, dan di waktu luang saya, saya suka membaca tentang ASR terbaru, dan bahkan membuat sesuatu.
Saya akan menjelaskan kepada Anda dasar-dasar ASR, mengintip di balik layar teknologinya, dan menebak ke mana arah teknologi ini selanjutnya.
Apa yang dimaksud dengan ASR?
Pengenalan suara otomatis (ASR), atau speech-to-text (STT) adalah proses mengubah ucapan menjadi teks tertulis melalui penggunaan teknologi pembelajaran mesin.
Teknologi yang melibatkan ucapan sering kali mengintegrasikan ASR dalam beberapa kapasitas; bisa untuk teks video, mentranskrip interaksi dukungan pelanggan untuk analisis, atau bagian dari interaksi asisten suara, untuk menyebut beberapa di antaranya.
Algoritma Ucapan-ke-Teks
Teknologi yang mendasarinya telah berubah selama bertahun-tahun, tetapi semua iterasi terdiri dari dua komponen dalam berbagai bentuk: data dan model.
Dalam kasus ASR, data diberi label ucapan - file audio bahasa lisan dan transkripsi yang sesuai.
Model adalah algoritme yang digunakan untuk memprediksi transkripsi dari audio. Data berlabel digunakan untuk melatih model, sehingga model dapat menggeneralisasi seluruh contoh ucapan yang tidak terlihat.

Ini sangat mirip dengan bagaimana Anda dapat memahami serangkaian kata, bahkan jika Anda belum pernah mendengarnya dalam urutan tertentu, atau diucapkan oleh orang asing.
Sekali lagi, jenis model dan spesifikasinya telah berubah dari waktu ke waktu, dan semua kemajuan dalam kecepatan dan akurasi telah bermuara pada ukuran dan spesifikasi dataset dan model.
Quick Aside: Ekstraksi Fitur
Saya telah membahas tentang fitur, atau representasi dalam artikel saya tentang text-to-speech. Fitur-fitur ini digunakan dalam model ASR di masa lalu dan sekarang.
Ekstraksi fitur - mengubah ucapan menjadi fitur - adalah langkah pertama dalam hampir semua pipeline ASR.
Singkatnya, fitur-fitur ini, sering kali berupa spektogram, adalah hasil dari perhitungan matematis yang dilakukan pada ucapan, dan mengubah ucapan ke dalam format yang menekankan kesamaan di seluruh ucapan, dan meminimalkan perbedaan di antara para pembicara.
Dengan kata lain, ujaran yang sama yang diucapkan oleh 2 pembicara yang berbeda akan memiliki spektogram yang serupa, tanpa menghiraukan perbedaan suara mereka.
Saya menunjukkan hal ini untuk memberi tahu Anda bahwa saya akan berbicara tentang model yang "memprediksi transkrip dari ucapan". Hal itu tidak benar secara teknis; model memprediksi dari fitur. Tetapi Anda dapat menganggap komponen ekstraksi fitur sebagai bagian dari model.
ASR awal: HMM-GMM
Model markov tersembunyi (HMM ) dan model campuran Gaussian (GMM ) adalah model prediktif dari sebelum jaringan syaraf tiruan mengambil alih.
HMM mendominasi ASR hingga saat ini.
Diberikan sebuah file audio, HMM akan memprediksi durasi fonem, dan GMM akan memprediksi fonem itu sendiri.
Kedengarannya terbalik, dan memang seperti itu:
- HMM: "0,2 detik pertama adalah fonem."
- GMM: "Fonem itu adalah G, seperti dalam kata Gary."
Mengubah klip audio menjadi teks akan memerlukan beberapa komponen tambahan, yaitu:
- Kamus pengucapan: daftar lengkap kata-kata dalam kosakata, dengan pengucapan yang sesuai.
- Model bahasa: Kombinasi kata-kata dalam kosakata, dan kemungkinan kemunculannya secara bersamaan.
Jadi, meskipun GMM memprediksi /f/ daripada /s/, model bahasa tahu bahwa kemungkinan besar pembicara mengatakan "satu sen untuk pikiranAnda", bukan perkelahian.
Kami memiliki semua bagian ini karena, terus terang saja, tidak ada bagian dari pipa ini yang sangat bagus.
HMM akan salah memprediksi penyelarasan, GMM akan salah mengenali suara yang mirip: /s/ dan /f/, /p/ dan /t/, dan bahkan tidak perlu saya sebutkan vokal.
Dan kemudian model bahasa akan membersihkan kekacauan fonem yang tidak koheren menjadi sesuatu yang lebih bahasa.
ASR End-to-End dengan Pembelajaran Mendalam
Banyak bagian dari pipa ASR yang telah dikonsolidasikan.

Alih-alih melatih model yang terpisah untuk menangani ejaan, perataan, dan pengucapan, sebuah model tunggal menerima ucapan dan menghasilkan (semoga) kata-kata yang dieja dengan benar, dan, saat ini, cap waktu juga.
(Meskipun implementasi sering kali mengoreksi, atau "mencetak ulang" keluaran ini dengan model bahasa tambahan).
Bukan berarti bahwa faktor yang berbeda - seperti perataan dan pengejaan - tidak mendapatkan perhatian khusus. Masih ada banyak sekali literatur yang berfokus pada penerapan perbaikan pada masalah-masalah yang sangat ditargetkan.
Artinya, para peneliti menemukan cara untuk mengubah arsitektur model yang menargetkan faktor spesifik dari kinerjanya, seperti:
- Dekoder RNN-Transducer yang dikondisikan pada output sebelumnya untuk meningkatkan ejaan.
- Convolutional downsampling untuk membatasi output kosong, sehingga meningkatkan keselarasan.
Saya tahu ini tidak masuk akal. Saya hanya ingin atasan saya berkata, "bisakah Anda memberikan contoh dalam bahasa Inggris yang sederhana?"
Jawabannya adalah tidak.
Tidak, saya tidak bisa.
Bagaimana Kinerja Diukur dalam ASR?
Ketika ASR melakukan pekerjaan yang buruk, Anda akan mengetahuinya.
Saya pernah melihat karamelisasi yang dituliskan sebagai orang Asia yang komunis. Kerenyahan untuk Chris p - Anda mendapatkan idenya.
Metrik yang kami gunakan untuk merefleksikan kesalahan secara matematis adalah tingkat kesalahan kata (WER). Rumus untuk WER adalah:

Dimana:
- S adalah jumlah substitusi (kata yang diubah dalam teks yang diprediksi agar sesuai dengan teks referensi)
- D adalah jumlah penghapusan (kata-kata yang hilang dari output, dibandingkan dengan teks referensi)
- I adalah jumlah sisipan (kata tambahan dalam output, dibandingkan dengan teks referensi)
- N adalah jumlah total kata dalam referensi
Jadi, katakanlah rujukannya adalah "kucing itu duduk."
- Jika model menghasilkan output "kucing itu tenggelam", itu adalah substitusi.
- Jika model mengeluarkan output "kucing duduk", itu adalah penghapusan.
- Jika menghasilkan output "kucing sudah duduk", itu adalah penyisipan.
Apa Saja Aplikasi ASR?
ASR adalah alat yang bagus.
Hal ini juga membantu kami meningkatkan kualitas hidup melalui peningkatan keselamatan, aksesibilitas, dan efisiensi di industri yang penting.
Kesehatan
Ketika saya memberi tahu dokter bahwa saya meneliti pengenalan suara, mereka berkata, "oh, seperti Dragon."
Sebelum ada AI generatif dalam bidang kesehatan, para dokter membuat catatan verbal dengan kecepatan 30 kata per menit dengan kosakata yang terbatas.
ASR telah berhasil secara besar-besaran dalam menekan angka kelelahan yang dialami oleh para dokter.
Dokter menyeimbangkan tumpukan dokumen dengan kebutuhan untuk merawat pasien mereka. Pada awal tahun 2018, para peneliti memohon penggunaan transkripsi digital dalam konsultasi untuk meningkatkan kemampuan dokter dalam memberikan perawatan.
Hal ini dikarenakan mendokumentasikan konsultasi secara retroaktif tidak hanya mengurangi waktu tatap muka dengan pasien, tetapi juga jauh lebih tidak akurat dibandingkan dengan rangkuman transkripsi konsultasi yang sebenarnya.
Rumah Pintar
Saya punya lelucon yang saya lakukan.
Apabila saya ingin mematikan lampu, tetapi tidak ingin bangun, saya bertepuk tangan dua kali secara berurutan - seakan-akan saya memiliki genta.
Pasangan saya tidak pernah tertawa.
Rumah pintar yang diaktifkan dengan suara terasa futuristik sekaligus memanjakan. Atau begitulah kelihatannya.
Tentu saja, mereka nyaman, tetapi dalam banyak kasus, mereka memungkinkan untuk melakukan hal-hal yang tidak tersedia.
Contoh yang bagus adalah konsumsi energi: membuat perubahan kecil pada pencahayaan dan termostat tidak mungkin dilakukan sepanjang hari jika Anda harus bangun dan bermain-main dengan dial.
Aktivasi suara berarti penyesuaian kecil itu tidak hanya lebih mudah dilakukan, tetapi juga dapat membaca nuansa ucapan manusia.
Misalnya, Anda mengatakan "bisakah Anda membuatnya menjadi lebih dingin?" Asisten menggunakan pemrosesan bahasa alami untuk menerjemahkan permintaan Anda ke dalam perubahan suhu, dengan mempertimbangkan banyak data lain: suhu saat ini, prakiraan cuaca, data penggunaan termostat pengguna lain, dll.
Anda melakukan bagian manusia, dan menyerahkan hal-hal yang berbau komputer kepada komputer.
Menurut saya, ini jauh lebih mudah daripada Anda harus menebak-nebak berapa derajat untuk menurunkan panas berdasarkan perasaan Anda.
Dan lebih hemat energi: ada laporan keluarga yang mengurangi konsumsi energi hingga 80% dengan pencahayaan pintar yang diaktifkan dengan suara, sebagai salah satu contohnya.
Dukungan Pelanggan
Kami telah membicarakan hal ini dengan pihak layanan kesehatan, tetapi menyalin dan meringkas jauh lebih efektif daripada orang yang memberikan ringkasan interaksi yang berlaku surut.
Sekali lagi, ini menghemat waktu dan lebih akurat. Apa yang kami pelajari berkali-kali adalah bahwa otomatisasi membebaskan waktu bagi orang-orang untuk melakukan pekerjaan mereka dengan lebih baik.
Dan tidak ada yang lebih benar daripada dukungan pelanggan, di mana dukungan pelanggan yang ditingkatkan dengan ASR memiliki tingkat penyelesaian panggilan pertama 25% lebih tinggi.
Transkripsi dan rangkuman membantu mengotomatiskan proses mencari solusi berdasarkan sentimen dan permintaan pelanggan.
Asisten Dalam Mobil
Kami membonceng asisten rumah tangga di sini, tetapi hal ini sangat layak untuk disebutkan.
Pengenalan suara mengurangi beban kognitif dan gangguan visual bagi pengemudi.
Dan dengan gangguan yang menyumbang hingga 30% dari tabrakan, menerapkan teknologi ini merupakan hal yang sangat penting bagi keselamatan.
Patologi Wicara
ASR telah lama digunakan sebagai alat bantu dalam menilai dan mengobati patologi bicara.
Sangat membantu untuk mengingat bahwa mesin tidak hanya mengotomatiskan tugas, tetapi juga melakukan hal-hal yang tidak dapat dilakukan oleh manusia.
Pengenalan suara dapat mendeteksi kehalusan dalam ucapan yang hampir tidak terlihat oleh telinga manusia, menangkap secara spesifik ucapan yang terpengaruh yang jika tidak, akan terbang di bawah radar.
Masa Depan ASR
STT sudah cukup baik sehingga kami tidak memikirkannya lagi.
Namun di balik layar, para peneliti bekerja keras untuk membuatnya menjadi lebih kuat dan mudah diakses - dan tidak terlalu mencolok.
Saya memilih beberapa tren menarik yang memanfaatkan kemajuan dalam ASR, dan menaburkan beberapa pemikiran saya sendiri.
Pengenalan Ucapan di Perangkat
Sebagian besar solusi ASR berjalan di cloud. Saya yakin Anda pernah mendengarnya sebelumnya. Itu berarti model ini berjalan pada komputer jarak jauh, di tempat lain.
Mereka melakukan ini karena prosesor kecil ponsel Anda belum tentu dapat menjalankan model besar mereka, atau akan memakan waktu lama untuk menyalin apa pun.
Sebagai gantinya, audio Anda dikirim, melalui internet, ke server jarak jauh yang menjalankan GPU yang terlalu berat untuk dibawa-bawa di saku Anda. GPU menjalankan model ASR, dan mengembalikan transkripsi ke perangkat Anda.

Untuk alasan efisiensi energi dan keamanan (tidak semua orang ingin data pribadinya beredar di dunia maya), banyak penelitian telah dicurahkan untuk membuat model yang cukup ringkas untuk dijalankan langsung di perangkat Anda, baik itu ponsel, komputer, atau mesin peramban.
Anda benar-benar menulis tesis tentang kuantisasi model ASR sehingga dapat berjalan di perangkat. Picovoice adalah perusahaan Kanada yang membuat AI suara pada perangkat dengan latensi rendah, dan mereka tampak keren.
ASR pada perangkat membuat transkripsi tersedia dengan biaya yang lebih rendah, dengan potensi untuk melayani masyarakat berpenghasilan rendah.
Transkrip-Pertama UI
Kesenjangan antara audio dan transkripsi semakin mengecil. Apa artinya?
Editor video seperti Premiere Pro dan Descript memungkinkan Anda menavigasi rekaman Anda melalui transkrip: klik pada sebuah kata dan Anda akan dibawa ke stempel waktu.
Harus melakukan beberapa kali pemotretan? Pilih favorit Anda dan hapus yang lain, dengan gaya editor teks. Secara otomatis memangkas video untuk Anda.
Mungkin sangat membuat frustrasi untuk melakukan pengeditan semacam itu hanya dengan bentuk gelombang, tetapi sangat mudah ketika Anda memiliki editor berbasis transkrip.
Demikian pula, layanan perpesanan seperti WhatsApp mentranskripsikan catatan suara Anda dan memungkinkan Anda menggosoknya melalui teks. Geser jari Anda di atas sebuah kata, dan Anda akan dibawa ke bagian rekaman tersebut.

Cerita lucu: Saya sebenarnya membuat sesuatu seperti ini sekitar seminggu sebelum Apple mengumumkan fitur serupa.
Contoh-contoh ini menunjukkan bagaimana teknologi di balik tenda yang rumit menghadirkan kesederhanaan dan intuitif pada aplikasi pengguna akhir.
Kesetaraan, Inklusi, dan Bahasa dengan Sumber Daya Rendah
Pertempuran belum dimenangkan.
ASR bekerja dengan baik dalam bahasa Inggris, dan bahasa umum lainnya yang memiliki sumber daya yang baik. Hal ini belum tentu terjadi pada bahasa dengan sumber daya rendah.
Ada kesenjangan dalam minoritas dialek, pidato yang terpengaruh, dan masalah lain dengan kesetaraan dalam teknologi suara.
Maaf telah mengganggu suasana yang menyenangkan. Bagian ini disebut "masa depan" ASR. Dan saya memilih untuk menantikan masa depan yang bisa kita banggakan.
Jika kita ingin maju, kita harus melakukannya bersama-sama, atau mengambil risiko meningkatkan ketidaksetaraan sosial.
Mulai Gunakan ASR Hari Ini
Apa pun bisnis Anda, menggunakan ASR bukanlah hal yang sulit - kecuali jika Anda mungkin bertanya-tanya bagaimana cara memulainya. Bagaimana Anda menerapkan ASR? Bagaimana Anda meneruskan data tersebut ke alat lain?
Botpress dilengkapi dengan kartu transkripsi yang mudah digunakan. Kartu-kartu ini dapat diintegrasikan ke dalam alur seret dan lepas, ditambah dengan lusinan integrasi di seluruh aplikasi dan saluran komunikasi.
Mulai membangun hari ini. Gratis.
Hal-hal yang sering ditanyakan
Seberapa akuratkah ASR modern untuk aksen yang berbeda dan lingkungan yang bising?
Sistem ASR modern sangat akurat untuk aksen umum dalam bahasa-bahasa utama, mencapai tingkat kesalahan kata (WER) di bawah 10% dalam kondisi bersih, tetapi akurasinya menurun dengan aksen yang berat, dialek, atau kebisingan latar belakang yang signifikan. Vendor seperti Google dan Microsoft melatih model pada data ucapan yang beragam, tetapi transkripsi yang sempurna di lingkungan yang bising masih menjadi tantangan.
Apakah ASR dapat diandalkan untuk menyalin jargon khusus atau istilah khusus industri?
ASR kurang dapat diandalkan untuk jargon khusus atau istilah khusus industri karena data pelatihannya biasanya condong ke arah ucapan umum; kata-kata yang tidak dikenal dapat salah tulis atau dihilangkan. Namun, solusi perusahaan memungkinkan kosakata khusus, model bahasa khusus domain, dan kamus pengucapan untuk meningkatkan pengenalan istilah teknis di bidang-bidang seperti perawatan kesehatan, hukum, atau teknik.
Apa perbedaan antara alat bantu ASR gratis dan solusi tingkat perusahaan?
Perbedaan antara alat ASR gratis dan solusi tingkat perusahaan terletak pada akurasi, skalabilitas, kustomisasi, dan kontrol privasi: alat gratis sering kali memiliki tingkat kesalahan yang lebih tinggi, dukungan bahasa yang terbatas, dan batasan penggunaan, sedangkan solusi perusahaan menawarkan WER yang lebih rendah, kustomisasi khusus domain, integrasi, perjanjian tingkat layanan (SLA), dan fitur keamanan yang tangguh untuk menangani data sensitif.
Bagaimana ASR melindungi privasi pengguna dan informasi sensitif selama transkripsi?
ASR melindungi privasi pengguna melalui enkripsi selama transmisi data dan menawarkan opsi seperti menjalankan model di perangkat untuk menghindari pengiriman data ucapan ke server eksternal. Banyak penyedia layanan perusahaan juga mematuhi peraturan privasi seperti GDPR atau HIPAA dan dapat menganonimkan data untuk melindungi informasi sensitif.
Seberapa mahal layanan ASR berbasis cloud dibandingkan dengan solusi pada perangkat?
Layanan ASR berbasis cloud biasanya mengenakan biaya per menit audio atau berdasarkan tingkat penggunaan, dengan biaya mulai dari $0,03-$1,00+ per menit tergantung pada akurasi dan fitur, sementara solusi pada perangkat melibatkan biaya pengembangan di muka dan biaya lisensi.