- ASR mengubah pertuturan menjadi teks menggunakan pembelajaran mesin, mendayakan arahan suara dan transkripsi masa nyata.
- Sistem ASR moden telah beralih daripada model fonem berasingan (HMM-GMM) kepada model pembelajaran mendalam yang meramalkan keseluruhan perkataan.
- Prestasi ASR diukur dengan Kadar Ralat Kata (WER), dengan ralat yang datang daripada penggantian, pemadaman atau sisipan; WER rendah = kualiti transkripsi yang lebih baik.
- Masa depan ASR tertumpu pada pemprosesan pada peranti untuk privasi dan sokongan untuk bahasa sumber rendah.
Bilakah kali terakhir anda menonton sesuatu tanpa sarikata?
Dulunya adalah pilihan, tetapi kini ia melantun merentas video bentuk pendek sama ada kita mahukannya atau tidak. Kapsyen begitu tertanam dalam kandungan sehingga anda lupa ia ada di sana.
Pengecaman pertuturan automatik (ASR) — keupayaan untuk mengautomasikan penukaran perkataan yang dituturkan kepada teks dengan cepat dan tepat — ialah teknologi yang menggerakkan peralihan ini.
Apabila kita memikirkan tentang ejen suara AI , kita memikirkan tentang pilihan perkataan, penyampaian dan suara yang dituturkannya.
Tetapi mudah untuk melupakan bahawa kecairan interaksi kami bergantung pada bot yang memahami kami. Dan sampai ke tahap ini - bot memahami anda melalui "um" dan "ah" dalam persekitaran yang bising - tidak pernah berjalan di taman.
Hari ini, kita akan bercakap tentang teknologi yang menjanakan kapsyen tersebut: pengecaman pertuturan automatik (ASR).
Izinkan saya memperkenalkan diri saya: Saya mempunyai sarjana dalam teknologi pertuturan, dan pada masa lapang saya, saya suka membaca maklumat terkini dalam ASR, malah membina bahan .
Saya akan menerangkan kepada anda asas-asas ASR, mengintip di bawah hud pada teknologi dan meneka ke mana teknologi itu akan pergi seterusnya.
Apakah ASR?
Pengecaman pertuturan automatik (ASR), atau pertuturan ke teks (STT) ialah proses menukar pertuturan kepada teks bertulis melalui penggunaan teknologi pembelajaran mesin.
Teknologi yang melibatkan pertuturan sering mengintegrasikan ASR dalam beberapa kapasiti; ia boleh untuk kapsyen video, menyalin interaksi sokongan pelanggan untuk analisis, atau sebahagian daripada interaksi pembantu suara , untuk menamakan beberapa.
Algoritma Pertuturan-ke-Teks
Teknologi asas telah berubah selama bertahun-tahun, tetapi semua lelaran terdiri daripada dua komponen dalam beberapa bentuk atau yang lain: data dan model .
Dalam kes ASR, data dilabelkan pertuturan – fail audio bahasa pertuturan dan transkripsinya yang sepadan .
Model ialah algoritma yang digunakan untuk meramalkan transkripsi daripada audio . Data berlabel digunakan untuk melatih model, supaya ia boleh membuat generalisasi merentas contoh pertuturan yang tidak kelihatan.

Ini sama seperti bagaimana anda boleh memahami satu siri perkataan, walaupun anda tidak pernah mendengarnya dalam susunan tertentu, atau ia dituturkan oleh orang yang tidak dikenali.
Sekali lagi, jenis model dan spesifikasinya telah berubah dari semasa ke semasa, dan semua kemajuan dalam kelajuan dan ketepatan telah turun kepada saiz dan spesifikasi set data dan model.
Ketepikan Pantas: Pengekstrakan Ciri
Saya bercakap tentang ciri, atau perwakilan dalam artikel saya tentang teks ke pertuturan. Ia digunakan dalam model ASR dahulu dan sekarang.
Pengekstrakan ciri — menukar pertuturan kepada ciri — ialah langkah pertama dalam hampir semua saluran paip ASR.
Singkatnya ialah ciri ini, selalunya spektrogram , adalah hasil pengiraan matematik yang dilakukan pada pertuturan dan menukar pertuturan kepada format yang menekankan persamaan merentas ujaran dan meminimumkan perbezaan merentas pembesar suara.
Seperti dalam, sebutan yang sama yang dituturkan oleh 2 pembesar suara yang berbeza akan mempunyai spektrogram yang serupa, tidak kira betapa berbezanya suara mereka.
Saya menunjukkan perkara ini untuk memberitahu anda bahawa saya akan bercakap tentang model "meramalkan transkrip daripada pertuturan". Itu tidak benar secara teknikal; model meramal daripada ciri . Tetapi anda boleh memikirkan komponen pengekstrakan ciri sebagai sebahagian daripada model.
ASR awal: HMM-GMM
Model markov tersembunyi (HMM) dan model campuran Gaussian (GMM) ialah model ramalan sebelum rangkaian saraf dalam mengambil alih.
HMM menguasai ASR sehingga baru-baru ini.
Memandangkan fail audio, HMM akan meramalkan tempoh fonem, dan GMM akan meramalkan fonem itu sendiri.
Bunyinya ke belakang, dan ia seperti, seperti:
- HMM: "0.2 saat pertama ialah fonem."
- GMM: "Fonem itu ialah G , seperti dalam Gary ."
Mengubah klip audio menjadi teks memerlukan beberapa komponen tambahan, iaitu:
- Kamus sebutan: senarai lengkap perkataan dalam perbendaharaan kata, dengan sebutan yang sepadan.
- Model bahasa: Gabungan perkataan dalam perbendaharaan kata, dan kebarangkalian ia berlaku bersama.
Jadi, walaupun GMM meramalkan /f/ over /s/, model bahasa mengetahui kemungkinan besar penutur berkata "sesen pun untuk pemikiran anda", bukan melawan .
Kami mempunyai semua bahagian ini kerana, secara terang-terangan, tiada bahagian saluran paip ini yang sangat baik .
HMM akan tersilap meramalkan penjajaran, GMM akan tersilap bunyi yang serupa: /s/ dan /f/, /p/ dan /t/, dan tidak membuatkan saya mula menggunakan vokal.
Dan kemudian model bahasa akan membersihkan kekacauan fonem yang tidak koheren menjadi sesuatu yang lebih bahasa-y.
ASR hujung ke hujung dengan Pembelajaran Mendalam
Banyak bahagian saluran paip ASR telah disatukan.

Daripada melatih model yang berasingan untuk mengendalikan ejaan, penjajaran dan sebutan, satu model mengambil pertuturan dan output (mudah-mudahan) perkataan yang dieja dengan betul, dan, pada masa kini, cap masa juga.
(Walaupun pelaksanaan sering membetulkan, atau "menjaringkan semula" output ini dengan model bahasa tambahan.)
Itu bukan bermakna faktor yang berbeza — seperti penjajaran dan ejaan — tidak mendapat perhatian yang unik. Masih terdapat banyak kesusasteraan yang tertumpu pada pelaksanaan pembaikan kepada isu yang sangat disasarkan.
Iaitu, penyelidik menghasilkan cara untuk mengubah seni bina model yang menyasarkan faktor tertentu prestasinya, seperti:
- Penyahkod RNN-Transduser yang dikondisikan pada output sebelumnya untuk meningkatkan ejaan.
- Pensampelan bawah konvolusi untuk mengehadkan output kosong, meningkatkan penjajaran.
Saya tahu ini mengarut. Saya hanya mendahului bos saya seperti "bolehkah anda memberi contoh bahasa Inggeris yang mudah?"
Jawapannya tidak.
Tidak, saya tidak boleh.
Bagaimanakah Prestasi Diukur dalam ASR?
Apabila ASR melakukan kerja yang tidak baik anda tahu itu.
Saya telah melihat karamelisasi ditranskripsikan sebagai orang Asia komunis . Kerangup kepada Chris p — anda mendapat idea itu.
Metrik yang kami gunakan untuk mencerminkan ralat secara matematik ialah kadar ralat perkataan (WER) . Formula untuk WER ialah:

di mana:
- S ialah bilangan penggantian (perkataan ditukar dalam teks yang diramalkan agar sepadan dengan teks rujukan)
- D ialah bilangan pemadaman (perkataan hilang daripada output, berbanding dengan teks rujukan)
- I ialah bilangan sisipan (kata tambahan dalam output, berbanding dengan teks rujukan)
- N ialah jumlah bilangan perkataan dalam rujukan
Jadi, katakan rujukannya ialah "kucing itu duduk."
- Jika model mengeluarkan "kucing tenggelam", itu adalah penggantian.
- Jika model mengeluarkan "cat sat", itu adalah pemadaman.
- Jika ia mengeluarkan "kucing telah duduk", itu adalah sisipan.
Apakah Aplikasi ASR?
ASR adalah alat yang bagus.
Ia juga membantu kami meningkatkan kualiti hidup kami melalui peningkatan keselamatan, kebolehcapaian dan kecekapan dalam industri penting.
Penjagaan kesihatan
Apabila saya memberitahu doktor bahawa saya menyelidik pengecaman pertuturan, mereka berkata "oh, seperti Naga ."
Sebelum kami mempunyai AI generatif dalam penjagaan kesihatan , doktor mengambil nota lisan pada 30 perkataan seminit dengan perbendaharaan kata yang terhad.
ASR telah berjaya secara besar-besaran dalam mengekang pengalaman doktor keletihan yang meluas.
Pakar perubatan mengimbangi banyak kertas kerja dengan keperluan untuk merawat pesakit mereka. Seawal 2018, penyelidik memohon penggunaan transkripsi digital dalam perundingan untuk meningkatkan keupayaan doktor dalam memberikan penjagaan.
Ini kerana perlu mendokumentasikan perundingan secara retroaktif bukan sahaja mengurangkan masa bersemuka dengan pesakit, tetapi ia juga lebih kurang tepat berbanding ringkasan transkripsi perundingan sebenar.
Rumah Pintar
Saya mempunyai jenaka yang saya lakukan.
Apabila saya ingin menutup lampu tetapi saya tidak mahu bangun, saya bertepuk tangan dua kali berturut-turut — seolah-olah saya mempunyai penepuk.
Pasangan saya tidak pernah ketawa.
Rumah pintar yang diaktifkan suara berasa futuristik dan memalukan memalukan. Atau begitulah nampaknya.
Sudah tentu, mereka mudah, tetapi dalam banyak kes, mereka membolehkan untuk melakukan perkara yang sebaliknya tidak tersedia.
Satu contoh yang baik ialah penggunaan tenaga: membuat perubahan kecil pada pencahayaan dan termostat akan menjadi tidak dapat dilaksanakan sepanjang hari jika anda terpaksa bangun dan bermain-main dengan dail.
Pengaktifan suara bermakna tweak kecil itu bukan sahaja lebih mudah dibuat, tetapi ia membaca nuansa pertuturan manusia.
Sebagai contoh, anda berkata "bolehkah anda menjadikannya lebih sejuk?" Pembantu menggunakan pemprosesan bahasa semula jadi untuk menterjemah permintaan anda kepada perubahan suhu, memfaktorkan keseluruhan data lain: suhu semasa, ramalan cuaca, data penggunaan termostat pengguna lain, dsb.
Anda melakukan bahagian manusia, dan menyerahkan barangan komputer kepada komputer.
Saya berpendapat itu lebih mudah daripada anda perlu meneka berapa darjah untuk mengurangkan haba berdasarkan perasaan anda.
Dan ia lebih cekap tenaga: terdapat laporan keluarga mengurangkan penggunaan tenaga sebanyak 80% dengan pencahayaan pintar yang diaktifkan suara, untuk memberikan satu contoh.
Sokongan pengguna
Kami bercakap tentang perkara ini dengan penjagaan kesihatan, tetapi menyalin dan meringkaskan adalah lebih berkesan daripada orang yang memberikan ringkasan retroaktif interaksi.
Sekali lagi, ia menjimatkan masa dan lebih tepat. Perkara yang kami pelajari berulang kali ialah automasi membebaskan masa untuk orang ramai melakukan kerja mereka dengan lebih baik.
Dan tiada tempat yang lebih benar daripada dalam sokongan pelanggan, di mana sokongan pelanggan yang dirangsang ASR mempunyai kadar penyelesaian panggilan pertama 25% lebih tinggi .
Transkripsi dan ringkasan membantu mengautomasikan proses mencari penyelesaian berdasarkan sentimen dan pertanyaan pelanggan.
Pembantu Dalam Kereta
Kami membonceng pembantu rumah di sini, tetapi ia patut disebut.
Pengecaman suara mengurangkan beban kognitif dan gangguan visual untuk pemandu.
Dan dengan gangguan yang menyumbang sehingga 30% daripada perlanggaran , melaksanakan teknologi adalah satu perkara yang tidak perlu dilakukan.
Patologi Pertuturan
ASR telah lama digunakan sebagai alat dalam menilai dan merawat patologi pertuturan .
Adalah berguna untuk mengingati bahawa mesin bukan sahaja mengautomasikan tugas, mereka melakukan perkara yang tidak dapat dilakukan oleh manusia.
Pengecaman pertuturan boleh mengesan kehalusan dalam pertuturan yang hampir tidak dapat dilihat oleh telinga manusia, menangkap spesifik pertuturan terjejas yang sebaliknya akan terbang di bawah radar.
Masa Depan ASR
STT sudah cukup baik sehingga kita tidak memikirkannya lagi.
Tetapi di sebalik tabir, penyelidik bekerja keras menjadikannya lebih berkuasa dan boleh diakses - dan kurang ketara.
Saya memilih beberapa aliran menarik yang memanfaatkan kemajuan dalam ASR, dan menyemai beberapa pemikiran saya sendiri.
Pengecaman Pertuturan Pada Peranti
Kebanyakan penyelesaian ASR dijalankan dalam awan. Saya pasti anda pernah mendengarnya sebelum ini. Ini bermakna model dijalankan pada komputer jauh , di tempat lain.
Mereka melakukan ini kerana pemproses kecil telefon anda tidak semestinya boleh menjalankan model besar mereka, atau akan mengambil masa selama-lamanya untuk menyalin apa-apa.
Sebaliknya, audio anda dihantar, melalui internet, ke pelayan jauh yang menjalankan GPU terlalu berat untuk dibawa ke dalam poket anda. GPU menjalankan model ASR dan mengembalikan transkripsi ke peranti anda.

Atas sebab kecekapan tenaga dan keselamatan (bukan semua orang mahu data peribadi mereka terapung di sekitar ruang siber), banyak penyelidikan telah dicurahkan untuk menjadikan model cukup padat untuk dijalankan terus pada peranti anda , sama ada telefon, komputer atau enjin penyemak imbas.
Pihak anda benar-benar menulis tesis tentang pengkuantitian model ASR supaya ia boleh dijalankan pada peranti. Picovoice ialah sebuah syarikat Kanada yang membina AI suara pada peranti berkependaman rendah, dan ia kelihatan hebat.
ASR pada peranti menjadikan transkripsi tersedia pada kos yang lebih rendah, dengan potensi untuk memberi perkhidmatan kepada masyarakat berpendapatan rendah.
Transkrip-UI Pertama
Jurang antara audio dan transkripsi semakin mengecil. Apakah maksudnya?
Editor video seperti Premiere Pro dan Descript membolehkan anda menavigasi rakaman anda melalui transkrip: klik pada perkataan dan ia membawa anda ke cap masa.
Terpaksa melakukan beberapa pengambilan? Pilih kegemaran anda dan padamkan yang lain, gaya editor teks. Ia secara automatik memangkas video untuk anda.
Sungguh mengecewakan untuk melakukan pengeditan seperti itu hanya dengan bentuk gelombang, tetapi bodoh mudah apabila anda mempunyai editor berasaskan transkrip.
Begitu juga perkhidmatan pemesejan seperti WhatsApp sedang menyalin nota suara anda dan membenarkan anda menggosoknya melalui teks. Luncurkan jari anda pada perkataan, dan anda dibawa ke bahagian rakaman itu.

Cerita lucu: Saya sebenarnya membina sesuatu seperti ini kira-kira seminggu sebelum Apple mengumumkan ciri yang sama.
Contoh-contoh ini menunjukkan betapa kompleksnya teknologi bawah hud membawa kesederhanaan dan intuitif kepada aplikasi pengguna akhir.
Ekuiti, Kemasukan dan Bahasa Sumber Rendah
Pertempuran belum lagi menang.
ASR berfungsi dengan baik dalam bahasa Inggeris, dan bahasa biasa lain yang mempunyai sumber yang baik. Itu tidak semestinya berlaku untuk bahasa sumber rendah.
Terdapat jurang dalam minoriti dialek, pertuturan yang terjejas dan isu lain dengan kesaksamaan dalam teknologi suara .
Maaf untuk menghalang getaran yang baik. Bahagian ini dipanggil "masa depan" ASR. Dan saya memilih untuk melihat masa depan yang boleh kita banggakan.
Jika kita ingin maju, kita harus melakukannya bersama-sama, atau berisiko meningkatkan ketidaksamaan masyarakat.
Mula Menggunakan ASR Hari Ini
Tidak kira perniagaan anda, menggunakan ASR adalah mudah — kecuali anda mungkin tertanya-tanya bagaimana untuk bermula. Bagaimana anda melaksanakan ASR? Bagaimanakah anda menghantar data itu kepada alat lain?
Botpress datang dengan kad transkripsi yang mudah digunakan. Ia boleh disepadukan ke dalam aliran seret dan lepas, ditambah dengan berdozen penyepaduan merentas aplikasi dan saluran komunikasi.
Mula membina hari ini . Ia percuma.
Soalan lazim
Sejauh manakah ketepatan ASR moden untuk aksen yang berbeza dan persekitaran yang bising?
Sistem ASR moden sangat tepat untuk aksen biasa dalam bahasa utama, mencapai kadar ralat perkataan (WER) di bawah 10% dalam keadaan bersih, tetapi ketepatan menurun dengan ketara dengan loghat, dialek atau bunyi latar belakang yang ketara. Vendor seperti Google dan Microsoft melatih model pada data pertuturan yang pelbagai, tetapi transkripsi sempurna dalam persekitaran yang bising masih kekal sebagai cabaran.
Adakah ASR boleh dipercayai untuk menyalin jargon khusus atau istilah khusus industri?
ASR kurang dipercayai di luar kotak untuk jargon khusus atau istilah khusus industri kerana data latihannya biasanya condong ke arah pertuturan umum; perkataan yang tidak dikenali boleh disalah tulis atau ditinggalkan. Walau bagaimanapun, penyelesaian perusahaan membenarkan perbendaharaan kata tersuai, model bahasa khusus domain dan kamus sebutan untuk meningkatkan pengiktirafan istilah teknikal dalam bidang seperti penjagaan kesihatan, undang-undang atau kejuruteraan.
Apakah perbezaan antara alat ASR percuma dan penyelesaian gred perusahaan?
Perbezaan antara alatan ASR percuma dan penyelesaian gred perusahaan terletak pada ketepatan, skalabiliti, penyesuaian dan kawalan privasi: alatan percuma selalunya mempunyai kadar ralat yang lebih tinggi, sokongan bahasa terhad dan had penggunaan, manakala penyelesaian perusahaan menawarkan WER yang lebih rendah, penyesuaian khusus domain, penyepaduan, perjanjian peringkat perkhidmatan (SLA) dan ciri keselamatan yang teguh untuk mengendalikan data sensitif.
Bagaimanakah ASR melindungi privasi pengguna dan maklumat sensitif semasa transkripsi?
ASR melindungi privasi pengguna melalui penyulitan semasa penghantaran data dan menawarkan pilihan seperti menjalankan model pada peranti untuk mengelakkan penghantaran data pertuturan ke pelayan luaran. Banyak penyedia perusahaan juga mematuhi peraturan privasi seperti GDPR atau HIPAA dan boleh menamakan data untuk melindungi maklumat sensitif.
Berapa mahalkah perkhidmatan ASR berasaskan awan berbanding penyelesaian pada peranti?
Perkhidmatan ASR berasaskan awan biasanya mengenakan bayaran setiap minit audio atau mengikut peringkat penggunaan, dengan kos antara $0.03–$1.00+ seminit bergantung pada ketepatan dan ciri, manakala penyelesaian pada peranti melibatkan kos pembangunan pendahuluan dan yuran pelesenan.