Automatic Speech Recognition (ASR): Ang Tech-Powering Voice AI

Isinulat ni

Ben Luks

Computational Linguist, AI Researcher at MSc sa AI Voice Technology

Talaan ng mga Nilalaman

Hakbang 1. ang pamagat ng hakbang ay napupunta dito gaya ng inaasahan

Buod

Binabago ng ASR ang pagsasalita sa text gamit ang machine learning, pinapagana ang mga voice command at real-time na transkripsyon.
Ang mga modernong sistema ng ASR ay lumipat mula sa magkahiwalay na mga modelo ng ponema (HMM-GMM) patungo sa mga modelo ng malalim na pag-aaral na hinuhulaan ang mga buong salita.
Ang pagganap ng ASR ay sinusukat ng Word Error Rate (WER), na may mga error na nagmumula sa mga pagpapalit, pagtanggal, o pagsingit; mas mababang WER = mas mahusay na kalidad ng transkripsyon.
Ang hinaharap ng ASR ay nakatuon sa pagpoproseso ng on-device para sa privacy at suporta para sa mga wikang mababa ang mapagkukunan.

Kailan ka huling nanood ng isang bagay na walang subtitle?

Ang mga ito ay dating opsyonal, ngunit ngayon ay nagba-bounce sila sa mga short-form na video gusto man natin sila o hindi. Naka-embed ang mga caption sa content na nakakalimutan mong nandoon sila.

Automatic speech recognition (ASR) — ang kakayahang mabilis at tumpak na i-automate ang conversion ng mga binibigkas na salita sa text — ang teknolohiyang nagpapagana sa pagbabagong ito.

Kapag iniisip namin ang tungkol sa isang ahente ng boses ng AI , iniisip namin ang pagpili ng salita, paghahatid, at boses na ginagamit nito.

Ngunit madaling kalimutan na ang pagkalikido ng aming mga pakikipag-ugnayan ay umaasa sa bot na nauunawaan kami. At pag-abot sa puntong ito — ang bot na nauunawaan ka sa pamamagitan ng mga “um” at “ah” sa isang maingay na kapaligiran — ay walang lakad sa parke.

Ngayon, pag-uusapan natin ang tungkol sa teknolohiyang nagpapagana sa mga caption na iyon: automatic speech recognition (ASR).

Pahintulutan akong ipakilala ang aking sarili: Mayroon akong master's in speech technology, at sa aking bakanteng oras, gusto kong magbasa ng pinakabago sa ASR, at kahit na bumuo ng mga bagay .

Ipapaliwanag ko sa iyo ang mga pangunahing kaalaman sa ASR, silipin sa ilalim ng hood ang teknolohiya, at hulaan kung saan susunod ang teknolohiya.

Bumuo ng AI Chatbots

Bumuo ng mga custom na ahenteng chatbot

Magsimula ngayon

Ano ang ASR?

Ang awtomatikong speech recognition (ASR), o speech-to-text (STT) ay ang proseso ng pag-convert ng speech sa nakasulat na text sa pamamagitan ng paggamit ng machine learning technology.

Ang mga teknolohiyang may kinalaman sa pagsasalita ay kadalasang nagsasama ng ASR sa ilang kapasidad; maaari itong para sa video captioning, pag-transcribe ng mga pakikipag-ugnayan sa suporta sa customer para sa pagsusuri, o bahagi ng pakikipag-ugnayan ng voice assistant , upang pangalanan ang ilan.

Mga Algorithm ng Speech-to-Text

Ang mga pinagbabatayan na teknolohiya ay nagbago sa paglipas ng mga taon, ngunit ang lahat ng mga pag-ulit ay binubuo ng dalawang bahagi sa ilang anyo o iba pa: data at isang modelo .

Sa kaso ng ASR, ang data ay may label na speech – mga audio file ng sinasalitang wika at ang kanilang mga kaukulang transkripsyon .

Ang modelo ay ang algorithm na ginamit upang mahulaan ang transkripsyon mula sa audio . Ang may label na data ay ginagamit upang sanayin ang modelo, upang maaari itong maging pangkalahatan sa mga hindi nakikitang halimbawa ng pagsasalita.

Diagram kung paano gumagana ang ASR sa data at isang modelo

Ito ay katulad ng kung paano mo mauunawaan ang isang serye ng mga salita, kahit na hindi mo pa ito narinig sa partikular na pagkakasunud-sunod, o binibigkas ang mga ito ng isang estranghero.

Muli, ang mga uri ng mga modelo at ang kanilang mga detalye ay nagbago sa paglipas ng panahon, at ang lahat ng mga pag-unlad sa bilis at katumpakan ay bumaba sa laki at mga detalye ng mga dataset at modelo.

Mabilis na Aside: Feature Extraction

Nagsalita ako tungkol sa mga feature, o representasyon sa aking artikulo sa text-to-speech. Ginagamit ang mga ito sa mga modelong ASR noon at kasalukuyan.

Ang pag-extract ng feature — ang pag-convert ng speech sa mga feature — ay ang unang hakbang sa halos lahat ng pipeline ng ASR.

Ang maikli nito ay ang mga feature na ito, kadalasang spectrograms , ay resulta ng isang mathematical na pagkalkula na isinagawa sa pagsasalita, at i-convert ang pagsasalita sa isang format na nagbibigay-diin sa mga pagkakatulad sa kabuuan ng isang pagbigkas, at pinapaliit ang mga pagkakaiba sa mga nagsasalita.

Tulad ng sa, ang parehong pagbigkas na binibigkas ng 2 magkaibang tagapagsalita ay magkakaroon ng magkatulad na spectrogram, gaano man kaiba ang kanilang mga boses.

Itinuturo ko ito upang ipaalam sa iyo na magsasalita ako tungkol sa mga modelong "naghuhula ng mga transcript mula sa pagsasalita". Iyan ay hindi totoo sa teknikal; ang mga modelo ay hinuhulaan mula sa mga tampok . Ngunit maaari mong isipin ang bahagi ng pagkuha ng tampok bilang bahagi ng modelo.

Maagang ASR: HMM-GMM

Ang mga hidden markov models (HMMs) at Gaussian mixture models (GMMs) ay mga predictive na modelo bago pa man pumalit ang mga deep neural network .

Pinamunuan ng mga HMM ang ASR hanggang kamakailan.

Dahil sa isang audio file, huhulaan ng HMM ang tagal ng isang ponema, at huhulaan ng GMM ang ponema mismo.

Iyan ay tunog pabalik, at ito ay parang:

HMM: "Ang unang 0.2 segundo ay isang ponema."
GMM: “Ang ponema na iyon ay isang G , gaya ng kay Gary .”

Ang paggawa ng audio clip sa text ay mangangailangan ng ilang karagdagang bahagi, katulad ng:

Diksyunaryo ng pagbigkas: isang kumpletong listahan ng mga salita sa bokabularyo, kasama ang mga katumbas na pagbigkas ng mga ito.
Isang modelo ng wika: Mga kumbinasyon ng mga salita sa bokabularyo, at ang kanilang mga posibilidad na magkasabay.

Kaya't kahit na hinuhulaan ng GMM ang /f/ over /s/, alam ng modelo ng wika na mas malamang na sinabi ng tagapagsalita ang "isang sentimos para sa iyong mga iniisip ", hindi nakipaglaban .

Nasa amin ang lahat ng bahaging ito dahil, sa tahasang pagsasabi, walang bahagi ng pipeline na ito ang napakahusay .

Maling hulaan ng HMM ang mga alignment, magkakamali ang GMM ng mga katulad na tunog: /s/ at /f/, /p/ at /t/, at hindi man lang ako makapagsimula sa mga patinig.

At pagkatapos ay lilinisin ng modelo ng wika ang gulo ng mga hindi magkakaugnay na ponema sa isang bagay na mas wika-y.

End-to-End ASR na may Deep Learning

Marami sa mga bahagi ng isang pipeline ng ASR ay pinagsama-sama na.

Mga transcript na nakaayon sa oras mula sa isang modelong ASR — Mga transcript na nakaayon sa oras mula sa OpenAI Ang modelo ng Whisper. Mula sa https:// github .com/jianfch/stable-ts

Sa halip na magsanay ng hiwalay na mga modelo upang pangasiwaan ang pagbabaybay, pagkakahanay, at pagbigkas, ang isang modelo ay kumukuha ng pagsasalita at mga output (sana ay) wastong nabaybay na mga salita, at, sa ngayon, mga timestamp din.

(Bagaman ang mga pagpapatupad ay madalas na tama, o "muling i-score" ang output na ito na may karagdagang modelo ng wika.)

Hindi ibig sabihin na ang iba't ibang salik — tulad ng pagkakahanay at pagbabaybay — ay hindi nakakakuha ng natatanging atensyon. Mayroon pa ring mga bundok ng panitikan na nakatuon sa pagpapatupad ng mga pag-aayos sa mga isyu na lubos na na-target.

Ibig sabihin, ang mga mananaliksik ay gumagawa ng mga paraan upang baguhin ang arkitektura ng isang modelo na nagta-target ng mga partikular na salik ng pagganap nito, tulad ng:

Isang RNN-Transducer decoder na nakakondisyon sa mga nakaraang output upang mapabuti ang spelling.
Convolutional downsampling upang limitahan ang mga blangkong output, pagpapabuti ng pagkakahanay.

Alam kong kalokohan ito. Nauuna lang ako sa boss ko na "maaari ka bang magbigay ng simpleng halimbawa sa Ingles?"

Ang sagot ay hindi.

Hindi hindi ko kaya.

Paano Sinusukat ang Pagganap sa ASR?

Kapag gumawa ng masamang trabaho ang ASR alam mo ito.

Nakita ko ang caramelization na na-transcribe bilang mga komunistang Asyano . Crispiness to Chris p — you get the idea.

Ang sukatan na ginagamit namin upang ipakita ang mga error sa matematika ay word error rate (WER) . Ang formula para sa WER ay:

Ang formula para sa rate ng error sa salita. — Mula sa https://en. wikipedia .org/wiki/Word_error_rate

saan:

Ang S ay bilang ng mga pagpapalit (mga salitang binago sa hinulaang teksto upang tumugma sa reference na teksto)
Ang D ay bilang ng mga pagtanggal (mga salitang nawawala sa output, kumpara sa reference na teksto)
Ang I ay ang bilang ng mga insertion (mga karagdagang salita sa output, kumpara sa reference na teksto)
Ang N ay ang kabuuang bilang ng mga salita sa sanggunian

Kaya, sabihin na ang sanggunian ay "nakaupo ang pusa."

Kung ang modelo ay naglalabas ng "ang pusa sank", iyon ay isang pagpapalit.
Kung ang modelo ay naglalabas ng "cat sat", iyon ay isang pagtanggal.
Kung maglalabas ito ng "naupo na ang pusa", iyon ay isang pagpapasok.

Ano ang mga Aplikasyon ng ASR?

Ang ASR ay isang mahusay na tool.

Nakatulong din ito sa amin na pahusayin ang aming kalidad ng buhay sa pamamagitan ng pinahusay na kaligtasan, accessibility, at kahusayan sa mga mahahalagang industriya.

Pangangalaga sa kalusugan

Kapag sinabi ko sa mga doktor na nagsasaliksik ako ng speech recognition, nagiging “oh, parang Dragon .”

Bago kami magkaroon ng generative AI sa pangangalagang pangkalusugan , ang mga doktor ay kumukuha ng mga pandiwang tala sa 30-salita-bawat-minuto na may limitadong bokabularyo.

Ang ASR ay naging napakalaking matagumpay sa pagsugpo sa malawakang karanasan ng mga burnout na doktor.

Ang mga manggagamot ay nagbabalanse ng mga bulubunduking papeles sa pangangailangang asikasuhin ang kanilang mga pasyente. Noon pang 2018, ang mga mananaliksik ay nakikiusap para sa paggamit ng digital transcription sa mga konsultasyon upang mapabuti ang kakayahan ng mga doktor na magbigay ng pangangalaga.

Iyon ay dahil ang pagkakaroon ng pagdokumento ng mga konsultasyon nang retroaktibo ay hindi lamang nakakabawas sa pakikipagharap sa mga pasyente, ngunit ito rin ay hindi gaanong tumpak kaysa sa mga pagbubuod ng mga transkripsyon ng mga aktwal na konsultasyon.

Mga Smart Home

I have this joke I do.

Kapag gusto kong patayin ang mga ilaw ngunit wala akong ganang bumangon, pumapalakpak ako ng dalawang beses nang sunod-sunod — parang may pumalakpak.

Hindi tumatawa ang partner ko.

‍

Parehong futuristic at nakakahiya ang pakiramdam ng mga voice-activated smart-home. O kaya parang.

Oo naman, maginhawa ang mga ito, ngunit sa maraming pagkakataon ginagawa nilang posible na gawin ang mga bagay na kung hindi man ay hindi magagamit.

Ang isang magandang halimbawa ay ang pagkonsumo ng enerhiya: ang paggawa ng maliliit na pag-aayos sa pag-iilaw at thermostat ay magiging hindi magagawa sa buong araw kung kailangan mong bumangon at makipaglaro sa paligid gamit ang isang dial.

Ang pag-activate ng boses ay nangangahulugan na ang mga menor de edad na pag-aayos na iyon ay hindi lamang mas madaling gawin, ngunit binabasa nito ang nuance ng pagsasalita ng tao.

Halimbawa, sasabihin mo "magagawa mo ba itong maging mas cool sa pagpindot?" Gumagamit ang assistant ng natural na pagpoproseso ng wika upang isalin ang iyong kahilingan sa isang pagbabago sa temperatura, na isinasaalang-alang ang buong dami ng iba pang data: ang kasalukuyang temperatura, ang taya ng panahon, data ng paggamit ng thermostat ng ibang mga user, atbp.

Ginagawa mo ang bahagi ng tao, at iwanan ang mga bagay sa computer sa computer.

Gusto kong magtaltalan na mas madali kaysa sa hulaan mo kung gaano karaming mga degree upang mabawasan ang init batay sa iyong pakiramdam.

At ito ay mas mahusay sa enerhiya: may mga ulat ng mga pamilya na binabawasan ang pagkonsumo ng enerhiya ng 80% gamit ang voice-activated smart lighting, upang magbigay ng isang halimbawa.

Suporta sa Customer

Napag-usapan namin ito sa pangangalagang pangkalusugan, ngunit ang pag-transcribe-at-summarizing ay mas epektibo kaysa sa mga taong nagbibigay ng mga retroactive na buod ng mga pakikipag-ugnayan.

Muli, nakakatipid ito ng oras at mas tumpak. Ang paulit-ulit nating natutunan ay ang mga automation ay nagbibigay ng oras para sa mga tao na gawin ang kanilang mga trabaho nang mas mahusay.

At wala nang mas totoo kaysa sa suporta sa customer, kung saan ang suporta sa customer na pinalakas ng ASR ay may 25% na mas mataas na rate ng resolusyon sa unang tawag .

Nakakatulong ang transkripsyon at pagbubuod na i-automate ang proseso ng pag-iisip ng solusyon batay sa damdamin at query ng isang customer.

Mga In-Car Assistant

Pini-piggyback namin ang mga katulong sa bahay dito, ngunit ito ay nagkakahalaga ng pagbanggit.

Binabawasan ng voice recognition ang cognitive load at visual distractions para sa mga driver.

At sa mga distractions na umabot ng hanggang 30% ng mga banggaan , ang pagpapatupad ng teknolohiya ay isang kaligtasan no-brainer.

Patolohiya sa Pagsasalita

Matagal nang ginagamit ang ASR bilang isang tool sa pagtatasa at paggamot ng mga pathology sa pagsasalita .

Nakatutulong na tandaan na ang mga makina ay hindi lamang nag-o-automate ng mga gawain, ginagawa nila ang mga bagay na hindi magagawa ng mga tao.

Ang speech recognition ay maaaring makakita ng mga subtleties sa pagsasalita na halos hindi mahahalata sa tainga ng tao, na nakakakuha ng mga detalye ng apektadong pananalita na kung hindi man ay lilipad sa ilalim ng radar.

Naglalagay ng mga Ahente ng AI?

Basahin ang aming Blueprint para sa AI Agent Implementation

Basahin Ngayon

Ang Kinabukasan ng ASR

Naging mabuti na ang STT kaya hindi na natin ito iniisip.

Ngunit sa likod ng mga eksena, ang mga mananaliksik ay masigasig sa trabaho na ginagawa itong mas malakas at naa-access - at hindi gaanong kapansin-pansin.

Pumili ako ng ilang kapana-panabik na uso na gumagamit ng mga pagsulong sa ASR, at ibinubuhos ang ilan sa sarili kong mga iniisip.

On-Device Speech Recognition

Karamihan sa mga solusyon sa ASR ay tumatakbo sa cloud. I'm sure narinig mo na yan dati. Ibig sabihin, tumatakbo ang modelo sa isang malayuang computer , sa ibang lugar.

Ginagawa nila ito dahil hindi maaaring patakbuhin ng maliit na processor ng iyong telepono ang kanilang napakalaking modelo, o magtatagal nang walang hanggan ang pag-transcribe ng anuman.

Sa halip, ipinapadala ang iyong audio, sa pamamagitan ng internet, sa isang malayuang server na nagpapatakbo ng GPU na napakabigat para dalhin sa iyong bulsa. Pinapatakbo ng GPU ang modelong ASR, at ibinabalik ang transkripsyon sa iyong device.

Diagram kung paano gumagana ang ASR sa cloud.

Para sa mga dahilan ng kahusayan sa enerhiya at seguridad (hindi lahat ay nagnanais na ang kanilang personal na data ay lumulutang sa cyberspace), maraming pananaliksik ang ibinuhos sa paggawa ng mga modelong sapat na compact upang gumana nang direkta sa iyong device , ito man ay isang telepono, computer, o isang browser engine.

Iyong tunay na nagsulat ng thesis sa pag-quantize ng mga modelo ng ASR para mapatakbo ang mga ito on-device. Ang Picovoice ay isang kumpanya sa Canada na gumagawa ng low-latency na on-device voice AI, at mukhang cool ang mga ito.

Ginagawang available ng on-device na ASR ang transkripsyon sa mas mababang halaga, na may potensyal na magserbisyo sa mga komunidad na mababa ang kita.

Transcript-Unang UI

Ang agwat sa pagitan ng audio at mga transkripsyon ay lumiliit. Ano ang ibig sabihin nito?

Hinahayaan ka ng mga editor ng video tulad ng Premiere Pro at Descript na i-navigate ang iyong mga recording sa pamamagitan ng isang transcript: mag-click sa isang salita at dadalhin ka nito sa timestamp.

Kailangang gumawa ng ilang mga pagkuha? Piliin ang iyong paborito at burahin ang iba, istilo ng text-editor. Awtomatiko nitong pinuputol ang video para sa iyo.

Nakakadismaya na gawin ang ganoong uri ng pag-edit gamit lang ang waveform, ngunit napakadali kapag mayroon kang mga editor na nakabatay sa transcript.

Katulad nito, ang mga serbisyo sa pagmemensahe tulad ng WhatsApp ay nagsasalin ng iyong mga tala ng boses at hinahayaan kang i-scrub ang mga ito sa pamamagitan ng text. I-slide ang iyong daliri sa isang salita, at dadalhin ka sa bahaging iyon ng recording.

Diagram ng isang user na nag-scrub sa pamamagitan ng transcript ng voice note.

Nakakatawang kuwento: Nagtayo talaga ako ng ganito mga isang linggo bago inihayag ng Apple ang isang katulad na tampok.

Ipinapakita ng mga halimbawang ito kung paano nagdudulot ng pagiging simple at intuitiveness ang mga kumplikadong under-the-hood na teknolohiya sa mga application ng end-user.

Equity, Inclusion, at Low-Resource Languages

Hindi pa nanalo ang laban.

Mahusay na gumagana ang ASR sa English, at iba pang mga karaniwang wika na may mahusay na mapagkukunan. Hindi naman ganoon ang kaso para sa mga wikang mababa ang mapagkukunan.

Mayroong agwat sa mga minoryang diyalekto, apektadong pananalita, at iba pang mga isyu sa pantay-pantay sa teknolohiya ng boses .

Pasensya na hamper ang good vibes. Ang seksyong ito ay tinatawag na "hinaharap" ng ASR. At pinipili kong umasa sa isang kinabukasan na maipagmamalaki natin.

Kung susulong tayo, dapat nating gawin ito nang sama-sama, o ipagsapalaran ang pagtaas ng hindi pagkakapantay-pantay ng lipunan.

Simulan ang Paggamit ng ASR Ngayon

Anuman ang iyong negosyo, ang paggamit ng ASR ay isang no-brainer — maliban sa malamang na iniisip mo kung paano magsisimula. Paano mo ipapatupad ang ASR? Paano mo ipapasa ang data na iyon sa iba pang mga tool?

Botpress ay may madaling gamitin na transcription card. Maaari silang isama sa isang drag-and-drop na daloy, na dinagdagan ng dose-dosenang mga integrasyon sa mga application at mga channel ng komunikasyon.

Simulan ang pagtatayo ngayon . Ito ay libre.

Bumuo ng AI Chatbots

Bumuo ng mga custom na ahenteng chatbot

Magsimula ngayon

Mga FAQ

Gaano katumpak ang modernong ASR para sa iba't ibang accent at maingay na kapaligiran?

Ang mga modernong ASR system ay kahanga-hangang tumpak para sa mga karaniwang accent sa mga pangunahing wika, na nakakakuha ng mga word error rate (WER) na mas mababa sa 10% sa malinis na mga kondisyon, ngunit ang katumpakan ay kapansin-pansing bumaba sa mga mabibigat na accent, dialect, o makabuluhang ingay sa background. Ang mga vendor tulad ng Google at Microsoft ay nagsasanay ng mga modelo sa magkakaibang data ng pagsasalita, ngunit ang perpektong transkripsyon sa maingay na kapaligiran ay nananatiling isang hamon.

Maasahan ba ang ASR para sa pag-transcribe ng espesyal na jargon o mga terminong partikular sa industriya?

Ang ASR ay hindi gaanong maaasahang out-of-the-box para sa mga espesyal na jargon o mga terminong partikular sa industriya dahil ang data ng pagsasanay nito ay karaniwang nakahilig sa pangkalahatang pagsasalita; ang mga hindi pamilyar na salita ay maaaring ma-mistranscribe o tanggalin. Gayunpaman, ang mga solusyon sa enterprise ay nagbibigay-daan sa mga custom na bokabularyo, mga modelo ng wika na partikular sa domain, at mga diksyunaryo ng pagbigkas na pahusayin ang pagkilala sa mga teknikal na termino sa mga larangan tulad ng pangangalaga sa kalusugan, batas, o engineering.

Ano ang pagkakaiba sa pagitan ng mga libreng tool ng ASR at mga solusyon sa antas ng negosyo?

Ang pagkakaiba sa pagitan ng mga libreng tool ng ASR at mga solusyon sa antas ng enterprise ay nasa katumpakan, scalability, pag-customize, at mga kontrol sa privacy: ang mga libreng tool ay kadalasang may mas matataas na rate ng error, limitadong suporta sa wika, at limitasyon ng paggamit, habang ang mga solusyon sa enterprise ay nag-aalok ng mas mababang WER, pag-customize na partikular sa domain, mga pagsasama, mga kasunduan sa antas ng serbisyo (Service-level na mga kasunduan (SLA), at matatag na feature ng seguridad para sa paghawak ng sensitibong data.

Paano pinoprotektahan ng ASR ang privacy ng user at sensitibong impormasyon sa panahon ng transkripsyon?

Pinoprotektahan ng ASR ang privacy ng user sa pamamagitan ng pag-encrypt sa panahon ng paghahatid ng data at nag-aalok ng mga opsyon tulad ng pagpapatakbo ng mga modelo sa device upang maiwasan ang pagpapadala ng data ng pagsasalita sa mga external na server. Sumusunod din ang maraming provider ng enterprise sa mga regulasyon sa privacy gaya ng GDPR o HIPAA at maaaring i-anonymize ang data para pangalagaan ang sensitibong impormasyon.

Gaano kamahal ang cloud-based na mga serbisyo ng ASR kumpara sa mga on-device na solusyon?

Karaniwang naniningil ang mga serbisyo ng Cloud-based na ASR sa bawat audio minuto o ayon sa mga tier ng paggamit, na may mga gastos na mula sa $0.03–$1.00+ bawat minuto depende sa katumpakan at mga feature, habang ang mga solusyon sa device ay nagsasangkot ng mga paunang gastos sa pagpapaunlad at mga bayarin sa paglilisensya.