- Kino-convert ng Text-to-speech (TTS) ang text sa parang buhay na pagsasalita gamit ang mga neural network para sa natural na prosody at kalidad ng boses.
- Pinoproseso ng mga pipeline ng TTS ang teksto, sinusuri ang linguistics, bumubuo ng mga spectrogram, at nag-synthesize ng audio sa mga vocoder.
- Pinapalakas ng TTS ang mga chatbot, navigation system, entertainment, mga tool sa pangangalagang pangkalusugan, at inclusive na edukasyon.
- Pinapabuti ng mataas na kalidad na TTS ang kalinawan, boses ng brand, pagiging naa-access, at tiwala ng user sa mga industriya.
Dutch ChatGPT nagsasalita ng German accent (minsan). Kung ito ay sinasadya, ito ay masama. Kung hindi, kung gayon ito ay kaakit-akit.
Sa alinmang paraan, ligtas na sabihin na ang mga AI voice assistant ay malayo na mula kay Sam ng Microsoft . Sa katunayan, medyo malayo na ang narating nila mula noong nag-aral ako ng teknolohiya sa pagsasalita ilang taon na ang nakalipas.
At narito ako para sabihin sa iyo kung saan tayo nakarating.
Nag-mythologize kami tungkol sa synthesized speech mula pa noong 1968, mula noong lumitaw ang HAL na robot noong 2001: A Space Odyssey.

Malayo sa pagiging prestihiyoso at futuristic, naging karaniwan na ito: 89% ng mga consumer ang nagkondisyon sa kanilang pagpili ng device kung mayroon o wala itong voice support.
Sa madaling salita, “Huwag mo lang akong tulungan; kausapin mo ako ”.
Sa artikulong ito tatalakayin ko ang text-to-speech– ang conversion ng text sa spoken audio. Pag-uusapan ko kung ano ang nangyayari sa ilalim ng hood, at ang iba't ibang paraan ng paggamit ng teknolohiyang ito sa mga industriya.
Ano ang Text-to-Speech?
Ang TTS ay ang proseso ng pag-convert ng text sa synthesized spoken audio . Ang mga naunang bersyon ay batay sa mekanikal na pagtatantya sa vocal tract ng tao at pagsasama-sama ng mga audio recording. Sa ngayon, ang mga TTS system ay gumagamit ng malalim na neural network algorithm upang maghatid ng mga pabago-bago, tulad ng tao na pananalita.
Umiiral ang iba't ibang modelo depende sa kaso ng paggamit, tulad ng real-time na pagbuo para sa mga modelong pang-usap, nakokontrol na expression, at kakayahang mag-replicate ng boses.
Paano gumagana ang Text-to-Speech?
May 3 pangunahing hakbang ang TTS: una, pinoproseso ang input text para i-spell out ang mga simbolo, expression at abbreviation. Ang naprosesong teksto ay ipinapasa sa mga neural network na nagko-convert nito sa isang acoustic representation (spectrogram). Sa wakas, ang representasyon ay ginawang pagsasalita.
Tulad ng nabanggit ko, ang mga mananaliksik ay umikot sa ilang mga diskarte sa TTS. Ang napuntahan namin (at kung saan sa tingin ko ay mananatili kami ng ilang oras) ay gumagamit ng neural network-based na speech synthesis.
Ang pagmomodelo sa mga layer ng linguistic phenomena na nakakaimpluwensya sa isang pagbigkas– pagbigkas, bilis, intonasyon– ay isang kasangkot na gawain.

Kahit na may mga quasi-magical black-box na kakayahan ng mga neural network, ang isang TTS system ay umaasa sa isang grupo ng mga bahagi sa tinatayang pagsasalita.
Mahirap i-pin down ang isang eksaktong pipeline; lumilitaw ang mga bagong teknolohiya sa kaliwa't kanan, na nagbabantang gagawing hindi na ginagamit ang mga nauna sa kanila.
Mayroong ilang mga pangkalahatang bahagi na umiiral sa karamihan ng mga sistema ng TTS sa isang anyo o iba pa.
1. Pagproseso ng Teksto
Ang pagpoproseso ng teksto ay ang hakbang kung saan tinutukoy ng sistema ng TTS kung aling mga salita ang bibigkasin. Ang mga pagdadaglat, petsa, at mga simbolo ng pera ay binabaybay, at ang mga bantas ay inalis.
Ito ay hindi palaging walang halaga. Ang ibig sabihin ba ng " Dr. " ay doktor o nagmamaneho ? Paano ang tungkol sa CAD ? Canadian dollar o computer-aided na disenyo ?
Maaaring gamitin ang natural na pagpoproseso ng wika ( NLP ) sa pagpoproseso ng teksto upang makatulong na mahulaan ang tamang interpretasyon batay sa nakapaligid na konteksto. Sinusuri nito kung paano umaangkop ang hindi maliwanag na termino (halimbawa, " Dr." ) sa kabuuan ng pangungusap, kaya sa pariralang "pinayuhan ni Dr. Perron laban dito", lulutasin ng NLP si dr. sa doktor .
2. Pagsusuri sa Linggwistika
Kapag naproseso na ang text, lilipat ang modelo mula sa "Ano ang dapat kong sabihin?" sa "Paano ko sasabihin ito?"
Ang pagsusuri sa linggwistika ay ang bahagi ng TTS na responsable sa pagbibigay-kahulugan kung paano dapat ihatid ang isang pangungusap sa mga tuntunin ng pitch, tono at tagal. Sa madaling salita:
- Gaano katagal dapat ang bawat tunog, pantig, o salita?
- Dapat bang tumaas ang intonasyon? Pagkahulog?
- Aling salita ang binibigyang-diin?
- Paano maipapakita ng pagbabago sa volume ang nilalayon na damdamin?
Bakit Mahalaga ang Prosody
Oras ng kwento: Nagkaroon ako ng maikling gig consulting para sa isang team building na mga modelo ng TTS. Ito ay naging maliwanag kung gaano karaming prosody ang gumagawa o nakakasira sa pagiging madaling maunawaan ng isang pangungusap . Ipapakita ko sa iyo ang ibig kong sabihin.
Ang sumusunod ay 3 paghahatid ng pangungusap na "Whoa, inaasahan mo ba iyon?"
Ang una ay mahusay. Ang paghinto pagkatapos ng "Whoa", ang paitaas na inflection sa pangalawang pantig ng "umaasa" (ex-PEC-ting). 10/10.
Ang pangalawa ay halos hindi nakukuha ang kalidad ng tanong sa pamamagitan ng pag-iwas sa huling salita ("... inaasahan NA "). Maliban dito, ang iba pang mga pantig ay halos pareho ang haba, na walang pagkakaiba-iba sa volume o pitch. Sasabihin ko sa aking mga kliyente na "pindutin ang drawing board".
Ang huli ay isang kawili-wiling kaso: Ang "whoah ay mahusay– malakas, mahaba, at may bumabagsak na tabas. Ang tumataas na inflection ng tanong ay nangyayari sa kurso ng " ikaw ba" , at karaniwang may matatag na tono sa kabuuan.
Dito humihinto ang maraming middle-of-the-road na TTS system: sapat na simple na may makatotohanang paghahatid. Ang bagay ay, hindi ito kung paano mo ito sasabihin– hindi bababa sa hindi sa karamihan ng mga konteksto.
Sa mas lumang mga sistema, ang mga katangiang ito ay hinulaang sa pamamagitan ng magkahiwalay na mga bahagi: ang isang modelo ay kalkulahin kung gaano katagal ang bawat tunog ay dapat tumagal, ang isa pa ay magmamapa kung paano dapat tumaas at bumaba ang pitch.
Sa panahon ngayon, malabo na ang mga bagay-bagay.
May posibilidad na matutunan ng mga neural network ang mga pattern na ito nang mag-isa sa pamamagitan ng pag-internalize ng magagandang subtleties ng napakalaking dataset ng pagsasanay.
3. Acoustic Modeling
Ang acoustic modeling ay kung saan ang na-normalize na text (at ang mga hinulaang linguistic feature, kung mayroon man) ay ipinapasa sa isang neural network na naglalabas ng isang intermediate na representasyon.
Mga Spectrogram at Representasyon sa Pagsasalita
Ang intermediate na representasyon ay karaniwang isang spectrogram – ang frequency-over-time na representasyon ng isang audio signal – kahit na nagbabago iyon.
Narito ang representasyong nabuo ng isang modelo ng TTS mula sa aming input text na " Whoa, inaasahan mo ba iyon? ":

Ang 2-dimensional na larawang ito ay aktwal na 146 patayong hiwa, bawat isa ay naglalaman ng 80 frequency. Ang mas malakas na mga frequency ay mas maliwanag, at ang mas mahina ay madilim.
Ganito ang hitsura ng ika-10 beses na hakbang (o column), na iniikot nang 90 degrees pakanan:

Maaari mong makita ang mga indibidwal na frequency at ang kanilang mga enerhiya.
Sa unang tingin ang spectrogram ay hindi gaanong kamukha, ngunit ang ilang malinaw na linguistic phenomena ay naroroon dito:
- Ang mga alon na iyon ay malinaw na tinukoy na mga linya ay mga patinig o parang patinig na tunog tulad ng /w/, /r/, at /l/.
- Ang mga dark spot ay kumakatawan sa katahimikan. Maaaring mga pause iyon para sa bantas.
- Ang mga kumpol ng enerhiya sa taas ay kumakatawan sa ingay, tulad ng ingay na naririnig mo sa /s/, /sh/, at /f/
Sa katunayan, maaari mo ring ihanay ang mga salita sa spectrogram kung titingnan mong mabuti.

Ang mga spectrogram, sa kanilang iba't ibang anyo, ay malawakang ginagamit na mga representasyon sa teknolohiya ng pagsasalita dahil ang mga ito ay isang napakahusay na intermediate sa pagitan ng hilaw na pananalita at teksto .
Ang dalawang pag-record ng parehong pangungusap na binibigkas ng magkaibang mga nagsasalita ay magkakaroon ng magkaibang mga waveform, ngunit halos magkatulad na spectrograms.
4. Synthesizing Audio (Vocoding)
Ang yugto ng synthesis ay kung saan ang spectrogram ay na-convert sa audio.
Ang teknolohiyang gumagawa ng conversion na ito ay tinatawag na vocoder . Ang mga ito ay mga modelo ng neural network na sinanay upang muling buuin ang mga signal ng pagsasalita batay sa kanilang mga representasyon ng spectrogram.
Ang dahilan ng paghahati ng representasyon at pagmomodelo ng signal ng pagsasalita sa magkahiwalay na mga module ay tungkol sa kontrol: ang una ay tungkol sa tumpak na pagmomodelo ng pagbigkas at paghahatid ng mga salita, at ang susunod ay tungkol sa istilo at pagiging makatotohanan ng paghahatid.
Sa pamamagitan ng spectrogram maaari nating matukoy ang pagitan ng /s/ vs /sh/, o /ee/ (tulad ng sa init ) kumpara sa /ih/ (tulad ng sa hit ), ngunit ang istilo at personalidad ay nagmumula sa magagandang detalye na ginawa ng vocoder.
Narito ang isang paghahambing ng mga kumbinasyon sa pagitan ng iba't ibang acoustic na modelo at vocoder. Inilalarawan nito kung paano pinaghahalo-halo ng mga mananaliksik ang mga acoustic na modelo at vocoder, at nag-o-optimize para sa pinakamahusay na pangkalahatang resulta.
Ngunit muli, tulad ng lahat ng iba pang mga bahagi, nakikita namin ang mga spectrogram na inalis na pabor sa mga all-in-one na modelo.
Ano ang mga Use Case ng TTS?
Ang kakayahang bumuo ng dynamic na sinasalitang wika ay isang mahalagang tool sa mga industriya.
Hindi lang ito tungkol sa mga sopistikadong robot servants – tinutulungan tayo nitong makamit ang kahusayan, accessibility, at kaligtasan.
Mga Chatbot at Voice Assistant
Alam mo na sasabihin ko 😉
Sa pagitan ng pag-unawa sa iyong mga utos, pag-update ng iyong mga listahan ng grocery, at pagtatakda ng mga appointment, madaling balewalain ang pagiging sopistikado– at kahalagahan– ng synthesized na pananalita sa mga ahente ng AI .
Ang isang mahusay na ahente, (ibig sabihin, isang magagamit ) ay kailangang magkaroon ng boses na akma sa panukalang batas: sapat na pagtanggap upang humingi ng mga utos, at sapat na tao upang mapaniwala ang gumagamit na maaari nitong tuparin ang mga ito.
Napakaraming pananaliksik at engineering ang napupunta sa pagwawagi sa mga user sa ilang segundong kinakailangan upang magpasya kung "tama" o hindi ang isang AI assistant .
Sa panig ng negosyo ng mga bagay: kinakatawan ng iyong chatbot ang iyong brand. Ang mga pagpapabuti sa teknolohiya ng TTS ay nangangahulugan ng mga opsyon para sa mas mahusay na voice branding at mas epektibong serbisyo sa customer.
Nabigasyon at Transportasyon
Walang makakapagtanto sa iyo ng kahalagahan ng magandang TTS tulad ng pagkakaroon ng hindi maintindihang pagbigkas ng iyong GPS ng pangalan ng kalye habang nagmamaneho ka.
Ang GPS navigation ay isang magandang halimbawa kung saan nagniningning ang TTS: ang ating mga mata ay abala, at ang paghahatid ng naririnig na impormasyon ay hindi lamang tungkol sa kaginhawahan, ngunit tungkol sa kaligtasan.
Totoo rin ito sa mga paliparan at mga pampublikong sistema ng transportasyon. Para sa intricately designed, high volume system tulad ng mga istasyon ng tren at airport terminal, ang synthesized na pagsasalita ay mahalaga.
Kung walang TTS, umaasa kami sa mga live na anunsyo, na kadalasang nagmamadali at hindi maintindihan, o pinagsama-samang pag-record ng mga pangalan, terminal, oras, atbp., na sa totoo lang mahirap pakinggan.
Sa mga pag-aaral na nagpapakita ng matibay na ugnayan sa pagitan ng pagiging natural at pagiging madaling maunawaan , ang mataas na kalidad na TTS ay kinakailangan para sa isang matatag na industriya ng transportasyon.
Libangan at Media
Ang pagsasalaysay at multilingguwal na media ay naging mas available sa mga pagpapahusay sa synthetic speech technology.
Sa halip na palitan ang talento, nakakatulong ang teknolohiya sa pagsasalita na palakihin ang mga dramatikong pagtatanghal.
Si Val Kilmer, na nawalan ng boses dahil sa kanser sa lalamunan, ay naghatid ng isang taos-pusong pagganap sa kanyang orihinal na boses sa Top Gun: Maverick (2022) salamat sa AI .
Hinahayaan din ng TTS ang mga developer ng laro na magbigay ng magkakaibang, nagpapahayag na mga pagbigkas sa mga hindi puwedeng laruin na mga character (NPC), isang hindi magagawa kung hindi man.
Pangangalaga sa kalusugan
Ang mga pagpapabuti sa TTS ay nangangahulugan ng mga pagpapabuti sa pagiging naa-access sa buong board.
Ang mga teknolohiya sa pangangalaga ng matatanda ay sabay na tinatalakay ang usapin ng pagsasama at tulong. Ang teknolohiyang ito ay umaasa sa pagpapasadya na inaalok ng TTS: ang mga mahabagin na tono, pabagu-bagong bilis, at maingat na intonasyon ay lahat ng bahagi ng pag-aalok ng epektibo at marangal na tulong.
Ginagamit din ang TTS para mapahusay ang accessibility sa mga nakababatang tao.
Ang Acapela Group ay bumuo, bukod sa iba pang mga bagay, ng mga teknolohiya para sa mga batang may mga karamdaman sa paggawa ng pagsasalita. Ang sintetikong pagsasalita ay nagpapalaki sa kanilang mga kakayahan sa pagpapahayag at kalayaan, habang pinapanatili ang kanilang mga katangian ng boses.
Edukasyon at Inklusibong Pag-aaral
Nakatagpo kami ng sintetikong pagsasalita sa mga app sa pag-aaral ng wika. Ngunit iyon lamang ang dulo ng malaking bato ng yelo.
Halimbawa, ang isang hadlang sa pagpasok sa malayang pag-aaral ay ang kakayahang magbasa. Para sa mga bata, mga taong may kapansanan sa paningin, at ilang mga kapansanan sa pag-aaral, hindi iyon posibleng posible. Naglalagay ito ng maraming responsibilidad sa mga gurong sobra sa trabaho sa mga siksikang silid-aralan.
Ang isang distrito ng paaralan sa California ay nagpatupad ng TTS upang lumikha ng isang mas napapabilang na kapaligiran sa pag-aaral para sa mga mag-aaral na may mga espesyal na pangangailangan.
Tulad ng sa kaso ng pag-aalaga ng matatanda, ang teknolohiyang pang-edukasyon ay umaasa sa mahabagin na boses na naghahatid nang may malinis na kalinawan at diin. Ginagawang posible ng mga nababagong parameter na isama ng mga guro ang mga teknolohiyang ito sa kanilang mga aralin, na tumutulong sa mga mag-aaral na maging mas kasama.
Kunin ang Pinakamahusay na TTS para sa Iyong Mga Pangangailangan
Anuman ang iyong industriya, ligtas na sabihin na may kaugnayan ang voice AI. At ang TTS na ipinapatupad mo ay literal na nagsasalita para sa iyong negosyo, kaya kailangan itong maging maaasahan at nako-customize.
Botpress hinahayaan kang bumuo ng makapangyarihan at lubos na nako-customize na mga bot na may hanay ng mga integrasyon at deployment sa lahat ng karaniwang channel ng komunikasyon. Ang iyong voice agent ay hindi lamang magpapahanga, ito ay gagana.
Simulan ang pagtatayo ngayon . Ito ay libre.
Mga FAQ
Mayroon bang mga wika o diyalekto na nahihirapang suportahan ng mga TTS system?
Oo, may mga wika at diyalekto na pinaghihirapan ng mga TTS system na suportahan, lalo na ang mga wikang mababa ang mapagkukunan na kulang sa malalaking dataset ng naitalang pananalita at teksto. Ang mga pagkakaiba-iba tulad ng mga panrehiyong diyalekto, mga wikang may tono, at mga katutubong wika ay kadalasang nagdudulot ng mga hamon dahil nangangailangan ang mga ito ng mga nuanced na tuntunin sa pagbigkas at prosody na hindi pa nasanay sa mga karaniwang modelo. Kahit na para sa mga malawak na sinasalitang wika, ang mga pagkakaiba sa diyalekto ay maaaring humantong sa mga maling pagbigkas o hindi natural na tunog ng pananalita.
Gaano nako-customize ang mga boses ng TTS sa mga tuntunin ng pitch, bilis, at emosyon?
Ang mga boses ng TTS ngayon ay lubos na napapasadya sa pitch, bilis, at emosyon, salamat sa mga modernong arkitektura ng neural network na nagbibigay-daan para sa pinong kontrol sa prosody at istilo. Maraming mga komersyal na TTS system ang nagbibigay-daan sa mga user na ayusin ang bilis ng pagsasalita, mga pattern ng intonasyon, lakas ng tunog, at tono ng pagpapahayag upang umangkop sa iba't ibang konteksto, gaya ng mahinahong pagsasalaysay, mga nasasabik na anunsyo, o nakikiramay na dialogue. Gayunpaman, ang antas ng kontrol ay nag-iiba ayon sa vendor—ang ilan ay nag-aalok lamang ng mga pangunahing slider para sa bilis at pitch, habang ang iba ay naglalantad ng mga detalyadong parameter para sa emosyonal na pagpapahayag at vocal timbre.
Gaano ka-secure ang voice data na pinoproseso ng mga TTS system?
Ang seguridad ng data ng boses na naproseso ng mga TTS system ay lubos na nakadepende sa provider at paraan ng pag-deploy. Ang mga serbisyo ng Cloud-based na TTS ay kadalasang nag-e-encrypt ng data sa transit at sa pahinga, ngunit ang pagpapadala ng sensitibong impormasyon sa mga external na server ay maaari pa ring magdulot ng mga panganib sa privacy kung ang mga wastong kasunduan at mga hakbang sa pagsunod tulad ng GDPR o HIPAA ay wala sa lugar. Nagbibigay ng mas mataas na seguridad ang mga on-premise o edge deployment dahil hindi umaalis ang audio at text sa imprastraktura ng organisasyon, na binabawasan ang exposure sa mga third party.
Gaano kamahal ang pagpapatupad ng mga de-kalidad na solusyon sa TTS para sa mga negosyo?
Ang pagpapatupad ng mga de-kalidad na solusyon sa TTS para sa mga negosyo ay maaaring mula sa ilang daan dollars bawat buwan para sa mga cloud-based na API na may katamtamang paggamit, hanggang sampu o daan-daang libo para sa custom na voice development o on-premises enterprise deployment. Karaniwang kasama sa mga gastos ang mga bayarin sa paglilisensya, pay-per-character o pay-per-minute na mga gastos sa paggamit, pagsisikap sa pagsasama at pagpapaunlad, at posibleng mga bayarin sa voice talent kung gumagawa ng custom na boses. Ang mga maliliit na negosyo ay madalas na nagsisimula sa mga serbisyong nakabatay sa subscription, habang ang mga malalaking negosyo ay maaaring mamuhunan sa mga pasadyang solusyon para sa pagkakapare-pareho at privacy ng brand.
Gaano karaming data ng pagsasanay ang kinakailangan upang makabuo ng mataas na kalidad na boses ng TTS?
Ang pagbuo ng mataas na kalidad na boses ng TTS ay karaniwang nangangailangan ng ilang oras hanggang dose-dosenang oras ng malinis, propesyonal na nai-record na pananalita, perpekto mula sa parehong speaker at sa ilalim ng pare-parehong mga kondisyon ng pag-record. Makakamit ng mga modernong neural TTS system tulad ng Tacotron o FastSpeech ang disenteng kalidad na may kasing liit na 2–5 na oras ng data, ngunit madalas na tumatagal ng 10–20 oras o higit pa ang pagkamit ng napaka natural, nagpapahayag, at matatag na boses. Para sa voice cloning o napaka-expressive na boses, kailangan ng mas malalaking dataset at magkakaibang recording na sumasaklaw sa iba't ibang istilo, emosyon, at konteksto.