- Zamiana tekstu na mowę (TTS) przekształca tekst w realistyczną mowę przy użyciu sieci neuronowych w celu uzyskania naturalnej prozodii i jakości głosu.
- Potoki TTS przetwarzają tekst, analizują lingwistykę, generują spektrogramy i syntetyzują dźwięk za pomocą wokoderów.
- TTS obsługuje chatboty, systemy nawigacji, rozrywkę, narzędzia opieki zdrowotnej i edukację integracyjną.
- Wysokiej jakości TTS poprawia przejrzystość, głos marki, dostępność i zaufanie użytkowników w różnych branżach.
Holenderski ChatGPT mówi z niemieckim akcentem (czasami). Jeśli jest to celowe, to jest to wredne. Jeśli nie, to jest to fascynujące.
Tak czy inaczej, można śmiało powiedzieć, że asystenci głosowi AI przeszli długą drogę od Sama Microsoftu. W rzeczywistości przeszli oni dość długą drogę, odkąd kilka lat temu studiowałem technologię mowy.
Jestem tu, by opowiedzieć ci o tym, gdzie wylądowaliśmy.
Mitologizujemy syntetyczną mowę od co najmniej 1968 roku, od czasu pojawienia się robota HAL w 2001: Odysei kosmicznej.

Nie jest to prestiżowe i futurystyczne rozwiązanie, ale stało się standardem: 89% konsumentów uzależnia wybór urządzenia od tego, czy obsługuje ono głos.
Innymi słowy: "Nie tylko mi pomagaj, porozmawiaj ze mną".
W tym artykule omówię zamianę tekstu na mowę - konwersję tekstu na dźwięk mówiony. Opowiem o tym, co dzieje się pod maską i o różnych sposobach wykorzystania tej technologii w różnych branżach.
Czym jest zamiana tekstu na mowę?
TTS to proces przekształcania tekstu w zsyntetyzowany dźwięk mówiony. Wczesne wersje opierały się na mechanicznym przybliżaniu ludzkiego traktu głosowego i łączeniu nagrań audio. Obecnie systemy TTS wykorzystują algorytmy głębokich sieci neuronowych do dostarczania dynamicznych, podobnych do ludzkich wypowiedzi.
Istnieją różne modele w zależności od przypadku użycia, takie jak generowanie w czasie rzeczywistym dla modeli konwersacyjnych, kontrolowana ekspresja i możliwość replikacji głosu.
Jak działa zamiana tekstu na mowę?
TTS składa się z 3 kluczowych etapów: najpierw tekst wejściowy jest przetwarzany w celu przeliterowania symboli, wyrażeń i skrótów. Przetworzony tekst jest następnie przepuszczany przez sieci neuronowe, które przekształcają go w reprezentację akustyczną (spektrogram). Na koniec reprezentacja jest przekształcana w mowę.
Jak już wspomniałem, badacze stosowali wiele podejść do TTS. To, na którym wylądowaliśmy (i w którym, jak sądzę, pozostaniemy przez jakiś czas), wykorzystuje syntezę mowy opartą na sieciach neuronowych.
Modelowanie warstw zjawisk językowych, które wpływają na wypowiedź - wymowę, szybkość, intonację - jest skomplikowanym zadaniem.

Nawet przy quasi-magicznych możliwościach sieci neuronowych, system TTS opiera się na wielu komponentach do przybliżenia mowy.
Trudno jest określić jeden dokładny rurociąg; nowe technologie pojawiają się na prawo i lewo, grożąc, że ich poprzednicy staną się przestarzali.
Istnieje kilka ogólnych komponentów, które występują w większości systemów TTS w takiej czy innej formie.
1. Przetwarzanie tekstu
Przetwarzanie tekstu to etap, w którym system TTS określa, które słowa zostaną wypowiedziane. Skróty, daty i symbole walut są literowane, a interpunkcja jest eliminowana.
Nie zawsze jest to trywialne. Czy "Dr." oznacza lekarza czy kierowcę? A może CAD? Dolar kanadyjski czy projektowanie wspomagane komputerowo?
Przetwarzanie języka naturalnego(NLP) może być stosowane w przetwarzaniu tekstu, aby pomóc przewidzieć prawidłową interpretację na podstawie otaczającego kontekstu. Ocenia ono, w jaki sposób niejednoznaczny termin (na przykład "Dr.") pasuje do zdania jako całości, więc w zdaniu "Dr. Perron odradził to", NLP rozwiązałoby dr. do lekarza.
2. Analiza językowa
Po przetworzeniu tekstu model zmienia się z "Co powinienem powiedzieć?" na "Jak powinienem to powiedzieć?".
Analiza językowa to część TTS odpowiedzialna za interpretację tego, jak zdanie powinno być wypowiadane pod względem wysokości, tonu i czasu trwania. Innymi słowy:
- Jak długi powinien być każdy dźwięk, sylaba lub słowo?
- Czy intonacja powinna wzrosnąć? Opadać?
- Które słowo jest podkreślone?
- W jaki sposób zmiana głośności może odzwierciedlać zamierzone emocje?
Dlaczego prozodia ma znaczenie
Czas na historię: Miałem krótki występ konsultingowy dla zespołu tworzącego modele TTS. Stało się jasne, jak bardzo prozodia wpływa na zrozumiałość zdania. Pokażę ci, co mam na myśli.
Poniżej znajdują się 3 realizacje zdania "Whoa, spodziewałeś się tego?".
Pierwszy jest świetny. Pauza po "Whoa", fleksja w górę na drugiej sylabie "expecting" (ex-PEC-ting). 10/10.
Druga ledwo oddaje jakość pytania poprzez fleksję na ostatnim słowie ("... oczekując TEGO"). Poza tym reszta sylab jest mniej więcej tej samej długości, bez zmian w głośności lub wysokości. Powiedziałbym moim klientom, aby "uderzyli w deskę kreślarską".
Ostatni jest interesującym przypadkiem: "whoah" jest świetne - głośne, długie i z opadającym konturem. Wznosząca się fleksja pytania ma miejsce w trakcie "czy byłeś" i zasadniczo utrzymuje stałą wysokość przez cały czas.
W tym miejscu zatrzymuje się wiele średnio zaawansowanych systemów TTS: wystarczająco proste z wiarygodnym przekazem. Rzecz w tym, że nie jest to sposób, w jaki byśmy to powiedzieli - przynajmniej nie w większości kontekstów.
W starszych systemach cechy te były przewidywane przez oddzielne komponenty: jeden model obliczał, jak długo powinien trwać każdy dźwięk, inny mapował, jak wysokość powinna wznosić się i opadać.
W dzisiejszych czasach wszystko jest bardziej rozmyte.
Sieci neuronowe mają tendencję do samodzielnego uczenia się tych wzorców poprzez internalizację subtelności ogromnych zbiorów danych szkoleniowych.
3. Modelowanie akustyczne
Modelowanie akustyczne polega na tym, że znormalizowany tekst (i przewidywane cechy językowe, jeśli istnieją) są przekazywane przez sieć neuronową, która generuje pośrednią reprezentację.
Spektrogramy i reprezentacje mowy
Reprezentacją pośrednią jest zwykle spektrogram - reprezentacja częstotliwości w czasie sygnału audio - choć to się zmienia.
Oto reprezentacja wygenerowana przez model TTS z naszego tekstu wejściowego "Whoa, spodziewałeś się tego?":

Ten dwuwymiarowy obraz to w rzeczywistości 146 pionowych wycinków, z których każdy zawiera 80 częstotliwości. Silniejsze częstotliwości są jaśniejsze, a słabsze ciemniejsze.
Oto jak wygląda 10. krok czasowy (lub kolumna) obrócony o 90 stopni w prawo:

Możesz zobaczyć poszczególne częstotliwości i ich energie.
Na pierwszy rzut oka spektrogram nie wygląda na wiele, ale występują tu pewne wyraźne zjawiska językowe:
- Te wyraźnie zarysowane linie to samogłoski lub dźwięki podobne do samogłosek, takie jak /w/, /r/ i /l/.
- Ciemne punkty oznaczają ciszę. Mogą to być przerwy na interpunkcję.
- Skupiska energii u góry reprezentują hałas, taki jak hałas słyszany w /s/, /sh/ i /f/
W rzeczywistości, jeśli dobrze się przyjrzeć, można nawet ustawić słowa w jednej linii na spektrogramie.

Spektrogramy, w swoich różnych formach, są szeroko stosowanymi reprezentacjami w technologii mowy, ponieważ są bardzo dobrym pośrednikiem między surową mową a tekstem.
Dwa nagrania tego samego zdania wypowiedzianego przez różnych mówców będą miały bardzo różne przebiegi, ale bardzo podobne spektrogramy.
4. Synteza dźwięku (wokodowanie)
Etap syntezy to miejsce, w którym spektrogram jest konwertowany na dźwięk.
Technologia, która dokonuje tej konwersji, nazywana jest wokoderem. Są to modele sieci neuronowych wyszkolone do rekonstrukcji sygnałów mowy w oparciu o ich reprezentacje spektrogramowe.
Powodem podzielenia reprezentacji i modelowania sygnału mowy na oddzielne moduły jest kontrola: pierwszy dotyczy dokładnego modelowania wymowy i przekazywania słów, a drugi stylu i realizmu przekazu.
Za pomocą spektrogramu możemy odróżnić /s/ od /sh/ lub /ee/ (jak w heat) od /ih/ (jak w hit), ale styl i osobowość pochodzą z drobnych szczegółów wytwarzanych przez wokoder.
Oto porównanie kombinacji różnych modeli akustycznych i wokoderów. Ilustruje to, w jaki sposób badacze łączą i dopasowują modele akustyczne i wokodery oraz optymalizują je w celu uzyskania najlepszego ogólnego wyniku.
Jednak, podobnie jak w przypadku wszystkich innych komponentów, spektrogramy są stopniowo wycofywane na rzecz modeli typu "wszystko w jednym".
Jakie są przypadki użycia TTS?
Zdolność do generowania dynamicznego języka mówionego jest niezbędnym narzędziem w wielu branżach.
Nie chodzi tylko o wyrafinowane roboty - pomagają nam osiągnąć wydajność, dostępność i bezpieczeństwo.
Chatboty i asystenci głosowi
Wiedziałeś, że to powiem 😉
Pomiędzy rozumieniem poleceń, aktualizowaniem list zakupów i ustawianiem spotkań, łatwo jest przyjąć za pewnik wyrafinowanie - i znaczenie - syntetyzowanej mowy w agentach AI.
Dobry agent (tj. użyteczny ) musi mieć głos, który pasuje do rachunku: wystarczająco przyjazny, aby prosić o polecenia i wystarczająco ludzki, aby użytkownik uwierzył, że może je spełnić.
Wiele badań i prac inżynieryjnych ma na celu pozyskanie użytkowników w ułamku sekundy potrzebnym do podjęcia decyzji, czy asystent AI brzmi "dobrze".
Od strony biznesowej: chatbot reprezentuje Twoją markę. Ulepszenia w technologii TTS oznaczają opcje lepszego brandingu głosowego i skuteczniejszej obsługi klienta.
Nawigacja i transport
Nic tak nie uświadamia znaczenia dobrego TTS, jak niezrozumiałe wymawianie nazwy ulicy przez GPS podczas jazdy.
Nawigacja GPS jest doskonałym przykładem, w którym TTS błyszczy: nasze oczy są zajęte, a dostarczanie informacji dźwiękowych to nie tylko wygoda, ale i bezpieczeństwo.
Dotyczy to również lotnisk i systemów transportu publicznego. W przypadku skomplikowanych systemów o dużym natężeniu ruchu, takich jak stacje kolejowe i terminale lotniskowe, synteza mowy ma kluczowe znaczenie.
Bez TTS polegamy na zapowiedziach na żywo, które często są pośpieszne i niezrozumiałe, lub na zszytych ze sobą nagraniach nazwisk, terminali, godzin itp.
Ponieważ badania wykazują silny związek między naturalnością a zrozumiałością, wysokiej jakości TTS jest koniecznością dla solidnej branży transportowej.
Rozrywka i media
Narracja i wielojęzyczne media stały się bardziej dostępne dzięki udoskonaleniu technologii mowy syntetycznej.
Technologia mowy nie zastępuje talentu, lecz wspomaga występy dramatyczne.
Val Kilmer, który stracił głos z powodu raka gardła, zapewnił szczery występ ze swoim oryginalnym głosem w Top Gun: Maverick (2022) dzięki sztucznej inteligencji.
TTS pozwala również twórcom gier nadawać różnorodne, ekspresyjne wypowiedzi postaciom niegrywalnym (NPC), co w innym przypadku byłoby niewykonalne.
Opieka zdrowotna
Ulepszenia w TTS oznaczają poprawę dostępności we wszystkich obszarach.
Technologie opieki nad osobami starszymi zajmują się jednocześnie kwestią towarzystwa i pomocy. Technologia ta opiera się na możliwościach dostosowywania, które oferuje TTS: współczujące dźwięki, zmienne prędkości i staranna intonacja są częścią oferowania skutecznej i godnej pomocy.
TTS jest również wykorzystywany do poprawy dostępności wśród młodszych osób.
Acapela Group opracowuje między innymi technologie dla dzieci z zaburzeniami produkcji mowy. Mowa syntetyczna zwiększa ich możliwości ekspresyjne i niezależność, zachowując jednocześnie ich cechy wokalne.
Edukacja i nauczanie włączające
Spotkaliśmy się z mową syntetyczną w aplikacjach do nauki języków obcych. Ale to tylko wierzchołek góry lodowej.
Na przykład, barierą wejścia w samodzielną naukę jest umiejętność czytania. W przypadku dzieci, osób z wadami wzroku i niektórymi trudnościami w uczeniu się niekoniecznie jest to możliwe. Nakłada to wiele obowiązków na przepracowanych nauczycieli w przepełnionych klasach.
Okręg szkolny w Kalifornii wdrożył TTS, aby stworzyć bardziej integracyjne środowisko nauki dla uczniów ze specjalnymi potrzebami.
Podobnie jak w przypadku opieki nad osobami starszymi, technologia edukacyjna opiera się na współczujących głosach dostarczających z nieskazitelną wyrazistością i naciskiem. Modyfikowalne parametry umożliwiają nauczycielom zintegrowanie tych technologii z lekcjami, pomagając uczniom poczuć się bardziej włączonymi.
Uzyskaj najlepszy TTS dla swoich potrzeb
Bez względu na branżę, można śmiało powiedzieć, że sztuczna inteligencja głosowa jest istotna. A TTS, który wdrażasz, dosłownie mówi w imieniu Twojej firmy, więc musi być niezawodny i konfigurowalny.
Botpress pozwala tworzyć potężne, wysoce konfigurowalne boty z pakietem integracji i wdrożeń we wszystkich popularnych kanałach komunikacji. Twój agent głosowy będzie nie tylko imponujący, ale i skuteczny.
Zacznij budować już dziś. To nic nie kosztuje.
Najczęściej zadawane pytania
Czy istnieją języki lub dialekty, z których obsługą systemy TTS mają trudności?
Tak, istnieją języki i dialekty, z których obsługą systemy TTS mają trudności, zwłaszcza języki o niskich zasobach, w których brakuje dużych zbiorów danych z nagraną mową i tekstem. Odmiany takie jak dialekty regionalne, języki tonalne i języki tubylcze często stanowią wyzwanie, ponieważ wymagają zniuansowanych zasad wymowy i prozodii, na których standardowe modele nie zostały przeszkolone. Nawet w przypadku powszechnie używanych języków różnice dialektalne mogą prowadzić do błędnej wymowy lub nienaturalnie brzmiącej mowy.
Jak konfigurowalne są głosy TTS pod względem wysokości, szybkości i emocji?
Głosy TTS są dziś wysoce konfigurowalne pod względem wysokości, szybkości i emocji, dzięki nowoczesnym architekturom sieci neuronowych, które pozwalają na precyzyjną kontrolę nad prozodią i stylem. Wiele komercyjnych systemów TTS umożliwia użytkownikom dostosowanie tempa mówienia, wzorców intonacji, głośności i ekspresyjnego tonu do różnych kontekstów, takich jak spokojna narracja, podekscytowane ogłoszenia lub empatyczny dialog. Jednak stopień kontroli różni się w zależności od dostawcy - niektórzy oferują tylko podstawowe suwaki prędkości i wysokości, podczas gdy inni udostępniają szczegółowe parametry ekspresji emocjonalnej i barwy głosu.
Jak bezpieczne są dane głosowe przetwarzane przez systemy TTS?
Bezpieczeństwo danych głosowych przetwarzanych przez systemy TTS zależy w dużej mierze od dostawcy i metody wdrożenia. Oparte na chmurze usługi TTS zazwyczaj szyfrują dane w tranzycie i w spoczynku, ale wysyłanie poufnych informacji na zewnętrzne serwery może nadal stanowić zagrożenie dla prywatności, jeśli nie istnieją odpowiednie umowy i środki zgodności, takie jak RODO lub HIPAA. Wdrożenia lokalne lub brzegowe zapewniają wyższy poziom bezpieczeństwa, ponieważ dźwięk i tekst nigdy nie opuszczają infrastruktury organizacji, zmniejszając narażenie na osoby trzecie.
Jak drogie jest wdrożenie wysokiej jakości rozwiązań TTS dla firm?
Wdrożenie wysokiej jakości rozwiązań TTS dla firm może wahać się od kilkuset dollars miesięcznie w przypadku interfejsów API w chmurze o umiarkowanym wykorzystaniu, do dziesiątek lub setek tysięcy w przypadku niestandardowego rozwoju głosu lub lokalnych wdrożeń korporacyjnych. Koszty zazwyczaj obejmują opłaty licencyjne, koszty użytkowania płatne za znak lub za minutę, wysiłki związane z integracją i rozwojem oraz ewentualnie opłaty za talent głosowy w przypadku tworzenia niestandardowego głosu. Małe firmy często zaczynają od usług opartych na subskrypcji, podczas gdy większe przedsiębiorstwa mogą inwestować w indywidualne rozwiązania zapewniające spójność marki i prywatność.
Ile danych szkoleniowych potrzeba, aby stworzyć wysokiej jakości głos TTS?
Stworzenie wysokiej jakości głosu TTS wymaga zwykle od kilku do kilkudziesięciu godzin czystej, profesjonalnie nagranej mowy, najlepiej od tego samego mówcy i w spójnych warunkach nagrywania. Nowoczesne neuronowe systemy TTS, takie jak Tacotron lub FastSpeech, mogą osiągnąć przyzwoitą jakość przy zaledwie 2-5 godzinach danych, ale uzyskanie bardzo naturalnych, ekspresyjnych i solidnych głosów często zajmuje 10-20 godzin lub więcej. W przypadku klonowania głosu lub bardzo ekspresyjnych głosów potrzebne są jeszcze większe zbiory danych i różnorodne nagrania obejmujące różne style, emocje i konteksty.