- ASR przekształca mowę w tekst za pomocą uczenia maszynowego, umożliwiając wydawanie poleceń głosowych i transkrypcję w czasie rzeczywistym.
- Nowoczesne systemy ASR przeszły od oddzielnych modeli fonemów (HMM-GMM) do modeli głębokiego uczenia, które przewidują całe słowa.
- Wydajność ASR jest mierzona za pomocą współczynnika błędów słowa (WER), przy czym błędy pochodzą z podstawień, usunięć lub wstawień; niższy WER = lepsza jakość transkrypcji.
- Przyszłość ASR koncentruje się na przetwarzaniu na urządzeniu w celu zapewnienia prywatności i wsparcia dla języków o niskich zasobach.
Kiedy ostatnio oglądałeś coś bez napisów?
Kiedyś były one opcjonalne, ale teraz odbijają się w krótkich filmach, czy tego chcemy, czy nie. Napisy są tak osadzone w treści, że można o nich zapomnieć.
Automatyczne rozpoznawanie mowy (ASR) - zdolność do szybkiej i dokładnej automatyzacji konwersji wypowiadanych słów na tekst - jest technologią napędzającą tę zmianę.
Kiedy myślimy o agencie głosowym AI, myślimy o jego doborze słów, przekazie i głosie, którym mówi.
Łatwo jednak zapomnieć, że płynność naszych interakcji zależy od tego, czy bot nas rozumie. A dotarcie do tego punktu - bota rozumiejącego cię poprzez "um" i "ah" w hałaśliwym otoczeniu - nie było spacerkiem po parku.
Dziś porozmawiamy o technologii napędzającej te napisy: automatycznym rozpoznawaniu mowy (ASR).
Pozwól, że się przedstawię: Jestem magistrem technologii mowy, a w wolnym czasie lubię czytać o najnowszych osiągnięciach w dziedzinie ASR, a nawet budować różne rzeczy.
Wyjaśnię ci podstawy ASR, zajrzę pod maskę technologii i zgadnę, dokąd może ona zmierzać.
Czym jest ASR?
Automatyczne rozpoznawanie mowy (ASR) lub zamiana mowy na tekst (STT) to proces przekształcania mowy w tekst pisany przy użyciu technologii uczenia maszynowego.
Technologie wykorzystujące mowę często integrują ASR w pewnym zakresie; może to być napisy wideo, transkrypcja interakcji z obsługą klienta w celu analizy lub część interakcji z asystentem głosowym, by wymienić tylko kilka.
Algorytmy zamiany mowy na tekst
Bazowe technologie zmieniały się na przestrzeni lat, ale wszystkie iteracje składały się z dwóch komponentów w takiej czy innej formie: danych i modelu.
W przypadku ASR, dane to oznaczona mowa - pliki audio języka mówionego i odpowiadające im transkrypcje.
Model jest algorytmem używanym do przewidywania transkrypcji z dźwięku. Oznakowane dane są używane do trenowania modelu, aby mógł on generalizować na niewidzianych przykładach mowy.

To tak, jakbyś rozumiał serię słów, nawet jeśli nigdy nie słyszałeś ich w tej konkretnej kolejności lub są wypowiadane przez nieznajomego.
Ponownie, rodzaje modeli i ich specyfika zmieniły się z czasem, a wszystkie postępy w szybkości i dokładności sprowadzają się do rozmiaru i specyfikacji zbiorów danych i modeli.
Szybka uwaga: Ekstrakcja cech
Mówiłem o funkcjach lub reprezentacjach w moim artykule na temat zamiany tekstu na mowę. Są one używane w modelach ASR w przeszłości i obecnie.
Ekstrakcja cech - przekształcanie mowy w cechy - jest pierwszym krokiem w prawie wszystkich potokach ASR.
Krótko mówiąc, cechy te, często spektrogramy, są wynikiem obliczeń matematycznych wykonywanych na mowie i konwertują mowę do formatu, który podkreśla podobieństwa między wypowiedziami i minimalizuje różnice między mówcami.
Ta sama wypowiedź wypowiedziana przez 2 różnych mówców będzie miała podobne spektrogramy, niezależnie od tego, jak różne są ich głosy.
Zwracam na to uwagę, abyś wiedział, że będę mówił o modelach "przewidujących transkrypcje z mowy". Z technicznego punktu widzenia nie jest to prawdą; modele przewidują na podstawie cech. Można jednak myśleć o komponencie ekstrakcji cech jako części modelu.
Wczesny ASR: HMM-GMM
Ukryte modele Markowa (HMM) i mieszane modele Gaussa (GMM ) to modele predykcyjne sprzed przejęcia władzy przez głębokie sieci neuronowe.
Maszyny HMM do niedawna dominowały w ASR.
Biorąc pod uwagę plik audio, HMM przewidywałby czas trwania fonemu, a GMM przewidywałby sam fonem.
Brzmi to nielogicznie i w pewnym sensie takie jest:
- HMM: "Pierwsze 0,2 sekundy to fonem".
- GMM: "Ten fonem to G, jak w Gary".
Przekształcenie klipu audio w tekst wymagałoby kilku dodatkowych komponentów, a mianowicie:
- Słownik wymowy: wyczerpująca lista słów ze słownika wraz z odpowiadającą im wymową.
- Model językowy: Kombinacje słów w słowniku i prawdopodobieństwo ich współwystępowania.
Więc nawet jeśli GMM przewiduje /f/ zamiast /s/, model językowy wie, że jest o wiele bardziej prawdopodobne, że mówca powiedział "grosz za twoje myśli", a nie foughts.
Mieliśmy wszystkie te części, ponieważ, mówiąc wprost, żadna część tego rurociągu nie była wyjątkowo dobra.
HMM źle przewidziałby wyrównania, GMM pomyliłby podobne dźwięki: /s/ i /f/, /p/ i /t/, i nawet nie zaczynajmy od samogłosek.
Następnie model językowy uporządkowałby bałagan niespójnych fonemów w coś bardziej zbliżonego do języka.
Kompleksowy ASR z głębokim uczeniem
Od tego czasu wiele elementów rurociągu ASR zostało skonsolidowanych.

Zamiast trenować oddzielne modele do obsługi pisowni, wyrównania i wymowy, pojedynczy model pobiera mowę i wyprowadza (miejmy nadzieję) poprawnie napisane słowa, a obecnie także znaczniki czasu.
(Chociaż implementacje często poprawiają lub "ponownie punktują" te dane wyjściowe za pomocą dodatkowego modelu językowego).
Nie oznacza to, że innym czynnikom - takim jak wyrównanie i pisownia - nie poświęca się szczególnej uwagi. Wciąż istnieją góry literatury koncentrującej się na wdrażaniu poprawek w wysoce ukierunkowanych kwestiach.
Oznacza to, że naukowcy wymyślili sposoby na zmianę architektury modelu, które są ukierunkowane na określone czynniki jego wydajności, takie jak:
- Dekoder RNN-Transducer uwarunkowany poprzednimi wynikami w celu poprawy pisowni.
- Konwolucyjne próbkowanie w dół w celu ograniczenia pustych wyników, poprawiające wyrównanie.
Wiem, że to nonsens. Po prostu wyprzedzam mojego szefa, który mówi "czy możesz podać przykład w prostym języku angielskim?".
Odpowiedź brzmi: nie.
Nie, nie mogę.
Jak mierzona jest wydajność w ASR?
Kiedy ASR wykonuje złą robotę, wiesz o tym.
Widziałem karmelizację zapisaną jako komunistyczni Azjaci. Crispiness to Chris p - you get the idea.
Metryką, której używamy do matematycznego odzwierciedlenia błędów, jest współczynnik błędów słów (WER). Wzór na WER to:

Gdzie:
- S to liczba podstawień (słów zmienionych w przewidywanym tekście w celu dopasowania go do tekstu odniesienia).
- D to liczba usuniętych słów (słów, których brakuje w tekście wyjściowym, w porównaniu z tekstem odniesienia).
- I to liczba wstawek (dodatkowych słów w tekście wyjściowym w porównaniu z tekstem referencyjnym).
- N to całkowita liczba słów w referencji
Powiedzmy więc, że odniesieniem jest "kot usiadł".
- Jeśli model wyświetla "kot zatonął", jest to podstawienie.
- Jeśli model wyświetli "cat sat", oznacza to usunięcie.
- Jeśli wychodzi "kot usiadł", to jest to wtrącenie.
Jakie są zastosowania ASR?
ASR to bardzo przydatne narzędzie.
Pomogło nam to również poprawić jakość naszego życia poprzez poprawę bezpieczeństwa, dostępności i wydajności w kluczowych branżach.
Opieka zdrowotna
Kiedy mówię lekarzom, że prowadzę badania nad rozpoznawaniem mowy, mówią "och, jak Dragon".
Zanim pojawiła się generatywna sztuczna inteligencja w opiece zdrowotnej, lekarze sporządzali notatki słowne z prędkością 30 słów na minutę, posługując się ograniczonym słownictwem.
ASR odniósł ogromny sukces w ograniczaniu powszechnego wypalenia zawodowego lekarzy.
Lekarze równoważą góry papierkowej roboty z potrzebą opieki nad pacjentami. Już w 2018 r. naukowcy apelowali o wykorzystanie cyfrowej transkrypcji w konsultacjach w celu poprawy zdolności lekarzy do świadczenia opieki.
Wynika to z faktu, że konieczność dokumentowania konsultacji z mocą wsteczną nie tylko zabiera czas spędzony z pacjentami, ale jest również znacznie mniej dokładna niż podsumowania transkrypcji rzeczywistych konsultacji.
Inteligentne domy
Mam taki żart.
Kiedy chcę zgasić światło, ale nie chce mi się wstawać, klaszczę dwa razy w krótkich odstępach czasu - jakbym miał klapsa.
Mój partner nigdy się nie śmieje.
Inteligentne domy aktywowane głosem są zarówno futurystyczne, jak i haniebnie pobłażliwe. A przynajmniej tak się wydaje.
Jasne, są wygodne, ale w wielu przypadkach umożliwiają robienie rzeczy, które w innym przypadku nie byłyby dostępne.
Doskonałym przykładem jest zużycie energii: wprowadzanie drobnych zmian w oświetleniu i termostacie byłoby niewykonalne przez cały dzień, gdybyś musiał wstawać i bawić się pokrętłem.
Aktywacja głosowa oznacza, że te drobne poprawki są nie tylko łatwiejsze do wykonania, ale także odczytują niuanse ludzkiej mowy.
Na przykład, mówisz "czy możesz sprawić, by było trochę chłodniej?". Asystent wykorzystuje przetwarzanie języka naturalnego, aby przetłumaczyć Twoją prośbę na zmianę temperatury, biorąc pod uwagę cały szereg innych danych: aktualną temperaturę, prognozę pogody, dane dotyczące użytkowania termostatu przez innych użytkowników itp.
Ty zajmujesz się tym, co ludzkie, a sprawy komputerowe pozostawiasz komputerowi.
To o wiele łatwiejsze niż zgadywanie, o ile stopni obniżyć temperaturę na podstawie własnych odczuć.
I jest bardziej energooszczędny: istnieją doniesienia o rodzinach, które zmniejszyły zużycie energii o 80% dzięki inteligentnemu oświetleniu aktywowanemu głosem.
Obsługa klienta
Rozmawialiśmy o tym w przypadku opieki zdrowotnej, ale transkrypcja i podsumowanie jest o wiele bardziej skuteczne niż ludzie dokonujący retroaktywnych podsumowań interakcji.
Ponownie, oszczędza to czas i jest dokładniejsze. Wielokrotnie dowiadujemy się, że automatyzacja pozwala ludziom lepiej wykonywać swoją pracę.
I nigdzie nie jest to bardziej prawdziwe niż w obsłudze klienta, gdzie obsługa klienta wzmocniona ASR ma o 25% wyższy wskaźnik rozwiązywania pierwszych połączeń.
Transkrypcja i podsumowanie pomaga zautomatyzować proces znajdowania rozwiązania w oparciu o sentyment i zapytanie klienta.
Asystenci w samochodzie
W tym miejscu nie odnosimy się do asystentów domowych, ale warto o tym wspomnieć.
Rozpoznawanie głosu zmniejsza obciążenie poznawcze i rozprasza wzrok kierowców.
Biorąc pod uwagę, że rozproszenie uwagi kierowcy odpowiada nawet za 30% kolizji, wdrożenie tej technologii jest niezwykle istotne z punktu widzenia bezpieczeństwa.
Patologia mowy
ASR od dawna jest wykorzystywany jako narzędzie do oceny i leczenia patologii mowy.
Warto pamiętać, że maszyny nie tylko automatyzują zadania, ale także robią rzeczy, których ludzie nie potrafią.
Rozpoznawanie mowy może wykryć subtelności w mowie, które są prawie niezauważalne dla ludzkiego ucha, wychwytując specyfikę mowy, która w przeciwnym razie przeszłaby niezauważona.
Przyszłość ASR
STT stało się na tyle dobre, że już o tym nie myślimy.
Ale za kulisami naukowcy ciężko pracują, aby uczynić go jeszcze potężniejszym i bardziej dostępnym - i mniej zauważalnym.
Wybrałem kilka ekscytujących trendów, które wykorzystują postępy w ASR, i dodałem kilka własnych przemyśleń.
Rozpoznawanie mowy na urządzeniu
Większość rozwiązań ASR działa w chmurze. Jestem pewien, że już to słyszałeś. Oznacza to, że model działa na zdalnym komputerze, gdzieś indziej.
Robią to, ponieważ mały procesor telefonu niekoniecznie może obsłużyć ich ogromny model, w przeciwnym razie transkrypcja zajęłaby wieczność.
Zamiast tego dźwięk jest wysyłany przez Internet do zdalnego serwera z procesorem graficznym, który jest zbyt ciężki, by nosić go w kieszeni. Procesor graficzny uruchamia model ASR i zwraca transkrypcję do urządzenia.

Ze względu na efektywność energetyczną i bezpieczeństwo (nie każdy chce, aby jego dane osobowe krążyły po cyberprzestrzeni), wiele badań poświęcono na stworzenie modeli wystarczająco kompaktowych, aby można je było uruchomić bezpośrednio na urządzeniu, czy to telefonie, komputerze, czy silniku przeglądarki.
Naprawdę napisałem pracę magisterską na temat kwantyzacji modeli ASR, aby mogły działać na urządzeniu. Picovoice to kanadyjska firma budująca głosową sztuczną inteligencję o niskim opóźnieniu na urządzeniu i wydaje się, że są fajni.
ASR na urządzeniu sprawia, że transkrypcja jest dostępna po niższych kosztach, z możliwością obsługi społeczności o niskich dochodach.
Pierwszy interfejs użytkownika transkryptu
Przepaść między dźwiękiem a transkrypcjami zmniejsza się. Co to oznacza?
Edytory wideo, takie jak Premiere Pro i Descript, umożliwiają nawigację po nagraniach za pomocą transkrypcji: kliknij słowo, a przejdziesz do znacznika czasu.
Musiałeś zrobić kilka ujęć? Wybierz ulubione i usuń pozostałe, w stylu edytora tekstu. Aplikacja automatycznie przycina wideo.
Wykonywanie tego rodzaju edycji za pomocą samego kształtu fali jest bardzo frustrujące, ale głupio łatwe, gdy masz edytory oparte na transkrypcji.
Podobnie usługi przesyłania wiadomości, takie jak WhatsApp , transkrybują notatki głosowe i umożliwiają ich przeglądanie za pomocą tekstu. Przesuń palcem po słowie, a zostaniesz przeniesiony do tej części nagrania.

Zabawna historia: Zbudowałem coś takiego na tydzień przed ogłoszeniem podobnej funkcji przez Apple.
Przykłady te pokazują, jak złożone technologie pod maską wprowadzają prostotę i intuicyjność do aplikacji użytkownika końcowego.
Równość, integracja i języki o niskich zasobach
Bitwa nie została jeszcze wygrana.
ASR działa świetnie w języku angielskim i innych popularnych językach o dobrych zasobach. Niekoniecznie jest tak w przypadku języków o niskich zasobach.
Istnieje luka w mniejszościach dialektalnych, dotkniętej mowie i innych kwestiach związanych z równością w technologii głosowej.
Przepraszamy za zakłócanie dobrej atmosfery. Ta sekcja nazywa się "przyszłością" ASR. Postanowiłem patrzeć w przyszłość, z której możemy być dumni.
Jeśli mamy iść naprzód, powinniśmy robić to razem lub ryzykować zwiększenie nierówności społecznych.
Zacznij korzystać z ASR już dziś
Bez względu na rodzaj prowadzonej działalności, korzystanie z ASR jest oczywiste - z wyjątkiem tego, że prawdopodobnie zastanawiasz się, jak zacząć. Jak wdrożyć ASR? Jak przekazać te dane do innych narzędzi?
Botpress zawiera łatwe w użyciu karty transkrypcji. Można je zintegrować z przepływem typu "przeciągnij i upuść", rozszerzonym o dziesiątki integracji między aplikacjami i kanałami komunikacji.
Zacznij budować już dziś. To nic nie kosztuje.
Najczęściej zadawane pytania
Jak dokładny jest nowoczesny ASR dla różnych akcentów i hałaśliwych środowisk?
Nowoczesne systemy ASR są imponująco dokładne w przypadku typowych akcentów w głównych językach, osiągając wskaźniki błędów słów (WER) poniżej 10% w czystych warunkach, ale dokładność spada zauważalnie przy silnych akcentach, dialektach lub znacznym hałasie w tle. Dostawcy tacy jak Google i Microsoft trenują modele na zróżnicowanych danych mowy, ale idealna transkrypcja w hałaśliwym otoczeniu wciąż pozostaje wyzwaniem.
Czy ASR jest niezawodny w przypadku transkrypcji specjalistycznego żargonu lub terminów branżowych?
ASR jest mniej niezawodny w przypadku specjalistycznego żargonu lub terminów branżowych, ponieważ jego dane treningowe zwykle skłaniają się w kierunku mowy ogólnej; nieznane słowa mogą zostać błędnie przepisane lub pominięte. Jednak rozwiązania dla przedsiębiorstw umożliwiają stosowanie niestandardowych słowników, modeli językowych specyficznych dla danej domeny i słowników wymowy, aby poprawić rozpoznawanie terminów technicznych w dziedzinach takich jak opieka zdrowotna, prawo lub inżynieria.
Jaka jest różnica między darmowymi narzędziami ASR a rozwiązaniami klasy korporacyjnej?
Różnica między darmowymi narzędziami ASR a rozwiązaniami klasy korporacyjnej polega na dokładności, skalowalności, dostosowaniu i kontroli prywatności: darmowe narzędzia często mają wyższe wskaźniki błędów, ograniczoną obsługę języków i limity użytkowania, podczas gdy rozwiązania korporacyjne oferują niższy WER, dostosowanie do domeny, integracje, umowy na poziomie usług (SLA) i solidne funkcje bezpieczeństwa do obsługi wrażliwych danych.
W jaki sposób ASR chroni prywatność użytkowników i poufne informacje podczas transkrypcji?
ASR chroni prywatność użytkowników poprzez szyfrowanie podczas transmisji danych i oferuje opcje, takie jak uruchamianie modeli na urządzeniu, aby uniknąć wysyłania danych mowy na zewnętrzne serwery. Wielu dostawców korporacyjnych przestrzega również przepisów dotyczących prywatności, takich jak RODO lub HIPAA, i może anonimizować dane w celu ochrony poufnych informacji.
Jak drogie są usługi ASR oparte na chmurze w porównaniu z rozwiązaniami na urządzeniach?
Usługi ASR oparte na chmurze zazwyczaj pobierają opłaty za minutę audio lub według poziomów użytkowania, przy kosztach wahających się od 0,03 USD do 1,00 USD + za minutę w zależności od dokładności i funkcji, podczas gdy rozwiązania na urządzeniach wiążą się z początkowymi kosztami rozwoju i opłatami licencyjnymi.