Czym jest asystent głosowy AI?

Napisany przez

Ben Luks

Lingwista komputerowy, badacz AI i magister technologii głosowej AI

Spis treści

Krok 1. Tytuł kroku znajduje się tutaj zgodnie z oczekiwaniami.

Podsumowanie

Asystenci głosowi AI konwertują mowę na tekst, interpretują intencje, pobierają informacje i odpowiadają za pomocą zamiany tekstu na mowę.
Kluczowe technologie obejmują ASR, NLP, RAG i integracje API do wykonywania zadań i dynamicznych konwersacji.
Boty głosowe oferują szybkość, dostępność, personalizację i interfejsy bez użycia rąk w różnych branżach.
Przypadki użycia obejmują opiekę zdrowotną, bankowość, obsługę klienta i handel detaliczny, poprawiając wydajność i komfort użytkowania.

Musiałem zmienić moje ChatGPT głos do zirytowanego Brytyjczyka. Boję się, że jeśli głos będzie zbyt przyjazny, to się w nim zakocham.

Jak ten facet. W tym filmie.

Porozmawiajmy o asystentach głosowych.

Siri była kiedyś obiektem żartów. Ale podczas gdy my byliśmy zajęci pytaniem Siri, jak ukryć ciało, AI głosowe po cichu przeniknęło do wszystkich zakątków rynku. Od 2025 r. 67% organizacji uważa AI głosowe za rdzeń swojej działalności .

Organizacje te zdają sobie sprawę, że agenci AI lepiej radzą sobie z rozpoznawaniem mowy.

A, i ten film, do którego się odwoływałem? Nie jest to wcale takie odległe. Oczekuje się, że niedawne przejęcie io przez Open AI będzie miało na celu zbudowanie nieinwazyjnego, wiecznie świadomego asystenta głosowego.

Wiesz, mały przyjaciel zawsze w twoim uchu.

Oto, co się wydarzyło: Alexa jest bardziej rozpoznawalna jako produkt niż jako imię osoby, prezesi firm zajmujących się sztuczną inteligencją robią sobie wspólne zdjęcia narzeczeńskie , a dwie trzecie firm już zarezerwowało datę ślubu .

A jeśli nie jesteś na bieżąco, to siostro, jesteś w tyle .

Co jest zrozumiałe. Technologia jest enigmatyczna i nie ma zbyt wielu osób, które wyjaśniałyby, jak ona działa . Ale zgadnij, kto ma dwa kciuki i dyplom ukończenia studiów podyplomowych z technologii mowy?

(Nie widać, ale podnoszę kciuki.)

(...Wiesz, kto jeszcze nie widzi? Asystenci głosowi.)

(Odbiegam od tematu.)

Piszę ten artykuł, aby Cię nadrobić. Porozmawiamy o asystentach głosowych AI: jak działają, co można z nimi zrobić i dlaczego tak wiele firm decyduje się na ich integrację ze swoimi operacjami.

Budowanie sztucznej inteligencji Chatbots

Tworzenie niestandardowych chatbotów agentowych

Zacznij teraz

Czym jest asystent głosowy AI?

Asystent głosowy AI to oprogramowanie oparte na AI, które przetwarza dane wejściowe mowy, rozumie je, wykonuje zadania i udziela odpowiedzi użytkownikowi. Asystenci ci są wykorzystywani w różnych branżach i przypadkach użycia, dodając osobisty akcent do zarządzania zadaniami i obsługi klienta.

Jak działają asystenci głosowi AI?

Diagram ilustrujący poszczególne kroki rozmowy z asystentem głosowym.

Asystenci głosowi AI to złożona orkiestracja technologii AI . W ciągu kilku sekund między przechwyceniem mowy użytkownika a wygenerowaniem odpowiedzi uruchamiane są liczne procesy w celu zapewnienia płynnej interakcji.

Automatyczne rozpoznawanie mowy (ASR)

Automatyczne rozpoznawanie mowy jest czasami nazywane zamianą mowy na tekst, ponieważ właśnie tym ono jest.

Gdy użytkownik mówi do swojego urządzenia – czy to telefonu, asystenta domowego, czy deski rozdzielczej samochodu – jego mowa jest konwertowana na tekst. Aby to zrobić, głębokie sieci neuronowe są trenowane w celu przewidywania transkrypcji klipu audio .

Po przeszkoleniu na tysiącach godzin danych dotyczących mowy pochodzącej z milionów różnych klipów, obejmujących różnych mówców, akcenty i warunki hałasu, te modele sztucznej inteligencji stają się całkiem dobre w transkrypcji.

I to jest ważne – pierwszy krok w systemie wielowarstwowym musi być solidny.

Przetwarzanie języka naturalnego (NLP)

Po przepisaniu wypowiedzi model przystępuje do jej interpretacji.

NLP to koncepcja obejmująca wszystkie techniki służące do rozkładania zapytania użytkownika (w postaci transkrybowanego tekstu) na jednostki intencjonalne i znaczące.

Rozpoznawanie intencji

Tekst jest niestrukturyzowany, a zadanie wyciągania znaczenia jest dalekie od trywialnego. Rozważ kilka poniższych zapytań:

„Umów się na rozmowę z Aniqą we wtorek o 13:00.”
„Czy możesz zagrać Cher?”
„Co pasuje do sera koziego?”

Asystent AI będzie miał skończony szereg intencji pod maską. W przypadku naszego bota obejmowałoby to:

rezerwacja wizyt
odtwarzanie multimediów
ewentualnie przeszukując sieć i
swobodnie rozmawiając

Rozpoznawanie intencji odpowiada za klasyfikowanie każdego zapytania użytkownika do jednej z tych kategorii.

Do którego z naszych przykładów zatem należy zaliczyć każdy z nich?

„Zaplanuj rozmowę telefoniczną…” jest sformułowane jako rozkaz. Stosunkowo proste. „Czy możesz…?” jest sformułowane jako pytanie. Ale jest to również polecenie, podobnie jak poprzednie zapytanie. W obu przypadkach intuicyjnie rozumiesz pożądane działanie, ale nie jest to takie łatwe do sformalizowania.

„Co pasuje do…?” jest proste – w pewnym sensie.

Wiemy, jakiej odpowiedzi chcemy: jedzenia. Ale nie jest do końca jasne, skąd ma ona czerpać odpowiedź.

Czy powinien przeszukiwać sieć? Jeśli tak, ile odpowiedzi powinien udzielić? Pierwszy wynik nie byłby zbyt dokładny, ale udzielenie wielu odpowiedzi może nadmiernie skomplikować proste zadanie.

Z drugiej strony, być może potrafi czerpać z wewnętrznej wiedzy – ale wybiegamy za daleko w przyszłość.

Wniosek jest taki: wybór nie zawsze jest prosty, a złożoność tego zadania zależy w takim samym stopniu od projektu – lub osobowości – bota, jak i od zapytania użytkownika.

Rozpoznawanie jednostek nazwanych

Oprócz wiedzy o tym, jakie zadanie wykonać, bot musi rozpoznać dostarczone informacje.

Rozpoznawanie jednostek nazwanych dotyczy wyodrębniania znaczących jednostek – lub jednostek nazwanych – z niestrukturyzowanego tekstu . Na przykład identyfikowanie nazw osób, artystów muzycznych lub dat w zapytaniu użytkownika.

Przyjrzyjmy się ponownie pierwszemu zapytaniu:

„Umów się na rozmowę z Aniqą we wtorek o 13:00.”

Aniqa jest osobą, a z zapytania wynika, że użytkownik ją zna . To sprawia, że jest ona – najprawdopodobniej – kontaktem.

W tym przypadku „kontakt” byłby wstępnie zaprogramowany jako byt, a bot miałby dostęp do kontaktów użytkownika.

Dotyczy to czasu, lokalizacji i innych istotnych informacji, które mogą być ukryte w zapytaniu użytkownika.

Pobieranie informacji

Po zrozumieniu, czego chcesz, asystent głosowy musi wyszukać odpowiednie informacje, aby pomóc mu odpowiedzieć. Dobry bot będzie wyposażony w cały zestaw rozszerzeń, które pomogą Ci spełnić Twoje potrzeby.

Rozmawialiśmy wcześniej o wewnętrznej wiedzy. Jestem pewien, że w pewnym momencie byłeś zachwycony dużymi modelami językowymi ( LLM ) i ich rozległą wiedzę. To robi wrażenie, ale wraz ze specjalizacją Twoich zapytań zaczynają pojawiać się pęknięcia.

Retrieval-Augmented Generation (RAG)

Dobry asystent ma dostęp do zewnętrznych źródeł wiedzy – nie polega wyłącznie na wiedzy zdobytej podczas treningu . RAG warunkuje odpowiedzi AI na podstawie tej wiedzy.

Wiedza w tym przypadku odnosi się do dokumentów, tabel, obrazów i zasadniczo wszystkiego, co można przetworzyć cyfrowo.

Przeszukuje dokumentację, wybierając elementy najbardziej istotne w kontekście zapytania użytkownika i wykorzystując je do informowania odpowiedzi modelu .

Czasami celem jest uściślenie informacji zawartych LLMs , np. odwołanie się do literatury akademickiej podczas prowadzenia badań.

Innym razem chodzi o udostępnienie informacji, do których model w inny sposób nie miałby dostępu , np. danych klientów.

W obu przypadkach ma dodatkową zaletę w postaci podawania źródeł, co sprawia, że odpowiedzi są bardziej wiarygodne i możliwe do sprawdzenia.

Wdrażanie agentów AI?

Przeczytaj nasz plan wdrożenia agenta AI

Czytaj teraz

API i integracje

W ten sam sposób, w jaki LLM może łączyć się z informacjami zewnętrznymi, interfejsy API i integracje pozwalają na łączenie się z technologiami zewnętrznymi.

Chcesz zarezerwować spotkanie w Google Meets za pośrednictwem Calendly aby śledzić lead HubSpot oceniony za pomocą wzbogacenia Clearbit? Jeśli nie zbudowałeś kalendarza, technologii wideokonferencji, CRM i narzędzia analitycznego (co jest wysoce niewskazane), będziesz musiał 🔌zintegrować⚡️.

Te narzędzia innych firm zazwyczaj mają interfejsy API udostępniające operacje, dzięki czemu mogą być one wykonywane przez inne zautomatyzowane technologie, np. Twojego agenta.

Integracje jeszcze bardziej ułatwiają botowi współpracę z technologią stron trzecich. Jest zbudowany na bazie API, pokrywając bałagan, dzięki czemu możesz podłączyć swojego agenta przy niewielkiej pracy.

Odpowiadanie i zamiana tekstu na mowę (TTS)

W ten sposób dane wprowadzone przez użytkownika zostały przepisane, jego intencje przeanalizowane, odpowiednie informacje pobrane, a zadanie wykonane.

Teraz czas na odpowiedź.

Niezależnie od tego, czy odpowiada na pytanie użytkownika, czy potwierdza wykonanie żądanego zadania, bot głosowy praktycznie zawsze udziela odpowiedzi.

Tekst na mowę (TTS)

Równie skuteczną i przeciwną techniką rozpoznawania mowy jest synteza mowy, czyli zamiana tekstu na mowę .

Są to modele również trenowane na parach mowa-tekst, często warunkowane mówcą, intonacją i emocjami, aby móc przekazać wypowiedź przypominającą ludzką.

TTS zamyka pętlę, która zaczyna się i kończy mową ludzką (-oidową).

Korzyści płynące z asystentów głosowych

Warstwa głosowa na szczycie funkcjonalności AI poprawia wrażenia na całej linii. Jasne, jest spersonalizowana i intuicyjna, ale ma też zalety w biznesowej stronie rzeczy.

Głos jest szybszy niż tekst

Wraz z rozprzestrzenianiem się chatbotów użytkownicy przyzwyczaili się do szybkich odpowiedzi. Dzięki asystentom głosowym AI udało nam się również skrócić czas wprowadzania danych.

Agenci Voice AI nie muszą formułować poprawnych zdań. Zamiast tego możesz wyrzucić z siebie strumień świadomości i pozwolić botowi go zrozumieć.

To samo dotyczy odpowiedzi. Przyznam jako pierwszy, że czytanie może być uciążliwe – ale nie stanowi to problemu, gdy odpowiedzi są ci opowiadane.

Odpowiedzi 24/7

Kolejny rodzaj prędkości. Ponieważ ludzie pracują zdalnie, a transakcje biznesowe odbywają się na różnych kontynentach, nie da się uwzględnić wszystkich stref czasowych i godzin pracy, które trzeba będzie objąć.

Interakcje mówione powinny być dostępne dla każdego, nie tylko dla klientów, którzy pracują w określonych godzinach. A dzięki asystentom głosowym AI może to być rzeczywistość.

Więcej spersonalizowanych interakcji

Mówienie to coś więcej niż słowa. Posiadanie bota głosowego tworzy bardziej osobiste doświadczenie, które wzbudza u użytkownika poczucie pewności. W połączeniu z ludzkimi cechami chatbotów AI warstwa głosowa tworzy silniejsze połączenie.

Łatwa integracja

Fakt, że asystenci głosowi są bezdotykowi, oznacza, że są również bezinterfejsowi. Nie wymagają ekranów ani korzystania z oczu – dlatego są tak popularni w samochodach.

W rzeczywistości mogą się integrować wszędzie tam, gdzie można podłączyć mikrofony. To bardzo niska poprzeczka, nie tylko dlatego, że mikrofony są tak małe, ale dlatego, że są już wszędzie: w komputerach, smartfonach, a nawet telefonach stacjonarnych.

Podaj nazwę innej nowatorskiej technologii, do której można uzyskać dostęp za pośrednictwem telefonów z tarczą.

Bardziej dostępny

„Bez użycia rąk” to nie tylko wygoda. Dla osób o różnych potrzebach może to być konieczność.

Asystenci głosowi są dostępni dla osób o zróżnicowanych potrzebach ruchowych, wzrokowych i umiejętnościach czytania i pisania, które w przeciwnym razie mogłyby mieć trudności z obsługą tradycyjnych interfejsów AI.

Przykłady zastosowań botów głosowych w różnych branżach

Więc jesteś przekonany do botów głosowych. Świetnie. Ale jak je wykorzystać?

Dobra wiadomość jest taka, że praktycznie każdą branżę można usprawnić dzięki sztucznej inteligencji głosowej.

Opieka zdrowotna

Procedury opieki zdrowotnej są notorycznie żmudne. I to z dobrego powodu: to praca o wysokiej stawce i musi być wykonywana prawidłowo. Ta przestrzeń błaga o automatyzację AI, pod warunkiem, że jest niezawodna i skuteczna.

Już teraz widzimy zastosowania sztucznej inteligencji w opiece zdrowotnej , a technologia głosowa otwiera szereg nowych możliwości udoskonalenia.

Dobrym przykładem mogą być kwestionariusze medyczne: informacje osobiste, historia choroby itp.

To jest żmudne. Ale jest ważne.

Większa szybkość i wydajność pracy zmniejsza obciążenie przeciążonych pracą pracowników służby zdrowia, a ludzki tok rozmowy przerywa monotonię odpowiadania na pytanie za pytaniem.

Uwzględniono kwestię dostępności i mogę zapewnić, że technologia ta jest niezawodna, zgodnie z opisaną wcześniej, wielowarstwową strukturą.

Bankowość

Skoro mowa o wysokich stawkach i żmudności.

Sprawdzanie salda konta i aktualizowanie informacji to stosunkowo proste transakcje, jednak objęte są kilkoma poziomami zabezpieczeń, które zmniejszają ryzyko błędów i oszustw.

Konsultant głosowy NatWest zajmuje się standardowymi transakcjami, dzięki czemu agenci mogą poświęcić więcej czasu na poufne lub złożone interakcje, co przekłada się na wzrost zadowolenia klientów o 150% bez uszczerbku dla bezpieczeństwa.

Obsługa klienta

Jeśli chodzi o automatyzację rutynowych połączeń, SuperTOBI firmy Vodafone, asystent głosowy oparty na sztucznej inteligencji, poprawił swój wskaźnik Net Promoter Score (NPS) z 14 do 64 .

Dzieje się tak, ponieważ interakcje z obsługą klienta są powtarzalne, a na zapytania klientów odpowiada się tak samo, niezależnie od tego, czy robi to osoba, czy agent. To podejście nie wpływa na przypadki skrajne – są one przekazywane agentom ludzkim.

Sprzedaż detaliczna

Tęsknię za czasami, kiedy rozmawiałem ze sprzedawcą.

Problem polega na tym, że są zbyt zajęci, aby zapoznać się z katalogiem i regulaminem sklepu, nie wspominając już o czasie, jaki zajmuje obsłużenie każdego klienta z osobna.

Wkraczają asystenci sprzedaży głosowej, tacy jak MyLow firmy Lowe's: wirtualny sprzedawca udzielający informacji na temat szczegółów produktu, stanu magazynowego i regulaminu.

LLMs 'tutaj naprawdę widać uogólnioną wiedzę: oprócz przekazywania informacji specyficznych dla Lowe's, wykorzystuje się wiedzę z zakresu projektowania wnętrz, aby doradzać klientom w kwestii dekoracji domu.

Niektórzy klienci nadal szukają interakcji z ludźmi. Na szczęście MyLow jest również dostępny dla sprzedawców. Pracownicy mogą pobrać potrzebne informacje z MyLow i sami pomóc klientowi.

Zacznij oferować asystentów głosowych AI

Asystenci głosowi AI to jasna droga. Wydajność i osobowość, bez uszczerbku dla człowieczeństwa – to sytuacja korzystna dla obu stron.

Botpress oferuje konfigurowalny kreator „przeciągnij i upuść”, nadzór człowieka w pętli, szereg integracji z gotowymi kompilacjami, a na dokładkę, aplikację do obsługi głosu, która płynnie współpracuje z Twoim agentem.

Nasze boty są przejrzyste i intuicyjne, ale w żadnym wypadku nie są podstawowe.

Zacznij budować już dziś. To nic nie kosztuje.

Budowanie sztucznej inteligencji Chatbots

Tworzenie niestandardowych chatbotów agentowych

Zacznij teraz

Najczęściej zadawane pytania

Jak dokładni są asystenci głosowi AI w rozumieniu różnych akcentów lub wad wymowy?

Asystenci głosowi AI są coraz dokładniejsi w przypadku różnych akcentów, dzięki szkoleniom na globalnych zbiorach danych, ale ich dokładność nadal spada w przypadku silnych akcentów regionalnych, nietypowych wymówień lub wad wymowy. Niektóre systemy, takie jak Google i Microsoft, oferują modele specyficzne dla akcentu, ale użytkownicy z poważnymi wyzwaniami związanymi z mową mogą doświadczać wyższych wskaźników błędów i wymagać niestandardowego dostrojenia lub specjalistycznych rozwiązań.

Czy asystent głosowy AI może działać w trybie offline, czy też zawsze wymaga połączenia z Internetem?

Asystent głosowy AI może działać w trybie offline, jeśli wykorzystuje rozpoznawanie mowy i modele językowe na urządzeniu, ale zazwyczaj ogranicza go to do prostszych zadań i braku dostępu do danych zewnętrznych w czasie rzeczywistym. Większość zaawansowanych asystentów polega na Internecie w celu przetwarzania w chmurze i wyszukiwania aktualnych informacji.

Jak bezpieczne są dane udostępniane asystentom głosowym AI, zwłaszcza w branżach wrażliwych, takich jak opieka zdrowotna i bankowość?

Dane udostępniane asystentom głosowym AI we wrażliwych branżach, takich jak opieka zdrowotna i bankowość, są zabezpieczone poprzez szyfrowanie i zgodność z przepisami, takimi jak HIPAA, RODO lub PCI DSS. Firmy muszą jednak starannie wybierać dostawców z solidnymi certyfikatami bezpieczeństwa i powinny unikać przesyłania danych osobowych.

Czy dodanie interfejsu głosowego do istniejącego chatbota jest kosztowne?

Dodanie interfejsu głosowego do istniejącego chatbota może być stosunkowo niedrogie (przy użyciu interfejsów API w chmurze, takich jak Google Text-to-Speech lub Botpress ) lub bardziej kosztowne, jeśli wymaga niestandardowego rozwoju lub integracji z zastrzeżonymi systemami. Wiele platform oferuje obecnie integrację głosową jako funkcję, zmniejszając koszty do kilkuset dollars miesięcznie przy umiarkowanym użytkowaniu, ale wdrożenia na dużą skalę z niestandardowymi głosami lub potrzebami bezpieczeństwa mogą osiągnąć poziom cen korporacyjnych sięgający dziesiątek tysięcy dollars.

Jak szybko firma może wdrożyć asystenta głosowego AI od podstaw?

Firma może wdrożyć podstawowego asystenta głosowego AI w ciągu zaledwie kilku godzin, korzystając z platform bez kodu lub gotowych szablonów, zwłaszcza w przypadku prostych zadań, takich jak często zadawane pytania lub przekierowywanie połączeń. Bardziej złożeni asystenci głosowi, którzy integrują się z systemami zaplecza i obsługują naturalny dialog, zazwyczaj wymagają od kilku tygodni do miesięcy na rozwój.