Czym jest asystent głosowy?
Asystent głosowy to oprogramowanie, które może rozumieć i reagować na polecenia wypowiadane w języku naturalnym. Można je również nazwać inteligentnymi asystentami i może to być dokładniejszy opis, ponieważ w wielu przypadkach można je łączyć z tekstem za pośrednictwem czatu. Oczywiście są one również znane jako boty.
W ostatnich latach popularność asystentów głosowych wzrosła, zwłaszcza w postaci aktywowanych głosowo asystentów domowych, takich jak Alexa i Google Home.
Produkty te umożliwiają użytkownikom wydawanie poleceń oprogramowaniu za pomocą głosu. Na przykład, użytkownik może odtwarzać muzykę na Spotify lub odtwarzać wideo na Youtube, wydając polecenie inteligentnemu asystentowi głosowemu.
Osobisty asystent stał się możliwy dzięki przełomowi w dziedzinie sztucznej inteligencji, w szczególności w obszarze zwanym przetwarzaniem języka naturalnego.
Jak asystenci głosowi wykorzystują NLP do rozpoznawania głosu?
Przetwarzanie języka naturalnego to technologia, która umożliwia komputerom zrozumienie intencji stojącej za wypowiadaną frazą. Różni się to od rozpoznawania mowy, które transkrybuje wypowiadane słowa na tekst. Rozpoznawanie mowy jest oczywiście również potrzebne w przypadku cyfrowych asystentów sterowanych głosem. Rozpoznawanie mowy transkrybuje wypowiadane słowa na tekst, a przetwarzanie języka naturalnego określa intencje użytkownika kryjące się za tekstem.
Przetwarzanie języka naturalnego jest ważne i przydatne, ponieważ ludzie instruują asystentów głosowych za pomocą różnych wyrażeń, które mają to samo znaczenie. Na przykład mogą powiedzieć: "Odtwórz X na Youtube" lub "Znajdź X na Youtube i odtwórz go" lub "Na Youtube odtwórz utwór X" itp.
NLP może wykryć, że wszystkie te frazy mają to samo znaczenie. Jest to przydatne dla ludzi, pomijając fakt, że mogą oni wchodzić w interakcje z urządzeniem tylko za pomocą głosu, ponieważ nie muszą pamiętać dokładnej komendy lub składni, aby obsługiwać urządzenie. NLP jest również zaskakująco łatwe do nauczenia się dla programistów i z tego powodu jest ważną częścią każdego frameworka bota.
Zalety i wady asystentów głosowych
Każdy, kto faktycznie próbował korzystać z asystenta głosowego, powie ci, że są one dobre do pewnych rzeczy, ale nie są idealne. Nie można na przykład prowadzić z nimi rozmowy przypominającej ludzką. Rozmowa szybko się zepsuje, jeśli spróbujesz.
Trudno jest również dowiedzieć się, co mogą, a czego nie mogą zrobić, po prostu wchodząc z nimi w interakcję. Okazuje się, że Voice to kiepski interfejs do szybkiego wyszukiwania wielu informacji. Na przykład skanowanie strony internetowej jest znacznie lepszym sposobem na szybkie uzyskanie informacji.
To, w czym są bardzo dobre, to komendy lub pytania. Działają one dobrze zwłaszcza w przypadku, gdy użytkownik dokładnie zna pożądany wynik, na przykład chce odtworzyć określony film na youtube, którego nazwę zna, a odpowiedź na pytanie jest prostą frazą, taką jak odpowiedź na pytanie "jaka jest temperatura w moim mieście?".
Często zapominamy, że asystenci głosowi są po prostu kolejnym interfejsem oprogramowania. Nazywamy je asystentami, ponieważ można do nich mówić, a zatem łatwo jest je konceptualizować jako posiadające pewnego rodzaju ludzką jakość. Pomysł ten jest dodatkowo wzmocniony przez fakt, że musimy wywołać je po imieniu za pomocą gorącego słowa, "Hej Google", "Alexa", "Siri", aby je aktywować. Gdybyśmy nie mieli gorącego słowa, nie wiedzieliby, kiedy się do nich mówi, a tym samym, kiedy zareagować. Słowo kluczowe sprawia, że myślimy o asystencie głosowym bardziej jak o niemal ludzkim asystencie niż o interfejsie oprogramowania. A to z kolei sprawia, że małe dzieci wierzą, że Google lub Alexa są czymś w rodzaju Diet, co może wyrządzić im trwałą szkodę, gdy odkryją, że są to korporacje dominujące na całym świecie.
W rzeczywistości asystenci głosowi są tylko kolejnym interfejsem oprogramowania, tj. odpowiednikiem np. interfejsu graficznego. Interfejs graficzny pełni podobną rolę do interfejsu głosowego, ale nie może być humanizowany w ten sam sposób.
Interfejsy głosowe są oczywiście używane inaczej niż interfejsy graficzne. Okazuje się, że interfejsy głosowe są zwykle używane jako dodatek do interfejsów graficznych, ale nie na odwrót.
Dzieje się tak częściowo dlatego, że interfejsy graficzne zostały już zbudowane dla większości aplikacji, a zatem dodanie do nich interfejsu głosowego pozwala użytkownikom na inny sposób interakcji z oprogramowaniem. Na przykład poproszenie asystenta głosowego o odtworzenie filmu z youtube. Można by odtworzyć wideo za pomocą interfejsu graficznego, ale byłoby to wolniejsze.
Można również argumentować, że interfejs graficzny jest bardziej kompletny niż interfejs głosowy, ponieważ bardzo trudno byłoby wykonać niektóre zadania za pomocą głosu, które można łatwo wykonać na interfejsie graficznym. Aby zrozumieć ten punkt, wyobraź sobie, że próbujesz nakłonić kolegę do stworzenia arkusza kalkulacyjnego, przekazując mu instrukcje przez telefon, w porównaniu do samodzielnego tworzenia arkusza kalkulacyjnego za pomocą interfejsu graficznego.
Interfejsy głosowe zazwyczaj nie są niezbędne, ale zapewniają nowy poziom wygody w niektórych sytuacjach. Jest to zazwyczaj wygoda, bez której można żyć, jeśli jest to konieczne, z wyjątkiem rzadkich okoliczności, w których interakcja bez użycia rąk jest niezbędna.
Przyszłość asystentów głosowych
Biorąc pod uwagę ich ograniczenia, pojawia się pytanie, czy asystenci głosowi zyskają na znaczeniu w przyszłości, czy też pozostaną produktem marginalnym.
Jest dla nas jasne, że asystenci głosowi staną się znacznie bardziej popularni i szeroko wykorzystywani w przyszłości z jednego powodu - będą w pełni zintegrowani z graficznymi interfejsami użytkownika.
Podczas gdy trudno jest zastąpić graficzne interfejsy użytkownika głosem, bardzo możliwe jest połączenie interfejsu głosowego i graficznego. Jest to obecnie realizowane w bardzo ograniczonym zakresie za pomocą Asystenta Google (który pozwala stronie internetowej na zapewnienie kontekstu) i Bixby.
Kolejna generacja interfejsów, które nazwiemy interfejsami "kombinowanymi", zintegruje grafikę, tekst i głos w celu uzyskania najlepszego doświadczenia dla użytkownika. Nie tylko pozwoli to użytkownikom wykonywać zadania szybciej i przy mniejszej krzywej uczenia się (ponieważ głos pozwala użytkownikom na interakcję z oprogramowaniem bez znajomości dokładnych poleceń), ale sztuczna inteligencja monitorująca interakcje pozwoli interfejsom ewoluować i stawać się coraz lepszymi.
Instrukcja głosowa przy pierwszym uruchomieniu aplikacji będzie działać inaczej, gdy aplikacja nauczy się na podstawie tysięcy interakcji, jaki jest najlepszy sposób działania.
Interesujące jest również to, że aby głos został w pełni przyjęty, konieczna będzie zmiana zachowania użytkowników. Obecnie ludzie wpisują tekst i korzystają z interfejsów graficznych na swoich smartfonach znacznie częściej niż mówią do swoich telefonów i korzystają z asystentów głosowych.
Dzieje się tak, ponieważ technologia rozpoznawania głosu nie jest doskonała. Przez dziesięciolecia istniały skróty głosowe w telefonach i komputerach, ale nie były one powszechnie używane, ponieważ wskaźniki błędów były tak wysokie, że ból związany z ich uwzględnianiem przewyższał korzyści płynące z wygody po tym, jak nowość się skończyła.
Wyobraź sobie, że rozpoznawanie głosu jest idealne i nie ma żadnych błędów.
W takim przypadku ludzie mogliby znacznie szybciej "wpisać" wiadomość e-mail, na przykład za pomocą głosu, niż pisząc na smartfonie. Gdy ten punkt krytyczny zostanie osiągnięty, pomoc głosowa będzie wszechobecna w tego typu zadaniach.
Aby boty mogły się rozwijać, zarówno NLP, jak i technologia rozpoznawania głosu muszą działać na wysokim poziomie. Podczas gdy rozpoznawanie głosu działa już bardzo dobrze, NLP, jak już wspomnieliśmy, działa dobrze tylko w wąskich domenach.
Interesujące jest to, że rozpoznawanie głosu działa znacznie lepiej w wąskich domenach z oczywistych powodów, istnieje znacznie mniej możliwych słów, które użytkownik może wypowiedzieć.
Oznacza to, że jesteśmy już w punkcie, w którym możemy tworzyć chatbots, które są niemal idealne w wąskiej dziedzinie. Wystarczy posłuchać demonstracji Google Duplex.
Doprowadzi to do niezwykle szybkiej adopcji głosu po rozwiązaniu problemów związanych z odkrywaniem i powiązanymi kwestiami.
Voice First
Pomysł polega na tym, że głos będzie pierwszym sygnałem, gdy ktoś będzie potrzebował pomocy.
W świecie Voice First urządzenia staną się bardziej niewidoczne, ponieważ ludzie będą musieli na nie patrzeć tylko w przypadku zadań, których nie mogą wykonać za pomocą głosu.
Ludzie nie będą mieli tylko jednego urządzenia w swoim salonie, ale będą mieli tanie urządzenie głosowe w każdym pokoju. Urządzenia te będą połączone ze sobą, z urządzeniami IoT oraz ze smartfonami i komputerami. Niektóre z tych urządzeń mogą być w stanie wyświetlać obrazy na ścianach.
Ludzie będą mogli zadawać pytania lub wydawać polecenia podczas brania prysznica lub mycia zębów. Nie będą musieli pamiętać, co powiedzieć botowi głosowemu na dole.
Pojawią się znacznie lepsze sposoby odkrywania funkcjonalności i "szkolenia" ludzi w zakresie efektywnego korzystania z botów.
Chociaż obecnie istnieje wiele problemów z asystentami głosowymi, większość z nich dotyczy sposobu ich używania, a nie podstawowej technologii. Wierzymy, że w krótkim czasie pojawią się zabójcze aplikacje głosowe i będzie to wydarzenie, które zmieni sposób korzystania z oprogramowania. Będzie to również wymagało pewnej standaryzacji technologii i protokołów głosowych, ale są to przeszkody, które nie będą długo hamować postępu.
Z niecierpliwością czekamy na świat najwyższej wygody, w którym urządzenia głosowe są gotowe do pomocy w niemal każdym miejscu i czasie.
Spis treści
Bądź na bieżąco z najnowszymi informacjami na temat agentów AI
Udostępnij to na: