Podczas gdy wielu w branży może twierdzić, że "następną wielką rzeczą" w technologii jest blockchain, sztuczna inteligencja zastępująca ludzkich pracowników lub rzeczywistość rozszerzona, istnieje jedna kluczowa technologia, która jest niedoceniana: głosowy interfejs użytkownika.
Badania sugerują, że do 2020 roku 50% zapytań będzie wykonywanych za pomocą wyszukiwania głosowego. Badania te nie doceniają jednak faktu, że niewielkie ulepszenia interfejsu głosowego mogą całkowicie zmienić obecny paradygmat interakcji człowiek-komputer. Wykracza to daleko poza przypadek użycia wyszukiwania w kierunku zastąpienia lub głębokiej integracji interfejsu głosowego z graficznymi interfejsami użytkownika i aplikacjami.
Interfejs głosowy pozwala ludziom komunikować się z urządzeniami w naturalnym języku mówionym za pośrednictwem inteligentnych głośników i innych urządzeń, obecnie dostępnych w urządzeniach takich jak Alexa lub Google Home. Mówienie ma fundamentalne znaczenie dla sposobu, w jaki załatwiamy sprawy z innymi ludźmi i będzie miało fundamentalne znaczenie dla sposobu, w jaki załatwiamy sprawy z komputerami w przyszłości.
Jest to jednak obecnie opinia marginalna.
Podczas gdy większość ekspertów technologicznych zgodziłaby się, że głos będzie nadal rozwijał swoją obecną niszową rolę w ekosystemie technologicznym lub przynajmniej będzie się stopniowo rozwijał wraz z rozwojem technologii, przewiduję, że głos będzie głównym wydarzeniem samym w sobie. Zdominuje on nasze interakcje z oprogramowaniem i urządzeniami, a nawet stanie się równie ważny jak graficzny interfejs użytkownika.
Jak wspomniano, nie jest to opinia głównego nurtu. Wielu ekspertów branżowych przyznaje, że technologia głosowa jest wciąż nowością i nie osiągnęła jeszcze idealnego dopasowania produktu do rynku. Na przykład niektórzy wybitni inwestorzy VC uważają, że dopóki nie zostanie osiągnięta ogólna sztuczna inteligencja, technologia głosowa zawsze będzie bardzo niszowa.
Ze względu na wiele obecnych ograniczeń asystentów głosowych, ludziom trudno jest wyobrazić sobie głos jako kolejną falę technologii. Moim zdaniem dzisiejszy głos jest podobny do sieci dial-up we wczesnych latach 90-tych. Wtedy doświadczenie online było tak złe, że trudno było sobie wyobrazić, co będzie możliwe po poprawie przepustowości. Czołowi myśliciele przedstawiali różnego rodzaju prognozy dotyczące Internetu, które z perspektywy czasu wyglądają absurdalnie konserwatywnie - niektórzy eksperci przewidywali nawet, że nie będzie on miał większego wpływu na gospodarkę niż faksy.
Oczekiwania ludzi wobec komunikacji głosowej są dziś podobnie konserwatywne, częściowo ze względu na to, jak trudne jest jeszcze doświadczenie głosowe. Zakłada się, że dopóki nie zostanie osiągnięta uogólniona sztuczna inteligencja, boty będą słabo radzić sobie w rozmowach - a technologia nigdy nie będzie świetna, dopóki chatbots nie będzie w stanie prowadzić niemal ludzkiej rozmowy z użytkownikiem. Jednak to założenie dotyczące potrzeby uogólnionej sztucznej inteligencji jest błędne: Z pewnością istnieją sposoby na osiągnięcie przez chatbots wydajności zbliżonej do ludzkiej przy użyciu obecnej technologii.
W przypadku ogólnych asystentów inteligentnych głośników zakres tematyczny jest tak szeroki, że muszą one być niemal całkowicie samouczące się. Niestety, obecna technologia nie jest wystarczająco dobra, aby automatycznie tworzyć samouczące się boty, które mogą obsługiwać wielokierunkowe rozmowy z ludźmi. Gdyby taka technologia istniała, bylibyśmy w stanie zadawać kolejne pytania w Google. Ale tworzenie inteligentnych botów jest jak próba stworzenia aplikacji na smartfona bez udziału człowieka - w tej chwili jest to po prostu niemożliwe.
Istnieje jeszcze jeden sposób na osiągnięcie niemal ludzkiego poziomu konwersacji z botami: drastyczne zawężenie ich zakresu. Podobnie jak w przypadku aplikacji, deweloperzy mogą tworzyć zaawansowane boty do określonych zadań, ręcznie programując je tak, aby angażowały się w sensowną konwersację. To właśnie w przypadku tego rodzaju botów nastąpi przełom w dziedzinie komunikacji głosowej: inteligentne głośniki, telefony i inne urządzenia będą hostować tego rodzaju boty, tworząc duże możliwości dla pierwszych, którzy zrobią to dobrze.
Rozwiązywanie problemów współczesnych botów głosowych
Aby intuicyjnie zrozumieć różnicę między doświadczeniem obecnych botów głosowych a tym, jak ta technologia będzie wyglądać w przyszłości, musimy zacząć od zrozumienia, dlaczego urządzenie głosowe jest obecnie odpowiednikiem surfowania po Internecie za pomocą modemu dial-up.
Po pierwsze, podstawowe interakcje z botem głosowym są nadal bardzo słabe. Musisz specjalnie zwrócić się do urządzenia za pomocą gorącego słowa, po czym musisz poczekać, aby zobaczyć, czy bot został pomyślnie aktywowany, czy nie. Jeśli został aktywowany, musisz mówić po sygnale dźwiękowym z powolną, ale stałą prędkością i formułować zdania tak, aby zawierały wszystkie niezbędne parametry - prawie tak, jakbyś mówił w instrukcji SQL. Jeśli zatrzymasz się, aby pomyśleć w dowolnym momencie, twoja interakcja zakończy się niepowodzeniem i będziesz musiał wrócić do początku.
Spójrzmy na przykład z życia wzięty:
Mówisz: "Hej, Google".
Nastąpi przerwa w oczekiwaniu na potwierdzenie aktywacji urządzenia.
Jeśli została aktywowana, możesz kontynuować swoje żądanie:
"Odtwórz 'Dark Horse' Katy Perry na YouTube, na telewizorze w salonie".
Następuje kolejne opóźnienie, podczas którego urządzenie przetwarza wypowiedziane słowa.
Jeśli żądanie się powiedzie, coś zacznie się dziać na ekranie telewizora i rozpocznie się odtwarzanie wideo.
Jeśli to się nie uda, musisz wrócić do początku i spróbować ponownie, być może z inną strukturą zdania, innymi słowami lub po prostu starając się mówić wyraźniej.
To doświadczenie jest pełne opóźnień, potencjalnych błędów i może wymagać wielu restartów, aby wykonać zadania. Ponadto bot głosowy nie jest jeszcze inteligentny i nie odpowiada na powiązane polecenia lub zapytania dotyczące tego, co robisz.
Nowy sposób interakcji z botami głosowymi
Najłatwiejszym sposobem na wyobrażenie sobie interakcji z inteligentnymi botami przyszłości jest wyobrażenie sobie ludzkiego operatora kontrolującego urządzenie i przekazującego mu instrukcje dotyczące obsługi YouTube (i nic więcej).
Pierwszą różnicą jest szybkość interakcji. Możesz rozmawiać z "ludzkim" operatorem z normalną prędkością, bez przerw lub opóźnień w odpowiedzi i bez problemów, jeśli zatrzymasz się podczas mówienia. Możesz także odnieść się do ludzkiego operatora w środku zdania - na przykład "Chcę oglądać telewizję - wiesz co, Alexa, proszę, wrzuć coś na YouTube". W rzeczywistości może nie być konieczne wypowiadanie ich imienia (gorącego słowa), aby uzyskać odpowiedź.
Ten przypominający człowieka bot byłby również elastyczny pod względem sposobu interakcji z użytkownikiem:
Ty: "Alexa, chcę oglądać YouTube".
Alexa: "Jasne, na którym telewizorze?".
Ty: "Na telewizorze w kuchni - może coś Katy Perry".
Alexa: "Czy masz na myśli konkretną piosenkę?".
Ty: "Nie, co możesz zasugerować?".
Human: "'Roar', 'Dark Horse'? Umieściłem więcej sugestii na ekranie".
Ty: "Świetnie, dzięki. Zagraj "Hot and Cold"."
To jest przyszłość interakcji z botami: Bezproblemowa, płynna i łatwa rozmowa na temat danego zadania lub tematu. Wyobraź sobie ogromny wszechświat tych botów z równie ogromnym wszechświatem tanich, standardowych urządzeń głosowych. Będzie to jak posiadanie ludzkiego operatora stojącego w każdym pokoju i obok każdego urządzenia. Nadal będzie wiele graficznych interfejsów użytkownika, ale będą one znacznie łatwiejsze w użyciu za pośrednictwem bota.
Krok wprzyszłość komunikacji głosowej
Obecnie w miejscach takich jak stacje metra, lotniska i supermarkety często widuje się pracowników zapewniających pomoc osobom korzystającym z samoobsługowych ekranów dotykowych - na przykład osobę, która pomaga w korzystaniu z automatów do odprawy w celu uzyskania karty pokładowej na lotnisku. Wyobraźmy sobie jednak, że osoba ta może bezpośrednio współpracować z aplikacją do odprawy - co oznacza, że w połowie procesu odprawy możesz powiedzieć maszynie, że chcesz zmienić swoje miejsce z pierwotnie wybranego, a aplikacja wyświetli odpowiedni ekran - wszystko bez pomocy ludzkiego asystenta.
To jest przyszłość: bot głosowy będzie wbudowany lub dostępny dla każdego urządzenia lub usługi, z którą chcesz się komunikować, i natychmiast wykona to, co mu rozkażesz. Nie będziesz już musiał wyciągać telefonu lub laptopa, aby coś zrobić - zamiast tego wszystko, co musisz zrobić, to powiedzieć na głos, czego potrzebujesz, a wszystko będzie na swoim miejscu.
Przejście na komunikację głosową będzie ostatecznie związane z czymś tak prostym, jak wygoda. We współczesnym świecie ludzie chcą załatwiać sprawy szybko i jak najmniej kłopotliwie, a szybkość liczy się bardziej niż kiedykolwiek wcześniej. Chociaż większość osób związanych z branżą chatbotów obecnie tego nie przewiduje, ci z nas, którzy badają i rozwijają tę technologię, przewidują ogromne implikacje dla operacji biznesowych, marketingu, sprzedaży, budowania marki, dystrybucji produktów i nie tylko. Głos to przyszłość technologii, a my jesteśmy już w połowie drogi.
Udostępnij to na:
Zbuduj własnego spersonalizowanego chatbota AI za darmo
Rozpocznij tworzenie spersonalizowanego bota GPT za pomocą naszego intuicyjnego interfejsu "przeciągnij i upuść".
Zacznij - to nic nie kosztuje! 🤖Nie potrzebujesz karty kredytowej
Bądź na bieżąco z najnowszymi informacjami na temat sztucznej inteligencji chatbots