雖然許多業內人士可能會爭辯說,科技領域的“下一件大事”是區塊鏈、人工智慧取代人類工人或增強現實,但有一項關鍵技術被低估了:語音用戶介面。
研究表明,到 2020年,50%的搜索查詢 將通過語音搜索完成。然而,這項研究低估了語音UI的小改進有可能徹底改變當前的人機交互範式。這遠遠超出了搜索用例,而是語音UI取代或深度集成圖形使用者介面和應用程式。
語音UI允許人們通過智慧揚聲器和其他設備以自然口語與設備進行通信,這些設備目前在Alexa或Google Home等設備中可以找到。說話是我們與他人一起完成工作的基礎,也是我們未來用計算機完成工作的方式的基礎。
然而,這目前是一個邊緣意見。
雖然大多數技術專家都同意語音將繼續發展其在技術生態系統中的當前利基角色,或者至少隨著技術的進步而逐步增長,但我的預測是語音本身就是主要事件。它將主導我們與軟體和設備的交互,甚至變得與圖形使用者介面一樣重要。
如前所述,這不是主流意見。許多行業專家認識到,語音仍然是一個新鮮事物,還沒有實現完美的產品市場契合度。例如,一些著名的VC認為,在實現通用人工智慧之前,語音技術將永遠是非常小眾的。
由於 語音助手目前存在許多局限性,人們很難將語音想像成下一波技術浪潮。在我看來,今天的語音類似於90年代初的撥號網路。當時,在線體驗非常糟糕,以至於很難想像一旦頻寬提高會發生什麼。領先的思想家對互聯網做出了各種各樣的預測,事後看來,這些預測看起來非常保守——一些專家甚至預測,它 對經濟的影響不會比傳真機大。
今天人們對語音的期望同樣保守,部分原因是語音體驗仍然很粗糙。假設是,在實現通用人工智慧之前,機器人在對話中的表現會很差——而且技術永遠不會很好,直到 chatbots 能夠與用戶進行接近人類的對話。然而,這種關於廣義人工智慧需求的假設是有缺陷的:肯定有辦法得到 chatbots 使用當前技術實現接近人類水準的性能。
對於一般的智慧音箱助手來說,主題覆蓋面非常廣泛,以至於它們幾乎需要完全自學。不幸的是,目前的技術還不足以自動創建可以處理與人類的多輪對話的自學機器人。如果這項技術確實存在,我們將能夠在谷歌上提出後續問題。但是,讓智能機器人自己構建就像試圖讓智慧手機應用程式在沒有任何人類參與的情況下構建自己一樣——目前這根本不可能。
還有另一種方法可以實現與機器人的近乎人類水平的對話:大幅縮小它們的範圍。就像應用程式一樣,開發人員可以為特定任務創建複雜的機器人,手動程式設計它們以參與有意義的對話。正是有了這些機器人,語音的突破才會到來:智慧揚聲器、手機和其他設備將託管這些機器人,為把事情做好的先行者創造巨大的機會。
解決當今語音機器人的問題
為了直觀地掌握當前語音機器人的體驗與這項技術未來的樣子之間的差異,我們需要首先瞭解為什麼語音設備目前相當於在撥號調製解調器上上網。
首先,與語音機器人的基本交互仍然很差。您必須專門使用熱詞稱呼設備,之後您必須等待以查看機器人是否成功啟動。如果它被啟動,你需要在嗶嗶聲後以緩慢但一致的速度說話,並制定你的句子以包含所有必要的參數——幾乎就像你在SQL語句中說話一樣。如果你在任何時候停下來思考,你的互動就會失敗,你需要回到起點。
讓我們看一個現實生活中的例子:
你說,“嘿,谷歌。
在等待確認設備已啟動時會暫停。
如果它已被啟動,請繼續執行您的請求:
“在YouTube上播放Katy Perry的'Dark Horse',在客廳的電視上。
當設備處理您所說的內容時,還有另一個延遲。
如果您的請求成功,您的電視上將開始發生某些事情,並且視頻將播放。
如果不成功,你必須回到開頭再試一次,也許用不同的句子結構,不同的單詞,或者只是想說得更清楚。
這種體驗充滿了延遲、潛在錯誤,並且可能需要多次重新啟動才能完成任務。此外,語音機器人還不智慧,不會回應有關您正在執行的操作的相關命令或查詢。
與語音機器人交互的新方式
想像與未來智慧機器人互動的最簡單方法是想像一個人類操作員控制設備,並專門就操作YouTube(僅此而已)給出指令。
第一個區別在於交互速度。您可以以正常速度與「人類」操作員交談,沒有暫停或延遲回應,如果您在說話時暫停也沒有問題。你也可以在句子中間提到人類操作員——例如,“我想看電視——你知道嗎,Alexa,請在YouTube上放點東西。事實上,你可能根本不需要說出他們的名字(熱詞)來讓他們做出回應。
這個類似人類的機器人在如何與你互動方面也很靈活:
你:“Alexa,我想看YouTube。
Alexa:“當然,在哪台電視上?”
你:“在廚房的電視上——也許是凱蒂·佩里(Katy Perry)的作品。
Alexa:“你心裡有一首特別的歌嗎?”
你:“不,你能建議什麼?
人類:“'咆哮','黑馬'?我在螢幕上提出了更多建議。
你:“太好了,謝謝。玩『冷熱』。
這就是機器人交互的未來:無縫、流暢且易於討論手頭的任務或主題。想像一下,這些機器人的廣闊宇宙,以及同樣廣闊的廉價、商品化語音設備。這就像每個房間和每個設備旁邊都有一個人類操作員站立。仍然會有很多圖形 UI,但它們會更容易通過機器人使用。
邁向語音的未來
如今,在地鐵站、機場和超市等地方,員工經常為使用自助觸摸屏的員工提供説明——例如,説明您使用值機在機場領取登機牌的人。然而,想像一下,這個人實際上可以直接與值機應用程式介面——這意味著在辦理登機手續的過程中,你可以告訴機器你想從你最初選擇的位置改變你的座位,應用程式會為你打開相關的螢幕——所有這些都不需要人類助理的説明。
這就是未來:語音機器人將嵌入或訪問您想要參與的每個設備或服務中,並立即執行您的命令。你不再需要拿出你的手機或筆記型電腦來完成一些事情 - 相反,你需要做的就是大聲說出你需要什麼,一切都會從那裡到位。
語音的轉變最終將涉及像便利這樣簡單的事情。在我們的現代世界中,人們希望以最少的麻煩快速做事,而速度比以往任何時候都更加重要。儘管大多數與聊天機器人行業相關的人目前還沒有預料到它,但我們這些正在研究和開發該技術 的人 預見到對業務運營、行銷、銷售、品牌、產品分銷等的巨大影響。語音是技術的未來,我們已經走了一半。