什麼是語音助手?
語音助手是可以理解和回應以自然語言說出的命令的軟體。它們也可以稱為智慧助手,這可能是更準確的描述,因為在許多情況下,它們可以通過聊天與文本進行交互。當然,它們也被稱為機器人。
近年來, 語音助手 的採用開始起飛,特別是以Alexa和Google Home等語音啟動家庭助理的形式出現。
這些產品允許使用者命令軟體僅用他們的聲音做事。例如,使用者只需命令智慧語音助手即可在Spotify上播放音樂或在Youtube上播放視頻。
個人助理設備是通過人工智慧的突破而實現的,特別是在自然語言處理領域。
語音助手如何使用NLP進行語音識別?
自然語言處理 是一種使計算機能夠理解口語短語背後的意圖的技術。這與將口語轉錄為文本的語音辨識不同。語音控制的數位助理當然也需要語音辨識。語音辨識將口語轉錄為文本,自然語言處理確定文本背後的使用者意圖。
自然語言處理是重要和有用的,因為人類使用具有相同含義的不同短語來指導語音助手。例如,他們可以說,「在Youtube上播放X」,或者「請在Youtube上找到X並播放它」或「在Youtube上請播放歌曲X」等。
NLP 可以檢測到所有這些短語具有相同的含義。這對人類很有用,除了他們可以通過語音與設備交互之外,因為他們不需要記住確切的命令或語法來操作設備。對於開發人員來說,NLP 也非常容易學習如何 設置 ,因此它是任何 機器人框架的重要組成部分。
語音助手的優缺點
正如任何真正嘗試使用語音助手的人都會告訴你的那樣,它們對某些事情有好處,但並不完美。例如,你不能和他們進行類似人類的對話。如果您嘗試,對話將很快破裂。
僅僅通過與他們互動也很難找出他們能做什麼或不能做什麼。事實證明,語音是一個糟糕的介面,無法快速檢索大量資訊。例如,掃描網頁是快速獲取資訊的更好方法。
他們非常擅長的是一次性命令或問題。它們效果很好,尤其是在使用者確切知道他們想要的結果的情況下,例如,他們想在youtube上播放他們知道名稱的特定視頻,並且問題的答案是一個簡單的短語,例如回答「我的城市的溫度是多少?
我們經常忘記那些語音助手只是另一個軟體介面。我們稱他們為助手,因為您可以與他們交談,因此很容易將它們概念化為具有某種類似人類的品質。我們必須用熱詞「嘿谷歌」、“Alexa”、“Siri”來稱呼它們的名字來激活它們,這一事實進一步加強了這一想法。如果我們沒有一個熱詞,他們就不知道什麼時候和他們說話,因此什麼時候該回應。熱詞確實洗腦了我們,讓我們更多地將語音助手視為一種近乎人類的助手,而不是軟體介面。它洗腦了年幼的孩子,讓他們相信谷歌或Alexa是某種飲食,當他們發現這些是世界主導的公司時,可能會給他們帶來一些持久的傷害。
實際上,語音助手只是另一個軟體介面,即等效於圖形介面。圖形介面的作用與語音介面類似,但不能以相同的方式人性化。
當然,語音介面的使用與圖形介面不同。事實證明,除了圖形介面之外,通常還使用語音介面,但反過來則不然。
這部分是因為圖形介面已經為大多數應用程式構建,因此向它們添加語音介面允許使用者以另一種方式與軟體交互。就像讓語音助手播放YouTube視頻一樣。您可以使用圖形介面播放視頻,但這樣做會很慢。
圖形介面比語音介面更完整也是有爭議的,因為使用語音在圖形介面上可以輕鬆完成某些任務是非常困難的。要理解這一點,想像一下試圖讓您的同事通過電話向他們提供說明來為您構建電子錶格,而不是使用圖形介面自己構建電子錶格。
雖然語音介面通常不是不可或缺的,但在某些情況下,它們確實提供了新的便利水準。這通常是您可以在必要時避免的便利,除非在極少數情況下,免提交互是必不可少的。
語音助手的未來
鑒於它們的局限性,問題是語音助手在未來是否會變得更加重要,或者它們是否會繼續成為邊緣產品。
我們很清楚,由於一個原因,語音助手將在未來變得更加流行和廣泛使用,它們將與圖形用戶介面完全集成。
雖然很難用語音替換圖形使用者介面,但將語音和圖形介面結合起來是非常可行的。目前,Google Assistant(允許網頁提供上下文)和Bixby正在非常有限的程度上完成此操作。
我們稱之為「組合」介面的下一代介面將圖形,文本和語音集成到使用者的最佳體驗中。這不僅允許使用者更快地完成任務,並且學習曲線更少(因為語音允許使用者在不知道確切命令的情況下與軟體進行交互),而且人工智慧監控交互將使介面自行發展並變得更好。
一旦應用從數千次交互中瞭解了最佳行動方案,首次啟動時的語音指令將有所不同。
考慮如何完全採用語音也需要改變用戶行為也很有趣。現在,人們在智慧手機上輸入文本和使用圖形介面的次數遠遠超過他們對著手機說話和使用語音助手。
這是因為語音辨識技術並不完美。幾十年來,手機和計算機上一直有語音快捷方式,但這些快捷方式尚未被廣泛使用,因為錯誤率如此之高,以至於在新穎性消失后,解釋錯誤的痛苦超過了便利的好處。
想像一下,如果語音辨識是完美的,沒有錯誤率。
在這種情況下,人們“輸入”電子郵件(例如,使用語音)比在智能手機上打字要快得多。一旦達到這個臨界點,語音助手將無處不在,用於這些類型的任務。
為了讓機器人同時起飛NLP和語音辨識技術,需要在高水平上運行。雖然語音辨識已經運行良好,但正如我們所討論的,NLP 僅適用於狹窄的領域。
有趣的是,由於顯而易見的原因,語音識別在狹窄的領域中效果要好得多,使用者可能說的單詞要少得多。
這意味著我們已經處於能夠 創造 chatbots 在一個狹窄的領域里幾乎是完美的。只需收聽Google Duplex Demos。
一旦發現和相關問題得到解決,這將導致語音的採用速度非常快。
語音優先
這個想法是,當有人需要説明時,語音將是第一個呼叫埠。
在語音第一世界中,設備將變得更加不可見,因為人們只需要查看它們以執行他們無法使用語音完成的任務。
人們不會在客廳里只有一個設備,他們會在每個房間都有一個便宜的語音設備。這些設備將相互連接,連接到物聯網設備以及智慧手機和計算機。其中一些設備可能能夠在牆上投影圖像。
人們將能夠在淋浴或刷牙時提出問題或發出命令。他們不必記住要告訴樓下語音機器人的事情。
將會有更好的方法來發現功能和「培訓」人類如何有效地使用機器人。
雖然目前語音助手設備存在許多問題,但這些問題中的大多數都與它們的使用方式有關,而不是底層技術。我們相信,在短時間內,語音殺手級應用程式將會出現,這將是軟體使用方式的改變遊戲規則的事件。這也需要語音技術和協定的一些標準化,但這些障礙不會長期阻礙進展。
我們期待一個終極便利的世界,語音設備幾乎可以在任何地方或時間提供説明。