尽管许多业内人士可能会说,科技领域的 "下一件大事 "是区块链、取代人类工作者的人工智能或增强现实技术,但有一项关键技术却被低估了:语音用户界面。
研究表明,到 2020 年,50% 的搜索查询将通过语音搜索完成。然而,这项研究低估了语音用户界面的微小改进有可能彻底改变当前的人机交互模式。这远远超出了搜索的使用范围,语音用户界面将取代图形用户界面和应用程序,或与之深度融合。
语音用户界面可以让人们通过智能扬声器和其他设备,用自然口语与设备进行交流,目前的设备包括 Alexa 或 Google Home。说话是我们与其他人进行交流的基本方式,也是未来我们与计算机进行交流的基本方式。
不过,目前这只是一种边缘观点。
虽然大多数技术专家都认为,语音将继续发展其目前在技术生态系统中的小众角色,或至少随着技术的改进而逐步增长,但我的预测是,语音本身就是重头戏。它将主导我们与软件和设备的交互,甚至变得与图形用户界面同等重要。
如前所述,这并非主流观点。许多业内专家都承认,语音技术仍然是一个新事物,还没有实现产品与市场的完美契合。例如,一些著名的风险投资公司就认为,在普及人工智能之前,语音技术将永远是非常小众的。
由于语音助手目前存在诸多限制,人们很难想象语音会成为下一波技术浪潮。在我看来,如今的语音技术类似于上世纪 90 年代初的拨号网络。那时的上网体验非常糟糕,很难想象带宽改善后会发生什么。领先的思想家们对互联网做出了各种各样的预测,这些预测在事后看来保守得可笑--一些专家甚至预测,互联网对经济的影响不会超过传真机。
如今,人们对语音的期望也同样保守,部分原因是语音体验还很粗糙。人们的假设是,在实现通用人工智能之前,机器人在对话中的表现会很差--在chatbots 能够与用户进行接近人类的对话之前,这项技术永远不会有大的发展。然而,这种关于需要通用人工智能的假设是有缺陷的:当然有办法让chatbots 利用现有技术实现接近人类水平的性能。
对于一般的智能扬声器助手来说,话题的覆盖面非常广泛,它们几乎需要完全自主学习。遗憾的是,目前的技术还不足以自动创建能够处理与人类多轮对话的自学习机器人。如果真有这样的技术,我们就能在谷歌上提出后续问题了。但是,让智能机器人自我构建就像让智能手机应用程序在没有人类参与的情况下自我构建一样,目前根本不可能实现。
还有一种方法可以让机器人实现近乎人类水平的对话:大幅缩小机器人的使用范围。就像应用程序一样,开发人员可以为特定任务创建复杂的机器人,通过手动编程让它们进行有意义的对话。正是有了这类机器人,语音技术才会取得突破性进展:智能扬声器、手机和其他设备将承载这类机器人,为先行者创造巨大商机。
解决当今语音机器人的问题
要想直观地了解当前语音机器人的体验与未来这项技术的不同之处,我们需要先了解为什么语音设备目前相当于使用拨号调制解调器上网。
首先,与语音机器人的基本交互仍然很差。你必须用一个热词专门称呼设备,然后必须等待机器人是否被成功激活。如果激活了,您需要在嘟声后以缓慢但连贯的速度说话,并在遣词造句时包含所有必要的参数--几乎就像在用 SQL 语句说话一样。如果您在任何时候暂停思考,您的交互就会失败,您需要重新开始。
让我们来看一个真实的例子:
你会说 "嘿,谷歌"。
在等待确认设备已激活的过程中会有一个停顿。
如果已激活,则继续进行申请:
"在YouTube上播放凯蒂-佩里的《黑马》" "在客厅电视上播放"
设备在处理您所说的内容时会有另一次延迟。
如果请求成功,电视上就会开始播放视频。
如果不成功,你就必须回到起点再试一次,也许换一种句子结构,换一个词,或者只是试着说得更清楚。
这种体验充满了延迟和潜在错误,可能需要多次重启才能完成任务。此外,语音机器人还不够智能,不会回应相关命令或有关你正在做什么的询问。
与语音机器人互动的新方式
要想象与未来智能机器人的互动,最简单的方法就是想象由人类操作员控制设备,并向其下达操作 YouTube 的具体指令(而不是其他指令)。
第一个区别在于交互速度。您可以以正常的速度与 "人类 "操作员交谈,没有任何停顿或延迟,如果您在说话时暂停也不会有任何问题。您还可以在句子中间引用人类操作员的话,例如,"我想看电视--你知道吗,Alexa,请在 YouTube 上放点什么"。事实上,你可能根本不需要说出他们的名字(热词)就能让他们做出回应。
这种类似人类的机器人还能灵活地与你互动:
你"Alexa,我要看 YouTube"。
亚历克莎"当然,在哪台电视上?"
你"在厨房的电视上 也许是凯蒂-佩里的歌"
亚历克莎"你有特别想听的歌吗?"
你"没有,你有什么建议?"
人类:"'咆哮'、'黑马'?我已经把更多的建议放到屏幕上了。"
你"太好了,谢谢。演奏《冷与热》吧。"
这就是机器人互动的未来:就手头的任务或话题进行无缝、流畅、轻松的对话。想象一下,在浩瀚的机器人世界里,同样有大量廉价、商品化的语音设备。这就好比在每个房间和每台设备旁都站着一个人类操作员。图形用户界面仍将大量存在,但通过机器人使用它们将更加方便。
迈向语音的未来
如今,在地铁站、机场和超市等场所,经常可以看到员工为使用自助触摸屏的人提供帮助,例如,在机场帮助您使用值机机领取登机牌的人。但设想一下,这个人实际上可以直接与值机应用程序对接,也就是说,在办理值机手续的中途,您可以告诉机器您想从最初选择的位置上更改座位,应用程序就会为您显示相关屏幕,而这一切都不需要人工助手的帮助。
这就是未来:语音机器人将嵌入或接入你想要使用的所有设备或服务,并立即执行你的命令。你将不再需要拿出手机或笔记本电脑来完成一件事--相反,你只需大声说出你的需求,一切就会水到渠成。
向语音的转变归根结底是为了方便。在我们的现代社会,人们希望以最少的麻烦快速完成事情,速度比以往任何时候都更重要。虽然大多数与聊天机器人行业相关的人目前还没有意识到这一点,但我们这些正在研究和开发这项技术的人预见到了它对企业运营、市场营销、销售、品牌推广、产品分销等方面的巨大影响。语音是技术的未来,而我们已经成功了一半。