什么是语音助手?
语音助手是一种可以理解和响应自然语言命令的软件。它们也可以被称为智能助手,这可能是一个更准确的描述,因为在许多情况下,它们可以通过聊天与文本进行交互。当然,它们也被称为机器人。
近年来,语音助手的应用迅速发展,尤其是以声控家庭助手(如 Alexa 和 Google Home)的形式出现。
这些产品可以让用户通过语音命令软件做事。例如,用户只需对智能语音助手发出指令,就能在 Spotify 上播放音乐或在 Youtube 上播放视频。
个人助理设备的问世得益于人工智能的突破,特别是在自然语言处理领域。
语音助手如何利用 NLP 进行语音识别?
自然语言处理是一种能让计算机理解口语背后意图的技术。它不同于将口语转录为文本的语音识别。当然,声控数字助理也需要语音识别。语音识别将口语转录为文本,自然语言处理则确定文本背后的用户意图。
自然语言处理非常重要和有用,因为人类会使用具有相同含义的不同短语来指示语音助手。例如,他们可以说 "在 Youtube 上播放 X",或 "请在 Youtube 上找到 X 并播放",或 "请在 Youtube 上播放歌曲 X "等。
NLP 可以检测到所有这些短语具有相同的含义。这对人类非常有用,因为他们可以只用语音与设备互动,而无需记住操作设备的确切命令或语法。对于开发人员来说,NLP 的设置也非常容易,因此它是任何机器人框架的重要组成部分。
语音助手的优缺点
任何真正尝试过使用语音助手的人都会告诉你,它们在某些方面很好,但并不完美。例如,你无法与它们进行类似人类的对话。如果你尝试,对话很快就会中断。
此外,也很难通过与它们的交互来了解它们能做什么或不能做什么。事实证明,"语音 "是快速检索大量信息的糟糕界面。例如,扫描网页是快速获取信息的更好方法。
它们最擅长的是一次性命令或问题。例如,用户想在 youtube 上播放一个他们知道名字的特定视频,而问题的答案只是一个简单的短语,如 "我所在城市的气温是多少"。
我们常常忘记,语音助手只是另一种软件界面。我们之所以称它们为助手,是因为你可以对它们说话,因此很容易将它们概念化为具有某种类似人类的特质。我们必须用热词 "嘿,谷歌"、"Alexa"、"Siri "来呼叫它们的名字,才能激活它们,这进一步强化了这种想法。如果我们没有热词,它们就不会知道何时有人在对它们说话,因此也就不知道何时该做出回应。热词确实会给我们洗脑,让我们认为语音助手更像是一种近乎人类思维的助手,而不是一个软件界面。这也会给年轻的孩子们洗脑,让他们相信谷歌或 Alexa 是某种 "小精灵",当他们发现这些都是主宰世界的公司时,这可能会给他们造成持久的伤害。
实际上,语音助手只是另一种软件界面,例如等同于图形界面。图形界面的作用与语音界面类似,但不能以同样的方式实现人性化。
当然,语音界面的使用与图形界面不同。事实证明,语音界面通常是图形界面的补充,而不是相反。
这部分是因为大多数应用程序都已建立了图形界面,因此在其中添加语音界面可以让用户以另一种方式与软件进行交互。比如,让语音助手播放一段 youtube 视频。你可以使用图形界面播放视频,但这样做会比较慢。
图形界面也可以说比语音界面更完整,因为有些任务用语音很难完成,而用图形界面就可以轻松完成。要理解这一点,可以想象一下,让你的同事通过电话发出指令为你制作电子表格,与自己使用图形界面制作电子表格相比。
虽然语音界面通常不是不可或缺的,但在某些情况下,它们确实能提供新的便利。除了在极少数情况下,免提交互是必不可少的。
语音助手的未来
鉴于语音助手的局限性,问题是语音助手在未来会变得更加重要,还是会继续成为边缘产品。
我们可以清楚地看到,语音助手在未来将变得更加流行和广泛,原因只有一个,那就是语音助手将与图形用户界面完全集成。
虽然语音很难取代图形用户界面,但将语音和图形界面结合起来却是非常可行的。谷歌助手(允许网页提供上下文)和 Bixby 就在非常有限的范围内做到了这一点。
我们称之为 "组合 "界面的下一代界面将把图形、文本和语音整合到一起,为用户带来最佳体验。这不仅能让用户更快地完成任务,减少学习曲线(因为语音能让用户在不知道准确命令的情况下与软件进行交互),而且人工智能对交互的监控也能让界面自我进化,变得更好。
当应用程序从数以千计的交互中了解到什么是最佳操作方案后,首次启动应用程序时的语音指令就会以不同的方式发挥作用。
同样有趣的是,要想全面采用语音,用户行为必须发生改变。现在,人们在智能手机上输入文字和使用图形界面的次数远远多于对着手机说话和使用语音助手的次数。
这是因为语音识别技术并不完美。几十年来,手机和电脑上一直都有语音快捷键,但这些快捷键并没有得到广泛应用,因为出错率太高,新奇感过后,弥补错误的痛苦超过了便利带来的好处。
想象一下,如果语音识别是完美的,没有错误率。
例如,在这种情况下,人们用语音 "键入 "电子邮件要比用智能手机打字快得多。一旦达到这个临界点,语音辅助将在这类任务中无处不在。
要想让机器人起飞,NLP 和语音识别技术都必须达到很高的水平。虽然语音识别技术已经运行得非常好,但正如我们所讨论的,NLP 只在狭窄的领域运行良好。
有趣的是,语音识别在狭义领域的效果要好得多,原因显而易见,用户可能说的话要少得多。
这意味着,我们已经能够在狭窄的领域内创建几乎完美的 chatbots 。听听 Google Duplex 演示就知道了。
一旦发现问题和相关问题得到解决,语音技术的应用将极为迅速。
声音第一
我们的想法是,当有人需要帮助时,语音将成为第一个呼叫端口。
在 "语音优先 "的世界里,设备将变得更加隐蔽,因为人们只需看一眼就能完成无法用语音完成的任务。
人们的客厅里将不再只有一台设备,而是每个房间都有一台廉价的语音设备。这些设备将相互连接,并与物联网设备、智能手机和电脑相连。其中一些设备还能在墙上投射图像。
人们可以在洗澡或刷牙时提问或下达指令。他们不必记住要告诉楼下语音机器人的事情。
将有更好的方法来发现机器人的功能,并 "培训 "人类如何高效地使用机器人。
虽然目前语音助理设备存在很多问题,但其中大部分问题都与使用方式有关,而不是底层技术。我们相信,在很短的时间内,语音的杀手级应用就会出现,这将改变软件的使用方式。这还需要对语音技术和协议进行一定程度的标准化,但这些障碍不会长期阻碍进展。
我们期待着一个极致便利的世界,在这个世界里,语音设备几乎可以随时随地提供帮助。