- ASR 通过机器学习将语音转化为文本,从而实现语音命令和实时转录。
- 现代 ASR 系统已从单独的音素模型(HMM-GMM)转向预测整个单词的深度学习模型。
- ASR 的性能以词错误率 (WER) 来衡量,错误来自替换、删除或插入;WER 越低,转录质量越好。
- 自动识别技术的未来重点是在设备上处理隐私和支持低资源语言。
过去,字幕是可有可无的,但现在,无论我们想不想看,字幕都会在短视频中出现。字幕被嵌入内容中,以至于你会忘记它们的存在。
自动语音识别(ASR)--快速、准确地将口语自动转换为文本的能力--是推动这一转变的技术。
说到人工智能语音代理,我们会想到它的用词、表达方式和说话的声音。
但我们很容易忘记,交互的流畅性取决于机器人对我们的理解。要达到这一点--让机器人在嘈杂的环境中通过 "嗯 "和 "啊 "来理解你--并非易事。
今天,我们将讨论为这些字幕提供动力的技术:自动语音识别 (ASR)。
请允许我自我介绍一下:我拥有语音技术专业的硕士学位,业余时间喜欢阅读 ASR 方面的最新资料,甚至喜欢动手制作。
我将向您解释 ASR 的基本原理,窥探这项技术的奥秘,并猜测这项技术的下一步发展方向。
什么是 ASR?
自动语音识别(ASR)或语音到文本(STT)是通过使用机器学习技术将语音转换成书面文本的过程。
涉及语音的技术通常都会在某种程度上集成 ASR;它可以用于视频字幕、转录客户支持交互以进行分析,或者是语音助手交互的一部分,不一而足。
语音转文本算法
多年来,基础技术不断变化,但所有的迭代都以某种形式包含两个组成部分:数据和模型。
就 ASR 而言,数据是带有标签的语音--口语的音频文件及其相应的转录。
模型是用于预测音频转录的算法。标注数据用于训练模型,使其能够在未见过的语音示例中进行泛化。

这就好比你能听懂一连串的单词,即使你从未听过它们的特定顺序,或者它们是由陌生人说出来的。
同样,随着时间的推移,模型的种类和具体内容也在发生变化,速度和准确性方面的所有进步都归结于数据集和模型的规模和规格。
快速旁观:特征提取
我在关于文本到语音的文章中谈到过特征或表征。它们在过去和现在的 ASR 模型中都有使用。
特征提取--将语音转换为特征--是几乎所有 ASR 管道的第一步。
简而言之,这些特征(通常是频谱图)是对语音进行数学计算的结果,它们将语音转换成一种格式,这种格式强调不同语篇之间的相似性,并尽量缩小不同说话者之间的差异。
也就是说,由两个不同的说话者说出的同一句话,无论他们的声音有多大差异,都会有相似的频谱图。
我指出这一点是为了让大家知道,我将会谈论 "从语音预测转录 "的模型。这在技术上并不正确;模型是根据特征进行预测的。 但是你可以将特征提取部分视为模型的一部分。
早期 ASR:HMM-GMM
隐马尔可夫模型(HMM)和高斯混合模型(GMM)是深度神经网络出现之前的预测模型。
直到最近,HMM 一直在 ASR 领域占据主导地位。
给定音频文件后,HMM 将预测音素的持续时间,而 GMM 将预测音素本身。
这听起来有点倒退,确实是这样:
- HMM:"前 0.2 秒是一个音素"。
- GMM:"那个音素是G,就像Gary(加里)"。
将音频片段转化为文本需要一些额外的组件,即
- 发音词典:详尽列出词汇及其相应的发音。
- 语言模型:词汇表中单词的组合及其共同出现的概率。
因此,即使 GMM 预测的是 /f/ 而不是 /s/,语言模型也知道说话者更有可能说的是 "一分钱买你的想法",而不是foughts。
我们拥有所有这些部件,因为直截了当地说,这条管道没有任何部件是特别好的。
HMM 会误判排列,GMM 会误判相似音:/s/和/f/,/p/和/t/,甚至连元音也会出错。
然后,语言模型会把这些杂乱无章的音素清理成更像语言的东西。
利用深度学习实现端到端 ASR
此后,ASR 管道的许多部分被合并。

无需训练单独的模型来处理拼写、对齐和发音,只需一个模型就能接收语音并输出(希望)拼写正确的单词,如今还能输出时间戳。
(尽管实施过程中通常会使用额外的语言模型对这一输出进行修正或 "重新评分")。
这并不是说不同的因素(如对齐和拼写)没有得到独特的关注。仍有大量文献专注于解决针对性极强的问题。
也就是说,研究人员针对模型性能的特定因素,想出了改变模型结构的方法,如
- RNN-Transducer 解码器以先前的输出为条件,改善拼写。
- 卷积下采样可限制空白输出,提高对齐度。
我知道这是废话。我只是想让我的老板 "你能举个简单明了的例子吗?"
答案是否定的。
不,我不能。
如何衡量 ASR 的性能?
当 ASR 做得不好时,你是知道的。
我见过把"焦糖化"抄写成 "共产主义亚洲人"的。CrispinesstoChris p -你懂的。
我们用数学方法反映错误的指标是词错误率(WER)。WER 的计算公式为

在哪里?
- S是替换字数(预测文本中为匹配参考文本而更改的字词)。
- D是删除的字数(与参考文本相比,输出结果中缺失的字数)。
- I是插入字数(与参考文本相比,输出结果中增加的字数)。
- N 是参考文献的总字数
因此,可以说参考文献是 "猫坐着"。
- 如果模型输出的是 "猫沉下去了",那就是替换。
- 如果模型输出 "cat sat",那就是删除。
- 如果输出 "猫已经坐下",那就是插入语。
ASR 有哪些应用?
ASR 是一个很好的工具。
通过提高关键行业的安全性、可及性和效率,它还帮助我们提高了生活质量。
医疗保健
当我告诉医生我研究语音识别时,他们会说 "哦,就像Dragon 一样"。
在我们将生成式人工智能应用于医疗保健领域之前,医生只能用有限的词汇以每分钟 30 个单词的速度做口头记录。
ASR 在遏制医生普遍存在的职业倦怠方面取得了巨大成功。
医生既要处理堆积如山的文书工作,又要照顾病人。早在 2018 年,研究人员就呼吁在会诊中使用数字转录,以提高医生的医疗服务能力。
这是因为,追溯性地记录会诊内容不仅占用了与病人面对面的时间,而且比实际会诊的记录摘要准确性要低得多。
智能家居
我有一个笑话。
当我想关灯但又不想起身时,我会快速连续拍两下手掌--就像我有一个拍手器一样。
我的搭档从来不笑。
声控智能家居既有未来感,又有可耻的放纵。看起来也是如此。
当然,它们很方便,但在许多情况下,它们能让人们做一些其他方式无法实现的事情。
能源消耗就是一个很好的例子:如果你不得不起身去摆弄表盘,那么对照明和恒温器进行微小的调整在一天中都是不可行的。
语音激活意味着这些细微的调整不仅更容易进行,而且还能读懂人类说话的细微差别。
例如,你说:"能不能把温度调低一点?助理会使用自然语言处理将你的要求转化为温度的变化,并将当前温度、天气预报、其他用户的恒温器使用数据等一系列其他数据考虑在内。
你要做的是人的工作,而把计算机的工作留给计算机去做。
我认为,这比你凭感觉猜测把暖气调低多少度要简单得多。
它还更节能:有报道称,家庭使用声控智能照明可减少 80% 的能源消耗。
客户支持
我们曾在医疗保健领域讨论过这个问题,但转录和总结比人们追溯性地总结互动要有效得多。
同样,它可以节省时间,而且更加准确。我们一次又一次地认识到,自动化可以腾出时间,让人们更好地开展工作。
这一点在客户支持领域体现得淋漓尽致,经过 ASR 强化的客户支持的首次呼叫解决率提高了 25%。
转录和总结有助于根据客户的情绪和询问自动找出解决方案。
语言病理学
ASR 长期以来一直被用作评估和治疗语言病症的工具。
请记住,机器不仅能自动完成任务,还能完成人类无法完成的任务。
语音识别可以检测到人耳几乎无法察觉的语音细微差别,捕捉到受影响语音的具体细节,否则这些细微差别就会被忽视。
ASR 的未来
STT 已经发展得足够好,我们已经不再考虑这个问题了。
但在幕后,研究人员正在努力使它变得更强大、更易获取、更不易察觉。
我从 ASR 的发展中挑选了一些令人兴奋的趋势,并加入了自己的一些想法。
设备语音识别
大多数 ASR 解决方案都在云中运行。我相信你以前一定听说过。这意味着模型运行在其他地方的远程计算机上。
他们这样做是因为你手机的小处理器不一定能运行他们的大模型,否则转录任何东西都要花很长时间。
相反,您的音频会通过互联网发送到运行GPU 的远程服务器上,GPU太重了,您不可能随身携带。GPU 运行 ASR 模型,并将转录结果返回到您的设备。

出于节能和安全的考虑(不是每个人都希望自己的个人数据在网络空间中漂流),大量的研究工作都集中在制造足够小巧的模型上,以便直接在手机、电脑或浏览器引擎等设备上运行。
我曾写过一篇论文,论述如何量化 ASR模型,使其可以在设备上运行。Picovoice是一家加拿大公司,正在开发低延迟的设备上语音人工智能,他们看起来很酷。
设备上的 ASR 可以较低的成本提供转录服务,并有可能为低收入社区提供服务。
成绩单优先用户界面
音频和转录之间的差距正在缩小。这意味着什么?
Premiere Pro 和 Descript 等视频编辑器可让您通过转录本浏览录音:点击一个单词,它就会带您到时间戳。
不得不多拍几遍?选择你最喜欢的,然后以文本编辑器的方式删除其他部分。它会自动为你修剪视频。
只用波形进行这种编辑非常令人沮丧,但如果使用基于文本的编辑器,就会变得非常容易。
同样,WhatsApp 等信息服务也在转录你的语音笔记,并让你通过文本浏览。用手指滑过一个单词,就能进入录音的那一部分。

说来好笑:实际上,在苹果公司发布类似功能的一周前,我就做了类似的东西。
这些例子展示了复杂的底层技术如何为最终用户应用程序带来简洁性和直观性。
公平、包容和低资源语言
战斗尚未胜利。
ASR 在英语和其他资源丰富的常用语言中效果很好。但对于低资源语言来说,情况就不一定如此了。
在方言少数民族、受影响的语言以及其他语音技术的公平性问题上存在差距。
对不起,影响了大家的好心情。这一部分被称为 ASR 的 "未来"。我选择期待一个我们可以引以为豪的未来。
如果我们要进步,就应该共同进步,否则就有可能加剧社会不平等。
今天就开始使用 ASR
无论您的业务是什么,使用 ASR 都是毋庸置疑的,只是您可能想知道如何开始。如何实施 ASR?如何将数据传递给其他工具?
Botpress 附带易于使用的转录卡。它们可以集成到一个拖放流程中,并与数十个应用程序和通信渠道集成。
今天就开始建设。它是免费的。
常见问题
现代 ASR 对不同口音和嘈杂环境的准确度如何?
现代 ASR 系统对主要语言中常见口音的准确性令人印象深刻,在干净的条件下,词错误率(WER)低于 10%,但在口音重、方言或背景噪音大的情况下,准确性会明显下降。谷歌和微软等厂商在各种语音数据上训练模型,但在嘈杂环境中实现完美转录仍是一项挑战。
ASR 在转录专业术语或特定行业术语时是否可靠?
对于专业术语或特定行业术语,ASR 的开箱即用可靠性较低,因为其训练数据通常偏向于一般语音;不熟悉的单词可能会被误译或省略。不过,企业解决方案允许自定义词汇表、特定领域语言模型和发音词典,以提高对医疗保健、法律或工程等领域专业术语的识别率。
免费 ASR 工具和企业级解决方案之间有什么区别?
免费 ASR 工具与企业级解决方案的区别在于准确性、可扩展性、定制化和隐私控制:免费工具通常错误率较高、语言支持有限且有使用上限,而企业级解决方案可提供较低的 WER、特定领域的定制化、集成、服务水平协议 (SLA) 以及处理敏感数据的强大安全功能。
ASR 如何在转录过程中保护用户隐私和敏感信息?
ASR 通过在数据传输过程中加密来保护用户隐私,并提供在设备上运行模型等选项,以避免向外部服务器发送语音数据。许多企业提供商还遵守 GDPR 或 HIPAA 等隐私法规,并能对数据进行匿名处理,以保护敏感信息。
基于云的 ASR 服务与设备上的解决方案相比成本有多高?
基于云的 ASR 服务通常按音频分钟或按使用层级收费,根据准确度和功能的不同,费用从每分钟 0.03 美元到 1.00 美元以上不等;而设备解决方案则涉及前期开发成本和许可费用。