- 文本到语音(TTS)利用神经网络将文本转换为栩栩如生的语音,以获得自然的韵律和语音质量。
- TTS 管道可处理文本、分析语言、生成频谱图并使用声码器合成音频。
- TTS 为聊天机器人、导航系统、娱乐、医疗保健工具和包容性教育提供动力。
- 高质量的 TTS 可提高各行业的清晰度、品牌声音、可及性和用户信任度。
DutchChatGPT 说话带德国口音(有时)。如果是故意的,那就太刻薄了。如果不是,那就很迷人。
无论如何,可以肯定地说,人工智能语音助手与微软的 Sam 相比已经有了长足的进步。事实上,自从几年前我学习语音技术以来,人工智能语音助手已经取得了长足的进步。
我来告诉你们我们的着陆点。
至少从 1968 年《2001 太空漫游》(2001: A Space Odyssey)中机器人 HAL的出现开始,我们就一直在神话合成语音。

它不再是高高在上的未来主义,如今已成为标准配置:89% 的消费者会根据设备是否支持语音功能来选择设备。
换句话说,"不要只是帮助我,还要跟我说话"。
在本文中,我将讨论文本到语音技术--将文本转换为语音。我将介绍这项技术在各行各业的不同应用方式。
什么是文本到语音?
TTS 是将文本转换为合成口语音频的过程。早期的 TTS 系统是通过机械方法近似人类声道并拼接音频录音。如今,TTS 系统使用深度神经网络算法来提供动态的、类似人声的语音。
根据不同的使用情况,有不同的模式,例如对话模式的实时生成、可控表达以及复制声音的能力。
文本到语音 "如何工作?
TTS 有 3 个关键步骤:首先,对输入文本进行处理,拼出符号、表达式和缩略语。然后,经过处理的文本通过神经网络将其转换为声音表示(频谱图)。最后,将声学表征转化为语音。
正如我所提到的,研究人员已经循环使用了多种 TTS 方法。我们目前采用的是基于神经网络的语音合成技术(我认为这种技术还将继续使用一段时间)。
对发音、语速、语调等影响语篇的语言现象层进行建模是一项复杂的工作。

即使神经网络具有近乎神奇的黑盒子功能,TTS 系统也需要依靠一系列组件来逼近语音。
新技术层出不穷,大有赶超前辈之势。
大多数 TTS 系统中都有这样或那样的几个通用组件。
1.文本处理
文本处理是 TTS 系统确定要说出哪些单词的步骤。缩写、日期和货币符号会被拼写出来,标点符号也会被去掉。
这并不总是小事。博士"是指医生 还是司机?CAD 呢?加元还是计算机辅助设计?
自然语言处理(NLP)可用于文本处理,帮助根据周围的语境预测正确的解释。它会评估模棱两可的术语(例如 "Dr.")在整个句子中的位置,因此在 "Dr. Perron 建议不要这样做 "这句话中,NLP 会将dr.解为doctor。
2.语言分析
一旦文本得到处理,模式就会从 "我应该说什么?"转变为 "我应该怎么说?"
语言分析是 TTS 的一部分,负责从音调、语调和持续时间的角度解释句子应该如何表达。换句话说
- 每个音、音节或单词应该有多长?
- 语调应该升高?抑扬?
- 强调的是哪个词?
- 音量的变化如何反映出预期的情感?
行文为何重要
故事时间:我曾为一个建立 TTS 模型的团队做过短暂的咨询工作。我发现前音对句子可懂度的影响有多大。我给你们演示一下。
以下是 3 个句子 "哇,你没想到吧?
第一个很棒。哇 "之后的停顿,"期待"(ex-PEC-ting)第二个音节的上扬。10/10.
第二个音节在最后一个词("......期待着那个")上转了个弯,勉强抓住了问句的特点。除此之外,其余音节的长度基本相同,音量和音调也没有变化。我会告诉我的客户 "开始画图"。
最后一个例子很有意思:whoah "很好听--响亮、绵长、音调下降。在 "were you "的过程中,问题的音调不断上升,而且基本上自始至终保持稳定的音调。
许多中庸的 TTS 系统就是止步于此:简单明了,表达似是而非。问题是,这并不是你会说的方式--至少在大多数情况下不是。
在较早的系统中,这些品质是由不同的组件预测的:一个模型可以计算出每种声音应该持续多长时间,另一个模型可以计算出音调应该如何升高和降低。
如今,事情变得更加模糊。
神经网络倾向于通过内化大量训练数据集的细微差别来自行学习这些模式。
3.声学建模
声学建模是将规范化文本(以及预测的语言特征(如有))通过神经网络,输出中间表示。
频谱图和语音表征
中间表示法通常是频谱图,即音频信号的频率-时间表示法,不过这种表示法正在发生变化。
下面是 TTS 模型根据我们的输入文本 "哇,你在等这个吗?

这幅二维图像实际上是 146 个垂直切片,每个切片包含 80 个频率。较强的频率较亮,较弱的频率较暗。
下面是第 10 个时间步长(或列)向右旋转 90 度后的样子:

你可以看到各个频率及其能量。
乍一看,频谱图并不起眼,但这里却有一些明显的语言现象:
- 那些波纹清晰的线条是元音或类似元音的声音,如/w/、/r/和/l/。
- 黑点代表沉默。这些可能是标点符号的停顿。
- 高处的能量团代表噪音,比如你在 /s/、/sh/ 和 /f/ 中听到的噪音
事实上,如果你仔细观察,甚至可以在频谱图中把单词排成一行。

各种形式的频谱图是语音技术中广泛使用的表示法,因为它们是原始语音和文本之间很好的中间体。
由不同说话人说的同一句话的两段录音,波形会有很大不同,但频谱图却非常相似。
4.合成音频(Vocoding)
合成阶段是将频谱图转换成音频的地方。
进行这种转换的技术称为声码器。它们是经过训练的神经网络模型,可根据频谱图表示重建语音信号。
将表示法和语音信号建模分成不同模块的原因在于控制:前者是为了准确模拟发音和发声,后者则是为了保证发声的风格和逼真度。
通过频谱图,我们可以分辨 /s/ 与 /sh/,或 /ee/(如heat)与 /ih/(如hit),但风格和个性则来自声码器产生的细节。
下面是不同声学模型和声码器组合的比较。它说明了研究人员如何混合搭配声学模型和声码器,并优化以获得最佳的整体效果。
但同样,与所有其他组件一样,我们看到频谱仪正逐渐被淘汰,转而采用一体化型号。
TTS 的使用案例有哪些?
生成动态口语的能力是各行各业必不可少的工具。
它不仅是复杂的机器人仆人,还能帮助我们实现高效、无障碍和安全。
聊天机器人和语音助手
你知道我要说的😉。
在理解您的指令、更新您的杂货清单和设置约会之间,人工智能代理中合成语音的复杂性和重要性很容易被认为是理所当然的。
一个好的代理(即一个可用的代理)必须拥有符合要求的声音:既要有足够的亲和力来征求指令,又要有足够的人情味来让用户相信它能满足他们的要求。
在决定人工智能助手听起来是否 "正确 "的一瞬间,要赢得用户的青睐,需要进行大量的研究和工程设计。
在业务方面:您的聊天机器人代表着您的品牌。TTS 技术的改进意味着可以选择更好的语音品牌和更有效的客户服务。
导航和运输
没有什么比在驾驶过程中,GPS 无法理解地念错街道名称更能让你意识到良好 TTS 的重要性了。
GPS 导航是 TTS 大显身手的一个很好的例子:我们的眼睛被占用了,提供声音信息不仅是为了方便,也是为了安全。
机场和公共交通系统也是如此。对于火车站和机场航站楼等设计复杂、人流量大的系统来说,合成语音至关重要。
如果没有 TTS,我们就只能依靠现场广播,而这种广播往往是匆忙的、难以理解的,或者是拼接在一起的人名、终端、时间等的录音,老实说很难听。
娱乐与媒体
随着合成语音技术的改进,旁白和多语种媒体变得更加可用。
语音技术不是取代人才,而是帮助增强戏剧表演。
瓦尔-基尔默(Val Kilmer)因喉癌失声,但他却在《头号玩家》(Top Gun:Maverick》(2022 年)中,瓦尔-基尔默用他的原声带来了感人至深的表演,这要归功于人工智能。
TTS 还能让游戏开发人员为非玩家角色(NPC)提供多种多样、富有表现力的语言,而这在其他情况下是不可能实现的。
医疗保健
TTS 的改进意味着无障碍环境的全面改善。
老年人护理技术可同时解决陪伴和帮助问题。这项技术依赖于 TTS 提供的定制功能:体贴的音调、可变的速度和细致的语调都是提供有效和有尊严的帮助的一部分。
TTS 还被用于提高年轻人的可及性。
Acapela 集团主要为有语言障碍的儿童开发技术。合成语音可以增强他们的表达能力和独立性,同时保留他们的发音特点。
获取最适合您需求的 TTS
无论您从事哪个行业,可以肯定的是,语音人工智能都与您息息相关。您实施的 TTS 实际上代表了您的业务,因此它必须可靠且可定制。
Botpress 可让您构建功能强大、高度可定制的机器人,并提供一整套集成和跨所有常见通信渠道的部署。您的语音代理不仅能给人留下深刻印象,还能发挥作用。
今天就开始建设。它是免费的。
常见问题
是否存在 TTS 系统难以支持的语言或方言?
是的,有些语言和方言是 TTS 系统难以支持的,尤其是缺乏大量语音和文本记录数据集的低资源语言。地区方言、声调语言和土著语言等变体往往会带来挑战,因为它们需要细微的发音规则和前音,而标准模型尚未对其进行训练。即使是广泛使用的语言,方言差异也会导致发音错误或语音听起来不自然。
TTS 语音在音调、速度和情感方面的可定制程度如何?
如今的 TTS 语音在音调、速度和情感方面都可以高度定制,这要归功于现代神经网络架构,它允许对前奏和风格进行精细控制。许多商用 TTS 系统允许用户调整语速、语调模式、音量和表情语调,以适应不同的语境,如平静的旁白、激动的公告或感同身受的对话。不过,不同厂商的控制程度各不相同--有的只提供基本的速度和音调滑块,而有的则提供详细的情感表达和声音音色参数。
TTS 系统处理语音数据的安全性如何?
TTS 系统处理的语音数据的安全性在很大程度上取决于提供商和部署方法。基于云的 TTS 服务通常会对传输中和静止时的数据进行加密,但如果没有适当的协议和合规措施(如 GDPR 或 HIPAA),向外部服务器发送敏感信息仍会带来隐私风险。内部部署或边缘部署可提供更高的安全性,因为音频和文本永远不会离开组织的基础设施,从而减少了对第三方的风险敞口。
为企业实施高质量 TTS 解决方案的成本有多高?
为企业实施高质量的 TTS 解决方案,从使用量适中的云 API 每月dollars ,到定制语音开发或企业内部部署的数万或dollars 不等。成本通常包括许可费、按字符或按分钟付费的使用成本、集成和开发费用,如果创建自定义语音,还可能包括语音人才费。小型企业通常从基于订阅的服务开始,而大型企业可能为了品牌一致性和隐私性而投资定制解决方案。
建立高质量的 TTS 语音需要多少训练数据?
建立高质量的 TTS 语音通常需要几小时到几十小时的干净、专业的语音录制,最好是在一致的录制条件下,由同一个说话者录制。Tacotron 或 FastSpeech 等现代神经 TTS 系统只需 2-5 个小时的数据就能获得不错的质量,但要获得高度自然、富有表现力和稳健的语音,通常需要 10-20 个小时或更长时间。要实现语音克隆或极富表现力的语音,需要更大的数据集和涵盖各种风格、情感和语境的不同录音。