- 文字轉語音 (TTS) 使用神經網路將文字轉換成逼真的語音,以達到自然的語調和語音品質。
- TTS 管道可處理文字、分析語言學、產生頻譜圖,並使用聲碼器來合成音訊。
- TTS 為聊天機器人、導航系統、娛樂、醫療保健工具和包容性教育提供動力。
- 高品質的 TTS 可改善各產業的清晰度、品牌語音、可及性和使用者信任度。
DutchChatGPT 說話帶有德國口音(有時)。如果是故意的,那就太刻薄了。如果不是,那就很迷人。
無論如何,可以說AI 語音助理與Microsoft 的 Sam 相比,已經有了長足的進步。事實上,自從我幾年前研究語音技術以來,它們已經走過了相當長的一段路。
我在這裡告訴你我們的落腳點。
自從《2001:太空漫遊》(2001: A Space Odyssey)中的機器人 HAL出現後,我們至少在 1968 年就開始神化合成語音。

語音功能從來都不是高高在上的未來主義,現在已經成為標準配備:89% 的消費者會以是否支援語音功能作為選擇裝置的條件。
換句話說:「不要只是幫我;跟我說說話」。
本文將討論文字轉語音 (text-to-speech) - 將文字轉換為口語音訊。我將談談在引擎蓋下發生的事情,以及這項技術在各行各業的不同使用方式。
什麼是文字轉語音?
TTS是將文字轉換成合成口語音訊的過程。早期的版本是以機械方式近似人類聲道,並將錄音拼接在一起。如今,TTS 系統使用深度神經網路演算法來提供動態、類似人類的語音。
根據不同的使用情況有不同的模式,例如對話模式的即時產生、可控制的表達方式,以及複製聲音的能力。
文字轉語音」如何運作?
TTS 有三個關鍵步驟:首先,處理輸入的文字以拼出符號、表達方式和縮寫。然後,經過處理的文字會經由神經網路轉換成聲音表達 (頻譜圖)。最後,再將聲音表達轉換成語音。
就像我剛才提到的,研究人員已經循環過許多 TTS 方法。我們所採用的方法(我估計還會沿用一段時間)是基於神經網路的語音合成。
建模影響語句的語言現象層次 - 發音、速度、語調 - 是一項艱鉅的任務。

即使神經網路具有類似黑盒子的神奇功能,TTS 系統仍需依賴許多元件來近似語音。
我們很難準確定位哪一種管道;新技術不斷湧現,勢將淘汰舊技術。
大多數 TTS 系統中都有幾種形式的一般元件。
1.文字處理
文字處理是 TTS 系統決定要說哪些字的步驟。縮寫、日期和貨幣符號會被拼出,標點符號則會被消除。
這並不總是小事。Dr." 是指醫生 還是司機?CAD 呢?加元還是電腦輔助設計?
自然語言處理(NLP) 可用於文字處理,以根據周遭的上下文協助預測正確的詮釋。它會評估模棱兩可的詞彙 (例如「Dr.」) 在整個句子中的位置,因此在「Dr. Perron 建議不要這樣做」這句話中,NLP 會將dr.解釋為doctor。
2.語言分析
一旦處理了文字,模式就會從 「我該說什麼?」轉換為 「我該怎麼說?」
語言分析是 TTS 負責詮釋句子在音調、語氣和長度方面應該如何傳達的部分。換句話說:
- 每個音、音節或字應該有多長?
- 語調是否應該升高?下降?
- 強調哪一個字?
- 音量的變化如何反映出預期的情緒?
為什麼 Prosody 很重要
故事時間:我曾為一個建立 TTS 模型的團隊做過短暫的顧問工作。我發現前語對句子的可理解性有多大的影響。我會告訴您我的意思。
以下是 3 個句子 "Whoa, were you expecting that?" 的發音。
第一個很棒。Whoa 「之後的停頓,」expecting"(ex-PEC-ting) 第二個音節的上轉音。10/10.
第二個音節勉強捕捉到問題的特質,在最後的一個字向上轉折 (「......期待 THAT」)。除此之外,其餘的音節長度大致相同,音量或音調也沒有變化。我會告訴我的客戶「打開繪圖板」。
最後一個例子很有趣:whoah "很好聽,聲音很大、很長,而且有一個下降的輪廓。問題的上升轉折發生在 "were you "的過程中,而且基本上自始至終保持穩定的音調。
這就是許多中庸的 TTS 系統停滯不前的原因:夠簡單,但表達方式可信。問題是,這不是您會說的方式 - 至少不是在大多數的情況下。
在較舊的系統中,這些特質是由不同的元件來預測的:一個模型會計算出每個聲音應該持續多久,另一個模型會繪製出音高應該如何上升和下降。
如今,事情變得更模糊了。
神經網路傾向於透過內化大量訓練資料集的精細微妙之處,自行學習這些模式。
3.聲學建模
聲學建模是將標準化的文字(和預測的語言特徵,如果有)通過神經網路,輸出中間表示。
頻譜圖和語音表示法
中間表示法通常是頻譜圖- 音訊訊號的頻率-時間表示法 - 不過這正在改變。
以下是 TTS 模型從輸入文字「哇,你在等這個嗎?

此二維影像實際上是 146 個垂直切片,每個切片包含 80 個頻率。較強的頻率較亮,較弱的頻率較暗。
以下是第 10 個時間步驟(或欄位)向右旋轉 90 度後的樣子:

您可以看到個別頻率及其能量。
驟眼看來,這張頻譜圖並不顯眼,但這裡有一些明顯的語言現象:
- 那些波浪清晰的線條是元音或類似元音的聲音,例如 /w/、/r/ 和 /l/。
- 黑點代表沉默。這些可能是標點符號的停頓。
- 高處的能量塊代表雜訊,就像您在 /s/、/sh/ 和 /f/ 中聽到的雜訊一樣
事實上,如果您仔細觀察,甚至可以在頻譜圖中將字詞排在一起。

不同形式的頻譜圖在語音技術中被廣泛使用,因為它們是原始語音和文字之間非常好的中介。
由不同講話者所說的同一句子的兩段錄音會有非常不同的波形,但卻有非常相似的頻譜圖。
4.合成音訊 (Vocoding)
合成階段是將頻譜圖轉換成音訊的地方。
執行此轉換的技術稱為聲碼編碼器。它們是經過訓練的神經網路模型,可根據語音訊號的頻譜圖來重建語音訊號。
之所以將表現和語音訊號建模分成不同的模組,是關於控制的問題:前者是要精確地建模發音和發字,後者是關於發字的風格和逼真度。
透過頻譜圖,我們可以分辨出 /s/ 對 /sh/,或 /ee/(如heat)對 /ih/(如hit),但風格和個性則來自於聲碼器產生的細節。
以下是不同聲學模型與聲碼器間組合的比較。它說明了研究人員如何混合搭配聲學模型和聲碼器並最佳化整體效果。
但同樣地,就像所有其他元件一樣,我們看到分光儀逐漸被淘汰,轉而採用多合一機型。
TTS 的使用案例有哪些?
產生動態口語的能力是各行各業不可或缺的工具。
它不僅是精密的機器人僕人 - 它能幫助我們達到效率、無障礙性和安全性。
聊天機器人和語音助理
你知道我一定會說😉。
在理解您的指令、更新您的雜貨清單以及設定約會之間,我們很容易就會認為人工智慧代理系統中的合成語音的複雜性和重要性是理所當然的。
一個好的代理程式 (也就是一個可用的代理程式) 必須要有符合要求的聲音:要有足夠的親和感來徵求指令,又要有足夠的人性來讓使用者相信它可以完成指令。
在決定AI 助理聽起來是否「正確」的一瞬間,要贏得使用者的青睞,需要進行大量的研究與工程。
在業務方面:您的聊天機器人代表您的品牌。TTS 技術的改進意味著可以選擇更好的語音品牌和更有效的客戶服務。
導航與運輸
沒有什麼比在開車時 GPS 錯誤地念出街道名稱更能讓您體會到良好 TTS 的重要性了。
GPS 導航是 TTS 發光發熱的最佳範例:我們的眼睛被佔用了,而提供聲音資訊不僅是為了方便,也是為了安全。
機場和公共運輸系統也是如此。對於火車站和機場航廈等設計複雜、運輸量大的系統來說,合成語音是至關重要的。
如果沒有 TTS,我們就只能依賴現場廣播,而現場廣播往往是匆忙且難以理解的,或者是人名、終端機、時間等的拼接錄音,老實說很難聽。
娛樂與媒體
隨著合成語音技術的改進,旁白和多語言媒體變得更容易使用。
語音技術不會取代人才,反而有助於增強戲劇表演。
Val Kilmer 因喉癌失聲,在《Top Gun:Maverick (2022)》中的原聲演出,這都要歸功於人工智能。
TTS 還能讓遊戲開發人員為非遊戲角色 (NPC) 提供多樣化、具表現力的語言,否則這是不可能實現的壯舉。
醫療
TTS 的改進意味著無障礙環境的全面改善。
長者照護技術可同時解決陪伴與協助的問題。此技術仰賴 TTS 所提供的客製化功能:體貼的音調、可變的速度以及細心的語調,都是提供有效且有尊嚴的協助的一部分。
TTS 也被用來提高年輕人的可及性。
Acapela 集團專為有語言障礙的兒童開發各種技術。合成語音可增強他們的表達能力和獨立性,同時保留他們的發聲特性。
取得最符合您需求的 TTS
無論您身處何種產業,語音 AI 的重要性不言而喻。您所實施的 TTS 實際上代表了您的企業,因此它必須是可靠且可自訂的。
Botpress 可讓您建立功能強大、高度客製化的機器人,並提供一套整合功能,可部署於所有常見的通訊管道。您的語音代理程式不僅能讓人印象深刻,還能發揮作用。
今天就開始建立。這是免費的。
常見問題
是否存在 TTS 系統難以支援的語言或方言?
是的,有些語言和方言是 TTS 系統難以支援的,尤其是缺乏大量語音和文字記錄資料集的低資源語言。地區方言、音調語言和原住民語言等變異通常會構成挑戰,因為它們需要細微的發音規則和前音,而標準模型並未針對這些規則和前音進行訓練。即使是廣泛使用的語言,方言差異也可能導致錯誤發音或不自然的語音。
TTS 語音在音調、速度和情感方面的自訂性如何?
現今的 TTS 語音在音調、速度和情感方面都可以高度自訂,這都要歸功於現代的神經網路架構,它允許對語調和風格進行精細的控制。許多商用 TTS 系統可讓使用者調整說話速度、語調模式、音量和表情語調,以適應不同的情境,例如平靜的旁白、興奮的通知或感同身受的對話。然而,不同廠商的控制程度各異,有些廠商只提供基本的速度與音調滑桿,有些廠商則提供詳細的情感表達與聲音音色參數。
TTS 系統處理語音資料的安全性如何?
TTS 系統處理的語音資料的安全性在很大程度上取決於供應商和部署方法。雲端 TTS 服務通常會對傳輸中和靜止時的資料進行加密,但如果沒有適當的協議和合規措施(如 GDPR 或 HIPAA),將敏感資訊傳送至外部伺服器仍可能會造成隱私風險。內部部署或邊緣部署可提供更高的安全性,因為音訊和文字從未離開組織的基礎架構,可降低暴露於第三方的風險。
為企業實施高品質 TTS 解決方案的成本有多高?
為企業實施高品質的 TTS 解決方案,從使用量一般的雲端 API 每月數dollars ,到客製化語音開發或內部企業部署的數萬或數十萬元不等。成本通常包括授權費、按字元或按分鐘付費的使用成本、整合與開發工作,如果要建立自訂語音,可能還要支付語音人才費用。小型企業通常會從訂閱服務開始,而大型企業可能會為了品牌一致性和隱私權而投資定制解決方案。
建立高品質的 TTS 語音需要多少訓練資料?
建立高品質的 TTS 語音通常需要數小時至數十小時的乾淨、專業的語音錄製,最好是在一致的錄音條件下,由同一位講話者錄音。現代的神經 TTS 系統,例如 Tacotron 或 FastSpeech,只需 2-5 小時的資料就能達到不錯的品質,但要達到高度自然、具表現力和強大的語音,通常需要 10-20 小時或更長的時間。對於語音克隆或極具表現力的語音,甚至需要更大的資料集和涵蓋各種風格、情感和情境的不同錄音。