- 音声合成(TTS)は、自然な韻律と声質のためにニューラルネットワークを使用して、テキストを実物そっくりの音声に変換する。
- TTSパイプラインは、テキストを処理し、言語学を分析し、スペクトログラムを生成し、ボコーダーで音声を合成する。
- TTSは、チャットボット、ナビゲーション・システム、エンターテインメント、ヘルスケア・ツール、インクルーシブ教育などに威力を発揮する。
- 高品質のTTSは、明瞭性、ブランドボイス、アクセシビリティを向上させ、業界を問わずユーザーの信頼を高めます。
オランダのChatGPTはドイツ訛りで話します(時々)。わざとなら意地悪。そうでないなら、魅力的だ。
いずれにせよ、AI音声アシスタントは マイクロソフトのサムから長い道のりを歩んできたと言っていいだろう。実際、私が数年前に音声技術を勉強して以来、かなり長い道のりを歩んできた。
そして私は、私たちがどこにたどり着いたかをお伝えするためにここにいる。
少なくとも1968年、『2001年宇宙の旅』でロボットのHALが登場して以来、私たちは合成音声について神話化してきた。

89%の消費者が、音声サポートがあるかどうかをデバイス選択の条件にしている。
つまり、「私を助けるだけでなく、私に話しかけなさい」ということだ。
この記事では、テキストを音声に変換する音声合成について説明します。音声合成の裏側で何が行われているのか、また、この技術がさまざまな業界でどのように使われているのかについてお話しします。
音声合成とは?
TTSは、テキストを合成された音声に変換するプロセスである。初期のバージョンは、人間の声道を機械的に近似し、音声記録をつなぎ合わせることに基づいていた。現在では、TTSシステムはディープ・ニューラル・ネットワーク・アルゴリズムを使用し、人間のようなダイナミックな発声を実現している。
会話モデルのリアルタイム生成、コントロール可能な表情、音声を再現する機能など、ユースケースによってさまざまなモデルが存在する。
音声合成の仕組み
TTSには3つの重要なステップがある。まず、入力テキストが処理され、記号、表現、略語が綴られる。次に、処理されたテキストはニューラルネットワークを通過し、音響表現(スペクトログラム)に変換される。最後に、この表現が音声に変換される。
前述したように、研究者たちはTTSへのアプローチをいくつも繰り返してきた。私たちがたどり着いたのは(そしてしばらくはここに留まると思われる)、ニューラルネットワークベースの音声合成です。
発音、スピード、イントネーションなど、発話に影響を与える言語現象のレイヤーをモデリングすることは、非常に難しい作業である。

ニューラルネットワークの準魔術的なブラックボックス能力をもってしても、TTSシステムは音声を近似するために多くのコンポーネントに依存している。
パイプラインを正確に1つに絞るのは難しい。新しいテクノロジーが次々と登場し、先行技術を陳腐化させる恐れがあるからだ。
ほとんどのTTSシステムには、何らかの形で存在する一般的なコンポーネントがいくつかある。
1.テキスト処理
テキスト処理とは、TTSシステムがどの単語を発音するかを決定するステップである。略語、日付、通貨記号はスペルアウトされ、句読点は除去される。
これは必ずしも些細なことではない。Dr.」は医師を 意味するのか、それとも運転手を意味するのか?CADはどうだろう?カナダドル?それともコンピューター支援設計?
自然言語処理(NLP)はテキスト処理に採用され、周囲の文脈に基づいて正しい解釈を予測するのに役立つ。NLPは、あいまいな用語(たとえば「Dr.」)が文全体にどのように適合しているかを評価するため、「Dr. Perron advised against it」というフレーズでは、NLPはdr.をdoctorに変換する。
2.言語分析
テキストが処理されると、モデルは "何を言うべきか?"から "どのように言うべきか?"に移行する。
言語分析とは、ピッチ、トーン、長さの観点から、文章をどのように伝えるべきかを解釈するTTSの部分である。言い換えれば
- それぞれの音、音節、単語はどれくらいの長さであるべきか?
- イントネーションは上がるべきか?下がるべきか?
- どの単語が強調されているか?
- 音量の変化は、どのようにして意図した感情を反映させることができるのか?
韻律が重要な理由
物語の時間私はTTSモデルを開発するチームのコンサルティングを短期間行ったことがある。韻律がどれほど文の明瞭度を左右するかが明らかになった。どういうことかお見せしましょう。
以下は、"Whoa, were you expecting that? "の3つの例文である。
一つ目は素晴らしい。"Whoa "の後の間、"expecting "の2音節目の上方への抑揚(ex-PEC-ting)。10/10.
2つ目は、最後の単語("・・・thatを期待している")で抑揚をつけることで、質問の質をかろうじてとらえている。それ以外の音節はほとんど同じ長さで、音量もピッチも変化していない。私はクライアントに "製図板を叩け "と言うだろう。
最後は興味深いケースだ:whoah」は素晴らしく、大きく、長く、輪郭が落ちている。質問の抑揚が上がるのは "were you "の間だけで、基本的にはずっと一定の音程を保っている。
多くの中途半端なTTSシステムはここで止まってしまう。しかし、少なくともほとんどの文脈では、このような言い方をすることはありません。
古いシステムでは、それぞれの音の持続時間を計算するモデルや、ピッチの上がり下がりを計算するモデルなど、別々のコンポーネントでこれらの性質を予測していた。
今では、物事はより曖昧になっている。
ニューラルネットワークは、膨大な訓練データセットの微細な機微を内面化することで、これらのパターンを自ら学習する傾向がある。
3.音響モデリング
音響モデリングとは、正規化されたテキスト(および予測された言語的特徴(もしあれば))が、中間表現を出力するニューラルネットワークに渡されることである。
スペクトログラムと音声表現
中間表現は通常、スペクトログラム(オーディオ信号の周波数-時間表現)だが、これは変わりつつある。
これは、入力テキスト "Whoa, were you expecting that?"からTTSモデルが生成した表現である:

この2次元画像は実際には146枚の垂直スライスで、それぞれが80の周波数を含んでいる。強い周波数は明るく、弱い周波数は暗い。
10番目のタイムステップ(列)を右に90度回転させるとこうなる:

それぞれの周波数とそのエネルギーを見ることができる。
このスペクトログラムは一見すると大したことはなさそうだが、ここにはいくつかの明確な言語現象が存在する:
- はっきりと線が引かれている波は、母音、または/w/、/r/、/l/のような母音に似た音である。
- 暗い点は沈黙を表す。句読点のためのポーズかもしれない。
- 高い位置にあるエネルギーの塊は、/s/、/sh/、/f/で聞こえるノイズのようなノイズを表す。
実際、注意深く見れば、スペクトログラムに単語を並べることもできる。

スペクトログラムは、生の音声とテキストの中間的な表現として非常に優れているため、様々な形で音声技術に広く使われている。
異なる話者が話した同じ文の2つの録音は、波形は大きく異なるが、スペクトログラムは非常に似ている。
4.音声の合成(ボコーディング)
合成段階は、スペクトログラムをオーディオに変換する場所である。
この変換を行う技術はボコーダーと呼ばれる。これは、スペクトログラム表現に基づいて音声信号を再構成するように訓練されたニューラルネットワークモデルである。
表現と音声信号のモデリングを別々のモジュールに分けた理由は、コントロールにある。最初のモジュールは、単語の発音と送話を正確にモデリングすることであり、次のモジュールは、送話のスタイルとリアルさである。
スペクトログラムでは、/s/と/sh/の違いや、/ee/(heatのような)と/ih/(hitのような)を見分けることができるが、スタイルや個性はボコーダーが作り出す細かいディテールから生まれる。
異なる音響モデルとボコーダーの組み合わせの比較です。研究者がどのように音響モデルとボコーダーを組み合わせ、全体として最良の結果が得られるように最適化しているかを示しています。
しかし、他のすべてのコンポーネントと同様に、スペクトログラムはオールインワン・モデルに取って代わられつつある。
TTSの使用例とは?
ダイナミックな話し言葉を生み出す能力は、業界を問わず必要不可欠なツールだ。
それは単に洗練されたロボットの召使いということではなく、効率性、アクセシビリティ、安全性を実現するのに役立つのだ。
チャットボットと音声アシスタント
そう言うと思ったでしょ?
あなたのコマンドを理解し、食料品リストを更新し、予定を設定する間に、AIエージェントの合成音声の洗練された、そして重要性を当然のことと思いがちだ。
良いエージェント(つまり使えるエージェント)には、その要求に見合う声が必要だ。コマンドを求めるのに十分歓迎的であり、ユーザーにそれを実行できると信じさせるのに十分人間的である。
AIアシスタントが"適切 "に聞こえるかどうかを判断するのにかかる一瞬の間に、ユーザーを納得させるために多くの研究とエンジニアリングが行われている。
ビジネス面では、チャットボットはあなたのブランドを表します。TTS技術の向上は、より良い音声ブランディングと、より効果的な顧客サービスのためのオプションを意味します。
ナビゲーションと輸送
運転中にGPSが意味不明に通りの名前を言い間違えるほど、優れたTTSの重要性を実感させられることはないだろう。
GPSナビゲーションは、TTSが輝きを放つ好例である。私たちの目は占有されており、音声による情報提供は利便性だけでなく安全性にも関わる。
これは空港や公共交通機関でも同様だ。駅や空港のターミナルのように、複雑に設計された大容量のシステムでは、合成音声は非常に重要です。
TTSがなければ、ライブアナウンスに頼らざるを得ないが、そのアナウンスは性急で意味不明なことが多く、また、名前、端末、時間などをつなぎ合わせた録音に頼らざるを得ない。
自然さと明瞭さの間に強い関連性があることを示す研究があることから、高品質のTTSは強固な輸送業界にとって必須である。
エンターテインメントとメディア
合成音声技術の向上により、ナレーションや多言語メディアはより利用しやすくなった。
スピーチ・テクノロジーはタレントに取って代わるのではなく、ドラマチックな演技を補強するのに役立つ。
咽頭がんで声を失ったヴァル・キルマーが、『トップガン』でオリジナルの声で心のこもった演技を披露:マーベリック』(2022年)では、AIのおかげでオリジナルの声で心のこもった演技を披露した。
TTSはまた、ゲーム開発者が非プレイアブルキャラクター(NPC)に多様で表情豊かな発話を与えることを可能にする。
ヘルスケア
TTSの改善は、アクセシビリティの全面的な改善を意味する。
高齢者ケア技術は、同伴と介助の問題に同時に取り組んでいる。このテクノロジーは、TTSが提供するカスタマイズ性に依存している。思いやりのあるトーン、可変速度、慎重なイントネーションはすべて、効果的で威厳のある援助を提供するための一部である。
TTSは若い人たちのアクセシビリティを向上させるためにも使われている。
アカペラ・グループは、特に発話障害のある子どもたちのための技術を開発している。合成音声は、発声の特徴を保ちながら、彼らの表現能力と自立性を増強します。
教育とインクルーシブ・ラーニング
私たちは言語学習アプリで合成音声に出会ってきた。しかし、それは氷山の一角に過ぎない。
例えば、自立学習における参入障壁は、文字を読む能力である。子どもや視覚障害者、特定の学習障害者にとって、それは必ずしも可能ではない。そのため、過密な教室で過重労働を強いられている教師に多くの負担がかかっている。
カリフォルニア州のある学区では、TTSを導入し、特別な支援を必要とする生徒のために、よりインクルーシブな学習環境を整えている。
高齢者介護の場合と同じように、教育テクノロジーは、明瞭で強調された思いやりのある音声に依存している。変更可能なパラメータにより、教師はこれらのテクノロジーを授業に組み込むことができ、生徒がより多くのことを感じられるようになる。
あなたのニーズに最適なTTSを
業種を問わず、音声AIは重要な役割を担っています。そして、導入するTTSは文字通りあなたのビジネスを代弁するので、信頼性が高く、カスタマイズ可能である必要があります。
Botpress 使用すると、すべての一般的なコミュニケーションチャネルに展開する統合スイートを使用して、強力で高度にカスタマイズ可能なボットを構築できます。あなたの音声エージェントは印象的なだけでなく、機能します。
今日から始めよう。無料です。
よくあるご質問
TTSシステムが対応に苦慮している言語や方言はありますか?
特に、録音された音声やテキストの大規模なデータセットがない低リソース言語がそうです。地域の方言、声調言語、先住民の言語などのバリエーションは、標準的なモデルが学習していない微妙な発音規則や韻律を必要とするため、しばしば課題となります。また、広く話されている言語であっても、方言の違いによって発音を間違えたり、不自然に聞こえることがあります。
ピッチ、スピード、感情など、TTSの音声はどの程度カスタマイズできるのか?
今日のTTS音声は、韻律やスタイルをきめ細かく制御できる最新のニューラルネットワークアーキテクチャのおかげで、ピッチ、スピード、感情を高度にカスタマイズできます。多くの商用TTSシステムでは、穏やかなナレーション、興奮したアナウンス、共感的な対話など、さまざまな文脈に合わせて、話す速度、イントネーションパターン、音量、表現トーンを調整することができます。速度やピッチの基本的なスライダーのみを提供するものもあれば、感情表現やボーカルの音色に関する詳細なパラメーターを提供するものもあります。
TTSシステムで処理される音声データの安全性は?
TTSシステムで処理される音声データのセキュリティは、プロバイダーと展開方法に大きく依存します。クラウドベースのTTSサービスは通常、転送中および静止中のデータを暗号化しますが、機密情報を外部サーバーに送信する場合、GDPRやHIPAAなどの適切な契約やコンプライアンス対策が整っていなければ、プライバシーリスクを引き起こす可能性があります。オンプレミスまたはエッジの展開では、音声とテキストが組織のインフラを離れることがないため、第三者への露出が減り、より高いセキュリティが提供されます。
企業向けに高品質のTTSソリューションを導入するには、どれくらいの費用がかかるのか?
企業向けの高品質なTTSソリューションの導入は、クラウドベースのAPIを利用した中程度の利用で月額数dollars 、カスタム音声開発やオンプレミスの企業展開では数万ドルから数十万ドルに及ぶことがあります。コストには通常、ライセンス料、1文字または1分ごとの使用料、統合および開発作業、そしてカスタム音声を作成する場合は音声タレント料が含まれます。中小企業はサブスクリプション・ベースのサービスから始めることが多く、大企業はブランドの一貫性とプライバシーのために特注のソリューションに投資することがあります。
高品質のTTS音声を作るには、どれくらいのトレーニングデータが必要ですか?
高品質のTTS音声を作るには、通常、数時間から数十時間、専門家が録音したきれいな音声を、理想的には同じ話者から、一貫した録音条件で録音する必要があります。TacotronやFastSpeechのような最新のニューラルTTSシステムは、わずか2~5時間のデータでそこそこの品質を達成できますが、非常に自然で、表現力豊かで、ロバストな音声を実現するには、10~20時間以上かかることがよくあります。ボイスクローンや非常に表現力豊かなボイスのためには、さらに大きなデータセットと、様々なスタイル、感情、コンテキストをカバーする多様な録音が必要です。