- ASRは機械学習を利用して音声をテキストに変換し、音声コマンドとリアルタイムの文字起こしを可能にする。
- 現代のASRシステムは、個別の音素モデル(HMM-GMM)から、単語全体を予測するディープラーニングモデルへと移行している。
- ASRの性能は単語誤り率(WER)で測定され、誤りは置換、削除、挿入から生じる。
- ASRの将来は、プライバシーの保護と低リソース言語のサポートのためのオンデバイス処理に焦点を当てている。
字幕なしで最後に何かを見たのはいつですか?
かつては字幕はオプションでしたが、今では私たちが望むと望まざるとにかかわらず、短編動画に字幕が飛び交うようになりました。字幕はコンテンツに埋め込まれているので、そこにあることを忘れてしまう。
自動音声認識(ASR)は、話し言葉を素早く正確にテキストに変換する自動化能力であり、このシフトを後押しする技術である。
AIの音声エージェントについて考えるとき、私たちはその言葉の選択、話し方、話す声について考える。
しかし、私たちのインタラクションの流動性は、ボットが私たちを理解することに依存していることを忘れがちだ。そして、この地点に到達すること、つまり、騒がしい環境の中でボットが「うーん」と「あー」と言うことであなたを理解することは、公園を散歩するようなものではありませんでした。
今日は、そのキャプションを支える技術、自動音声認識(ASR)についてお話ししましょう。
自己紹介をさせてください:私は音声技術の修士号を持っており、余暇にはASRの最新情報を読んだり、何かを作ったりするのが好きです。
ASRの基本を説明し、技術の裏側を覗き、この技術が次に進むかもしれない先を推測する。
ASRとは?
自動音声認識(ASR)、または音声テキスト変換(STT)は、機械学習技術を使用して音声をテキストに変換するプロセスです。
ビデオキャプション、カスタマーサポートとのやりとりを分析するための書き起こし、音声アシスタントとのやりとりの一部などです。
音声合成アルゴリズム
基礎となるテクノロジーは長年にわたって変化してきたが、すべての反復は、何らかの形でデータとモデルという2つのコンポーネントで構成されてきた。
ASRの場合、データはラベル付けされた音声、つまり話し言葉の音声ファイルとそれに対応する書き起こしである。
モデルとは、音声から書き起こしを予測するためのアルゴリズムである。ラベル付けされたデータは、モデルを訓練するために使用されます。

それは、一連の単語を聞いたことがなくても、あるいは知らない人が話していても、理解できるのと似ている。
繰り返しになるが、モデルの種類とその仕様は時代とともに変化しており、スピードと精度の進歩はすべて、データセットとモデルのサイズと仕様に起因している。
クイック・サイド特徴抽出
音声合成の記事で、特徴(表現)についてお話した。これらは過去も現在もASRモデルで使われている。
音声を特徴に変換する特徴抽出は、ほとんどすべてのASRパイプラインの最初のステップです。
要するに、これらの特徴(多くの場合スペクトログラム)は、音声に対して実行される数学的計算の結果であり、音声を、発話全体の類似性を強調し、話者間の相違を最小化する形式に変換する。
つまり、2人の異なる話者が同じ発話をした場合、その声がどれほど異なっていても、スペクトログラムは同じようになる。
これは、私が「スピーチからトランスクリプトを予測する」モデルについて話すことをお知らせするために指摘しているのです。技術的にはそうではありません。モデルは特徴から予測するものです。 しかし、特徴抽出コンポーネントはモデルの一部と考えることができます。
初期のASR:HMM-GMM
隠れマルコフモデル(HMM)とガウス混合モデル(GMM)は、ディープニューラルネットワークが主流になる前の予測モデルだ。
最近までHMMがASRを支配していた。
音声ファイルがあれば、HMMは音素の継続時間を予測し、GMMは音素そのものを予測する。
それは逆に聞こえるし、そうなんだけどね:
- HMM:"最初の0.2秒が音素"
- GMM:「その音素はGで、ゲイリーと同じです。
オーディオクリップをテキスト化するには、次のような追加コンポーネントが必要になる:
- 発音辞書:語彙に含まれる単語の完全なリストと、それに対応する発音。
- 言語モデル:語彙中の単語の組み合わせと、それらの共起確率。
つまり、GMMが/s/より/f/を予測したとしても、言語モデルは、話し手が「あなたの考えに1ペニー」と言った可能性の方が高いことを知っているのだ。
はっきり言って、このパイプラインのどの部分も特別に優れているわけではなかったからだ。
HMMはアライメントを誤って予測し、GMMは似たような音を間違える:/HMMはアライメントを予測ミスし、GMMは似たような音を間違える。
そして言語モデルは、支離滅裂な音素の混乱を、より言語らしいものにクリーンアップする。
ディープラーニングによるエンド・ツー・エンドASR
その後、ASRパイプラインの多くの部分が統合された。

スペル、アライメント、発音を扱う別々のモデルをトレーニングする代わりに、1つのモデルが音声を取り込み、(うまくいけば)正しくスペルされた単語を出力し、最近ではタイムスタンプも出力する。
(ただし、実装ではこの出力を、追加の言語モデルで修正したり、「再スコア」したりすることが多い)。
アライメントやスペルなど、異なる要素に独自の注目が集まらないわけではない。非常に的を絞った問題の修正に焦点を当てた文献はまだ山のようにある。
つまり、研究者はモデルのアーキテクチャを変更する方法を考え出す:
- RNN-トランスデューサデコーダは、スペリングを改善するために以前の出力を条件とする。
- ブランク出力を制限し、アライメントを改善するための畳み込みダウンサンプリング。
ナンセンスなのは分かっている。ただ、上司に "わかりやすい例を挙げてくれ "と言われるのを先回りしているだけなんだ。
答えはノーだ。
いや、できない。
ASRのパフォーマンスはどのように測定されるのか?
ASRが悪い仕事をしたときには、それがわかる。
キャラメリゼが 共産主義アジア人と書き写されるのを見たことがある。クリス・Pには クリスピーさを。
誤りを数学的に反映させるために使用する指標は、単語誤り率(WER)である。WERの公式は以下の通り:

どこでだ:
- Sは 置換数(参照テキストと一致させるために予測テキストで変更された単語)。
- Dは 削除数(参照テキストと比較して、出力から欠落した単語)。
- Iは 挿入数(参照テキストと比較して、出力に追加された単語)。
- Nはリファレンスに含まれる単語の総数である。
つまり、"猫が座っていた "ということだ。
- もしモデルが「猫は沈んだ」と出力すれば、それは置換である。
- モデルが "cat sat "と出力すれば、それは削除だ。
- 猫が座った」と出力されれば、それは挿入である。
ASRの用途は?
ASRは気の利いたツールだ。
また、重要な産業における安全性、アクセシビリティ、効率性の向上を通じて、私たちの生活の質の向上にも役立っている。
ヘルスケア
私が音声認識の研究をしていると医師に言うと、"ああ、ドラゴンみたいなものね "と言われる。
医療にジェネレーティブAIが導入される前は、医師は限られた語彙で1分間に30語の口頭メモを取っていた。
ASRは、医師が経験する広範な燃え尽き症候群を抑制することに大成功している。
医師は山のような事務作業と患者への対応のバランスを取っている。早くも2018年、研究者たちは医師の診療能力を向上させるため、診察におけるデジタル書き起こしの利用を訴えていた。
というのも、過去にさかのぼって診察を文書化することは、患者との対面時間を奪うだけでなく、実際の診察の記録を要約するよりもはるかに正確性を欠くからだ。
スマートホーム
こんなジョークがあるんだ。
電気を消したいけど立ち上がる気になれないとき、私は拍子木を持っているかのように2回連続で拍手をする。
私のパートナーは決して笑わない。
音声で作動するスマートホームは、未来的であると同時に、恥ずかしながら甘やかされているようにも感じられる。あるいは、そう思える。
確かに便利だが、多くの場合、それがなければできないことを可能にしてくれる。
照明やサーモスタットの微調整をするにも、立ち上がってダイヤルをいじっていたのでは一日中不可能だ。
ボイスアクティベーションは、そうした微調整が簡単にできるだけでなく、人間の話し言葉のニュアンスを読み取ってくれる。
例えば、あなたは "もう少し涼しくしてくれませんか?"と言う。アシスタントは、自然言語処理を使用して、現在の気温、天気予報、他のユーザーのサーモスタット使用データなど、他の多くのデータを考慮しながら、あなたの要求を温度の変化に変換する。
あなたは人間的な部分を行い、コンピューター的なことはコンピューターに任せる。
その方が、自分の感覚で何度暖房を弱めればいいかを推測するよりもずっと簡単だと思う。
一例を挙げれば、音声で操作できるスマート照明によって、家庭のエネルギー消費を80%削減できたという報告もある。
カスタマーサポート
ヘルスケアについても話したが、書き起こして要約することは、人が過去にさかのぼってやりとりを要約するよりもずっと効果的だ。
繰り返しになるが、それは時間の節約であり、より正確である。私たちが何度も何度も学んでいるのは、自動化によって時間を節約し、人々がより良い仕事をできるようになるということです。
ASRを導入したカスタマーサポートでは、初回コールの解決率が25%向上している。
トランスクリプションと要約は、顧客の感情やクエリに基づいて解決策を見つけ出すプロセスを自動化するのに役立ちます。
車内アシスタント
ここではホームアシスタントにおんぶに抱っこだが、言及する価値は十分にある。
音声認識は、ドライバーの認知負荷と視覚的な注意散漫を軽減する。
また、衝突事故の最大30%が注意散漫によるものであることから、この技術を導入することは安全上当然のことである。
言語病理学
ASRは長い間、音声障害の評価や治療のツールとして使われてきた。
機械はタスクを自動化するだけでなく、人間ができないことをやってくれることを覚えておくと役に立つ。
音声認識は、人間の耳にはほとんど感知できない音声の微妙なニュアンスを検出することができ、通常であればレーダーに引っかからないような影響を受けた音声の特徴を捉えることができる。
ASRの未来
STTは十分に良くなっているから、もうそんなことは考えていない。
しかしその裏では、研究者たちがより強力で利用しやすく、そして目立たないようにするための努力を続けている。
ASRの進歩を活用したエキサイティングなトレンドをいくつかピックアップし、私自身の考えも織り交ぜてみた。
オンデバイス音声認識
ほとんどのASRソリューションはクラウド上で動作します。そう聞いたことがあるだろう。つまり、モデルはどこか別の場所にあるリモートのコンピューター上で動くということだ。
携帯電話の小さなプロセッサーでは、巨大なモデルを動かすことができないからだ。
その代わり、音声はインターネット経由で、ポケットに入れて持ち歩くには重すぎるGPUを実行しているリモートサーバーに送られる。GPUはASRモデルを実行し、あなたのデバイスにトランスクリプションを返します。

エネルギー効率とセキュリティ(誰もが自分の個人データがサイバースペースを浮遊することを望んでいるわけではない)の理由から、携帯電話、コンピューター、ブラウザーエンジンなど、あなたのデバイス上で直接動作するほどコンパクトなモデルを作るために、多くの研究が注がれてきた。
私は、ASRモデルを量子化し、オンデバイスで実行できるようにすることについて論文を書いた。Picovoiceはカナダの会社で、低レイテンシーのオンデバイス音声AIを開発している。
オンデバイスASRは、低所得者層にもサービスを提供できる可能性があるため、より低コストでトランスクリプションを利用できる。
トランスクリプト・ファーストUI
オーディオとトランスクリプションの間のギャップは縮小しています。
Premiere ProやDescriptのようなビデオエディターでは、トランスクリプトを通して録音をナビゲートすることができます:単語をクリックすると、タイムスタンプが表示されます。
何度かテイクを重ねた?お気に入りのテイクを選んで、他のテイクをテキストエディタースタイルで消しましょう。ビデオは自動的にトリミングされます。
波形だけでそのような編集をするのは非常にもどかしいが、トランスクリプトベースのエディターがあればバカみたいに簡単だ。
同様に、WhatsApp ようなメッセージングサービスは、あなたの音声メモを書き起こし、テキストでそれを精査できるようにしている。単語の上に指をスライドさせれば、その部分の録音が表示される。

面白い話だ:実は、アップルが同様の機能を発表する1週間ほど前に、私はこのようなものを作っていた。
これらの例は、複雑なアンダー・ザ・フードのテクノロジーが、エンドユーザー・アプリケーションにいかにシンプルさと直感性をもたらすかを示している。
公平性、インクルージョン、低リソース言語
戦いはまだ勝っていない。
ASRは、英語や、その他の一般的でリソースの豊富な言語ではうまく機能する。しかし、リソースの少ない言語ではそうとは限りません。
方言によるマイノリティ、影響を受けた音声、その他音声技術における公平性の問題には隔たりがある。
良い雰囲気を邪魔して申し訳ない。このセクションはASRの "未来 "と呼ばれている。そして私は、私たちが誇りに思える未来に期待することを選ぶ。
もし私たちが進歩しようとするなら、一緒にやるべきですし、そうでなければ社会の不平等を増大させるリスクがあります。
今日からASRを使い始める
どのようなビジネスであれ、ASRを使用することは当然のことです。どのようにASRを導入するのか?そのデータをどのように他のツールに渡すのか?
Botpress 使いやすい書き起こしカードが付属しています。これらはドラッグ&ドロップのフローに統合することができ、アプリケーションやコミュニケーションチャネルを横断する数十の統合で補強されます。
今日から始めよう。無料です。
よくあるご質問
現代のASRは、さまざまなアクセントやノイズの多い環境に対してどの程度の精度があるのだろうか?
最新のASRシステムは、主要言語の一般的なアクセントに対しては驚くほど正確で、クリーンな環境では10%未満の単語誤り率(WER)を達成していますが、アクセントが強かったり、方言があったり、背景雑音が大きかったりすると、精度は著しく低下します。グーグルやマイクロソフトのようなベンダーは、多様な音声データでモデルを訓練していますが、ノイズの多い環境での完全な書き起こしは依然として困難です。
ASRは、専門用語や業界特有の用語の書き取りに信頼できますか?
ASRのトレーニングデータは通常、一般的な音声に偏っているため、専門用語や業界特有の用語については、そのままでは信頼性が低い。しかし、企業向けソリューションでは、カスタム語彙、ドメイン固有の言語モデル、発音辞書を使用することで、医療、法律、工学などの分野の専門用語の認識を向上させることができます。
無料のASRツールとエンタープライズグレードのソリューションの違いは何ですか?
無料のASRツールとエンタープライズグレードのソリューションの違いは、精度、拡張性、カスタマイズ性、プライバシー管理にあります。無料のツールは、エラー率が高く、言語サポートが制限され、使用量に上限があることが多いのに対し、エンタープライズソリューションは、より低いWER、ドメイン固有のカスタマイズ、統合、サービスレベル契約(SLA)、機密データを扱うための堅牢なセキュリティ機能を提供します。
ASRは、テープ起こし中のユーザーのプライバシーや機密情報をどのように保護していますか?
ASRは、データ送信時の暗号化によってユーザーのプライバシーを保護し、音声データを外部サーバーに送信しないようにデバイス上でモデルを実行するなどのオプションを提供します。また、多くの企業向けプロバイダーはGDPRやHIPAAなどのプライバシー規制に準拠しており、データを匿名化して機密情報を保護することができます。
クラウドベースのASRサービスは、オンデバイス・ソリューションと比較してどの程度高価ですか?
クラウドベースのASRサービスは、通常、音声1分ごと、または利用段階ごとに課金され、精度と機能に応じて1分あたり0.03ドルから1.00ドル以上の幅がある。