音声アシスタントとは?
音声アシスタントは、自然言語で話されたコマンドを理解し、応答することができるソフトウェアです。音声アシスタントはスマートアシスタントとも呼ばれ、多くの場合、チャットでテキストを入力することができるため、より正確な表現かもしれない。もちろん、ボットとしても知られている。
近年、音声アシスタントの採用は、特にアレクサやグーグルホームといった音声で作動するホームアシスタントの形で急増している。
これらの製品は、ユーザーが声だけでソフトウェアに命令することを可能にする。例えば、ユーザーはスマート音声アシスタントに命令するだけで、Spotifyで音楽を再生したり、Youtubeで動画を再生したりできる。
このパーソナル・アシスタント・デバイスは、AI、特に自然言語処理と呼ばれる分野での飛躍的な進歩によって実現した。
音声アシスタントは音声認識のためにどのようにNLPを使うのか?
自然言語処理とは、話し言葉の背後にある意図をコンピューターが理解できるようにする技術である。これは、話し言葉をテキストに書き起こす音声認識とは異なる。音声認識はもちろん、音声で操作するデジタルアシスタントにも必要だ。音声認識は話し言葉をテキストに書き起こし、自然言語処理はテキストの背後にあるユーザーの意図を決定する。
自然言語処理は、人間が同じ意味を持つ異なるフレーズを使用して音声アシスタントに指示するため、重要かつ有用である。例えば、「YoutubeでXを再生してください」、「YoutubeでXを探して再生してください」、「YoutubeでXの曲を再生してください」など。
NLPは、これらのフレーズがすべて同じ意味を持っていることを検出することができる。デバイスを操作するために正確なコマンドや構文を覚えておく必要がないため、音声だけでデバイスと対話できるという事実を除けば、これは人間にとって便利なことだ。NLPはまた、開発者がセットアップ方法を学ぶのも驚くほど簡単であり、この理由からボットフレームワークの重要な部分となっている。
音声アシスタントの長所と短所
実際に音声アシスタントを使ったことがある人ならわかるだろうが、音声アシスタントはいいところもあるが完璧ではない。例えば、人間と同じような会話はできない。会話しようとしてもすぐに破綻してしまう。
また、対話するだけでは、何ができるのか、何ができないのかを知ることは難しい。音声は、多くの情報を素早く取得するには不向きなインターフェースであることがわかる。例えば、ウェブページをスキャンする方が、素早く情報を得るにはずっと良い方法だ。
彼らが得意とするのは、単発のコマンドや質問である。例えば、名前を知っているユーチューブの特定のビデオを再生したいとか、質問に対する答えが単純なフレーズ、例えば「私の街の気温は何度ですか?
私たちはしばしば、音声アシスタントが単なるソフトウェア・インターフェースのひとつであることを忘れてしまう。私たちがアシスタントと呼ぶのは、話しかけることができるからであり、それゆえある種の人間のような性質を持っていると概念化しやすい。この考えは、「ヘイ・グーグル」、「アレクサ」、「シリ」といったホットワードで名前を呼んで起動させなければならないという事実によってさらに強化される。ホットワードがなければ、いつ話しかけられたのか、いつ反応すればいいのかがわからない。ホットワードは私たちを洗脳し、音声アシスタントをソフトウェア・インターフェースとしてよりも、ほとんど人間のアシスタントのように考えるように仕向ける。そしてそれは、グーグルやアレクサがある種のディートであると信じるように若い子供たちを洗脳し、それらが世界を支配する企業であることを知ったとき、彼らに永続的なダメージを与えるかもしれない。
現実には、音声アシスタントは別のソフトウェア・インターフェース、つまり、たとえばグラフィカル・インターフェースと同等のものに過ぎない。グラフィカル・インターフェースは音声インターフェースと同じような役割を果たしますが、同じように人間化することはできません。
音声インターフェースは、もちろんグラフィカル・インターフェースとは違った使われ方をする。音声インターフェースは通常、グラフィカル・インターフェースに加えて使用されるが、その逆はない。
これは、ほとんどのアプリケーションでグラフィカル・インターフェースがすでに構築されているため、音声インターフェースを追加することで、ユーザーがソフトウェアと対話する別の方法が可能になるという理由もある。例えば、音声アシスタントにユーチューブのビデオを再生するように頼むようなものだ。グラフィカル・インターフェースを使っても動画を再生することはできますが、その分時間がかかります。
また、グラフィカル・インターフェースで簡単にできる作業を音声で行うのは非常に困難であるため、グラフィカル・インターフェースの方が音声インターフェースよりも完成度が高いという議論もあります。この点を理解するために、電話で指示を与えて同僚にスプレッドシートを作らせようとするのと、グラフィカル・インターフェースを使用して自分でスプレッドシートを作るのとを想像してみてください。
通常、音声インターフェースは必要不可欠なものではないが、特定の状況では新たなレベルの利便性を提供する。これは、ハンズフリーでの対話が不可欠な稀な状況を除けば、必要であればなくても生きていける利便性である。
音声アシスタントの未来
その限界を考えると、音声アシスタントが今後より重要になるのか、それとも縁の下の力持ち的な製品にとどまるのかが問題となる。
音声アシスタントが将来もっと普及し、広く使われるようになるのは明らかだが、その理由はただひとつ、音声アシスタントがグラフィカル・ユーザー・インターフェースと完全に統合されるからだ。
グラフィカル・ユーザー・インターフェースを音声で置き換えることは難しいが、音声とグラフィカル・インターフェースを組み合わせることは非常に可能だ。これは現在、Googleアシスタント(ウェブページからコンテキストを提供できる)やBixbyによって、ごく限られた範囲で実現されている。
次世代のインターフェースは「コンビネーション」インターフェースと呼ばれ、グラフィック、テキスト、音声を統合し、ユーザーにとって最高の体験を提供する。これにより、ユーザーはより早く、より少ない学習曲線でタスクを達成することができるようになるだけでなく(音声により、ユーザーは正確なコマンドを知らなくてもソフトウェアと対話することができるため)、AIがインタラクションを監視することで、インターフェイスはそれ自体で進化し、より良くなっていく。
アプリを初めて起動したときの音声指示は、アプリが何千回ものインタラクションから最適な行動を学習した後は、また違った働きをする。
また、音声が完全に採用されるためには、ユーザーの行動を変える必要があることを考えるのも興味深い。現在、人々はスマートフォンでテキストを入力したり、グラフィカル・インターフェースを使用したりすることの方が、携帯電話に話しかけたり、音声アシスタントを使用したりすることよりもはるかに多い。
音声認識技術は完璧ではないからだ。何十年もの間、電話やコンピューターには音声ショートカットが搭載されてきたが、これらのショートカットが広く使われるようにならなかったのは、エラー率が非常に高く、目新しさが失われた後は、エラーを考慮することの苦痛が便利さの利点を上回ったからである。
もし音声認識が完璧で、エラー率がなかったらと想像してみてほしい。
この場合、例えば電子メールを「入力」する場合、スマートフォンで入力するよりも音声で入力した方がはるかに早い。この臨界点に達すれば、音声アシスタントはこの種のタスクでユビキタスになるだろう。
ボットが普及するためには、NLPと音声認識技術の両方が高いレベルで動作する必要がある。音声認識はすでに非常にうまく機能しているが、NLPはこれまで述べてきたように、狭い領域でしかうまく機能しない。
ここで興味深いのは、音声認識が狭い領域でよりうまく機能することである。
つまり、すでに狭い領域でほぼ完璧な chatbots。Google Duplexのデモを聞いてみてください。
これは、発見と関連する問題が解決されれば、音声の極めて迅速な導入につながる。
ボイス・ファースト
誰かが援助を必要としたときに、音声が最初の通報口になるというものだ。
ボイス・ファーストの世界では、デバイスはより見えにくくなり、人々は音声でできない作業をするときだけデバイスを見ればよくなる。
人々はリビングルームに1台のデバイスを置くだけでなく、すべての部屋に安価な音声デバイスを置くようになるだろう。これらのデバイスは互いに接続され、IoTデバイスやスマートフォンやコンピューターに接続される。これらのデバイスの中には、壁に映像を投影できるものもあるだろう。
シャワーを浴びている最中や歯を磨いている最中でも、質問したり命令したりできるようになる。階下の音声ボットに伝えることを覚える必要がなくなるのだ。
機能性を発見し、ボットの効率的な使い方を人間に "トレーニング "するための、より優れた方法があるだろう。
現在、音声アシスタント・デバイスには多くの問題があるが、これらの問題のほとんどは、基礎的な技術よりもむしろ、その使われ方に関係している。我々は、短期間のうちに音声のキラーアプリが登場し、これはソフトウェアの使用方法を変えるイベントになると考えている。そのためには、音声技術やプロトコルの標準化も必要になるが、これらは長い間進歩を妨げる障害にはならないだろう。
私たちは、音声デバイスがほとんどどんな場所や時間でも助けてくれる究極の利便性の世界を楽しみにしている。