業界の多くは、技術における「次の大きな出来事」はブロックチェーンであり、AIが人間の労働者に取って代わることであり、あるいは拡張現実であると主張するかもしれないが、過小評価されている重要な技術がある。
調査によると、2020年までに検索クエリの50%が音声検索で行われるようになるという。しかし、この調査が過小評価しているのは、音声UIにおける小さな改善が、現在の人間とコンピュータのインタラクション・パラダイムを完全にシフトさせる可能性があるということだ。これは、検索のユースケースをはるかに超えて、音声UIがグラフィカル・ユーザー・インターフェースやアプリに取って代わる、あるいは深く統合される方向に向かっている。
音声UIは、現在アレクサやグーグルホームなどのデバイスに見られるように、スマートスピーカーやその他のデバイスを通じて、人々が自然な話し言葉でデバイスとコミュニケーションすることを可能にする。話すことは、私たちが他の人間と物事を成し遂げる方法の基本であり、将来的にはコンピュータと物事を成し遂げる方法の基本になるだろう。
しかし、これは現在のところフリンジ的な意見である。
ほとんどの技術専門家は、音声がテクノロジー・エコシステムにおいて現在のニッチな役割を進化させ続けるか、少なくとも技術の向上とともに段階的に成長することに同意するだろうが、私の予測では、音声はそれ自体がメイン・イベントになる。音声はソフトウェアやデバイスとのインタラクションを支配するようになり、グラフィカル・ユーザー・インターフェースと同じくらい重要にさえなるだろう。
前述したように、これは主流の意見ではない。多くの業界専門家は、音声はまだ目新しく、製品と市場の完全な適合が達成されていないと認識している。例えば、著名なVCの中には、一般化された人工知能が達成されるまでは、音声技術は常に非常にニッチなものになるだろうという意見を持っている者もいる。
現在の音声アシスタントには多くの制限があるため、人々が音声をテクノロジーの次の波として想像するのは難しい。私の考えでは、今日の音声は90年代初頭のダイヤルアップウェブに似ている。当時は、オンライン体験があまりにひどかったため、帯域幅が改善されれば何が可能になるかを想像するのは難しかった。一流の思想家たちは、今にして思えばばかばかしいほど保守的な、インターネットに関するさまざまな予測を立てていた。ある専門家は、インターネットはファックス以上に経済に影響を与えないだろうとさえ予測していた。
音声に対する人々の期待は、音声体験がまだ荒削りであることもあり、今日も同様に保守的である。一般化された人工知能が達成されるまでは、ボットは会話において貧弱なパフォーマンスしか示さないという前提がある。そして、chatbots 、ユーザーと人間に近い会話ができるようになるまでは、このテクノロジーは決して素晴らしいものにはならないだろう。しかし、一般化された人工知能の必要性に関するこの仮定には欠陥がある:現在のテクノロジーを使って、chatbots 、ほぼ人間レベルのパフォーマンスを達成させる方法は確かにある。
一般的なスマートスピーカーアシスタントの場合、トピックの範囲が非常に広いため、ほぼ完全に自己学習する必要がある。残念ながら、現在の技術では、人間との複数ターンの会話に対応できる自己学習ボットを自動的に作成できるほど優れてはいない。もしそのような技術があれば、Googleでフォローアップの質問ができるようになるだろう。しかし、スマートなボットに自己学習させることは、人間が一切関与せずにスマートフォンのアプリに自己学習させようとするようなもので、現時点では不可能なのだ。
ボットでほぼ人間レベルの会話を実現するには、範囲を大幅に狭めるという方法もある。アプリと同じように、開発者は特定のタスクのために洗練されたボットを作成し、有意義な会話ができるように手動でプログラミングすることができる。スマートスピーカー、電話、その他のデバイスがこの種のボットをホストし、物事を正しく理解する最初のムーバーに大きなチャンスをもたらすだろう。
今日のボイスボットの問題への対応
現在の音声ボットの体験と、この技術が将来どのようになるかの違いを直感的に把握するためには、なぜ音声デバイスが現在ダイヤルアップモデムでのネットサーフィンに相当するのかを理解することから始める必要がある。
まず、音声ボットとの基本的なインタラクションはまだ非常に貧弱だ。特にホットワードでデバイスに話しかける必要があり、その後、ボットが正常に起動したかどうかを確認する必要がある。起動した場合は、ビープ音の後にゆっくりだが一定のスピードで話し、必要なパラメーターをすべて含むように文章を作成する必要がある。考えるのを中断すると、対話は失敗し、最初に戻る必要がある。
実際の例を見てみよう:
ヘイ、グーグル」と言う。
デバイスがアクティベートされたことを確認するまでの間、一時停止があります。
アクティベートされた場合は、リクエストを続行する:
ケイティ・ペリーの "Dark Horse "をYouTubeのリビングのテレビで流す。
あなたが言ったことをデバイスが処理する間、また遅延が発生します。
リクエストが成功すると、テレビで何かが始まり、ビデオが再生されます。
もしうまくいかなかったら、また最初に戻って、文の構成を変えたり、単語を変えたり、より明瞭に話すようにしたりして、再挑戦しなければならない。
この経験は、遅延や潜在的なエラーに満ちており、タスクを達成するために何度も再起動する必要があります。さらに、音声ボットはまだ賢くないので、あなたがしていることに関する関連するコマンドや問い合わせには反応しない。
音声ボットとの新しい対話方法
未来のスマートボットとのインタラクションを想像する最も簡単な方法は、人間のオペレーターがデバイスをコントロールし、YouTubeの操作に関して特別な指示を与える(それ以外は何もしない)ことを想像することだ。
最初の違いは、対話のスピードだ。人間」のオペレーターとは通常のスピードで話すことができ、返答に間や遅れはなく、話している最中に一時停止しても問題はない。例えば、"テレビが見たいんだけど......アレクサ、YouTubeに何かアップしてくれないかな?"といった具合だ。実際、彼らの名前(ホットワード)を言わなくても反応してくれるかもしれない。
この人間そっくりのボットは、あなたとの対話の仕方も柔軟だ:
あなた「アレクサ、YouTubeを見たいんだけど。
アレクサ"もちろん、どのテレビで?"
あなた「キッチンのテレビで、ケイティ・ペリーの曲かな。
アレクサ"特定の曲がありますか?"
あなた"いいえ、何か提案はありますか?"
人間:「『ロア』、『ダークホース』?スクリーンにもっと候補を出したよ。"
あなた「いいね、ありがとう。ホット・アンド・コールド』をやってくれ。
これがボットインタラクションの未来だ:シームレスで、スムーズで、目の前のタスクやトピックについて話しやすい。このようなボットの広大な宇宙と、同様に広大な安価で汎用化された音声デバイスの宇宙を想像してみてほしい。すべての部屋に、すべてのデバイスのそばに人間のオペレーターが立っているようなものだ。グラフィカルなUIはまだたくさんあるだろうが、ボットを通して使う方がはるかに簡単だ。
音声の未来への一歩
今日、地下鉄の駅や空港、スーパーマーケットなどでは、セルフサービスのタッチスクリーンを利用する人をサポートする従業員をよく見かける。例えば、空港で搭乗券を受け取るためにチェックイン機を利用する人をサポートする人だ。つまり、チェックイン手続きの途中で、最初に選んだ位置から座席を変更したいと機械に伝えれば、アプリケーションが該当する画面を表示してくれる。
これは未来の話だ。音声ボットは、あなたが関わりたいと思うあらゆるデバイスやサービスに組み込まれるか、アクセスできるようになり、あなたが命令したことを即座に実行してくれるようになる。その代わりに、必要なことを声に出して言うだけで、そこからすべてがうまくいくようになる。
音声通話への移行は、結局のところ、利便性という単純なものである。現代社会では、人々は最小限の手間で迅速に物事を進めたいと考えており、スピードはかつてないほど重要だ。チャットボット業界関係者の大半は、今のところそれを予期していないが、このテクノロジーを研究・開発している私たちは、事業運営、マーケティング、販売、ブランディング、製品流通などに大規模な影響を与えることを予見している。音声はテクノロジーの未来であり、私たちはすでにその道半ばにいるのだ。
シェアする
パーソナライズされたAIチャットボットを無料で構築しよう
ドラッグ&ドロップの直感的なインターフェースで、パーソナライズされたGPTボットの構築を始めましょう。
無料で始められます!🤖クレジットカード不要
AIに関する最新情報を入手chatbots