チューリング・テストとは何ですか?
チューリング・テストとは、チャットの会話を通じて、コンピュータが人間であることを人間に納得させることができるかどうかを調べるAIのテストである。人間は、話している「人」が人間なのかコンピュータなのかを判断するよう求められる。もし人間と話していると判断しても、実際にはコンピューターと話していれば、そのコンピューターはチューリング・テストに合格したことになる。
基本的には、コンピュータが人間の真似をして、人間を騙して人間に話しかけていると思わせることができるかどうかを評価するテストである。もちろん、このテストには解き明かさなければならないことがたくさんある。
チューリングテストのポイントは?
これは奇妙な質問のように思えるかもしれないが、ポイントは明白である。しかし、もっと深い考察がある。
根本的な思考や知性という点で、機械が純粋に人間を真似ることができるのか、それとも単に人間を騙して人間だと思わせることができるのかをテストしているのだろうか?そこには違いがある。
根本的な思考や知性という点で、人間を模倣することは、チューリング・テストについて考えるとき、人々が一般的に思い浮かべることだ。人間を "騙す "ことは許されていたからだ。例えば、誤字脱字をすることは、機械がスペルミスをすることはないので、コンピュータが人間を騙して人間だと信じさせる方法かもしれない。
根本的な問題は、テストにはルールがあるため、どうしても欠陥が出てしまうということだ。例えば、被験者にどれだけ長く話しかけるかが重要だ。人間の真似をするのは、100時間の会話より5分の方が簡単だ。トリックは5分では通用するかもしれないが、100時間では通用しない。
誰がチューリング・テストを行うかは重要か?
機械と人間を見分ける訓練を受けている科学者は、訓練を受けていない市井の人間よりもはるかに騙すのが難しいだろう--科学者の答えを評価する能力だけでなく、どのような質問をすべきかを知っているからだ。
たとえコンピューターが人間レベルの「思考」と知性を持っていたとしても、テスターを欺くには十分ではないかもしれない。それは、コンピューターがあまりに完璧すぎたり、あまりに感情的でなかったりする可能性があるからだ。
チューリング・テストをめぐっては、もしコンピューターが一般化された人間レベルの知能に達すれば、機械は「考える」ことができる、あるいは意識を持つことができるということになるのか、といった哲学的な考察さえある。これは、アラン・チューリングがこのテストで回避しようとした疑問でもある。もし機械が人間を正確に模倣できるのであれば、それはどこから見ても "思考 "していることになる。
もちろん、だからといって意識があるわけでも、人間と同じように考えているわけでもない。実際、人間が考えるような方法で考えていないことは保証されている。この問題の本当の面白さは、実用的な観点から見たときにある。例えば、飛行機は飛ぶ。それが重要なのだ。鳥の飛び方を模倣していないことの方がはるかに興味深い。
チューリング・テストが関心を持つのは結果であって、結果の出し方ではない。
より重要な点は、チューリング・テストは一般的に、機械の知能が少なくとも人間レベルの知能に達した状態を表すものと理解されているということである。機械が技術的にチューリング・テストに合格したかどうかという問題に関心を持つのは、上記のような欠点を考慮した、もっと小さなグループである。
チューリング・テストに合格することは、技術的には素晴らしい偉業となりうるが、特にテストが長期間にわたって行われ、知識豊富な人々によって運営される場合には、すべての人々を常に欺くことのできるマシンに比べれば、はるかに印象が薄い。もちろん、テストの実施期間が長ければ長いほど、また評価者の専門知識レベルが高ければ高いほど、この2つのシナリオが収束する可能性は高くなる。
チューリング・テストに合格するコンピューターは間近か?
テストが何であるかを理解したところで、次の質問は、"我々はテストに合格するコンピューターに近づいているのか?"でなければならない。(つまり、一般化された人間の知能を達成すること)。短い答えは「ノー」である。
自然言語処理(1つの話し言葉の背後にある意図を識別するコンピュータの能力)(これはすべての音声アシスタントを駆動する技術である)には大きな進歩があったが、我々は一般化された人間レベルのインテリジェンスにはほど遠い。
現在のテクノロジーは、あいまいさ(あいまいな発言の背後にある意味を理解すること)、記憶(以前に述べた事実を現在の会話に取り入れること)、文脈(述べられていないが現在の状況に関連する事実を考慮すること)が苦手であることが判明した。要するに、現在のテクノロジーは、必要とされているものにはほとんど及ばないということだ。
問題の一つは、現在のAI技術が膨大な量のデータを使って学習する必要があることだ。例えば、音声認識や画像処理、自動運転車などである。
NLPの成功は、文脈も記憶もない単発の発言や質問にはほとんど無限のデータがあるという事実によってもたらされる。もし私が「オレンジを買いたい」と言えば、たいていの場合、理解するために文脈や記憶に関する追加情報を必要としない単純な発言です。その意図は「オレンジジュースを買う」である。
文脈や記憶が絡むと、次元が生まれる。もし私が「オレンジジュースを買いたい」と言ったとしても、私がオレンジジュースを取引する金融トレーダーであることを以前に話したとしたら、この文脈では、私はオレンジジュースの価格が上がれば儲かる金融商品を買いたいのだと理解する必要がある。
さて、このデータはどのようなものだろうか?「オレンジジュースを買う」とは、お店でオレンジジュースを買うか、オレンジジュースの金融トレーダーであることを表明していれば、オレンジジュースの価格に連動する金融商品を買いたいことを意味する。
金融トレーダーがのどが渇いたと言ったとしたらどうだろう。そこで、別のデータ・ポイントを追加する:オレンジジュースの金融トレーダーであることを以前表明していたが、最近喉が渇いたと表明した場合、オレンジジュースを買いたいことを意味する。
ユーザーが人間レベルの「知性」を持っていると信じるような取引ボットを立ち上げれば、金融企業はすぐに問題に直面するだろう。
チューリング・テストに合格することは不可能なのか?
会話データには多くの次元がある。無限の次元だ。つまり、機械学習アルゴリズムは、ありとあらゆる次元について大量のデータを持つデータセットにアクセスする必要があるが、もちろんそれは不可能だ。
これはもちろん、チューリング・テストに合格することが不可能だという意味ではない。それが可能だとわかっているのは、私たちの脳の中にすでにその技術があるからだ。何百年も前の人々が、鳥が飛ぶのを観察することで飛行が可能であることを知っていたように。
なぜなら、十分な次元を持つビッグデータが存在しないからだ。なぜなら、十分な次元性を持つビッグデータが存在しないからだ。今こうしている間にも、グーグルでは1日に8億件もの検索が行われている。これは、データアプローチがいかに難しいかを示す手がかりになる。
グーグルのレイ・カーツワイルは、人間の脳をある程度再現しようとするアプローチに従っている。彼は、2029年までに一般化された知能を獲得し、非常に難しいチューリング・テストに合格できるようになると見積もっている。
彼の予測は、この分野の進歩が指数関数的に進むという仮定に基づいており、したがって、現在の比較的ささやかな進歩でさえ、指数関数的な進歩の軌道に乗っていると仮定すれば、見かけよりもはるかに大きな意味を持つことになる。
彼が正しいかどうかは見てみないとわからないが、このことからわかるのは、今後10年でブレークスルーが起こる可能性は極めて低いということだ。
マシンが信頼できるチューリング・テストに合格するとはどういうことか?
最後のポイントは、機械が信頼できるチューリング・テストに合格した場合、それが何を意味するかということだ。機械がある種のビッグデータアプローチを使ってテストに合格した場合、機械がボードゲームで人間に勝つのと同じような方法で、たとえ洗練されたものであっても、その意味合いは、機械が脳の複製アプローチを使って合格した場合ほど大きくはないだろう。
脳を複製するアプローチは、我々が人間として考えることを定義する方法において、機械が「考える」ことに近づく可能性が高いことを意味する。意味を推定するために何百もの正確な事例を必要とするのではなく、人間と同じように最小限の事例から意味を推定することができる。
前述したように、ビッグデータによるアプローチは不可能であるため、「脳の複製」アプローチがブレークスルーをもたらす可能性が高い。そうなれば、会話だけでなく、複数の領域で機械が一般的な知能を獲得することになるだろう。
社会の完全なリセットにつながる可能性が高いのだから。特に、機械が有意義な方法で自らを向上させる能力を持てば、好循環の中で知能が飛躍的に向上し、私たちが知っているような生活を変える可能性がある。
人間と機械の相互作用
もっと日常的なことにこだわると、たとえ機械が人間と同等であったとしても、私たちが人間と接するのと同じように機械と接するとは限らないということを覚えておく価値がある。これは人間とまったく同じである。人間との対話は必ずしも効率的ではない。電話で同僚に何かを説明しようとするのは面倒だし、やり方を見せてあげた方が簡単な場面では非効率的だ。もし人間がウェブ上で利用可能なグラフィカル・インターフェースを持っていたら...!
音声インターフェース(またはチャットベースのインターフェース)には、情報の入力や出力という点で明らかに限界があります。音声インターフェースを使用するよりも、情報をグラフィカルに表示したり、グラフィカルなインターフェースをクリックしたりする方がはるかに効率的であるという限界や状況があることは明らかです。そのため、ボット・プラットフォームは、常にユーザーをハッピー・パスに戻し、会話を蛇行させないように設計されています。
私が言いたいのは、コンピューターは人間のように情報を受け取ったり提供したりするインターフェースに制限があるわけではないので、機械との会話では、必然的に目の前のタスクに最適なインターフェースを使うことになる、ということでもある。
チューリング・テストに合格することは、人間とコンピュータの相互作用という点では大きなマイルストーンとなるだろうが、実際の人間とコンピュータの「会話」は、音声とテキストだけに限定されるものではないだろう。