あるタスクを実行するソフトウェアを作りたいとする。それには2つの主要な方法と1つの中間的な方法がある。
コード・メソッド
最初の方法は、そのタスクを実行するようにソフトウェアをプログラムすることで、これを「コード・メソッド」と呼ぶことにする。この場合、起こりうる相互作用をすべて把握し、プログラムの中でそれを予測する。最も基本的な例は「If then」シーケンスで、コンピュータに「もしこうなったら、こうしてください」と指示します。例えば、このボタンがクリックされたら、この画面を表示する。
コード・メソッドはデータを使わず、トレーニングも行わない。プログラムされたシーケンスは、データに関係なく決定論的に起こる。はっきりさせておきたいのは、コード・メソッドを使ったプログラムは、実際のコードを使って書いたり、ビジュアル・ツールや同様のツールを使って作成することができるということだ。
トレイン・メソッド
つ目の方法は、ビッグデータを使ってタスクをこなすようにソフトウェアを訓練することで、これを「訓練法」と呼ぶことにする。この場合、ニューラルネットワークのようなアルゴリズムを作成し、ソフトウェアがデータ上で学習できるようにする。その後、ソフトウェアをデータに解き放つと、コンピューターはフィードバック・ループを通じて、タスクを実行する方法を学習する。例えば、猫の写真でソフトウェアを訓練することで、猫を認識するように教えることができる。
訓練法は、もちろん人工知能の本質である。ビッグデータ・アプローチと呼ばれるのは、質の高い訓練データが多ければ多いほど、より良い結果が得られるからだ。妥当な結果を得るために必要な訓練データは最低限である。
最も純粋な形では、訓練法は非構造化データを使用することができ、学習自体は教師なし方法で行われる。つまり、人間がソフトウェアの学習を手助けすることは一切ない。
このアルゴリズムは、与えられた写真が猫であるか否かを、(明示的なラベリングではなく)暗黙的な文脈から学習する。例えば、あるプラットフォームの一般ユーザーは、その場限りの自発的な方法で、写真の説明文に猫という単語を入れるかもしれないし、写真が掲載されている記事に猫という単語があるかもしれないし、動画であれば、猫が登場するときに人々が猫という単語を口にするかもしれない。もちろん、これらのユーザーデータはすべて完全に非構造化(つまり、乱雑)であり、アルゴリズムはこの乱雑なデータから猫とは何かを見つけ出す必要がある。
もちろん、アルゴリズムが教師なしであることには大きな利点がある。それは、データのラベル付けや分類にかかる人間の労力を大幅に削減できる可能性があるということだ。10万枚の猫の写真に正確なラベルを付けるのは簡単なことではない。
問題点
非構造化訓練法の大きな問題は、より多くのデータを必要とすることだ。データが入手できなければ、この方法でトレーニングすることはできない。教師ありアプローチも多くのデータを必要とするため、同じ問題に悩まされる。
もちろん、これが、人々がAIをすべてに適用するのではなく、AIを適用する機会を探している理由である。AIのアルゴリズムが最もうまく機能するのは、トレーニングのために多くのデータが利用できるときだ(あるいは、ゲームの場合、多くのデータを生成できるときだ)。
非構造化、教師なしアプローチのもう一つの問題は、手元のデータでアルゴリズムを書き、テストするのがはるかに難しいということだ。非構造化データを扱うには、データがきちんと分類されている場合よりも洗練されたアルゴリズムが必要になる。
教師ありのアプローチは、データをどのように分類するかという点で、人間の意図をプロセスに加えるが、それはまだ非常に訓練された方法であり、ビッグデータのアプローチである。アルゴリズムを理解した人間がデータにラベルを付けることができ、そうすることでアルゴリズムの作業を減らすことができる。
スモール・データ・メソッド
コード・メソッドとトレーン・メソッドの中間のようなメソッドがあり、これを「スモール・データ・メソッド」と呼ぶことにする。これが、タイトルで言及したスモールデータ法である。コード法と訓練法の両方を組み合わせることで、アルゴリズムの訓練に必要なデータ量を大幅に削減することが可能だ。
スモール・データ・メソッドでは、開発者は相互作用のモデルをコーディングするが、このモデルはビッグ・データにアプローチするのに必要とされるよりもはるかに小さなデータセットでトレーニングされる。その結果、モデルのトレーニングは、純粋なトレーニング手法で必要とされるよりもはるかに速くなる。
もちろん、モデルをコード化してデータを訓練するのに必要な時間が、データを集めてアルゴリズムを訓練するのにかかる時間よりもはるかに短いのであれば、このような小規模データのアプローチは理にかなっている。
スモールデータ・ソリューションを使えば、現状では実現不可能なことも可能になるシナリオがある。スモールデータ法は、そもそも訓練法に必要なデータが存在しない場合に利用できる唯一の方法である。この場合、アルゴリズムは手動で作成したデータで訓練する必要がある。手作業で何万件ものレコードを作成するのは通常現実的ではない。
スモールデータ・アプローチは現在、botpress.ioを含むAI企業によって研究されており、今後数年のうちに主流となる技術になると私は期待している。
シェアする
パーソナライズされたAIチャットボットを無料で構築しよう
ドラッグ&ドロップの直感的なインターフェースで、パーソナライズされたGPTボットの構築を始めましょう。
無料で始められます!🤖クレジットカード不要
AIに関する最新情報を入手chatbots