OpenAIが長らく待たれていたo1モデルシリーズは、その高度な推論能力で大きな話題となり、人工知能の大きな進歩を示しました。
o1の推論能力は、Botpressユーザーにはおなじみの機能、Autonomous Nodeと似ています。2024年7月にリリースされたAutonomous Nodeは、AIエージェントプラットフォームの中で初めて登場したものです。
BotpressのCEOであり、プラットフォームのAutonomous Nodesの設計者でもあるSylvain Perronが、両者の推論エンジンの共通点と違いについて説明しました。
Botpress CEO Sylvain PerronがOpenAI o1とAutonomous Nodeを比較
OpenAIの新しいo1モデルとBotpressのAutonomous Nodesには大きな共通点があるということでよろしいでしょうか?
確かに共通点はあります。o1が登場したのを見て、とても面白かったです。ただし、ここで比較しているものは、厳密には同じカテゴリーではありません。
OpenAI o1は明らかにLLMですが、Autonomous Nodesはプラットフォームの機能です。実際、o1をBotpressに接続してAutonomous Nodesと一緒に使うこともできます。
しかし、どちらもチェーン・オブ・ソート推論を使っています。これは、何をすべきか、何を話すべきかを結論づけるためのボトムアップ型のアプローチです。
チェーン・オブ・ソート推論とは何か、また通常の言語モデルの応答生成とどう違うのか説明してください。
もちろんです。ほとんどのLLMは、前の単語に基づいて次の単語を予測しながら応答を生成します。最初の単語を生成し、それを使って次の単語を生成し…という流れです。これは単純な質問には有効ですが、複数のステップが必要な複雑なタスクではうまくいきません。
一方、チェーン・オブ・ソート推論は、AIがタスクを小さなステップに分解し、それぞれのステップを明示的に考えながら次に進む方法です。理系の試験問題で、答えに至るまでの過程を段階的に説明するようなものです。
例えば、AIがCRMでリードを作成する場合、重複チェックや担当者の割り当てなど、各ステップごとにチェーン・オブ・ソート推論を使って考え、実行前に一連のアクションを計画します。重複かどうかを確認する前にフォームを埋め始めるのではなく、事前に把握しています。
この仕組みにより、複雑で依存関係の多いタスクにも対応できますが、その分、即座に生成するのではなく、一度立ち止まって考える必要があるため、処理速度は遅くなります。
o1とAutonomous Nodesはどちらもチェーン・オブ・ソート推論を使っていますが、両者で同じプロセスなのか、それとも違いがあるのでしょうか?
共通点も違いもあります。私たちもチェーン・オブ・ソート推論を使っていますが、実際のクライアント向けに構築しているため、いくつかの方法で速度と効率を最適化しています。
Autonomous Nodesでは、1回のLLM呼び出しで複数のアクションを処理できるように設計しました。思考と実行を同じプロセス内で行うことで、時間のロスを防いでいます。
Autonomous Nodesは、思考の途中でもユーザーに進捗を伝えます。ユーザーが長時間待たされることがなく、自然な会話に近い体験になります。開発者はLLMの内部思考を確認し、不具合の原因を特定できます。
一方、o1は1つの答えしか返さず、その思考過程はほとんど見えません。OpenAIはチェーン・オブ・ソートの要約のみを提供し、詳細は見せないため、トラブルシュートが難しくなります。
他に違いはありますか?
o1では、ツール呼び出しを行う関数をホストするために、開発者やプラットフォーム側で準備が必要です。各ステップごとにAPIコールが必要で、1つのアクションをリクエストし、結果を待ち、次のアクションを呼び出す…という繰り返しになります。そのため、利用のハードルが高く、基盤となる実行環境を用意しなければなりません。
Autonomous Nodesはこれを自動的にバックグラウンドで処理します。
o1はコストや速度の面でどのように比較されますか?
例えば、Hubspotのタスクを支援するためにLLMやAIエージェントを使い、ウェブサイト訪問者とチャットしてAIによるリード獲得を行う場合を考えてみましょう。
もしo1にHubspotでリードフォームを入力させた場合(サードパーティコネクタなしで接続できたと仮定して)、Botpressで実行する場合に比べて12秒かかり、コストも5倍になります。
この速度の違いは、プラットフォームのスキーマベース設計によるものです。必要なデータやその構造をシステムが事前に把握しています。
そのため、HubSpotやSalesforceのようなツールを使う際、必要な入力項目(氏名、メールアドレス、会社名など)を定義したJSONスキーマがあらかじめ用意されています。
これにより、Autonomous Nodesはタスク全体を最初から推論でき、各ステップごとに追加情報を求める必要がありません。
自分でコンテキストを与えれば、速度やステップ数を減らせますが、その分o1ベースのアプリケーション構築に時間がかかり、保守コストも増えます。
信頼性が高いとおっしゃっていますが、Autonomous Nodesがo1よりも信頼できる理由は何ですか?
出力の信頼性を高めた最大の要因は、チェーン・オブ・ソート推論と、私たちが開発したプロトコルツール呼び出しを組み合わせたことです。
私たちが行ったのは、AIが考えるための環境を作ることです—しかもすべてコード上で。正直、OpenAI版よりも速く、信頼性も高いです。
1つは、アクションのシーケンス全体で同時に会話できる点です。これはOpenAIモデルにはできません。
もう1つは、AIが出力スキーマを理解していることです。受け取ったクエリに基づいて、どんなJSONを出力すべきか把握しています。
さらに、開発者自身が調整可能です。ユーザーから似た質問が多く寄せられる場合でも、AIを調整して毎回最適な回答を返すことができます。
プロセスのどの部分でJSONが使われているのですか?
英語の文章だけでは信頼性が低いですよね。形式的でも厳密でもありません。
プログラミング言語も言語ですが、形式的です。特定のルールや構文の範囲内でしか使えません。
そのため、私たちのツール呼び出しは英語ではなくJSONで応答します。プレーンテキストではなく、JSONスキーマに基づいたJSON出力です。
Hubspotでリードフォームを作成するリクエストを送ると、それはJSONで記述され、スキーマもJSONで、必要なプロパティ(名前、会社名など)をすべて指定します。
Autonomous Nodesとo1モデルのツール呼び出しの主な違いは何ですか?
私たちのツール呼び出しは非常にコンテキストを理解しています。すべてのシステムや可能なアクション、データの受け渡し方法を把握しています。1回のLLM呼び出しで、これらすべてをまとめてコードブロックとして生成し、回答も同時に返せます。
理論上、o1 APIでもツール呼び出しは可能ですが、呼び出しに制約があります。しかしBotpressはそのために設計されています。他のLLM(GPTなど)にもガードレールを設けています。
Autonomous Nodesはツール呼び出し中にも同時に会話できるため、OpenAIにはない機能です。これによりサーバーとの往復回数が減り、長時間の処理が始まる前にユーザーに通知できるため、より良い会話体験になります。
多くの組織では、ChatGPTを機密データで使うことに注意喚起されています。Autonomous Nodesではその懸念は少ないのでしょうか?
私たちのプラットフォームは、大量かつ低遅延の環境向けに設計されており、ビジネスの実用的なニーズを考慮してエンジニアリングされています。
Autonomous Nodesの強みは、まったく新しいAIを作ったことではなく、既存技術を賢くエンジニアリングして、ビジネス用途に最適化した点です。
AIによるコミュニケーション生成には安全なサンドボックスを用意しています。Autonomous Nodeを使うと、これらの秘密のサンドボックスが無料で実行されます。安全でスケーラブルです。処理後はサンドボックスが破棄されます。
これは2層構造の仮想的な隔離環境で、「チェックイン」と「チェックアウト」があります。かなり複雑ですが、大規模なLLM生成コードを最小限のセキュリティリスクで実行できるという意味です。
開発者やAI愛好家がAutonomous Nodeを試したい場合、どのような手順が必要ですか?
無料枠を広くご用意しています。すべてのユーザーが試せます。この機能はあまりにも素晴らしいので制限したくありませんでした。ですので、無料のBotpressアカウントを作成すれば、すぐにご利用いただけます。





.webp)
