GPT数ヶ月にわたる憶測の後、 OpenAI'の最新作LLM リリースが発表された。
これまではQ*やストロベリーといった暗号のような興味をそそるコードネームで呼ばれていた最新モデルシリーズだが、最終的にOpenAI o1という名称に落ち着いた。
OpenAI の新モデルで最大のアップデートは、その推論能力の強化だ。OpenAI 、o1は以前のモデルよりも考える時間を増やすよう訓練され、人間の知能に近づいたと説明した。
OpenAI o1とは?
OpenAI o1は、OpenAI 、2024年9月12日に発表された大型言語モデルの最新シリーズで、現在はo1-previewとo1-miniの2モデルで構成されている。
o1と同社のこれまでのモデルとの最大の違いは、その高度な推論にある。まだ完全にはリリースされていないが、プレビューモデルとミニモデルは、数学、科学、コーディングのテストにおいて、すでにGPT-4oを吹き飛ばしている。
OpenAI o1モデル
9月にリリースされたのは、o1-previewとo1-miniの2モデル。これらは、OpenAI が新しいLLM に磨きをかけるにつれてリリースされ続ける一連のモデルの第一弾である。
その違いとは?o1-miniモデルはプレビューモデルより小さく、80%安い。幅広い知識ではなく、高度な推論を必要とするタスク向けに作られています。コーディングや数学を含むタスクに最適です。
OpenAI o1の賢さは?
OpenAI は、o1の推理能力を示すSTEMベンチマークのリストを宣伝している:
- 物理学、化学、生物学のベンチマークテストにおいて、博士課程の学生と同等の成績。
- 米国数学オリンピックの米国予選で上位500人に入る。
- 競争力のあるコーディング・テスト、Codeforcesで89パーセンタイルにランクイン。
o1の推理能力については、OpenAI の研究リリースをご覧いただきたい。
What is chain of thought reasoning?
The o1 models use chain of thought reasoning, a longer and more thorough way of by breaking down requests.
If the o1 model is given a prompt, it won’t answer immediately - hence the long wait time. Instead, it will reason through each of the steps, carefully considering each piece of information and its implications before deciding on the next course of action. It won't provide an answer until it has thought through the entire series of steps required in the ask.
o1 はGPT-4o とどう違うのか?
1) 推理力
その一般知能の中心にあるのが、o1の新しい推論能力である。「おそらく最も重要な進歩の分野は推論能力でしょう」とアルトマンはゲイツに語った。「今のところ、GPT-4は極めて限定された方法でしか推論できません」。
推論をするのは難しい。人間にとっても。そして、OpenAI o1はそれを主張する最初のモデルである。
o1モデルは、事前学習データに頼るのではなく、リアルタイムで推論することができる。そのため、新しいモデルは科学、数学、コーディングのタスクにおいて、以前のOpenAI モデルよりも優れている。
2) 脱獄しにくい
LLMs の人気とパワーが高まるにつれて安全性への懸念が高まる中、OpenAI'の最新開発ではセキュリティが重要な焦点となっている。同社はo1シリーズを開発する際、米国と英国のAI安全協会と提携し、米国政府とも協力してデューデリジェンスを確立した。
大きな前進として、o1シリーズは以前のモデルよりも脱獄(安全対策を回避すること)がはるかに難しくなっている。
彼らの最も難しい脱獄テストの一つで、o1-previewモデルは100点満点中84点を獲得したのに対し、GPT-4oは22点という惨憺たる結果だった。
3) 新しい命名規則
その名前は、新しいOpenAI LLM 、最もエキサイティングなことではないが、意図的に意味のある変更である。
OpenAI o1は、「GPT 」という名称を捨てた最初のモデルである。これは、同社が全く新しい「推論パラダイム」の第一段階であると主張しているためで、旧モデルは「プレトレーニングパラダイム」の一部であった。
新しいモデルは、事前学習データに頼るのではなく、リアルタイムで推論に時間を費やす。
4) STEMの問題解決タスクが得意
より優れた推論には、より優れた数学の能力が伴う。
o1 とGPT-4o はともに国際数学オリンピックの予選試験を受けることになった。GPT-4oは13%の問題を解いたが、o1は83%の問題を解いた。
5) 待ち時間が長い
リアルタイムで推論を行うには、トレーニングデータを参照して回答を生成するよりも時間がかかる。他のモデルと比較して、OpenAI o1-previewに質問をすると、かなり待たされることになる。
しかし、推論をアウトソーシングできるのだから、安いものだ。o1モデルのスピードは、シリーズの次のモデルがリリースされるにつれて向上していくだろう。
誰がo1を使えるのか?
9月12日現在、ChatGPT Plus および Team ユーザーは、ChatGPT の o1 モデルにアクセスできる。
OpenAI o1-miniを無料ユーザーにも提供すると発表した。
現在の週間レート制限は、01-previewが30通、o1-miniが50通ですが、近々引き上げられる予定です。
o1は何に使えばいいのですか?
o1の強化された推論能力は、数学、科学、コーディングの複雑な問題を解くのに特に役立つ。OpenAI :
OpenAI o1の限界
プレビューとして、このモデルはGPT-4o のすべての機能をまだ持っていません。LLM 、ウェブをブラウズして情報を得たり、ファイルや画像をアップロードしたい場合は、GPT-4oを使う必要がある。
プロンプトの出し方OpenAI o1
OpenAIのプロンプトは、推論が強化されたことにより、以前のモデルと比べてo1の提案内容が変化している。
プロンプトはシンプルに。これは賢いモデルであり、GPT-4シリーズほど多くのガイダンスを必要としない。つまり、思考の連鎖的な入力は避けるということです - モデルはすでに内部で推論しています。
GPT AIエージェントの構築
もしAIエージェントが、OpenAI のアップデートのたびに自動的に同期するとしたらどうだろう?
Botpress は、完全にオープンで拡張可能なAIエージェントプラットフォームです。当社のstack 、開発者はあらゆるワークフローにおいて、あらゆる機能を備えたチャットボットやAIエージェントを構築することができます。
少ないコードでセットアップから無限のカスタマイズ性と拡張性まで対応できる唯一のプラットフォーム、Botpress は、あなたのチャットボットに自動的に最新のGPT バージョンのパワーを提供します。
今日から始めよう。無料です。