- OpenAI o1 是一个全新的模型系列(起步为 o1-preview 和 o1-mini),重点在于实时推理,而不仅仅是预训练。
- o1 在 STEM 任务上优于 GPT-4o,在 IMO 资格赛中得分为 83%,而 GPT-4o 仅为 13%,在 Codeforces 排名中达到第 89 百分位。
- o1 原生支持链式思维推理,因此速度较慢,但在复杂任务上准确率大幅提升。
- o1 更难被越狱,在对抗性安全测试中得分为 84/100,而 GPT-4o 仅为 22。
经过数月 ChatGPT 粉丝的猜测,OpenAI 最新的 Strawberry LLM 已经发布——而且它并不叫 GPT-5。
此前曾用 Q* 和 Strawberry 等神秘代号称呼,如今最新的模型系列终于定名为 OpenAI o1。
OpenAI 新模型最大的更新在于其推理能力的提升。OpenAI 表示,o1 经过训练,会比以往模型花更多时间思考,使其更接近人类智能。
OpenAI o1是什么?
OpenAI o1 是 OpenAI 于 2024年9月12日发布的最新大型语言模型系列,目前包括 o1-preview 和 o1-mini 两个模型。
o1 与公司以往模型最大的区别在于其高级推理能力。虽然尚未完全发布,但预览版和 mini 版在数学、科学和编程测试中已远超 GPT-4o。
OpenAI o1 模型
9 月发布包含了 o1-preview 和 o1-mini 两个模型。它们是该系列的首批产品,OpenAI 将持续优化并推出更多新模型。
区别在于,o1-mini 模型体积更小,价格比预览版便宜 80%。它专为需要高级推理但不需要广泛知识的任务设计,非常适合涉及编程或数学的任务。
OpenAI o1有多智能?
OpenAI 公布了一系列 STEM 基准测试,展示了 o1 的推理能力,包括:
- 在物理、化学和生物学基准测试中表现与博士生相当。
- 在美国数学奥林匹克资格赛中跻身美国前 500 名学生。
- 在编程竞赛 Codeforces 中排名第 89 百分位。
你可以在 OpenAI 的 研究发布中了解更多 o1 的推理能力。
什么是链式思维推理?
o1 模型采用 链式思维推理,即更长、更细致地分解请求的方式。
如果给 o1 模型一个提示,它不会立刻作答——因此等待时间较长。它会逐步推理每一步,仔细考虑每条信息及其影响,再决定下一步行动。只有在思考完整个问题所需的所有步骤后,才会给出答案。
o1与GPT-4o有何不同?
1)推理能力
o1 的核心优势在于其全新的推理能力。Altman 在与 Gates 的交流中表示:“也许最重要的进步领域将是推理能力。现在,GPT-4 只能以极其有限的方式进行推理。”
推理本身就非常困难,即使对人类来说也是如此。而 OpenAI o1 是首个声称具备此能力的模型。
o1 模型能够实时推理,而不是仅依赖预训练数据。这也是新模型在科学、数学和编程任务上优于以往 OpenAI 模型的原因。
2)更难被越狱
随着大型语言模型日益流行和强大,安全性成为 OpenAI 最新研发的重点。公司在开发 o1 系列时,与美国和英国的 AI 安全研究院合作,并与美国政府共同制定了尽职调查标准。
作为重大进步,o1 系列比以往模型更难被越狱(绕过安全措施)。
在最难的越狱测试之一中,o1-preview 模型得分 84/100,而 GPT-4o 仅为 22 分。
3)全新命名方式
虽然新 OpenAI LLM 的名字并不是最吸引人的亮点,但它是一次有意的重大变革。
OpenAI o1 是首个不再使用“GPT”命名的模型,因为公司认为这是全新“推理范式”的第一阶段,而旧模型属于“预训练范式”。
新模型会实时推理,而不是依赖其预训练数据。
4)更擅长 STEM 问题解决
推理能力提升带来了更强的数学能力。
o1 和 GPT-4o 都参加了国际数学奥林匹克资格考试。GPT-4o 解答了 13% 的题目,而 o1 解答了 83%。
5)等待时间更长
实时推理比引用训练数据并生成响应需要更长时间。如果你向 OpenAI o1-preview 提问,相比其他模型,你需要等待更久。
不过,能够让模型代替你推理,这点等待成本很低。随着系列新模型的发布,o1 的速度预计会进一步提升。
谁可以使用 o1?
自 9 月 12 日起,ChatGPT Plus 和 Team 用户可以在 ChatGPT 中访问 o1 模型。
OpenAI 宣布将向免费用户开放 o1-mini,但具体日期尚未确定。
目前每周消息上限为 o1-preview 30 条,o1-mini 50 条,未来还会提升。
我应该用 o1 做什么?
o1 的增强推理能力特别适合解决数学、科学和编程等复杂问题。正如 OpenAI 所述:
OpenAI o1 的局限性
作为预览版,该模型尚未具备 GPT-4o 的全部功能。如果你需要用 LLM 浏览网页、上传文件或图片,建议继续使用 GPT-4o,直到 o1 后续版本发布。
如何提示 OpenAI o1
由于推理能力增强,OpenAI 针对 o1 的提示建议与以往模型不同。
保持提示简洁。o1 很智能,不需要像 GPT-4 系列那样详细引导。也就是说,不要输入链式思维内容——模型已经在内部进行推理。
构建 GPT 驱动的 AI 智能体
如果你的 AI 智能体能自动同步每一次 OpenAI 更新会怎样?
Botpress 是一个完全开放且可扩展的 AI 智能体平台。我们的技术栈让开发者可以为任何工作流构建具备任意能力的聊天机器人和 AI 智能体。
Botpress 是唯一覆盖低代码设置到无限自定义与扩展的平台,让你的聊天机器人自动获得最新 GPT 版本的能力——无需额外操作。
立即开始构建。 免费使用。
常见问题
1. “o1”代表什么?未来模型(如 o2、o3)是否有命名规律?
“o1”很可能代表“OpenAI 1”,意味着新模型家族的起点。据此推测,未来该系列的版本名称可能会依次为“o2”、“o3”等。
2. 为什么 OpenAI 不再使用“GPT”命名方式?
OpenAI 将命名方式从“GPT”改为“o1”,以表明重心转向——从通用预训练语言模型转为专注于实时推理和交互能力的模型。
3. OpenAI o1 是 GPT-4 的继任者还是全新产品线?
OpenAI o1 并非 GPT-4 的直接继任者,而是围绕实时推理和效率打造的新产品线的开端,但它也基于 GPT-4 和 GPT-4o 的进步。
4. o1 处理多语言输入的能力是否优于 GPT-4?
OpenAI 尚未正式说明 o1 与 GPT-4 在多语言表现上的对比,但由于 o1 优化了推理和新能力,未来版本有望在多语言输入处理上表现更佳。
5. o1 何时会向免费用户全面开放?
OpenAI 已确认将向免费用户推出名为“o1-mini”的版本,但目前尚未公布正式上线的具体日期。





.webp)
