经过几个月的猜测,OpenAI最新的LLM 版本已经发布--它不叫GPT-5。
在此之前,该系列的最新机型曾被冠以 Q* 和 Strawberry 等神秘而耐人寻味的代号,但最终还是采用了OpenAI o1 这一名称。
OpenAI 新模型最大的更新是增强了推理能力。OpenAI 解释说,与以前的模型相比,o1 经过训练后会花更多时间进行思考,使其更接近人类智能。
OpenAI o1 是什么?
OpenAI o1 是OpenAI 于 2024 年 9 月 12 日发布的最新系列大语言机型,目前包括两款机型:o1-preview 和 o1-mini。
o1 与该公司之前型号的最大区别在于其先进的推理能力。虽然它还没有正式发布,但预览版和迷你版已经在数学、科学和编码测试中击败了GPT-4o。
OpenAI o1 型号
九月份发布的产品包括两个型号:o1-preview 和 o1-mini。它们是一系列机型中的首批机型,随着OpenAI 对新型LLM 的不断完善,这些机型还将陆续发布。
区别是什么?o1-mini 机型比预览机型小,价格便宜 80%。它专为需要高级推理但不需要更广泛知识的任务而设计。它非常适合涉及编码或数学的任务。
OpenAI o1 有多智能?
OpenAI o1 的推理能力:
- 在物理、化学和生物学基准测试中的表现与博士生相似。
- 在美国数学奥林匹克竞赛美国预选赛中进入前 500 名。
- 在竞争激烈的编码测试 Codeforces 中排名第 89 位。
有关 o1 推理能力的更多信息,请参阅OpenAI 的研究报告。
What is chain of thought reasoning?
The o1 models use chain of thought reasoning, a longer and more thorough way of by breaking down requests.
If the o1 model is given a prompt, it won’t answer immediately - hence the long wait time. Instead, it will reason through each of the steps, carefully considering each piece of information and its implications before deciding on the next course of action. It won't provide an answer until it has thought through the entire series of steps required in the ask.
o1 与GPT-4o 有什么不同?
1) 推理能力
o1 的新推理能力是其通用智能的核心。"也许最重要的进步领域将围绕推理能力展开,"奥特曼与盖茨分享道。"现在,GPT-4 只能以极其有限的方式进行推理。"
推理是出了名的困难。即使对人类来说也是如此。OpenAI o1 是第一个宣称这一点的模型。
o1 模型能够实时推理,而不是依赖预先训练的数据。这就是为什么新模型在科学、数学和编码任务方面比以前的OpenAI 模型更出色的原因。
2) 越狱更难
随着LLMs 的普及和功能的增强,安全问题日益突出,因此安全问题成为OpenAI最新开发的重点。公司在开发 o1 系列产品时,与美国和英国的人工智能安全研究所合作,并与美国政府合作进行尽职调查。
作为一大进步,o1 系列比以前的机型更难越狱--绕过安全措施。
在一项最难的越狱测试中,o1-preview 模型获得了 84 分(满分 100 分),而GPT-4o 则只有令人沮丧的 22 分。
3) 新的命名规则
虽然它的名字并不是全新OpenAI LLM 最令人兴奋的地方,但这是一个有意为之的有意义的变化。
OpenAI o1 是第一个摆脱 "GPT"称号的型号,这是因为公司声称它是全新 "推理范式 "的第一阶段,而旧型号则属于 "前训练范式"。
新模型会花时间进行实时推理,而不是依赖预训练数据。
4) 更擅长科技、数学和工程学方面的问题解决任务
推理能力越强,数学能力就越强。
o1 和GPT-4o 都被要求完成国际奥林匹克数学竞赛的资格考试。GPT-4o 解决了 13% 的问题,而 o1 解决了 83% 的问题。
5) 等待时间较长
实时推理比引用训练数据和生成回复耗时更长。如果您向OpenAI o1-preview 提问,与其他模型相比,等待的时间要长得多。
不过,有了外包推理的能力,付出的代价还是很小的。随着 o1 系列下一个机型的发布,其速度可能会有所提高。
谁可以使用 o1?
从 9 月 12 日起,ChatGPT Plus 和团队用户可以访问ChatGPT 中的 o1 模型。
OpenAI 宣布将向免费用户提供 o1-mini,但具体日期尚未确定。
目前,01-preview 和 o1-mini 的每周费率限制分别为 30 条和 50 条,但不久后将会提高。
我应该用 o1 来做什么?
o1 增强的推理能力特别适用于解决数学、科学和编码方面的复杂问题。正如OpenAI 所解释的那样:
OpenAI o1 的局限性
作为预览版,该型号还不具备GPT-4o 的所有功能。如果您想使用LLM 浏览网页以获取信息,或者想上传文件或图片,在 o1 的后续型号发布之前,您需要坚持使用GPT-4o。
如何提示OpenAI o1
OpenAI与以前的模型相比,o1 的提示建议发生了变化,因为它的推理能力得到了增强。
提示要简单。这是一个智能模型,不需要像GPT-4 系列那样多的指导。这意味着要避免输入任何思维链--模型内部已经在进行推理了。
构建GPT 人工智能代理
如果您的人工智能代理能自动同步OpenAI 的每次更新呢?
Botpress 是一个完全开放、可扩展的人工智能代理平台。我们的stack 允许开发人员在任何工作流程中构建具有任何功能的聊天机器人和人工智能代理。
Botpress 是唯一一个从低代码设置到无尽的可定制性和可扩展性的平台,它允许您在聊天机器人上自动获得最新GPT 版本的强大功能--无需任何努力。