- OpenAI o1 是新的模型系列 (從 o1-preview 和 o1-mini 開始),專注於即時推理,而不只是預先訓練。
- o1 在 STEM 任務上的表現優於GPT,在 IMO qualifiers 上的得分率為 83%,而GPT 則為 13%,並在 Codeforces 上排名第 89 位。
- o1 使用本機的連鎖思考推理,雖然速度較慢,但在複雜的任務上卻顯得更精準。
- o1 更難越獄,在對抗性安全測試中得分 84/100,GPT 則是 22。
經過幾個月來的猜測 ChatGPT粉絲的猜測之後,OpenAI最新的 StrawberryLLM 正式發行,而且它的名稱不是GPT。
在此之前,OpenAI 曾以 Q* 和 Strawberry 等隱晦、耐人尋味的代號稱之,而最新的機型系列則終於定名為OpenAI o1。
OpenAI 新模型最大的更新是增強了推理能力。OpenAI 解釋說,與之前的模型相比,o1 已經經過訓練,能夠花更多時間思考,讓它更接近人類智慧。
OpenAI o1 是什麼?
OpenAI o1 是OpenAI 於 2024 年 9 月 12 日發佈的最新大型語言模型系列,目前包含兩個模型:o1-preview 和 o1-mini。
o1 與該公司之前機型的最大差異在於其先進的推理能力。雖然還未全面推出,但預覽版和迷你版已經在數學、科學和編碼測試中將GPT 打得落花流水。
OpenAI o1 模型
九月份的版本包含兩個模型:o1-preview 和 o1-mini。它們是一系列模型中的第一個,OpenAI 將會繼續發佈這些模型,以完善其新的LLM。
差異?o1-mini 機型比預覽機型更小、更便宜 80%。它專為需要進階推理但知識面不廣的任務所打造。它非常適合涉及編碼或數學的任務。
OpenAI o1 有多聰明?
OpenAI 宣傳了一系列 STEM 基準,展現 o1 的推理能力,包括
- 在物理、化學和生物的基準測驗中,表現與博士生相似。
- 在美國數學奧林匹克預選賽中進入前 500 名。
- 在競爭激烈的編碼測試 Codeforces 中排名第 89 位。
您可以在OpenAI 的研究報告中閱讀更多關於 o1 推理能力的資訊。
什麼是連鎖思考推理?
o1 模型使用連鎖思考推理,這是一種更長、更徹底的分解請求方式。
如果 o1 模型收到提示,它不會立即回答 - 因此等待時間較長。相反,它會透過每個步驟進行推理,仔細考慮每項資訊及其影響,然後再決定下一步的行動。在思考完問題所要求的一系列步驟之前,它不會提供答案。
o1 與GPT 有何不同?
1) 推理能力
其一般智慧的核心是 o1 全新的推理能力。「也許最重要的進步領域將圍繞推理能力,」Altman 與 Gates 分享道。「現在,GPT 只能以極為有限的方式進行推理」。
推理是出了名的困難。即使對人類而言也是如此。而OpenAI o1 是第一個聲稱這一點的模型。
o1 模型能夠即時推理,而非依賴預先訓練的資料。這就是為什麼新模型在科學、數學和編碼任務上的表現比之前的OpenAI 模型更好。
2) 更難越獄
隨著LLMs 的普及與威力日增,安全問題也日益受到關注,因此安全性成為OpenAI最新開發的重點。該公司在開發 o1 系列的同時,與美國和英國的 AI 安全研究所合作,並與美國政府合作建立其應盡責任。
作為一大進步,o1 系列遠比之前的機型更難越獄 - 繞過安全措施。
在最困難的越獄測試中,o1-preview 機型獲得 84 分 (滿分 100 分),而GPT 則只有令人沮喪的 22 分。
3) 新的命名慣例
雖然新的OpenAI LLM 名稱並非最令人興奮的,但卻是有意義的改變。
OpenAI o1 是第一個捨棄GPT」名稱的模型,因為該公司宣稱這是全新「推理範例」的第一階段,而舊有模型則是「前訓練範例」的一部分。
新模型會花時間進行即時推理,而不是依賴其預先訓練的資料。
4) 更擅長 STEM 解決問題的任務
推理能力越強,數學能力也越強。
o1 和GPT 都被要求完成國際數學奧林匹克的資格考試。GPT 解決了 13% 的問題,而 o1 則解決了 83% 的問題。
5) 等待時間較長
即時推理所需的時間比參考訓練資料並產生回應還要長。如果您向OpenAI o1-preview 提出問題,相較於其他模型,等待的時間會明顯更長。
不過,有了外判推理的能力,付出的代價就不大了。o1 機型的速度可能會隨著系列中下一個機型的推出而有所改善。
誰可以使用 o1?
自 9 月 12 日起,ChatGPT Plus 和 Team 使用者可在ChatGPT 中存取 o1 模型。
OpenAI 宣佈他們將向免費用戶提供 o1-mini,不過還沒有確定日期。
目前 01-preview 和 o1-mini 的每週費率限制分別為 30 則訊息和 50 則訊息,不過很快就會增加。
o1 應該用來做什麼?
o1 增強的推理能力對於解決數學、科學和編碼方面的複雜問題尤其有用。正如OpenAI 所解釋的
OpenAI 的限制 o1
作為預覽版,此機型尚未具備GPT 的所有功能。如果您想要使用LLM 網路資訊,或是想要上傳檔案或圖片,在 o1 後續機種推出之前,您還是需要堅持使用GPT。
如何提示OpenAI o1
OpenAI對於 o1 的提示建議相較於之前的模型有所改變,這是由於其增強了推理能力。
保持簡單的提示。這是一個聰明的模型,不需要像GPT 系列那麼多的指引。這表示要避免任何一連串的思考輸入 - 模型內部已經在推理了。
建立GPT AI 代理
如果您的 AI 代理會自動與每次OpenAI 更新同步呢?
Botpress 是一個完全開放且可擴充的 AI 代理平台。我們的stack 可讓開發人員在任何工作流程中建立具備任何功能的聊天機器人和 AI 代理。
Botpress 是唯一從低程式碼設定到無限的客製化和擴充性的平台,它讓您的聊天機自動獲得最新版GPT 的強大功能 - 無需任何努力。
立即開始構建。它是免費的。
常見問題
o1" 代表什麼?未來的模型有命名邏輯嗎(例如:o2、o3)?
"o1 「可能代表OpenAI 1",標誌著一個新系列機型的開始,所以是的,您可能可以期待 o2、o3 以及更多的未來版本。
OpenAI 為何要捨棄「GPT」的命名方式?
OpenAI 表示,o1 代表著從舊的「前訓練範例」轉變為新的「推理範例」,因此新名稱也反映了方向上的改變。
OpenAI o1 是GPT 的繼承者,還是全新的產品線?
在GPT 的基礎上,o1 開啟了新一代專注於即時推理的模型。
o1 能否比GPT 更好地處理多語言輸入?
OpenAI 還沒說太多關於多國語言支援的事,但由於 o1 的設計是為了更好地推理,它最終可能也會在這方面超越GPT。
o1 何時會普遍提供給 free-tier 使用者?
o1-mini 應該很快就會推出給 free-tier 使用者,但OpenAI 還沒有分享確切的日期。