- OpenAI o1 是一個全新模型系列(從 o1-preview 和 o1-mini 開始),重點在於即時推理,而不僅僅是預訓練。
- o1 在 STEM 任務上表現優於 GPT-4o,在 IMO 資格賽中得分 83%(GPT-4o 僅 13%),並在 Codeforces 排名前 89%。
- o1 原生支援 chain-of-thought 推理,雖然速度較慢,但在複雜任務上準確度大幅提升。
- o1 更難被破解,在對抗性安全測試中得分 84/100,而 GPT-4o 僅得 22 分。
經過數月 ChatGPT 粉絲的猜測,OpenAI 最新的 Strawberry LLM 終於發表——而且它並不叫 GPT-5。
這個最新模型系列先前曾以 Q* 和 Strawberry 等神秘代號稱呼,現在終於定名為 OpenAI o1。
OpenAI 新模型最大的更新就是推理能力提升。OpenAI 表示,o1 經過訓練,會比以往模型花更多時間思考,更接近人類智慧。
OpenAI o1 是什麼?
OpenAI o1 是 OpenAI 於 2024年9月12日發表的最新大型語言模型系列,目前包含 o1-preview 和 o1-mini 兩款模型。
o1 與公司先前模型最大的不同在於其進階推理能力。雖然尚未全面開放,但 preview 和 mini 版本在數學、科學和程式測驗上已大幅超越 GPT-4o。
OpenAI o1 模型
9 月發表時包含兩款模型:o1-preview 和 o1-mini。這是新系列的首批模型,未來 OpenAI 會持續優化並推出更多版本。
差異在於 o1-mini 模型規模較小,價格比 preview 版本便宜 80%。它專為需要進階推理但不需廣泛知識的任務設計,非常適合處理程式設計或數學相關任務。
OpenAI o1 有多聰明?
OpenAI 公布了一系列 STEM 基準測試,展現 o1 的推理能力,包括:
- 在物理、化學、生物等基準測驗中,表現接近博士生水準。
- 在美國數學奧林匹亞資格賽中,名列全美前 500 名學生。
- 在競賽程式平台 Codeforces 中,排名前 89%。
你可以在 OpenAI 的 研究發表中閱讀更多關於 o1 推理能力的資訊。
什麼是連鎖思考推理?
o1 模型採用 chain of thought 推理,這是一種更長且更細緻的拆解請求方式。
當 o1 模型收到提示時,不會立即作答——因此需要較長等待時間。它會逐步推理每個步驟,仔細考慮每項資訊及其影響,再決定下一步。只有在完整思考所有步驟後,才會給出答案。
o1 和 GPT-4o 有什麼不同?
1)推理能力
o1 的核心在於全新推理能力。「也許最重要的進展會在推理能力上,」Altman 與 Gates 分享時表示,「目前 GPT-4 的推理能力還非常有限。」
推理本身就很困難,即使對人類也是如此。而 OpenAI o1 是第一個宣稱具備這項能力的模型。
o1 模型能即時推理,而不是僅依賴預訓練資料。這也是新模型在科學、數學和程式任務上優於以往 OpenAI 模型的原因。
2)更難被破解
隨著大型語言模型越來越普及且功能強大,安全性成為 OpenAI 最新開發重點。公司在開發 o1 系列時,與美國和英國的 AI 安全研究機構合作,也與美國政府協作建立審查機制。
o1 系列在安全性上大幅進步,比以往模型更難被破解(繞過安全機制)。
在最嚴苛的破解測試中,o1-preview 得分 84/100,而 GPT-4o 只有 22 分。
3)全新命名方式
雖然新模型的名稱不是最吸引人的亮點,但這是有意義的改變。
OpenAI o1 是第一個捨棄「GPT」名稱的模型,因為公司認為這是全新「推理典範」的第一階段,而舊有模型屬於「預訓練典範」。
新模型會花時間即時推理,而不是只依賴預訓練資料。
4)STEM 問題解決能力更強
推理能力提升,也帶來更好的數學能力。
o1 和 GPT-4o 都被要求完成國際數學奧林匹亞資格考。GPT-4o 解出 13% 題目,o1 則解出 83%。
5)等待時間更長
即時推理比查詢訓練資料並產生回應需要更久。如果你用 OpenAI o1-preview 提問,等待時間會比其他模型明顯更長。
不過,能將推理外包出去,這點等待也算值得。隨著系列新模型推出,o1 的速度預計會持續提升。
誰可以使用 o1?
自 9 月 12 日起,ChatGPT Plus 與 Team 用戶可在 ChatGPT 中使用 o1 模型。
OpenAI 宣布將開放 o1-mini 給免費用戶,但尚未公布確切日期。
目前每週訊息上限為 o1-preview 30 則、o1-mini 50 則,未來將進一步提高。
o1 適合用來做什麼?
o1 的強化推理能力特別適合解決數學、科學和程式設計等複雜問題。正如 OpenAI 說明:
OpenAI o1 的限制
目前這個模型還是預覽版,尚未具備 GPT-4o 的所有功能。如果你需要用 LLM 瀏覽網頁、上傳檔案或圖片,建議等 o1 後續版本推出前,先繼續使用 GPT-4o。
如何撰寫 OpenAI o1 提示詞
由於 o1 推理能力提升,OpenAI 的提示詞建議也有所不同。
請保持提示詞簡單。這是一個聰明的模型,不需要像 GPT-4 系列那麼多指引。也就是說,避免加入 chain of thought 的提示——模型已經會自行推理。
打造 GPT 驅動的 AI 助理
如果你的 AI 助理能自動同步每次 OpenAI 更新,會怎樣?
Botpress 是一個完全開放且可擴充的 AI 助理平台。我們的技術堆疊讓開發者能打造具備各種能力的聊天機器人與 AI 助理,適用於任何工作流程。
Botpress 是唯一涵蓋低程式碼設置到無限自訂與擴充的平台,讓你的聊天機器人自動獲得最新 GPT 版本的強大功能——完全不需額外設定。
立即開始打造,完全免費。
常見問題
1.「o1」代表什麼?未來模型會有命名邏輯嗎(如 o2、o3)?
「o1」很可能代表「OpenAI 1」,象徵新模型家族的起點。由此推測,未來系列版本名稱應會依序為「o2」、「o3」等。
2. 為什麼 OpenAI 捨棄「GPT」命名方式?
OpenAI 從「GPT」改為「o1」,是為了強調重點轉向——從一般預訓練語言模型,轉為優化即時推理與互動能力的模型。
3. OpenAI o1 是 GPT-4 的後繼者,還是全新產品線?
OpenAI o1 並非 GPT-4 的直接後繼者,而是以即時推理與效率為核心的新產品線開端,同時也建立在 GPT-4 與 GPT-4o 的進展之上。
4. o1 處理多語言輸入的能力比 GPT-4 更好嗎?
OpenAI 尚未正式說明 o1 與 GPT-4 在多語言表現上的比較,但由於 o1 著重推理與新功能,未來版本有可能在多語言處理上更為出色。
5. o1 什麼時候會全面開放給免費用戶?
OpenAI 已確認將推出名為「o1-mini」的版本給免費用戶,但目前尚未公布正式上線日期。





.webp)
