如何理解 OpenAI o3 ?以及對其的技術分析
目前o3放出的信息還不多,但還是有一些內容可以做技術分析的。以及o3的重要性值得做一個專篇討論。
01o3的基本信息
o3其實是o1的繼承者,不叫o2是因爲有一個同名的公司,所以直接跳到o3。OpenAI官方也承認自己的命名很糟糕。
(我認爲)o3並不是AGI,OpenAI也沒有說o3是AGI。
LLM在某些方面超過人類,但並不是所有方面都超過人類。這句話從ChatGPT 3.5到現在都成立,只是LLM可以做的更好的事情越來越多了。
目前關於o3最多可信信息的材料是Arc Prize發佈的報告:
中文版
對於o3的成本有這張圖:
但這個圖有幾個註解:
o3模型是針對該測試集優化過的,也就是圖裡Tuned所指的
目前o3的 high-compute 模式定價還沒有確定,所以圖例的定價並不對,大概只是Arc基於token數量進行線性推斷的。
文中提到了一個sample size,但並沒有指明其具體含義。只知道low-compute對應於6,high-compute對應於1024。
考慮到OpenAI在o3正式版發佈時仍會進行不少調整,所以該圖中的score和cost都可能會有顯著調整。
但有兩點我是相信的:o3正式版的能力會有大幅提升,成本也會有大幅提升。
02如何理解o3的能力
大模型的能力與人並不相同,o3可以完成一些常人很難勝任的工作,但也有很多對人簡單的問題o3很難完成。
但現在確實如何理解o3的能力對公衆已經成了一個挑戰。我們知道一些測試真的很難,但它到底有多難?
以FrontierMath這個測試爲例,o3的成績從之前的2%提升到25.2%。這意味着什麼呢?
陶哲軒對這套測試題的難度評價是:
“These are extremely challenging... I think they will resist AIs for several years at least.”
“這些都是極具挑戰性的......我認爲它們至少能抵抗人工智能幾年。”
來自 https://epoch.ai/frontiermath
我找不到陶哲軒說這句話的時間,我猜他是在2024年說的,但現在這個測試集已經被解決了1/4。應該說頂級數學家評價非常有挑戰性的問題,看到GPT4之後他仍然覺得會需要幾年時間AI才能搞定的問題,現在已經淪陷了1/4。
估計到這裡,讀者才能感受到一些震撼,o3在某些方面的能力已經遠遠超出了公衆的想象。不過,o3在很多問題上仍然束手無策,就像是一個非常偏科的學生。
實際上別說是o3,如何理解o1的優勢,如何理解o1 pro mode的優勢,能夠較好的預判在具體場景中哪個的性價比更高都是個頗爲困難的事情。至少我目前還沒弄明白o1 pro mode相對於o1的具體提升到底在哪些方面。
現在如何構造出足夠難的benchmark已經成爲一個實質性的問題,而大部分人都無法理解這些benchmark到底意味着什麼。
03技術分析3.1、推理方式分析
在o3發佈前,一部分人能想象的是o系列模型的reasoning token會繼續增長,按照之前的習慣,大概就是一個每多少個月提升多少倍的經驗公式。但o3的信息着實嚇了大家一跳,只過了3個月,推理成本可以增加2-3個數量級。
面對這個結果,確實我之前低估了軟件領域的前進速度。這不像是芯片受到製造工藝迭代和物理條件等各方面限制,軟件是可以快速吃掉所有硬件資源的。
有經驗的工程師都知道,即使是軟件方案,面對跨越數量級的規模增長時,都是沒那麼容易的。經常每提升3倍都會面對新的問題。而o3能這麼快的將推理規模提升2個數量級以上,肯定不是因爲OpenAI非凡的團隊快速搞定了很多問題,3倍、3倍這樣弄上去的。
而能夠快速增加推理規模的方案就屈指可數了,最典型的就是以各種探索類算法爲主,接近暴力的探索可以消耗很多算力,但實現方式並不複雜。從簡單的廣度優先搜索到MCTS,都符合這個特點。
有理由相信o3實裝了多路推理。而且反過來說,我並不覺得o3模型能在單路推理的情況下將推理長度擴展2個數量級以上並維持效果始終有收益。
3.2、從o1到o3
在o1-preview剛發佈時,我就寫過一篇 ,指出o1系列應該使用的是單路推理。到目前爲止,我仍然相信這個判斷。但對於reasoning_effort參數,我目前對它沒有一個我比較確信的猜測。
但o1 pro mode似乎有所不同,它的CoT概括的表現看起來跟o1並不一樣。我目前對它的觀察還不夠,還不能直接基於其表現來給出一個我比較確信的猜測。希望o1 pro mode的API能夠早點推出。
而o3看起來應該是使用某種多路推理的方式,雖然並不能確定到底是怎麼產生的多路。
目前o1還有兩個無法解釋的地方:
o1模型API不能控制temperature
o1的reasoning token總是64的倍數
一種最簡單的方式就是多路採樣+簡單的多路結果歸併。但這種方式其實很早就可以使用,且由於多路推理中經常有語義重複的部分,所以reasoning token的利用率很低,從技術品味上來說也很醜。拿來刷benchmark分數可以,但直接做產品化方案的話,總感覺有些問題。
從個人品味來說,我很不願相信o3採用了這樣的方案。但這確實是一種解釋Arc報告中sample num的有效方式。以及考慮到偏好簡單模型設計的風格,我確實得承認這個的可能性不小。
另一種常見思路是Beam Search類試圖尋找Top K概率序列的方式,探索過程在生成過程中不斷分叉。但根據我之前對於LLM Beam Search的實驗 ,這樣的效果應該也較差。對多路reasoning token的利用率相對於上面並沒有明顯提升,但實現複雜度高了不少,還一定程度上影響了並行效率。所以我認爲可以排除這種可能。
本節討論另一種實現的可能性,這也是我原本的第一猜測。它可能不一定能在o3上實裝,但可能會在o4上實裝。
如果沒有采用上一節的方案,那麼下一個適合的思路是:從單路開始,以某種方式進行多層次分叉的,類似Tree of Thought思路的方式。說到ToT,一個顯然的問題是:o3是否實現了Thought的某種程度的結構化?
雖然我過去曾是LLM半結構化輸出的鼓吹者,但我目前認爲某種程度的細粒度Thought結構化是不容易實現的,考慮到OpenAI的開發時間,以及結構化並不能很好scaling到各個領域,這個方式也不像是符合OpenAI內部品味的,o3/o4大概不是用的細粒度結構化Thought的方式。
那麼該如何在推理時找到合適的地方進行分叉,並如何產生分叉的不同路徑呢?難道是每64token檢查一次麼?這種方案我無法接受。我目前推測(推測2)o3/o4可能採用更粗粒度(更大尺度)的某種結構化,例如Step,可以在每個Step結束後產生一個特殊標記,並能夠輸出多個後續Step方向。這種方案的實現方式不止一種,可以在訓練數據中埋入經過處理好的Step標記,也可以後續在輸出流中使用旁路模型進行劃分,甚至可以訓練每次只生成一個Step就停止(這樣更接近於AutoGPT)。這方面的工作可能跟現在的分步CoT的概要提煉方案有技術重疊。
在token推理空間中,每個位置的分叉方案應該非常有限,所以也不需要很認真的概率計算或排序。對於分支的選擇、分支的結束判定等,都仍然可以使用LLM來進行完成。整個方案其實跟標準的MCTS是比較類似的。
3.4、跨領域泛化的免費午餐還存在
無論是從推理還是數學還是代碼生成,能合成數據的方面其實很有限。那麼就有了一個問題:o1的這些方面能力提升是否能夠幫助到其他方面?
我在9月的時候也有這方面的擔憂,但我現在沒有這個擔憂了。我確實看到了一些在這些能力外的提升,跨領域泛化的免費午餐還在,這就夠支撐一段時間了。當然雖然可以跨領域泛化,但不代表所有領域的能力都跟數學一樣好。
04評論與展望4.1、LLM撞牆了麼?
o3的發佈已經說明至少目前LLM還沒有撞牆。
但多路推理的使用在不同人來看有着不同的意味。有些人認爲“都需要採用這麼極限的方案,說明已經沒着了,後面就要撞牆了”。我在一年前也大概會說類似的話。
但人是會成長的,我在 就已經總結了,我過去1年多犯得一個主要錯誤就是錯誤低估了新技術方案的出現。原有的方案會撞牆,但新的修補方案也會出現。每個小方案快速達到頂峰,然後交棒給後續的方案,使得整體來看是持續發展的。
我目前對未來2年的LLM發展保持樂觀。雖然我能夠看到的未來跟Ilya說的一樣,目前只看到了合成數據和推理時計算,但我對未來的未知保持樂觀。
4.2、OpenAI內的其他路線
還有一個現在大家的分歧點是,o系列到底是不是“GPT正統路線”,OpenAI內部到底還有沒有GPT-4.5、GPT-5的路線探索。這個問題其實很主觀,我說下我的觀點。
首先,我認爲OpenAI內部是多線探索的。這也是OpenAI在過去2年內能夠多線開花,儘量保持持續交付的方式之一。在這個組織狀態下,沒有什麼只做A,不做B的問題,只有A獲得了多少投入、B獲得了多少投入的問題。
第二,我相信在o1推出時,OpenAI內部並沒有認爲這就是GPT-5,所以纔給了它這樣一個名字,在當時官方也有表態這是一個推理模型路線。他們現在內部是否還是這麼認爲我不清楚,但可能仍然沒有“把o系列扶正”。
雖然人的意志可以一定程度上左右技術的發展,但大尺度上來說,技術的發展路徑不以人的意志爲轉移。現在o系列模型已經表現出了它的短期(1-2年)價值,而GPT-5方面則持續難產。事實上,o1系列就是OpenAI在GPT-4之後的下一個突破,而GPT-5並沒有趕上這一點。雖然現在我估計他們內部對於探索GPT-5的耐心還沒有耗盡,但可能過不了半年就會耗盡,把o系列模型扶正。
打個比方來說:OpenAI只是上帝實現AGI的階段性工具之一,但OpenAI自己並不是上帝。OpenAI自己的認知未必正確,OpenAI也未必明白它所做的所有事情意味着什麼。
技術的發展是出人意料的,雖然目前看起來o系列模型價值很高,但再下一代模型很可能還有一些別的feature,這時候傳統路線可以捲土重來,或者是又有另外的方案。每個具體方向的進展匯聚起來,有了整體技術路線的持續發展,但不能保證每個具體的技術路線在每年都能有進展。
4.3、大佬對LLM下一步發展的展望
目前還在OpenAI任職的人的意見可能受到Altman的控制,但12月已經連續有兩位離開OpenAI的大佬公開表達了他們看好o系列的路線。
Ilya提到了下一步的兩個價值很高的方向:合成數據與推理時計算。
合成數據也是一個被用爛了的詞,但真正讓人感受到其能力是《Physics of Language Models》系列工作,對此有興趣的讀者都建議去認真看下該系列的工作 。而到目前爲止,o1系列在數學推理上的合成數據只是該方向的一個簡單應用。
4.4、推理成本
可能會有不少人擔心這快速增長的推理成本該如何處理。
教導我們,要正確預判未來會快速發展的領域,並去依賴它。我認爲優化推理速度、降低推理成本是人類所擅長的,我相信我們還會看到一段時間的快速發展,至少4年內應該沒問題。
而且這個問題你去問黃仁勳,他肯定不擔心,在9.18的T-Mobile Capital Markets Day 2024會上,黃仁勳提到:
Now you get one of the things that Sam introduced recently, the reasoning capability of these AIs are gonna be so much smarter, but it's gonna require so much more computation. And so, whereas each one of the prompts today into ChatGPT is a one pass, in the future is going to be hundreds of passes inside. It's gonna be reasoning, it's gonna be doing reinforcement learning, is gonna be trying to figure out how to create a better answer reason, a better answer for you. Well, that's the reason why in the Blackwell platform, we in we improved inference performance by 50 x by improving the inference performance by 50 x. That reasoning engine, which now could take up to minutes to answer a particular prompt, could still now respond in seconds. And so this is gonna be a great new world and I'm excited about that.
現在你知道了Sam最近介紹的一件事,這些AI的推理能力將會變得更加智能,但這也將需要更多的計算資源。當前,每個輸入到ChatGPT的提示都是一次通過處理,而在未來,它將會進行數百次的處理。它會進行推理、強化學習,並嘗試找出如何爲你生成一個更好的回答、更合理的回答。這就是爲什麼在Blackwell平臺上,我們通過提高50倍的推理性能來提升推理速度。通過將推理性能提高50倍,這個推理引擎,即便現在處理某個提示可能需要幾分鐘,也能在幾秒鐘內給出迴應。所以,這將會是一個美好的新世界,我對此感到非常興奮。
https://www.youtube.com/watch?v=r-xmUM5y0LQ 1:40:30
要說的話,也就是未來2年,國內的高端芯片採購有些問題,不能隨意大量採購。但也並不是買不到,反而是各種倒卡的公司擔心的是國內的這些人不訓模型了,不買卡。
4.5、o系列與Agent
在o1-preview剛發佈後,我就提到o1模型其實很像是一種簡單Agent了。如果o3採用了多路推理,那麼他就更像是一個傳統意義上大家想象的Agent了。
順便說一個我目前想到的區分Agent和Workflow方案的標準:如果開發者也不能在系統執行例如3步之後預測它的行動,那麼它就更接近於Agent,否則就更類似於Workflow。這也符合Ilya最近提到的,越智能的系統越難預測。
後面推理模型的會變得更像是Agent,它們也能更好的賦能上面的一些真Agent架構,例如AutoGPT,而不是GraphRAG。這是我過去沒有想到的。
更進一步地感受目前前沿模型的能力:
我過去對o1的分析和判斷:
轉載原創文章請添加微信:founderparker