張俊林:OpenAI o1的價值意義及強化學習的Scaling Law

機器之心轉載

作者:新浪新技術研發負責人張俊林

蹭下熱度談談 OpenAI o1 的價值意義及 RL 的 Scaling law。

一、OpenAI o1 是大模型的巨大進步

我覺得 OpenAI o1 是自 GPT 4 發佈以來,基座大模型最大的進展,邏輯推理能力提升的效果和方法比預想的要好,GPT 4o 和 o1 是發展大模型不同的方向,但是 o1 這個方向更根本,重要性也比 GPT 4o 這種方向要重要得多,原因下面會分析。

爲什麼說 o1 比 4o 方向重要?

這是兩種不同的大模型發展思路,說實話在看到 GPT 4o 發佈的時候我是有些失望的,我當時以爲 OpenAI 會優先做 o1 這種方向,但是沒想到先出了 GPT 4o。GPT 4o 本質上是要探索不同模態相互融合的大一統模型應該怎麼做的問題,對於提升大模型的智力水平估計幫助不大;而 o1 本質上是在探索大模型在 AGI 路上能走多遠、天花板在哪裡的問題,很明顯第二個問題更重要。

GPT 4o 的問題在於本身大模型的智力水平還不夠高,所以做不了複雜任務,導致很多應用場景無法實用化,而指望靠圖片、視頻這類新模態數據大幅提升大模型智力水平是不太可能的,儘管確實能拓展更豐富的多模態應用場景,但這類數據彌補的更多是大模型對外在多模態世界的感知能力,而不是認知能力。提升大模型認知能力主要還要靠 LLM 文本模型,而提升 LLM 模型認知能力的核心又在複雜邏輯推理能力。LLM 的邏輯推理能力越強,則能解鎖更多複雜應用,大模型應用的天花板就越高,所以不遺餘力地提升大模型尤其是文本模型的邏輯能力應該是最重要的事情,沒有之一。

如果 o1 模型能力越做越強,則可以反哺 GPT 4o 這種多模態大一統模型,可以通過直接用 o1 基座模型替換 GPT 4o 的基座、或者利用 o1 模型生成邏輯推理方面的合成數據增強 GPT 4o、再或者用 o1 蒸餾 GPT 4o 模型….. 等等,能玩的花樣應該有很多,都可以直接提升 GPT 4o 的複雜任務解決能力,從而解鎖更復雜的多模態應用場景。OpenAI 未來計劃兩條線,一條是 o1,一條是 GPT 4o,它的內在邏輯大概應該是這樣的,就是說通過 o1 增強最重要的基座模型邏輯推理能力,而再把這種能力遷移到 GPT 4o 這種多模態通用模型上。

OpenAI o1 的做法本質上是 COT 的自動化。

我們知道,通過 COT 把一個複雜問題拆解成若干簡單步驟,這有利於大模型解決複雜邏輯問題,但之前主要靠人工寫 COT 來達成。從用戶提出的問題形成樹的根結點出發,最終走到給出正確答案,可以想像成類似 AlphaGo 下棋,形成了巨大的由 COT 具體步驟構成的樹形搜索空間,這裡 COT 的具體步驟的組合空間是巨大的,人寫的 COT 未必最優。如果我們有大量邏輯數據,是由 <問題,明確的正確答案> 構成,則通過類似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜索 + 強化學習,確實是可以訓練大模型快速找到通向正確答案的 COT 路徑的。

而問題越複雜,則這個樹的搜索空間越大,搜索複雜度越高,找到正確答案涉及到的 COT 步驟越多,則模型生成的 COT 就越複雜,體現在 o1 的速度越慢,生成的 COT Token 數越多。很明顯,問題越複雜,o1 自己生成的隱藏的 COT 越長,大模型推理成本越高,但效果最重要,成本其實不是問題,最近一年大模型推理成本降低速度奇快,這個總有辦法快速降下去。

從上面 o1 的做法可以知道 Prompt 工程會逐漸消亡。

之前解決複雜問題,需要人寫非常複雜的 Prompt,而 o1 本質上是 COT 等複雜 Prompt 的自動化,所以之後是不太需要用戶自己構造複雜 Prompt 的。本來讓用戶寫複雜 Prompt 就是不人性化的,所有複雜人工環節的自動化,這肯定是大勢所趨。

Agent 屬於概念火但無法實用化的方向,主要原因就在於基座模型的複雜推理能力不夠強。如果通過基座模型 Plan 把一個複雜任務分解爲 10 個步驟,哪怕單個步驟的正確率高達 95%,要想最後把任務做對,10 個環節的準確率連乘下來,最終的正確率只有 59%,慘不忍睹。那有了 o1 是不是這個方向就前途坦蕩?也是也不是,o1 的 Model Card 專門測試了 Agent 任務,對於簡單和中等難度的 Agent 任務有明顯提升,但是複雜的、環節多的任務準確率還是不太高。就是說,不是說有了 o1 Agent 就現狀光明,但是很明顯 o1 這種通過 Self Play 增強邏輯推理能力的方向應該還有很大的發展潛力,從這個角度講說 Agent 未來前途光明問題應該不大。

OpenAI 很多時候起到一個行業指路明燈的作用,往往是第一個證明某個方向是行得通的(比如 ChatGPT、GPT 4、Sora、GPT 4o 包括這次的 o1),然後其他人開始瘋狂往這個方向卷,到後來甚至卷的速度太快把 OpenAI 都甩到後面吃尾氣。典型例子就是 Sora,如果 OpenAI 不是出於阻擊競爭對手秀一下肌肉,大家都沒有意識到原來這個方向是可以走這麼遠的,但當意識到這一點後,只要你專一地卷一個方向,方向明確且資源聚焦,是可能趕超 OpenAI 的,目前國內外各種視頻生成模型有些甚至可能已經比 Sora 好了,Sora 至今仍然是期貨狀態,主要 OpenAI 想做的方向太多,資源分散導致分到具體一個方向的資源不夠用,所以越往後發展期貨狀態的方向越多,也讓人覺得盡顯疲態。

OpenAI o1 等於給大家又指出了一個前景光明的方向,估計後面大家又開始都往這個方向卷。我覺得卷這個方向比去卷 GPT 4o 和視頻生成要好,雖然具體怎麼做的都不知道,但是大方向清楚且效果基本得到證明,過半年肯定頭部幾家都能摸清具體技術追上來,希望能再次讓 OpenAI 吃尾氣。而且這個方向看上去資源耗費應該不會特別大,偏向算法和數據一些,數據量規模估計不會特別巨大,捲起來貌似成本低一些。這是個卷的好方向。

二、預訓練 Scaling Law 的來源及 O1 提到的 RL Scaling law

粗分的話,大語言模型最基礎的能力有三種:語言理解和表達能力、世界知識存儲和查詢能力以及邏輯推理能力(包括數學、Coding、推理等理科能力,這裡 Coding 有一定的特殊性,是語言能力和邏輯摻雜在一起的混合能力,Coding 從語言角度可以看成一種受限的自然語言,但是混雜着複雜的內在邏輯問題。從語言角度看,Coding 貌似是容易解決的,從邏輯角度看又相對難解決。總之,Coding 目前看是除了語言理解外,大模型做得最好的方向)。

語言理解和表達是 LLM 最強的能力,初版 ChatGPT 就可以完全勝任各種純語言交流的任務,基本達到人類水準,目前即使是小模型,在這方面比大模型能力也不弱;世界知識能力雖說隨着模型規模越大效果越好,但幻覺問題目前無法根治,這是制約各種應用的硬傷之一;邏輯推理能力一直都是 LLM 的弱項,也是最難提升的方面,從 GPT 4 開始往後,如何有效並大幅提升 LLM 的邏輯推理能力是體現不同大模型差異和優勢的最核心問題。所以,大模型最重要的一個是世界知識方面如何有效消除幻覺,一個是如何大幅提升複雜邏輯推理能力。語言能力已不是問題。

從大模型的基礎能力,我們再說回已經被談濫了的大模型 Scaling law。現在普遍認爲通過增加數據和模型規模來提升大模型效果的 Scaling law 模式,其增長速度在放緩。其實我們對照下大模型的三個基礎能力的能力來源,基本就能看出來這是爲啥(以下是我猜的,不保真):

本質上大模型的能力來源都來自訓練數據,包含能體現這方面能力的訓練數據越多,則這種能力越強。語言能力不用說了,任意一份預訓練數據,其中都包含相當比例的語言的詞法句法等成分,所以訓練數據中體現語言能力的數據是最多的,這也是爲何大模型的語言能力最強的原因。

而數據中包含的世界知識含量,基本是和訓練數據量成正比的,明顯數據量越多,包含的世界知識越多,Scaling law 是數據中包含的世界知識含量關係的一個體現,但是這裡有個問題,大模型見過越多數據,則新數據裡面包含的新知識比例越小,因爲很多知識在之前的數據裡都見過了,所以隨着數據規模增大,遇到的新知識比例就越低,在世界知識方面就體現出 Scaling law 的減緩現象。

爲啥邏輯推理能力最難提升?因爲能體現這方面的自然數據(代碼、數學題、物理題、科學論文等)在訓練數據中比例太低,自然大模型就學不好,儘管通過不斷增加數據,能增加邏輯推理方面數據的絕對數量,但因爲佔比太少,這方面提升的效果和增加的總體數據規模就不成比例,效果也不會太明顯,就體現在邏輯推理能力 Scaling law 看上去的放緩。這是很自然的。這也是爲何現在爲了提高模型邏輯能力,往往在預訓練階段和 Post-training 階段,大幅增加邏輯推理數據佔比的原因,且是有成效的。

所以目前大模型的核心能力提升,聚焦到不斷通過合成數據等方式構造更多比例的邏輯推理數據上來。但是大部分邏輯推理數據的形式是 < 問題,正確答案 >,缺了中間的詳細推理步驟,而 o1 本質上是讓大模型學會自動尋找從問題到正確答案的中間步驟,以此來增強複雜問題的解決能力。

OpenAI o1 提到了關於 RL 在訓練和推理時候的 Scaling law,並指出這與預訓練時候的 Scaling law 具有不同特性。很明顯,如果 o1 走的是 MCTS 搜索技術路線,那麼把 COT 拆分的越細(增加搜索樹的深度),或提出更多的可能選擇(節點的分支增多,就是說樹的寬度越寬),則搜索空間越大,找到好 COT 路徑可能性越大,效果越好,而訓練和推理的時候需要算力肯定越大。看上去有着效果隨着算力增長而增長的態勢,也就是所謂的 RL 的 Scaling law。這其實是樹搜索本來應有之義,我倒覺得把這個稱爲 RL 的 Scaling law 有點名不副實。

原文鏈接:https://weibo.com/1064649941/5078239682499316?sourceType=weixin&from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316