預訓練的 Scaling Law 正在走入死衚衕,o1 讓更多創業公司重新復活

GPT-4o 讀萬卷書,「o1」行萬里路。

整理 | 宛辰編輯| 靖宇

沒有延續過去 GPT 系列的名稱,新模型起名爲 o1,當前可以獲取 o1-Preview 和 o1-mini 這兩個版本。

當天,Sam Altman 在社交平臺上興奮地稱,「『o1』系列代表新範式的開始」。

但這可能是第一次,外界比 OpenAI 的掌舵人 Sam Altman 本人,更加興奮地期待 OpenAI 的新品發佈。這份期待裡,無關對賽道第一名的豔羨,更多是同呼吸、共命運的決定性瞬間。下一代模型是否有驚人的進展?能否爲 AGI 的浪潮和夢想完成信仰充值?

今年,你可能也對 AI 這個字眼麻木了,去年有多狂熱,今年就有多麻木。原因無他,在 AI 的落地應用上,看不到信心二字。截止目前,仍未出現顛覆性的 AI 應用;Inflection.ai、Adept.ai、Character.AI 等最頭部的明星公司接連被大廠納入麾下;科技巨頭們在財報周被反覆拷問 AI 的鉅額資本支出何時看到回報……

這些情緒背後,都指向同一個問題,那個所謂的第一性原理「Scaling Law」可以通向 AGI 嗎?以今年十萬卡、百億美金投入,換取模型性能線性增長、乃至對數級增長的門檻來看,這注定是一場玩不起的遊戲。不少人開始質疑它的合理性,這波 AI 不會就這樣了吧?

這是「o1」誕生的時代性。

在 OpenAI 交出答卷後,AI 創業者表示「又行了」。不同於預訓練的 Scaling Law,一條在推理階段注入強化學習的路徑成爲明確的技術新方向,徐徐展開。

極客公園「今夜科技談」直播間也在第一時間邀請極客公園創始人 & 總裁張鵬,和創新工場聯合首席執行官/管理合夥人汪華、崑崙萬維首席科學家&2050 全球研究院院長顏水成,一起聊了聊 o1 所代表的新範式及創業者腳下的路。

以下是直播沉澱文字,由極客公園整理。

01

「o1」釋放了明確的技術信號,

但更期待下一個里程碑

張鵬:從去年傳出「Q*項目」到現在,OpenAI的強推理模型「o1 系列」終於發佈了。實際用下來,「o1」的發佈符合你們的預期效果嗎?

顏水成:我用 o1 做的第一件事情是,把我女兒做的數學題輸進去看結果,o1 的表現令人驚喜。它解題的邏輯順序、總結的 CoT(Chain of Thoughts,思維鏈)信息,讓人覺得很不一般。

如果是用 GPT-4 或 GPT-4o,只是做下一個 token(詞元)的預測,其實我們心裡會打鼓、會懷疑:只是做下一個詞元的預測,是不是就能實現複雜推理過程。

但 o1 相當於在回答問題之前,先引入用 CoT(思維鏈)表示的思考過程,把複雜問題先用 planning(規劃)的方式將任務拆解,再根據規劃的結果一步步細化,最後把所有結果做總結,纔得到最終結果。

一個模型的好與不好,關鍵在於它是不是直覺上能解決問題。GPT-4 和 GPT-4o 還是一種快思考,這種快思考不太適合解決複雜推理問題;但是 o1 是一種慢思考的過程,像人一樣思考,更可能解決一個問題,尤其是跟數學、編程或者邏輯有關的問題。o1 所代表的技術路徑未來會走得非常遠,帶來非常大的想象空間。

汪華:我覺得 o1 是一個非常好的工作,水到渠成,符合預期。符合預期是說這個時間點該有成果了,爲更高的未來預期打開了通路,但並不 surprise,沒有超出預期。

因爲這個工作其實從去年就已經有一系列的線索,包括 OpenAI、DeepMind 出的一系列的論文像 Let』s Verify Step by Step (OpenAI, 2023),以及其他像 Quiet-STaR 和 in-contest reinforce learning 中都有跡可循。

大家用強化學習、包括用合成數據去串 Reward Model(獎勵模型)或 Critic Model(評判模型),或者後來用各種各樣結構化的推理來提高模型正確率。事實上,無論是 OpenAI、Meta,還是其他大廠,大家現在都已經在做類似的工作,這個方向其實是大家的一個共識。

不光 OpenAI,很多其他模型在數學、編程、推理上都已經有了很大進步,就是因爲或多或少用了一部分這方面的技術,但 OpenAI 發佈的 o1 是集大成,並且工作做得非常好,而且裡面應該有它獨特的工程探索。

圖片來源:OpenAI 官網

張鵬:預期之內,但還不夠驚喜。

汪華:對,整個框架還是在預期範圍之內,沒有像 GPT-4 或者 GPT-3.5 發佈一樣帶來很大的驚喜。

你會發現o1 針對推理等各方面性能的增強,還是在一些有明確對與錯和封閉結果的領域。比如 o1 展現的代碼、學術解題,包括數據分析能力其實都屬於有明確信號的領域。

哪怕是在明確領域,比如數學編程的問題,它在做得好的問題上表現非常好,但在一些問題上也做得不太好。也就是說,可能它在訓練 Critic Model(評判模型)或者 Reward Model(獎勵模型)的時候,對於下游任務的泛化,可能還是遵循物理規律。如果對下游任務覆蓋得好,它就做得好;如果覆蓋得不好、下游任務沒見過這些數據,或者 reward model 沒法很好地給予 reward 的時候,它泛化也不一定真的能泛化過去,所以從這個角度來講,o1 沒有特別的超出常識的部分。

我還測了一些更加通用推理的場景,在這些領域,o1 增強得還不太多,很多也沒有帶來增強的效果。

實際上對 OpenAI 抱持更高的期待是,希望它下一步能做到,把推理泛化到通用領域。

當然現在端出這麼一個非常完善的工作,把這件事給做出來,OpenAI 這點還是非常厲害的。而且在跟 OpenAI 的同學聊天時,能感覺到他們在做更難的事情,朝着通用推理的方向在做,只是可能現在還不成熟,所以先放出來對於 signal(技術信號)更明顯的階段性成果,在代碼、數學方面的工作。所以我也非常期待,什麼時候 OpenAI 能把下一個里程碑也克服了。

02

強化學習不新鮮,

「o1」在用強化學習上有創新

張鵬:o1 已經能在一些領域展現出複雜推理的能力,其中很重要的原因是,強化學習在 o1 系列模型裡扮演了非常重要的作用。怎麼理解強化學習在新一代模型裡起的作用?

顏水成:強化學習是一個存在時間蠻長的方向,把這個技術用得最好的團隊應該是谷歌 DeepMind,他們一開始就是從這個角度出發,去解決真實世界的實際問題。

我個人覺得強化學習在 o1 裡最核心的點,不在於使用強化學習,因爲強化學習在 GPT 3.5 裡就已經用了PPO(一種強化學習算法),用一個獎勵函數去指導 PPO,進而優化模型參數。

強化學習優化一個描述長期累計 rewards 的目標函數,而原先傳統算法只是求解損失函數。相當於,在優化 policy action(策略動作)的時候,需要考慮未來所有獎勵的總和。

具體來說,像在圍棋博弈中,它會用 self-play(自我博弈)的形式去收集 action-status 序列,這個過程自動生成一個獎勵值,而不是說去學一個獎勵函數。它是直接自動產生出獎勵,或者說人工可以定義獎勵,用這些獎勵就可以把策略學出來,然後逐步提升策略。它最大的特點是整個過程不需要人類干預,不是像 RLHF(根據人類反饋的強化學習),有很多的步驟需要人去反饋。

我覺得其實o1 跟原來的強化學習有一個最本質的差別。有人認爲,o1 的原理可能與斯坦福大學團隊 (E Zelikman et al, 2024) 發表的 Quiet-STaR 研究成果最相關。Quiet- STaR 的一個特點是從 CoT(思維鏈)的角度出發,但是CoT 並不是一開始就存在。

要做推理問題,原本有最初的文本存在,如果在文本里面再插入一些 CoT 的信息,它就能提升推理效果。

但當我們希望去解決通用的、複雜的推理問題時,大部分的情況下 CoT 是不存在的。那麼在強化學習的 pipeline(流程管道)裡面,如何把這些 CoT 的信息一步一步生成出來是非常困難的。

這就要問 o1 的模型架構是什麼?是一個模型它既可以去做規劃,又可以根據規劃去生成 CoT,又可以做自我反思(self-reflection),又可以做驗證,最後做一個總結,這些所有的事情。還是說其實是好幾個模型,一個模型根據信息生成 CoT,另外一個模型做反饋,兩個模型相互交互,逐步把結果生成。目前 o1 還不是特別清楚,兩種可能都能做,單一模型可能會讓整個過程更優雅。第二種可能實現起來會更容易一些。

如何用合適的方式把 CoT(思維鏈)生成,我覺得這是 o1,跟其他的強化學習區別最大的地方。這裡的細節還不是很清楚,如果清楚的話,o1 的黑盒問題可能就解決了。

張鵬:怎麼把強化學習運用到這一代推理模型裡?是一個單體的超級智能、還是一個集體決策,這些還沒有被公開。

顏水成:上一代的強化學習,可能更像下圍棋,通過別人已有的棋局,先學了一些東西以後再接着往前走。我覺得要做通用、複雜推理的話,它就會碰到很多從零開始(zero start),可能一開始根本沒有 CoT 的數據,這種情況大概怎麼去做學習,有待探索。

2015 年,DeepMind 推出了 AlphaGo,這是第一個擊敗圍棋世界冠軍的計算機程序,通過強化學習,其後繼者 AlphaZero 和 MuZero 基於自我對弈與強化學習的方式,變得越來越通用,能夠解決許多不同的遊戲以及複雜的現實世界問題,從壓縮視頻到發現新的更高效的計算機算法。|圖片來源:DeepMind

張鵬:爲什麼把強化學習放到模型裡,成爲接下來發展的共識?這個共識是怎麼達成的?核心都是要解決什麼樣的問題?

汪華:技術上有顏老師在。從商業角度,大家還是在討論模型的智能上限這樣一個問題。

舉個例子,哪怕是一個員工的應用場景,小學生能幹的工種,跟中學生、大學生能幹的工種,差別還是非常大的。所以模型的幻覺,或者說模型的複雜指令遵循能力、模型的長鏈路規劃和推理能力,已經制約了模型的進一步商業化,哪怕我不是爲了實現 AGI(通用人工智能)。

所以大家早就已經有這個說法了,一開始就有「系統-1」「系統-2」的說法(快思考和慢思考)。基本上預訓練相當於知識的壓縮,它本身就跟人的直覺一樣,沒法進行復雜的推理,所以必然要找到一個方法來實現「系統-2」。

在實現「系統-2」的時候,用各種各樣的結構化推理,包括用各種各樣的強化學習,有一個正好的規劃,更穩定的模型輸出,更好的指令遵循,包括讓模型不光是學會知識本身,包括按什麼樣的 pipeline(流程管道)去使用知識。比如人類在解決問題 A 時會用思維框架一,解決問題 B 時會用思維框架二。像這些問題怎麼來做?大家手裡的武器庫,其實除了 LLM,就是強化學習。

而且我特別同意顏老師剛剛的說法,具體實現上用了一個模型還是兩個模型,只是一個工程問題,但 CoT 的數據從哪裡來?包括怎麼來實現一些真實世界的模擬和對抗,這個反而是大家一直在試圖攻克的難點。代碼和數學之所以能被很快地解決,是因爲它的信號非常明確,對就是對,錯就是錯,而且它的步驟合成,合成它的推理 CoT 數據其實是相對比較容易的,獎勵或者 Critics(評判)也是相對比較明晰。

顏水成:就相當於說獎勵能直接獲得。

汪華:更難的就是代碼和數學之外,世界上那種複雜的、複合的,甚至開放結果的,沒有明確的、絕對對錯的,甚至沒有唯一執行路徑的這些問題怎麼辦。我覺得把這個問題給解了,難度要比一個模型和兩個模型其實要難得多。

顏水成:o1 這個框架裡面我覺得應該還是有一個獎勵函數存在的,不然就沒辦法推演到通用的複雜推理。

03

「o1」發展下去,

更接近一個「超級智能體」

張鵬:o1 跟跟此前的 GPT 系列相比,是兩個技術方向,可以這麼理解嗎?

顏水成:對,o1 表現出來的行爲不再是下一個 token 的預測了,而更像是一個超級智能體的樣子,未來可以處理多模態、可以處理工具,可以處理存儲記憶,包括短期和長期的語義記憶。

《思考,快與慢》,諾貝爾經濟學獎得主丹尼爾·卡尼曼經典之作,介紹了大腦的兩種思維繫統:系統 1 快速直覺、系統 2 緩慢理性|圖片來源:視覺中國

我個人是認爲 o1 這個技術方向肯定是對的,從 GPT-4 到 o1 的話,其實就是從「系統-1」到「系統-2」的一個轉變。今年 5 月我做過一個演講,AGI 的終局可能是什麼東西,當時提到了兩個概念,一個概念叫做 Global Workspace(全局工作空間),一個叫超級智能體。

Global Workspace(全局工作空間)在心理學和神經科學領域裡的一個理論,是說大腦裡除了專用的子系統,比如視覺、語音,觸覺等子系統之外,可能還存在一個區域叫做 Global Workspace。

如果「系統-2」,就是多步和多模型的形式一起來完成的話,現在 CoT(思維鏈)產生的結果,它非常像 Global Workspace 的工作原理。用一個注意力的模型,把文本的、未來多模態的、工具等信息都拉到這個空間,同時也把你的目標和存儲的記憶(memory)都拿到這個空間裡進行推理,嘗試新的策略、再做驗證、嘗試新的可能性……不停的往前推理,演繹的結果就是最終得到分析的結果。推理時間越長,就相當於在 Global Workspace 裡的推演過程越長,最終得到的結果也會越好。

對於複雜的任務無法用「系統-1」(快思考)一竿子到底,就用「系統-2」(慢思考)的 Global Workspace,把信息逐步分解、推演,同時又動態地去獲取工具,動態地去獲取存儲記憶,最後做總結,得到最後的結果。

所以我覺得 o1 發展下去,可能就是「系統-2」(慢思考)的 Global Workspace 的 AI 實現方式,如果用 AI 的語言來描述的話,其實它就像是一個超級智能體。也就是說,o1 發展下去,可能就是一個超級智能體。

04

LLM+RL 的模式,

是否可以通向泛化推理?

汪華:強化學習相關的共識其實很早就有,但大家一直也沒解決好問題。當年強化學習也很火,還被視作 AGI 的一個通路,包括機器人領域也都是用強化學習,但當時就遇到了這個難題:對於非常明確的任務,獎勵函數很好建、任務的模擬器也很好建;但一旦擴展到真實世界的泛化任務時,就沒法泛化,或者沒法建立能完整模擬真實世界各種各樣、複雜奇怪的任務模擬器,也沒法去建立對它很好的獎勵函數。

您覺得按現在這條 LLM(大語言模型)加上 Reinforcement Learning(強化學習)的模式,不止是在有明確信號的領域比如代碼、數學,如果要往泛化推理走的話,要怎麼走?

顏水成:一個最大的差別就是,原來的強化學習,它的泛化性能不好。每次可能是專門針對一個遊戲、或者一組類似的遊戲去學一個策略。但是現在它要做通用的複雜推理,面對所有問題都要有能產生 CoT 的能力,這就會變成是一個巨大數據的問題和工程的問題。

我非常認同汪華的觀點,在數學、編程、科學這些問題上,可能比較容易去造一些新的 CoT 數據,但是有一些領域,想要無中生有地生成這些 CoT 數據,難度非常高,或者說還解決得不好。

要解決泛化的問題,數據就要足夠多樣,但在通用場景的推理泛化問題上,這種 CoT 的數據到底怎麼生成?

或者也有可能根本就沒有必要,因爲那個問題可能已經解決得很好了,你再加 CoT 可能也沒有意義,比如說在有一些問題上,可能感覺 o1 沒有帶來本質的效果提升,可能因爲那種問題本來就已經解決得非常不錯了。

張鵬:強化學習在下一代的模型裡要扮演更重要的作用,會帶來什麼影響?

汪華:如果大規模採納這個方案,算力會更短缺,推理會變得更重要。

因爲之前說推理成本將來會降 100 倍,現在如果往強化學習的方向發展,推理成本就更需要降了,因爲解決問題要消耗更多的推理 token。降低推理價格其實等效於推理速度提升,需要把推理所需的時間壓縮下來,很多應用纔會變得可用。

第二,模型大小也要變得非常精幹,因爲如果無限的擴張基模尺寸的話,推理速度會變得更慢、也更昂貴,從商業上來講就更加不可行了,因爲採納結構化推理,可能要消耗 100 倍的 token 來解決同一個問題。

張鵬:你怎麼看 LLM+RL 的前景,推理泛化的路徑是清晰的嗎?

汪華:o1 之後 AI 的未來怎麼發展,其實我相對比較保守,什麼事情都做兩種打算。

第一種是,我們在很長段時間內沒有找到泛化的方法。但即使是這樣,我個人認爲依然是一個巨大的進步。因爲這雖然意味着很多開放的、複合的、非常複雜、模糊的問題上,我們沒辦法用這個方式來提升,但是商業場景下有大量的問題,比如法律、金融領域,很多問題是封閉的、明確的。在這些問題上可以通過這條路徑,去合成數據、去做獎勵模型、判別模型(critic model),極大地提高垂直領域的性能,甚至把性能提升從 Copilot(輔助駕駛)提升到 Autopilot(自動駕駛)的地步,這就是一個飛躍性的改變。

無人駕駛汽車|圖片來源:視覺中國

這個場景有點像回到 AI 1.0,但比 AI 1.0 好,因爲會針對垂直領域會做出一個個垂直的模型或者一套體系,從商業角度上來說已經是個巨大進步了。現在大家天天忙着做 copilot,沒法做 autopilot,就是因爲模型不擅長做長推理,一做複雜問題就出錯,產生幻覺等問題。

第二種,如果能實現通用模型的話,影響就比較大了。哪怕不一定帶來 AGI,它的泛用性、泛化性差、解決問題依然比人差,正確率沒有高的,但只要高過普通人的平均水平,那也可以給世界上 70% ~ 80% 的事情帶來自動化。你要知道我們很多成年人也做不對奧數題,而且我們自己也有「幻覺」。

05

建立真實世界模擬器:

能讀萬卷書,也能行萬里路

張鵬:在今天這個節點看得見希望,但是可能一顆紅心兩種準備。哪怕不能夠完全泛化,今天也能解決很多問題了,比如在專用領域裡可以做到通用能力達標。

汪華:對,能不能實現推理泛化,我個人覺得關鍵在於能否構造一套泛化的「真實世界模擬器」。構建這個真實世界模擬器,可能難點在於數據加上算法等一系列的因素。

因爲模型跟人互動,解決這些開放問題的時候,本質上是在跟真實世界互動,真實世界就是那個獎勵函數或者判別函數(Critic Model),能不能建立一套新的方法論,能真實地模擬這個真實世界的反饋,而且能脫離人類反饋。

之前的 SFT(精調),包括之前的強化學習本質上是基於人類的反饋(RLHF),這就像 AlphaGo 只是跟着人類棋譜學習,而不能左右互搏,效果肯定是有限的。

構建這個「真實世界模擬器」,可能難點在於數據加上算法等一系列的因素。這個模擬器一旦建立了,模型會產生無限的數據,就像 AlphaGo 互相下棋,它可以下 100 萬盤、 1000 萬盤、1 億盤,而且它來判陣輸贏,通過輸贏的判斷去模擬棋道真諦。

張鵬:有點像它是要創造一個真正有效的世界,AI 在裡面能「解萬道題」,甚至「行萬里路」,而不只像原來那樣「讀萬卷書」,這個東西其實最終才能通向更廣泛化的意義,而不受限於人類的反饋、等着人類師傅帶,成本很高、泛化也很難。

汪華:而且這裡面其實在我看來分兩個階段。第一階段就是 LLM(大語言模型)的階段,預訓練的階段就是壓縮知識,學習人類的知識,而 RL(強化學習)的階段是練習和摸索思維方式。兩個階段培養兩種能力,最後都壓縮到這個 LLM 裡面的 Latent Space(潛在空間,深度學習中一種數據的低維表示形式)裡面。

Sam Altman 在 X 平臺稱,OpenAI o1 是新範式的開始|截圖來源:X.com

06

Sam Altman 所謂

「新範式的開始」,有幾分可信

張鵬:作爲這次 OpenAI 發的新模型,「o1」不再延續過去 GPT 系列的叫法,比如 GPT 四點幾,而是開啓了 o 系列新模型代號。同時 Sam Altman 稱這是一次新範式的開始。我們怎麼理解這個所謂的新範式?

顏水成:如果按照 Global Workspace 這套理論去對照「系統-2」(慢思考)和「系統-2」(快思考),o1 和 GPT-4 是有本質差別的,其中最大的差別在於,它會在解決問題的過程中產生 CoT(思維鏈)。

一年前有人說 Ilya Sutskever (OpenAI 聯合創始人) 在「草莓模型」(o1 之前的代號叫草莓)裡發現了一些讓人震驚的、可怕的事情。今天可以大概推測,他當時到底在草莓模型裡面發現了什麼東西。我覺得他發現的就是 AI 的學習過程,RL(強化學習)和 CoT(思維鏈)相結合,他發現系統具備自己挖掘 CoT(思維鏈)的能力。

我個人認爲,CoT 的過程,不是純粹從已有的知識裡去提取知識。CoT 的過程跟人類的思考過程一樣,會展開不同的分析組合,包括驗證、自我反思等。CoT 過程結束之後,其實一個新的知識就產生了,因爲你其實會對以前的知識進行再加工,可以認爲這是一個新知識。

當模型具備自動產生 CoT 的能力,意味着它有知識發現和知識增長的能力,新的知識可以重新完善(refine)模型,也會注入(inject)到模型自我的知識裡,AI 就可以實現自我提升(self-improving)的能力。

從這個角度看,o1 如果能夠自動地去做挖掘 CoT,它真的就是一個新範式的開始。它不只是提取已有的知識,而是不斷地產生新的知識,是一個知識增長的過程,是一個用算力去挖礦的過程,挖掘出新的知識。知識就會越來越多,AI 就能做研究者能做到的很多事情。

張鵬:要這麼說的話,人類的科學發展進程也是人類不斷產生 CoT 的過程,現在發現模型具備了 CoT 能力,自己能夠獲得更多知識,也能基於這個知識再優化自己,有了「自我進化」的能力。這可能是新範式代表的含義,當我們要需要模型更有效地解決問題,有賴於它自主產生 CoT 的能力,並能夠自我進化。

顏水成:所以有可能,OpenAI 把所有大家問的問題、信息全部都存下來,然後再拿這部分東西訓練模型,就可以把模型的能力進一步提升。相當於全世界的人用自己的錢、用他的算力去進行了知識的擴展,然後擴展出來的 CoT 結果,又可以使模型變得越來越強。如果從這個角度來說的話,確實是一種新的範式的開始。

擅長佈道和公關的「融資大師」Sam Altman|圖片來源:視覺中國

張鵬:直播間裡有觀衆說得很直接,說 Sam Altman 口中的「新範式」就等於「OpenAI 融資難了,需要有一些新的話術」。你覺得他說的新範式,是一個給大家提高預期、一個信仰充值的東西,還是說會再開啓一個所謂的新範式?

汪華:從投資人的角度來講,現在中美投資人,已經初步過了「爲了科學突破而感到激動」要投錢的時間點了,都在忙着看商業化,會看這個東西到底解決什麼問題。雖然投資人可能比較俗氣,但是過去一年多畢竟也是砸了那麼多錢進去,千億美金的算力、Infra 等都投進去了。

對創業公司或者大語言模型的發展來講,我個人認爲是一個新範式,而且是大家已經期待的新範式。過去的 Scaling Law 每次都要 100 倍的算力(擴張),指數級別的算力增長,然後只得到線性的模型性能提升。這會帶來兩個問題,第一,怎麼再繼續擴張(scaling)下去。第二,對於創業公司、研究機構,包括新的 idea 的出現,是一個絕對的扼殺,因爲最後只有少數的帝王級企業,纔有資格去做這件事。

但「o1」代表的範式,把很多東西拉回來了,世界可以更多元化了。不是說不要 Scaling Law 了,可能新範式下依然是模型越大效果越好。但有了「o1」所代表的新範式,Scaling Law 可以從更小的模型做,而可能這個模型算力提升 10 倍就能看到原先百倍的效果,而不是要指數級別的提升才能看到很多進步,包括對於各種各樣的商業化也更友好了。

所以從商業角度來講,我個人覺得「新範式」是有潛力發生的,而且是必須的。按原來那條 Scaling Law 是一條死路,都不說再 Scaling Law 下去全世界的數據夠不夠用這個問題,在 Scaling Law 下,全世界還有多少人能做這件事都是問題。

07

「o1」打破了預訓練的

Scaling Law 瓶頸,

商業上解鎖了新的可能

顏水成:所以其實最近有不少公司,也基本上覺得純粹的基礎模型的預訓練意義已經不大了,因爲基本上是 10 億美金級了。

汪華:而且你就算訓練得起,你用得起嗎?AI 如果真的要給整個世界帶來廣泛的進步,本身就需要範式改變,光靠推理成本的下降是撐不住的。

另外從學術的角度來說,我覺得這個範式有的地方變了,有的地方還是沒變。現在 o1 模型裡的很多問題,包括規劃、推理,其實它在產生 CoT 的過程依然還是在做下一個 token 的預測。

生成式 AI 的創業門檻,算力是繞不開的鉅額成本|圖片來源:視覺中國

顏水成:因爲有很多過程,比如有的在做規劃,有的是一小節一小節在做 CoT,有的是在做自我反思(self reflection)。這個過程到底是怎麼實現,現在還不是特別清楚。如果就是說按照一個固定的流程,都按照下一個 token 的預測來做,那麼 CoT 就是一個 new data 的問題了,但是我是覺得可能不只是一個 new data 的問題。

汪華:對,因爲沒有細節不知道,但是我在測試模型的時候,還是發現它的推理步驟會有幻覺,中間會有奇怪的推理步驟,但錯誤的推理步驟卻得到了正確的結果,正確的推理步驟下的推理,又飛到天上去了。

我個人覺得新範式是從學術上、科學角度來講,範式是改變了,但說不定還需要改變更多。

我認同顏老師的觀點,知識是 data,推理過程和思維方式其實也是 data。下一個 token 的預測,這個方法也不一定是錯的,也不是說一定要擺脫,但是學習關於推理過程和思維方式的 data,是不是有更進一步的一些範式的改變。

張鵬:受限於之前的模型技術,一度覺得很多事都幹不了了,現在 o1 之後,又感覺未來有很多事可幹,作爲一個技術研究者,你覺得有哪些下一步值得探索的方向?

顏水成:以前用 GPT-4 或者 GPT-4o,雖然說能產生出不錯的結果、能做不少事情,但是其實在直覺上會感覺,下一個 token 的預測,這個東西好像沒有這個能力,或者應該不具備這種能力。所以這個條件下,我們會在 GPT-4o 的基礎上,再搭一個 agent,用 agent 去調用大模型、調用現成工具的形式。

雖然 Agent 有潛在可能性去解決這個問題,但是進展不是特別好,因爲它還是沒有一個比較完美的框架來解決問題,不像剛纔提的 Global Workspace 的過程。後者是把信息全合在一起,在這個過程中去做演繹、去做推理、去做驗證、去做自我反思。

但是現在有了 o1 就合理了,要得到最後結果,其中有一個思考過程,這個思考過程其實並不是原來常規的大模型,就直接能生成出來。有了這一套範式之後,你給我任何一個問題,我直覺上應該是能用這種方式解決的,無論是複雜推理還是其他,所以會有很多事情可以做。

另外,有了這套範式,那種超級大的模型有可能變得不是那麼重要,模型可以做得比較小,但它就能做成一個,模型參數並不是特別大的一個網絡架構,但它在推理的時候,能夠做得更加複雜。

這種情況下,就不會像以前的 Scaling Law 一樣,到了只有 10 萬張 H100,才能夠真真正正的進入到第一梯隊。你可能有幾千張卡,就能在一些維度能做到非常好的效果。

原來的 Scaling Law,可能在摧毀很多的創業公司,那麼現在可能又會讓一波的創業公司要重新的復活,去做各種各樣的事情。所以無論是從可行性,還是創業的角度,我覺得機會都比以前要更好,沒有進入到一個死衚衕。

08

當「o1」通向 autopilot,

AI 應用該怎麼做?

張鵬:從「o1」模型裡看到新的可能性,會對接下來的創業、產品、解決真實世界的問題,帶來什麼樣新的挑戰或者機遇?比如一個問題是,「o1」推理的進程肯定比原來拉長了,原來像 GPT-4o 以快爲美。

汪華:我覺得這不會成爲問題。因爲「系統-1」和「系統-2」是共存的關係,並不是說 o1 出來了,GPT-4o 就沒有用了。人類在大部分時間其實也是處於「系統-1」(快思考)而不是「系統-2」(慢思考)。

具體還是要看應用類型。比如像 AI 搜索、Character.ai、寫作輔助這些應用,大部分場景其實用原來的模型、速度夠快就行。產品上也好解決,可以通過意圖識別的分類模型,把不同任務分給不同模型。

長期看,如果「o1」更加完滿了之後,GPT-4o 所代表的「系統一」和「o1」代表的「系統二」實際上是在兩個不同的流水線上。

舉個例子,爲什麼要追求推理速度快?因爲我們現在大部分應用是 Copilot。Copilot 的應用當然要快,人就在旁邊等着呢。但是如果「o1」未來做得足夠好,能帶來更高準確度、能解決複雜問題、能很好地實現 agent,它執行的任務可能是 autopilot(自動駕駛)級別的任務的話,你管它多久完成呢。我給同事分派一個任務,也是這個禮拜佈置任務,下個禮拜看結果,不會要他立即交。所以如果是 autopilot 的場景,重要的實際上是模型、是這個模式做出來的性能,而不是低時延,更何況推理速度正在進一步提升。

第二,這是一個自適應的問題,如果將來「o1」模型訓練得更完滿,它的強化學習做得足夠充分時,它會根據問題的複雜度和類型,有合適的延遲(latency)和推理時間、和 token 的消耗的。

張鵬:之前 GPT 系列在 Copilot 場景繼續發揮優勢,反應更快、交互自然,但同時 o1 帶來了通向 autopilot 的可能性,以前覺得很難做到的場景,隨着強化學習、模型能力的繼續優化,有更大概率實現。

圖片來源:視覺中國

汪華:對,再具體一點說,「o1」首先能解鎖的就是大量企業級應用。

現在哪怕在 SaaS 生態和 AI 進展更成熟的美國,很多企業級應用增長得很快,但目前摘的也都是低垂的果實,應用類型依然跟中國差不多,比如員工的寫作輔助、智能搜索,企業知識庫、銷售支持客服等智能助手類應用。更關鍵的生產性任務和更復雜的任務,不是企業不想用 AI 來完成,是之前的模型做不到。

第二,也會給 C 端交互類應用帶來影響。

在 C 端的交互革命裡面,80% ~ 90% 可能都是原來的快速的模型,可能只有 10% 的任務需要調 CoT 模型。所以這個是會有很明確的分野。比如,Meta 的雷朋眼鏡如果將來加了多模態,其實大部分的任務也都不是深思熟慮的,而是我看到什麼東西它直接給我輔助,執行我的命令。

ToB、ToC,生產力任務、娛樂任務、交互任務其實都是會有 copilot 和 autopilot 明確的分野的,而且會協同。

舉個例子,比如說讓 C 端應用幫我訂張機票,在我和它的交互對話、它向我展示漂亮景點的過程,後臺已經幫我比價、調用各種資源做旅行計劃了,後臺可能就在用新一代推理模型。有時延也沒關係,前臺多模態的模型跟我聊天、糊弄我、延長我的等待時間,後面的模型在那裡勤勤懇懇做 CoT,調用 agents 做推理演繹。收集你的信息,還能給你情緒反饋、提供情緒價值。

張鵬:產品設計的空間,可創新的東西打開了,這其實是讓人真正興奮的。

09

「o1」模型可以提升機器人大腦,

但具身智能還有自己的卡點

張鵬:o1 的模型對於機器人的能力未來會不會有很大提升?比如像這種 CoT 的能力,未來會對具身智能產生什麼樣的影響?

顏水成:我覺得會,因爲具身智能需要有比較強的推理能力,一次推理,或者一次 CoT 出來的結果可能並不能滿足條件,所以它能自我反思或者自我驗證非常重要。

例如行走的機器人去完成某些任務,如果它有「系統-2」的過程,輸出會更加準確、更加可靠。同時在一些場景,其實讓他先想一想,再去做交互,用戶也是能接受的。

未來當「o1」擁有多模態能力,它用在具身智能場景會變得更好。

圖片來源:視覺中國

汪華:具身智能,現在有三件事都是它的瓶頸。

第一是硬件,硬件本身,包括傳感器,依然有很多的瓶頸。

第二是可泛化的運動控制。現在機器人都是基於物理計算,或者是基於單項任務的模擬仿真、強化學習。而人的動作是非常複雜的,可以抓、擰、掏、摳,我們現在其實沒有一個在運動控制上的 GPT。

第三,也是現在「o1」能解決的,大腦的問題,運動控制相當於小腦的問題,機器人「大腦」現在也能做,但是「o1」會極大地提高大腦對於運動規劃的準確性、可控性、可靠性。

這三個問題要都解決,具身智能才能實現。如果只突破「o1」,沒有可泛化的運動控制,依然會受很多限制,因爲機器人能進行的動作會非常有限。

另外,我個人覺得這兩件事說不定都有同樣的瓶頸被卡着,可泛化的運動控制大家也試圖用強化學習、模擬學習(Imitation Learning)來做,也缺少大量的數據,就像缺少 CoT 數據一樣,缺少大量的真實世界各種各樣的運動控制數據,只是:一個是要解決可泛化的運動控制,一個是要解決可泛化的推理。

因爲沒有一個人在手上帶着傳感器、腦袋上頂着攝像頭,也沒有幾千萬人天天做這些動作,貢獻一個互聯網級別的一個數據集,所以大家在用模擬器、用強化學習在做。但說不定在一件事情上找到了一些解決方法,另外一件事可以用類似的方法來解決同一個問題。

顏水成:感覺還是不一樣,這種數據產生的流程和「o1」產生 CoT 的流程還是有很大差別,可能要當做一個垂域的問題去思考。

汪華:我特別期待強化學習本身的方法論發生一次超進化,把現在強化學習,對於獎勵模型泛化的限制取消。

顏水成:因爲強化學習本身的算法就比 GPT-4 的優化更難一些。比如強化學習的曲線的損失(loss),基本上一直在劇烈的震盪,但是像 GPT 模型,或者 AI 1.0 時代的判別式模型,曲線基本上非常穩定,所以強化學習做起來的難度或者說要求的領域 know-how 更多。

中國本身做這塊的人就蠻少,現在慢慢好一些,但是相比國外做的時間和積累還是要少一些。

張鵬:爲什麼中國的強化學習這條線會弱一些?上一代 AI,其實就看到了強化學習這個路線。

汪華:強化學習其實各種各樣的 paper 都在外面,中國聰明的人也很多,之前之所以做得不好,不是學術上做不出來,而是工程上和累積上,我們投入太低的問題。客觀地講,會有點功利化。之前強化學習(RL)在各個領域裡的效果都不是特別明顯。

即使是在大模型時代,OpenAI 做了 PPO(一種強化學習算法、由 OpenAI 在 2017 年提出),做了 RL(強化學習),但實際上對於大部分國內的大模型公司來講,做好 SFT,做好 DPO,其實效果已經跟 RL 非常接近了,提供的增益也不大。

而 RL 做起來很難,非常耗工程,對於算力消耗也是非常明確的,所以在這種對於收益不明確的地方,國內大家的投入還是相對比較保守和謹慎。

保守和謹慎就導致資源的投入,沒有足夠多的卡,沒有足夠多的實驗,沒有足夠多的算力讓大家去浪費,那這方面的人才就沒法積累經驗。因爲有些東西不寫在 paper 裡,而是你在訓練時一次次訓崩的 knowhow。

中國在頂尖科研上的確存在系統性問題——別人探出路來了之後,我們會很有信心去投入資源去趟,但當初不明確的時候,我們不願意投入。

10

如果 Scaling Law 玩不起,

「o1」又是誰要下注的比賽

張鵬:「o1」其實讓大家看到一個明確的方向,這是不是意味着大家要在這個方向上更深入地探索?

顏水成:我個人稍微悲觀一點,主要原因是有一些細節不像 Sora 出來的時候,從它的技術文檔上你就能看得很清楚,它的路線是什麼東西。

第二,還是類比 Sora,當時 Transformer,以及後面的 DIT(一種文生視頻架構)、擴散模型,是在開源的生態上往前走,創業公司只要去思考數據和工程的問題就可以。

但是這次強化學習,客觀上來說,我覺得中國公司裡,在大規模場景下,自己有代碼庫(code base)跑通的就很少,而且沒有足夠開源社區的支持。吸引人才其實也沒有真正有一手經驗的人。

所以這兩個因素,一是沒有大規模 RL 場景和好的 code base 做支撐,二是很多 know-how 的細節不清楚,可能會讓追趕的速度比較慢,會比我們追上 GPT-4 所需要的時間更長一些,我覺得哪怕是在美國,優秀的公司要追上的話,也可能是以年爲單位。

圖片來源:視覺中國

張鵬:你正好提醒我,從 ChatGPT 出來,到國內出現類似 ChatGPT 的應用,大概經歷了四五個月的時間,追 GPT-4 可能大概是半年左右,Sora 可能也是經過了大概半年,大概的追趕週期是半年。但追上 o1 這樣的能力,可能是要以年爲計的難度。汪華怎麼看?

汪華:我倒沒有那麼悲觀。

之前那種往上 scaling(擴展)模型尺寸的方法,國內真的追不起,哪怕幾家拿到很多投資的創業公司,追到一定程度也就追不動了。哪怕是大廠,我覺得追到一定程度也不見得往下追了,因爲國內的目前經濟和資本環境也沒有那麼好。

而且實際上,GPT-4o 其實不好追。雖然 GPT-4o 的模型尺寸比 GPT-4(1.8 萬參數)要小很多,但多模態的數據和訓練是非常消耗資源的,很吃算力。所以訓練 GPT-4o 只會比 GPT 4 更貴。我倒不覺得國內是因爲工程原因和學術原因做不出 GPT-4o。

那「o1」會有什麼樣的一個特點呢?就是它其實「吃」(大量消耗)很多的研究,也「吃」很多的實驗,也「吃」很多的探索和 idea 的東西,包括數據的一些構造的技巧等,但「o1」其實不太吃算力。並且它可是可以通過比較小的模型,去實驗和模擬的。

我個人覺得,中國公司玩得起,而且 o1 出來了之後,開源社區也玩得起,開源社區不太玩得起 GPT-4o。我覺得,不光是中國公司,開源社區和學術界也會試圖在小尺寸的模型上,用各種各樣的方法去實現類似的效果,包括一些開源框架。所以中國公司也並不是只是孤單地說我對抗全世界,相當於是中國公司和開源社區一起追趕 OpenAI 的這件事。

張鵬:聽起來中國的大模型的創業公司真的辛苦,過去一段時間已經連續鋪開好幾條陣線,很多東西還在 pipeline 裡打磨中,但現在「o1」出來之後要去再去做,資源可能會如何分配?

汪華:客觀地講,不會所有的公司都去追的。有些大模公司會堅持方向,有些大模型公司會轉型成產品公司,有些大模型公司可能會選擇某個方向做突破口,但首先大廠應該都會去追。

張鵬:也許像 DeepSeek,這種比較「神」的公司也有可能。

汪華:大廠都會去追。創業模型公司裡有一部分會去追。

而且,大家在實驗的角度應該都會追,因爲你要說做出一個特別大的產品模型,那不會做,但在相當於 mini 級別的尺寸裡面去夯實強化學習能力,去做這方面的實驗,是必然要做的事,只是不一定大家都能做到生產級別。

顏水成:其實有一點,比如說像 GPT 3.5 的時候,PPO 就基本上有很大的收益。其實開源社區也在想辦法去復現一些東西,但是並沒有誰開源出一個真正意義的 code base(代碼庫)能被中國公司直接使用。所以我覺得在 RL 上,門檻還是會比想象的要大一點。

汪華:我覺得有兩方面原因。

第一,我個人覺得 PPO 的確是工程門檻要高很多。跑 PPO,同時多個模型跑,對算力的要求也消耗也很大,學術界也跑不太動。

還有一部分原因,開源社區當時很大的精力都放在「青春平替版」,發明了 DPO 等一系列東西去做開源平替。開源平替基本上 online PPO,Offline PPO 的確也做到了基本上 90% 的效果。

顏水成:這裡面獎勵函數非常關鍵,當年 GPT 3.5 的時候,其實他們是拿 GPT-4 的模型去訓練獎勵模型,才能保證 PPO 做得比較好。所以如果說模型在強化學習這裡,如果要用獎勵模型,這個東西本身也是一個瓶頸,不是小模型出來的東西就可以用。

汪華:是的,但開源社區並不僅只有創業公司。

張鵬:有 Meta、阿里,看起來開源領域還是有一些巨頭的,如果他們有堅定的目標要給羣衆發槍,我覺得也 make sense。

汪華:可能的確不會那麼快,但是技術擴散是必然的。隨着更多的公司,包括國內的大廠,海外的開源社區,學術界去花更多的精力去做 RL(強化學習),其實過去幾年在大模型之前,RL 已經非常冷了,無論是 PhD 還是工業界、學術界,其實選擇做 RL 方向的人已經很少了,這也是一部分的原因。

如果大家突然覺得這個事靠譜的話,很快大家都用算力,各方面人才就會逐漸地多起來。包括技術擴散也會慢慢地發生,但的確這個門檻要高得多。

顏水成:我原先做 RL 研究的時候,當時一個最大的問題,就是最前沿的算法,code base 都是基於 DeepMind 的 TPU 代碼,基於 GPU 的實現當時比較缺乏。現在稍微好一些,很多東西基於 GPU 的東西已經多起來了。

汪華:我甚至覺得 Nvidia、微軟都會試圖去做這件事,然後甚至是開源他們的框架運營或者投認去做這方面的框架,因爲對他們來說最重要的是把算力賣出去。

11

「o1」之後,創業者的選擇

張鵬:現在創業者經常在談的一個話題是:技術發展太快,怎麼能夠隨着技術水漲船高,而不是被水漫金山?換句話說,技術漲對我有利,而不要技術一漲我就變得沒價值。「o1」出來之後,你會怎麼回答這個問題?

顏水成:崑崙萬維做大模型的方式還是以產品先行,目前大概有五六個產品,比如說像 AI 搜索、AI 音樂、AI 陪伴、AI 短劇創作和 AI 遊戲,有這些具體的產品在前面做牽引,帶動我們做基礎模型的研發。有一些模型是通用的,有一些模型其實是垂域的,比如說音樂大模型就是垂域的。

我個人覺得,這一波「o1」出來之後,通用模型在原有的模型基礎上,增加 RL + CoT 的方式,應該能把性能提升得更好,這肯定要做。

另外,可能更聚焦一些場景,比如精度優先會變得非常重要。舉個例子,我們有一個產品是做 AI for research,在天工 APP 裡面。有了 CoT 技術,它就能夠幫助研究者去思考,在他的研究方向上指明哪一些課題可以探索,而是不是像以前只是給論文做總結、修改語法錯誤。

最近有人做了一個工作叫「AI scientist」,有了「o1」的這種範式,這種功能就有可能提煉出來了。因爲以前是直接一次性生成的,結果是否具有創新性和可行性,不知道,它不能夠做任何的分析,現在,在「o1」範式下,有可能把這件事情能做得更好。

圖片來源:視覺中國

汪華:因爲 o1 也剛剛出來,我也還在測試它的能力。對做模型的同學來說,看到「o1」心裡可能會打鼓,但對做應用的同學來說,出了「o1」之後,只可能有增益,不可能有損失,因爲又多了一個東西可以用。

另外,我覺得不被「水漫金山」的話,核心還是一點:我們是做 AI 應用的創業者,應用本身、場景本身是主語,AI 只是定語,「水漫金山」往往是把 AI 當主語,沒有花很多時間深耕場景、需求和自身的稟賦、優勢。

做應用還是場景優先,同時隨時觀測技術進展,可能沒法像 Google 一樣自己去開發技術棧,但實際上很多的事情是有跡可循的。哪怕是「o1」的發佈,其實之前在 DeepMind 的研究裡這條路徑是有跡可循的。

在跟技術前沿保持溝通的同時,做重大的工程決策要特別謹慎,因爲這跟當年做移動互聯網應用不一樣,移動互聯網時代做應用時,所有的技術棧都是成熟的,關鍵是能不能找到一個場景的問題。只要找到場景,拉一個產品經理、拉一個工程師,幾個大學生也能做出一個爆款應用出來。

堅持快速 PMF 的原則,儘量使用市場上現有的模型來快速完成 PMF,而不是用複雜的工程。如果一個簡單的模型要加複雜工程才能做 PMF 的話,那還不如一開始用最貴的、最好的模型去做 PMF,因爲 PMF 消耗不了多少 token。在一開始階段能用 prompt 解決的,就不要用 SFT,能用 SFT 解決的就不要用後訓練。不到萬不得已,千萬不要用針對模型的缺陷去做一個非常複雜的工程 pipeline(流程管道)的補丁去彌補當前的模型缺陷。

張鵬:要穿就穿新衣服,儘量少打補丁,如果真要打補丁,也不要打複雜的補丁,要打簡潔的補丁,這可能在早期階段就變得很重要。而且很重要一點,其實是你要解決的問題纔是你的競爭力。只是圍着技術非要找個場景落地,可能就本末倒置,思路一定要回到要解決的場景和問題上,這樣「水漲船高」的可能性就更大。

*頭圖來源:視覺中國

本文爲極客公園原創文章,轉載請聯繫極客君微信 geekparkGO

極客一問

o1 系列模型符合你的預期嗎?

周受資:下一代人要精通數字技術,家長要和孩子一起做決定。

點贊關注極客公園視頻號,