☰

Noam Brown早已預示o1強大推理能力，演講深度解析AI推理研究脈絡

不久之前，OpenAI 發佈了 o1 系列模型，其強大的推理能力讓我們看見了 AI 發展的新可能。近日，OpenAI 著名研究科學家 Noam Brown 一份 5 月的演講上線網絡，或可揭示 o1 背後的研究發展脈絡。

在這個題爲「關於 AI 規劃力量的寓言：從撲克到外交」的演講中， Brown 介紹了撲克、圍棋和外交等遊戲領域的研究突破，並尤其強調了搜索/規劃算法在這些成就中的關鍵作用。之後，他也指出了搜索/規劃研究在改進機器學習模型方面的潛在未來。

Noam Brown，如果你還不熟悉這個名字：他是 OpenAI 的一位著名研究科學家，主攻方向是推理和自博弈，曾參與創造了首個在雙玩家和多玩家無限注德州撲克上擊敗人類頂級職業玩家的 AI：Libratus 和 Pluribus。其中 Pluribus 曾被 Science 評選爲 2019 年十大科學突破之一。此外，他也領導開發了 Cicero 系統，這是首個在自然語言策略外交遊戲 Diplomacy 上達到人類水平的 AI。憑藉在 AI 領域的卓越貢獻，他獲得過馬文·明斯基獎章（Marvin Minsky Medal）等許多獎項。

視頻地址：https://www.youtube.com/watch?v=eaAonE58sLU

來自 Paul G. Allen School

機器之心詳細梳理了 Noam Brown 的演講內容，以饗讀者：

演講開篇，Brown 談到了自己剛開始研究生生涯的時候。那是在 2012 年，他開始研究打撲克的 AI。當時人們已經研究了撲克 AI 多年時間。很多人的感覺就是系統的問題已經解決，剩下的問題就是規模擴展（scaling）了。

下圖左下展示了那幾年模型參數量的變化情況。

那幾年，各個研究撲克 AI 的實驗室都會訓練更大的新模型來互相競賽。這就是當時的年度計算機撲克競賽。

什麼意外，每一年的新模型都會變得比之前的模型更強大。

2014 年時，Brown 與其導師一起開發了當前最強大的撲克 AI，取得了競賽第一名。那時候他們開始嘗試在實際的比賽中與專家級人類對抗。於是在 2015 年，他們舉辦了人腦與 AI 撲克競賽。

他們讓自己的 AI 挑戰了 4 位頂尖職業玩家，玩了 8 萬手。最終，他們開發的名爲 Claudico 的 AI 牌手慘敗收場。

搜索與規劃開始彰顯力量

在這場比賽中，他注意到一些有趣的現象。他們的 AI 之前已經使用了大約 1 萬億手對局數據進行了訓練。在這場比賽之前幾個月時間裡，這個 AI 一直在數千臺 GPU 上不間斷地玩撲克。

而到了真正與職業玩家比賽的時候，它會在很快的時間裡做出決定，幾乎是立即完成。但如果是人類面對同樣的任務，則通常會深思熟慮。

Brown 在那時候便想到了，這或許就是 AI 所缺少的東西。這也成了其之後的重要研究方向之一。

2017 年時，他們發佈了一篇論文給出了初步的研究結果（這是當年的 NeurIPS 最佳論文）。如下圖所示，藍線是不做任何搜索或規劃的結果，橙色則是執行了搜索和規劃的結果（越低越好）。X 軸是模型的參數量。所以這算是中等大小的撲克 AI 的擴展律（scaling law)：模型越大，表現越好。而從圖中可以看到，搜索所帶來的受益比模型增大要大得多——同等模型大小下能帶來近 7 倍的提升！

簡單來說，這裡的搜索就是讓模型在行動之前「思考」大約半分鐘。

Brown 表示，在研究撲克 AI 的三四年間，他將模型的大小提升了 100 倍，但所帶來的提升遠不及採用搜索策略。而如果要讓藍線代表的無搜索策略成功擴展到橙色線的水平，還需要將模型繼續擴展 10 萬倍。換句話說，搜索策略能帶來 10 萬倍的增益！

這讓他不禁感嘆：「與添加搜索相比，我在博士學位之前所做的一切都將成爲腳註。」

之後，他轉變了研究方向，將重點放在了擴展搜索能力方面。

2017 年，他們再次舉辦人腦與 AI 撲克競賽。這一次，AI 大勝，並且每位職業玩家都輸給了這個名叫 Libratus 的模型。

這一結果同時震驚了撲克和 AI 兩個圈子，更何況 AI 的獲勝優勢還如此之大。對此事件的詳細報道可參閱文章《德撲人機大戰收官，Libratus 擊敗世界頂尖撲克選手》。

2019 年，他們開發了一個能玩六人德州撲克的 AI 並與人類職業玩家進行了對抗。

同樣，AI 獲勝了，並且其訓練成本還很低，也沒有使用 GPU，參閱《AI攻陷多人德撲再登Science，訓練成本150美元，每小時贏1000刀》。

Brown 表示，如此低的成本意味着，如果當時就能發現這種方法，那麼 AI 社區在 90 年代應該就能取得這一成就。

但爲什麼沒有出現這樣的研究呢？Brown 總結了幾點原因和經驗教訓。（請注意，這裡他強調並不會對「搜索」和「規劃」這兩個概念做明確區分，因爲它們存在很大的共同點。）

規劃也有助於其它遊戲任務

實際上，這種使用規劃和搜索的方法並非撲克 AI 所獨有的。許多圍棋和象棋 AI 都使用了這些技術。下面這張圖來自 AlphaGo Zero 論文。

圖中的 AlphaGo Lee 是指擊敗了李世石的版本，而 AlphaGo Zero 僅使用非常少的人類知識就取得了好得多的表現。

AlphaGo Zero 並不是一個原始的神經網絡，而是神經網絡+蒙特卡洛樹搜索（MCTS）的組合系統。實際上，其原始神經網絡的 Elo 分數僅有 3000 左右，不及人類。

實際上，從 2016 年到 2024 年，8 年過去了，現在依然沒有人訓練出超越人類職業棋手的原始神經網絡。也許有人會說，就算如此，只要訓練出更大的神經網絡，最終就能超越人類吧。但就算理論上可以，實際上這個網絡需要多大呢？

Brown 根據經驗給出了一個大致估計：Elo 分數每增加 120 都需要 2 倍的模型大小和訓練量或 2 倍的測試時搜索量。

基於此，如果僅使用原始神經網絡，要將 Elo 分數從 3000 提升到 AlphaGo Zero 那樣的 5200，則需要將模型擴展大約 10 萬倍。當然，Brown 提到 AlphaGo Zero 的 5200 分其實存在爭議，考慮爭議的話模型的擴展倍數可能在 1000 倍到 1 萬倍之間。

不管怎樣，模型都需要大幅擴展才行。

另外，這還是假設訓練過程中可以使用 MCTS。要是再從訓練階段剔除 MCTS，那麼所需的擴展倍數更是天文數字。

那麼，具體來說該如何進行規劃呢？

合作策略桌遊 Hanabi（花火）是一個很好的示例，這是一種不完全信息博弈。

2019 年 2 月，DeepMind 爲 Hanabi 提出了一個新基準，並且他們提出了一種可取得 58.6% 勝率的強化學習算法。

六個月後，Noam Brown 當時就職的 FAIR 提出的一種算法就在兩玩家場景中取得了 75% 的勝率，達到了超越人類的水平。並且他表示這其中僅使用了一種非常簡單的技術。他說：「我們並沒有在強化學習方面做什麼全新的事情，就只是執行了搜索。」並且這種搜索很簡單。

簡單來說，就是搜索後續步驟執行不同動作時的情況，然後選擇預期結果最好的一個。

實驗結果證明這種簡單方法確實有效。

不管是哪種方法，在添加了搜索之後都取得了顯著更好的表現。之前表現最差的基於啓發式方法的 SmartBot 在添加了搜索之後也超過了未使用搜索的基於強化學習的最佳方法 SAD。

這一巨大提升甚至讓 Brown 及其團隊一度懷疑實驗出 bug 了。要知道 Hanabi 遊戲本質上不可能取得 100% 勝率，經過搜索加持的強化學習神經網絡的勝率可能趨近於飽和。

同時，多智能體搜索的表現也優於單智能體搜索。這或許就是 Noam Brown 最近正在積極爲 OpenAI 網羅多智能體研究者的原因。

Brown 提到他們並不是唯一一個發現這一趨勢的團隊。目前就職於 Anthropic 的 Andy Jones 也曾在棋盤遊戲 Hex 上發現了這一點。

該研究發現，測試時間計算量增加 15 倍的效果相當於訓練時間計算量增加 10 倍的效果。考慮到訓練時的計算量遠高於測試時的計算量。因此讓測試時間計算量增加 15 倍要划算得多。

接下來，Brown 介紹了一個在國際象棋比賽上模仿人類專家數據的研究。這個名叫 MAIA 的國際象棋 AI 在 Elo 較高時比目標 Elo 分數低 100-300 分。也就是說，如果使用 2000 分的人類數據來訓練它，它自己卻只能得到 1700 分。但 MAIA 在有一種情況下能與人類專家持平，也就是快棋賽——這時候人類沒有足夠的思考時間。因此，這可能表明神經網絡難以近似人類的規劃能力。

之後，Brown 團隊的一篇 ICML 2022 論文研究了在監督模型上添加規劃的效果。可以看到不管是圍棋還是國際象棋，搜索都大有助益。

也許很多人都認爲，要在某個數據集上最大限度地提高預測準確性，方法就是使用大量數據訓練一個超大模型，但這些研究卻給出了不一樣的見解：在適當的超參數下添加搜索能力，就可以極大提升預測準確度。如下圖所示。

用於外交的人工智能

接下來，Brown 介紹了他在 FAIR 時開發的一個用於外交遊戲 Diplomacy 的 AI 智能體 Cicero，這是首個在外交策略博弈任務上達到人類水平的 AI。參閱機器之心報道《爭取盟友、洞察人心，最新的Meta智能體是個談判高手》。

外交是一種非常複雜的自然語言策略博弈。Cicero 以匿名方式參與到了有許多人類玩家參與的遊戲中。它玩了 40 局都沒有被發現，並且平均每一局要收發 292 條消息。

一些參與遊戲的人類玩家在獲知 Cicero 是 AI 之後都發出了類似下圖的驚歎之語！

Cicero 的表現如下，在參與遊戲至少 5 局的玩家中，它取得了第 2 名的成績。在所有玩家中也名列前 10%。整體優於人類玩家的平均水平。

下面來看看 Cicero 的工作方式。它的輸入包括遊戲棋盤和對話歷史，其條件動作模型需要基於此預測所有玩家在當前回合會做什麼，然後將這些動作輸入到一個規劃引擎中。

Brown 表示規劃引擎是Cicero 的一大創新，現今的許多語言模型都還不具備這一點。

這個規劃引擎會迭代式地預測所有玩家的動作以及所有玩家可能預測的Cicero 的動作。

最終，這會得到一個輸出動作，還會得到一些意圖——用於調節對話模型。也就是說，在執行了規劃，搞清楚了我們應該在本回閤中採取哪些行動以及我們認爲其他玩家在本回閤中會採取哪些行動之後，將這些規劃輸入對話模型，使對話模型以此爲條件輸出消息。

Brown 也提到這個過程非常耗時，通常每一次都需要至少 10 秒才能生成一個消息（他們使用了幾十臺 GPU）。但這種時間成本是值得的，能大幅提升性能。

規劃爲何有效？

規劃爲什麼能帶來如此巨大的性能提升？Brown 提到了「生成器-驗證器差距」現象。簡單來說，在許多領域，生成一個好解決方案的難度通常大於驗證一個解決方案的難度。舉個例子，玩數獨遊戲肯定比驗證已經填入的數值更難。

但在另一些領域，情況卻並非如此。比如對於信息檢索任務，如果問不丹的首都是哪裡，模型可以一口氣生成幾十個候選項，但我們還要費一番功夫去驗證它。圖像生成也是如此：生成圖像很簡單，但要驗證生成的圖像是否滿足要求會更困難。

因此，當存在「生成器-驗證器差距」且具有比較好的驗證器時，我們可以將更多計算放在生成上，然後驗證結果。

在語言模型中使用規劃

之後，Noam Brown 開始討論語言模型。有趣的是他在此時強調：「我只能談論已發表的研究。」這似乎在暗示他參與了或至少知道一些未發表的相關研究——或許就是 OpenAI ο1 及未來模型用到的技術。

他認爲人們依然低估了這些技術所能帶來的增益。

有一種名爲 Consensus（共識）的算法是這樣執行驗證的：讓 LLM 生成多個解，然後選擇出現次數最多的那個。

方法很簡單，但僅憑此方法，Minerva 模型在 MATH 數據集上的表現就從 33.6% 提升到了 50.3%。這裡 Minerva 對每個問題採樣 1000 次。

但這種方法也有缺點，那就是隻適合答案只有數值等簡單結果的問題。對於證明題之類的任務，就沒辦法了，因爲這些任務很難每次都有一樣的結果，難以達成共識。

另一種方法是 Best of N。這需要用到一個獎勵模型來爲生成的 N 個答案打分，然後返回最佳結果。這種方法的表現依賴於獎勵模型的質量。如果獎勵模型質量不行，就可能出現在錯誤上過擬合的問題。

我們還可以做到更好。接下來Brown 介紹了那篇著名的論文《Let's Verify Step By Step》。機器之心也曾報道過這項研究，參閱《OpenAI要爲GPT-4解決數學問題了：獎勵模型指錯，解題水平達到新高度》。

這篇論文發佈於大概一年前，其中提出了「過程獎勵模型」這一思路。簡單來說，就是不再只是驗證最終解答，而是驗證每一步求解過程。只要過程中存在任何不正確的步驟，就判定最終結果是錯誤的，即便最終結果看起來是正確的。

這種方法的表現如何呢？如下圖所示，橙色線是過程獎勵模型的表現，可以看到，其顯著優於Best of N 和結果導向的獎勵模型，並且其優勢會隨着求解數量 N 的提升而提升。

Brown 舉了一個非常有趣的例子。讓LLM 解決這個數學問題：化簡 tan100° + 4sin100°。

原始 GPT-4 模型正確解答這個數學問題的可能性僅有千分之一，而逐步驗證法可將其提升一大截。

當今的 AI 圖景和未來方向

接着，Brown 話鋒一轉，分享了當今的 AI 圖景。請注意，由於這次演講發生於 2024 年 5 月 23 日，因此其中並沒有最新的模型。但他談到的發展趨勢依然很有價值。

他說，在他研究生階段研究撲克 AI 時，人們自認爲找到了實現超人級撲克 AI 的方法：使用已有的算法，每一年都提升其計算和數據規模即可，然後就能擊敗前一年的模型。

他認爲當今的 AI 領域也非常相似：有一種有效的技術，然後用更大的模型在更多的數據上訓練更長時間，讓其不斷變得更好。與此同時，推理成本依然很低。Brown 表示未來不一定還是如此。

（當然，我們知道 o1 的出現已經開始扭轉這一趨勢，讓人們更加註重研究推理時間的計算，即 inference-time compute 或 test-time compute）。

對於編程輔助和翻譯這樣的任務，我們可能並不願意等待很長時間，但對於另一些重要問題，我們甘心等待幾個小時乃至很多天，比如解決黎曼猜想或發現救命藥物，又或者生成一部優質的小說。

他介紹了自己的「下一個目標」：通用性。

他也給學術界的研究者提了一點建議：

最後，Brown 提到了 Richard Sutton 那篇著名的文章《苦澀的教訓》。

他引用了這兩句：「70 年的人工智能研究史告訴我們，利用計算能力的一般方法最終是最有效的方法。……搜索和學習似乎正是兩種以這種方式隨意擴展的方法。」

Noam Brown早已預示o1強大推理能力，演講深度解析AI推理研究脈絡

相關資訊