Anthropic挖走DeepMind強化學習大牛、AlphaGo核心作者
今天的 AI 社區,再次被一則大佬轉會消息吸引了目光。
在谷歌工作十年後,大名鼎鼎的谷歌 DeepMind Alpha 系列核心作者 Julian Schrittwieser,宣佈加入 Anthropic。
我很高興地宣佈,將從本週起加入 Anthropic!Claude 是我發現自己一直在使用的第一個 LLM。最近,我被《Artifacts》和《Computer Use》以及 Claude 不斷提高的技能深深震撼了。
我非常幸運地參與了谷歌 DeepMind 過去 10 年的奇妙旅程,在那裡我參與了很多令人興奮的項目,這是我做夢都想不到的:從 AlphaGo 到 AlphaZero 和 MuZero 的傳奇;還有很多的應用研究,如 AlphaCode 和 AlphaTensor,以及最近的 Gemini 和 AlphaProof。我相信,那裡的團隊也將繼續創造驚人的成就,我迫不及待地想一探究竟!
Julian Schrittwieser 的跳槽,可以說是近期領域內最爲驚人的一則消息,因爲 Julian Schrittwieser 在 DeepMind 內部的地位非同尋常。更令人好奇的是,Anthropic 是如何招攬到這樣一位頂尖人才:
不管過程如何,這一定是 Anthropic 最「超值」的一次招聘:
在 DeepMind 誕生以來的數年中,「Alpha 系列成果」一直是該團隊最閃耀的前沿成果。而 Julian Schrittwieser 是這些偉大成就中不可忽視的貢獻者。
2016 年,DeepMind 開發的 AlphaGo 以 4:1 擊敗世界頂級圍棋棋手李世石(Lee Se-dol),成爲轟動全球的人工智能里程碑事件。Julian Schrittwieser 參與撰寫了第一篇關於 AlphaGo 的里程碑式論文。
2017 年,在 AlphaGo 與柯潔的比賽之後,DeepMind 宣佈退役 AlphaGo,自學成才的 AlphaGo Zero 以 100:0 擊敗了早期的競技版 AlphaGo,Julian Schrittwieser 是 AlphaGo Zero 論文的第二作者,也負責了從主搜索算法、訓練框架到對新硬件的支持等工作。
而 AlphaGo Zero 隨後被拓展爲一個名爲 AlphaZero 的程序。2017 年底,DeepMind 正式發表了 AlphaZero,這是一種可以從零開始通過 Self-Play 強化學習在多種任務上達到超越人類水平的算法。該算法經過不到 24 小時的訓練後,即可在國際象棋和日本將棋上擊敗此前業內頂尖的計算機程序(這些程序早已超越人類世界冠軍水平),也輕鬆擊敗了訓練 3 天時間的 AlphaGo Zero。
2020 年,DeepMind 發表了 MuZero。在不具備任何底層動態知識的情況下,該算法通過結合基於樹的搜索和學得模型,不僅在國際象棋、日本將棋和圍棋的精確規劃任務中匹敵 AlphaZero,還在 30 多款雅達利遊戲中展示出了超越人類的表現。Julian Schrittwieser 是 MuZero 論文《Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model》的核心作者之一。
2022 年 2 月,DeepMind 發佈了基於 Transformer 模型的 AlphaCode,可以編寫與人類相媲美的計算機程序。包括 Julian Schrittwieser 在內的多位作者後續又在《Science》上發表了論文。
2022 年 10 月,DeepMind 提出了 AlphaTensor,第一個可用於爲矩陣乘法等基本任務發現新穎、高效且可證明正確的算法的人工智能系統,並揭示了 50 年來在數學領域一個懸而未決的問題,即找到兩個矩陣相乘最快方法。AlphaTensor 建立在 AlphaZero 的基礎上,展示了 AlphaZero 從用於遊戲到首次用於解決未解決的數學問題的一次轉變。
2023 年 6 月,谷歌 DeepMind 發佈了 AlphaDev,這種全新的強化學習系統發現了一種比以往更快的哈希算法。Julian Schrittwieser 也是 AlphaDev 項目的核心參與者之一。
2024 年 7 月,谷歌 DeepMind 團隊研發的 AlphaProof 和 AlphaGeometry 2 在 IMO 競賽上共同實現了里程碑式的突破。AlphaProof 是一種用於形式化數學推理的強化學習系統,而 AlphaGeometry 2 是 DeepMind 幾何求解系統 AlphaGeometry 的改進版本。正式比賽中,AlphaProof+AlphaGeometry 2 組合成的 AI 系統在幾分鐘內就解決了人類參賽選手需要幾個小時才能解決的問題。
8 年前,基於強化學習的 AlphaGo 聲名大噪;8 年後,強化學習在 AlphaProof 中再次大放異彩。2016 年 AlphaGo 論文的核心成員 Julian Schrittwieser、Aja Huang、Yannick Schroecker,如今也是 AlphaProof 的核心貢獻者。有人在朋友圈感嘆說:RL is so back!
業內普遍認爲,OpenAI o1 運用的技術關鍵也在於強化學習的搜索與學習機制,這標誌着 RL 下 Post-Training Scaling Law 的時代正式到來。正如《The Bitter Lesson》所說,只有搜索和學習這兩種學習範式能夠隨着計算能力的增長無限擴展。強化學習作爲這兩種學習範式的載體,如何能夠在實現可擴展的 RL 學習(Scalable RL Learning)和強化學習擴展法則(RL Scaling Law),將成爲進一步突破大模型性能上限的關鍵途徑。
這或許就是 Calude 團隊招攬 Julian Schrittwieser 的出發點。o1 研發團隊在採訪中也談到過,OpenAI 很早就受到 AlphaGo 的啓發,意識到了深度強化學習的巨大潛力,並在相關方向投入了大量研究力量。
作爲 RL 領域的深耕者,Julian Schrittwieser 又會帶領 Claude 團隊做出怎樣的成果呢?讓我們拭目以待。
參考鏈接:https://www.furidamu.org/blog/2024/10/28/joining-anthropic/