o1金牌團隊揭秘AI超越人類驚人時刻!22分完整版視頻全公開

新智元報道

編輯:桃子 喬楊

【新智元導讀】o1誕生,對於OpenAI團隊來說,是最具革命性的時刻。在22分鐘完整版採訪視頻中,他們分享了自己對新模型的思考,以及背後的開發故事。

OpenAI o1團隊採訪的完整版視頻,終於上線了!

全程22分鐘,o1研發團隊在項目Bob McGrew組織下,一起分享了「啊哈」時刻。

有的人提到,全新o1模型相當於多個博士「合體」而成,往往比人類表現更好。還有的人稱,o1發佈之後,明顯感受到了AGI到來。

「當模型在數學、編碼、圍棋、國際象棋等領域的表現超過人類時,AGI的未來變得更加明朗」。

來自艾倫研究所的科學家Nathan Lambert對這個視頻,做了一個精彩亮點的總結。

一共有8點:

1 強化學習加持的o1,比人類更善於發現新的CoT推理步驟

2 自我批評的涌現,是o1最強有力的時刻

3 讓o1「超時」前完成回答,然後突然有了「啊哈」時刻

4 scaling參數規模的挑戰,以及繼續沿着強化學習算法進步之路

5 許多人提到,相對於算法而言,基礎設施顯得多麼重要

6 通過規劃、糾錯,o1能夠解決世界上的新問題

7 新的訓練範式是一種全新的方法,可以將更多的算力投入到模型中

8 o1編寫代碼時,當其輸出要使用的代碼時,需要通過單元測試

接下來,具體來看下o1模型背後的故事。

強化學習+思考,o1開啓新範式

o1作爲OpenAI全新系列,與GPT模型最大不同,就在於推理。

它本質上,是一個推理模型,也就是會比以往「思考」得更多。

在OpenAI研究人員看來,「思考」就是推理的一種最直觀的方式。

有時候,當被問及意大利首都是什麼問題時,我們幾乎不用思考,即刻就能得出答案。但有時候,涉及商業企劃書、寫小說等人物時,便需要長時間的思考過程。

毋庸置疑,思考時間越久,結果就越好。

因此,推理是將思考時間,轉化爲最優結果的能力。

用Mark Chen的話來說,推理是一種「原語」,是實現任何可靠思考過程的必經之路。

關於推理的研究,OpenAI內部其實很早就開始了。成立初期,他們看到了AlphaGo通過RL算法戰勝人類的潛力,並進行了大量的研究。

比如,他們曾在2016年開放遊戲測試平臺「Universe」,是一個訓練AI通用智能水平的開源平臺。

2018年打造出名爲OpenAI Five的遊戲AI,成功擊敗了兩屆DOTA2國際邀請賽的世界冠軍OG戰隊。

與此同時,數據和機器人領域,取得了重大的scaling進展。

OpenAI團隊便開始思考:如何在通用領域做到強化學習,實現一個非常有力的AI?

那便是,GPT系列開啓的全新範式。它在擴展無監督學習方面,取得了驚人的成果。

而且,也就是從那時起,研究人員便開始探索,如何將這兩種範式相結合——強化學習和無監督學習。

研究人員稱,這項努力開始的確切時間點,很難說,但這件事已經進行了很長時間。

「啊哈」時刻

在視頻中,有人表示,自己覺得研究中最酷的就是那個「啊哈」時刻了。

在某個特定的時間點,研究發生了意想不到的突破,一切忽然就變得很明瞭,彷彿頓悟一般靈光乍現。

所以,團隊成員們分別經歷了怎樣的「啊哈」時刻呢?

有人說,他感覺到在訓練模型的過程中,有一個關鍵的時刻,就是當他們投入了比以前更多的算力,首次生成了非常連貫的CoT。

就在這一刻,所有人都驚喜交加:很明顯,這個模型跟以前的有着明顯的區別。

還有人表示,當考慮到訓練一個具備推理能力的模型時,首先會想到的,是讓人類記錄其思維過程,據此進行訓練。

對他來說,啊哈時刻就是當他發現通過強化學習訓練模型生成、優化CoT,效果甚至比人類寫的CoT還好的那一刻。

這一時刻表明,我們可以通過這種方式擴展和探索模型的推理能力。

這一位研究者說,自己一直在努力提升模型解決數學問題的能力。

讓他很沮喪的是,每次生成結果後,模型似乎從不質疑自己做錯了什麼。

然而,當訓練其中一個早期的o1模型時,他們驚奇地發現,模型在數學測試中的得分忽然有了顯著提升。

而且,研究者們可以看到模型的研究過程了——它開始自我反思、質疑自己。

他驚歎道:我們終於做出了不一樣的東西!

這種感受極其強烈,那一瞬間,彷彿所有東西都匯聚到了一起。

還有一位研究人員表示,當你要求模型在「超時」前,完成思考,過程非常有趣。

這就像自己在參加數學競賽一樣,任何思考都是有時限的。

他表示,這也是自己進入AI領域主要原因,而現在,對於自己來說,也算是實現了「閉環」時刻。

另外,o1模型讓人驚豔的是,在推動科學發現和工程進步,有巨大的幫助。

對於很多人而言,AGI似乎是一個很抽象、很遙不可及的概念,直到親眼看見AI在人類擅長的事情上做得更好,才能相信AGI的到來。

對專業的國際象棋和圍棋手而言,IBM的Deep Blue,以及DeepMind AlphaGo和AlphaZero,讓他們早在幾年前就意識到了這一點。

而對OpenAI的這羣擅長數學和編碼的科學家,o1模型就有類似的意義。更有趣的是,他們的工作相當於是親手製造了一個可以碾壓自己能力的AI。

項目中,遇到哪些困難?

關於過程中遇到的障礙,研究人員們直接表示,訓練LLM從根本上來講就是一件非常困難的事情。

類似於從地球發射一枚飛往月球的火箭,成功的路只有很窄的一條,但有數不清的失敗之路,稍微偏離一個角度就無法到達目標。

訓練過程出問題的方式可以有上千種,即使在這羣才華橫溢的研究科學家們手中,每輪訓練也會遇到數百個問題。

此外,隨着模型變得越來越智能,比如像o1一樣相當於手握幾個phd學位的人類,評估也變得越發困難。

有時,他們需要花很長的時間來確定模型做的事情是否正確,而且最後很多常用的行業基準也趨於飽和,需要重新找到適合o1能力的基準測試。

除了模型的開發歷程,研究人員們還被問到了自己最喜歡的o1模型用例。

Hyung Won Chung表示,o1可以成爲很好的編碼助手。

他自己在工作時通常遵循TDD(Test-Driven Development)的開發方式,有了o1的幫助可以免去自己編寫單元測試的工作,而是直接指定需求,讓模型自動編寫。

此外,遇到的報錯信息也可以直接扔給o1,雖然有時不能直接解決問題,但它可以比編譯器提出一個更好的問題,幫助你解決錯誤。

Jason Wei則表示,自己經常把o1當成頭腦風暴的夥伴,而且可以討論的問題範圍相當之廣,大到如何解決一個機器學習問題,小到如何起草一篇博客或推文。

他今年5月撰寫的一篇關於LLM評估的博客,就借鑑了o1的意見,比如文章的結構、各種評估基準的優缺點以及行文風格等等方面。

在OpenAI工作是一種什麼樣的體驗?

關於這個問題,很多人都談到了大家的聰明才智,以及團隊氛圍的融洽。

比如自己吭哧吭哧調試了一週的代碼,被路過的同事瞬間解決了;每天和極其聰明的同事共處,讓自己逐漸變得謙卑。

Mark Chen形容「草莓」項目是一個非常「有機」(organic)的項目,因爲在專業問題上大家都有自己的看法和主見,都有滿懷熱情想要推動的想法。

當這些想法聚集在一起,就會迸發出火花,像滾雪球一樣越滾越大。

然而,有主見的另一面,就是所有人都很堅持自己的看法,但並不固執。如果看到反駁自己主張的客觀結果,他們也會隨之改變想法。

更值得讚歎的是,這羣絕頂聰明的人,同時也很nice,樂於幫助別人解決問題,同事之間一起吃飯、一起出去玩,讓採訪中的很多研究者都直言,「在這裡工作是非常好的經歷」。

o1-mini背後的故事

o1-mini發佈的動機是,爲更多研究人員提供預算較低,但推理能力依舊很強的模型。

它可以稱得上是「推理專家」,比以往OpenAI最佳模型還要聰明。

而且,成本和延遲都非常低。

或許,它可能不一定知道一位名人,以其出生日期,但確具備瞭如何進行有效推理,和大量智慧的能力。

OpenAI研究人員表示,將進一步改進算法,使之能夠媲美最好的小模型。

除此之外,全世界的研究人員一直以來,都在投入更多的計算和硬件,使得模型成本在很長一段時間內,呈指數級下降。

然而,一個缺陷是,我們沒有去花費更多時間,尋找一種新的方法扭轉局面。

o1新範式,便是我們的發現——推理scaling,也能很好優化算力效率。

做研究的動力是什麼?

這批「智慧大腦」能夠聚在一起,究竟是什麼原因,激勵着他們去做研究?

一位研究人員稱,一想到自己通過不同方式,讓模型實現推理,這個過程簡直太迷人了。

還有人表示,「好事多磨」。

o1能夠回答如此神速,這是朝着能夠長時間思考問題的模型,邁出的第一步。未來,還將需要進行數月、甚至數年的研究,讓其邁向下一個征程。

「一想到我們少數人能夠產生改變世界的影響,就非常興奮,有意義」。

最抓人的一點是,新範式解鎖了模型以前無法完成的任務,這不僅僅是回答某些查詢,而實際上已經通過規劃、糾正錯誤,泛化出新的能力。

甚至,o1能夠產生新的知識,對於科學發現來說,這是最令人興奮的部分。

研究者表示,在短時間內,模型將成爲自身發展,越來越強大的貢獻者。

最後,當o1負責人問道,「還有什麼其他觀察值得一提嗎」?

Jason Wei分享道,「一個有趣的觀察是,每個訓練出來的模型都略有不同,有自己的怪癖,就像一件手工藝品。這種獨特性爲每個模型增添了一絲個性之處」。

完整版視頻如下:

參考資料:

https://x.com/OpenAI/status/1837194684428345474