大模型開始學習像人類般思考,通往AGI到哪一步了?

2個月前,大模型數學能力弱的問題廣泛引起關注,市面上多款大模型甚至無法做對“9.11和9.9哪個大”的簡單數學題。2個月後,業內正在逐步解決大模型數學能力限制的問題。

北京時間9月13日凌晨,OpenAI在沒有預告的情況下發布了一個新的推理(reasoning)模型系列,包括o1-preview、o1和o1-mini三個型號。這便是OpenAI傳聞已久的具有高級推理能力的“草莓項目”。據OpenAI介紹,新系列模型在數據和編碼方面表現出色,在國際數學奧林匹克競賽(IMO)的資格考試中得分83%。

嘗試突破數學能力限制的不只OpenAI。谷歌DeepMind團隊此前也推出了Al系統AlphaProof,用於解決複雜的數學問題。

突破數學能力極限是AI技術演進、通往AGI(通用人工智能)路上的新一步。在考文垂大學教授、英偉達人工智能技術中心全球主管Simon See(西蒙·西)看來,業界在提升AI數學能力背後,包括了將LLM(大語言模型)結合其他更多技術的努力,結合不同技術的努力產生了一種通往AGI(通用人工智能)的潛在動力。

如何解決數學能力限制?

“對複雜的推理任務而言,這是一個重大進步,代表人工智能能力的一個新水平。”OpenAI在介紹o1系列模型時寫到。OpenAI CEO Sam Altman(薩姆·奧爾特曼)也在社交平臺上表示,該新模型是一個新範式的開始,即AI能夠進行通用複雜推理。

數學能力增強是該系列模型的一個重要特點。OpenAI介紹,新系列模型更新後的性能類似於博士生在物理、化學、生物學中完成具挑戰性的基準任務,在國際數學奧林匹克競賽(IMO)的資格考試中,GPT-4o僅正確解決了13%的問題,而該新模型得分爲83%。

就新模型如何實現更好的數學、編程能力,OpenAI介紹,公司用大規模強化學習算法“教會”模型在數據高效訓練時用思維鏈進行高效思考,類似於人類在回答困難問題之前思考很長時間,隨着強化學習增加和思考時間增加,o1性能不斷提高。OpenAI研究人員Noam Brown稱,o1爲大模型縮放(scaling)開闢了新維度,讓大模型不再受預訓練的瓶頸限制,現在也可以擴展推理計算。而就推理能力增強後的作用,OpenAI則表示,可用於醫療保健領域註釋細胞測序數據、物理研究領域生成複雜數學公式等。

谷歌DeepMind則是通過結合LLM之外的其他技術來增強AI系統的最終表現。AlphaProof也基於強化學習,是用於數學推理的系統。該系統訓練自身用以證明Lean編程語言(一種用於幫助驗證定理的編程語言),且結合了訓練語言模型與AlphaZero強化學習算法。據谷歌介紹,Lean使該系統在涉及數學推理證明時可以驗證正確性。遇到問題時,AlphaProof會生成候選解決方案,再通過在Lean中搜索可能的證明步驟來進行證明或反駁。

不論技術原理是否有相同點,AlphaProof和OpenAI o1相比以往的模型,都趨於進行深度思考,而不僅依賴於LLM預測並迅速生成下一token(詞元)的能力。

如何通往AGI?

此前有大模型研發人員告訴記者,大模型數學能力弱的一個原因是沒有用到大量高質量的數學數據訓練模型,隨着數據質量提升,數學能力弱的問題可以解決。不過,除了訓練數據的原因,業內分析LLM數學能力差也是因爲通過預測下一token的方式並不真正智能。從近期動態看,包括OpenAI和谷歌DeepMind在內,業界正從AI系統運行機制上解決數學和推理能力差的問題,實際上是在通過各種技術彌補LLM運行方式的不足,在某種程度上讓LLM的思考方式變得更像人類。

就LLM的能力侷限、如何解決諸如數學能力等問題、如何從現有的LLM邁向AGI,業內仍在探討問題根源和解決方案,多名業內資深人士近日在沙特數據和人工智能管理局主辦的GAIN SUMMIT世界人工智能峰會上進行了探討。峰會上,Simon See表示,現在的人工智能是“狹隘”的,很多人認爲LLM會成爲實現AGI的動力,但人們其實沒真正理解它是如何工作,現在仍處於開發LLM的邊緣。現在還有很多問題需要解決,例如不能建立越來越大的模型,因爲無法提供無限的能源。

“我們現在就是有大量數據,將模型訓練得足夠大,就涌現出了能力。在我看來,依靠單一技術不可行,現在業內正在努力的方向包括讓LLM結合其他知識和技術如新的符號、微積分等來進行理解和推理。”Simon See表示,不同技術的結合近期取得巨大進步,DeepMind的AlphaProof便結合了Lean編程語言、語言模型等,使AI能用於數學證明。讓LLM結合各種技術,使AI系統擁有通往AGI的潛在動力。

Alpha Intelligence Captal聯合創始人兼管理合夥人Antoine Blondeau(安東尼·布朗多)也認爲,機器最終比人類更出色已成定局,但達成這個結果需要一定時間,還有大量科學工作要做。他判斷,AI將不會是一個單一模型,可能是多種模型的結合,機器最終將要學會像人一樣會觀察、證明或反駁、概括,在現實世界中學習。

就目前LLM的機制和侷限,Antoine Blondeau認爲,人類從生活中學習,其中95%是從“帶聲音的視頻”中學習,我們生活的本質基本就是“打開視頻”,另外5%是來自文本例如書籍。人類會從視頻中學習到語義,例如出現5根手指的時候,意味着可能是人類或其他動物,人類還會從視頻中理解時間的順序和事件因果。但機器從視頻中學習的時候,它的任務則是預測下一個像素,這不是人類的方式。如果我們無法讓機器像人類這般如此學習,機器就很難達到更高的智能水平。

機器學習知名科學家、大模型初創公司Boson AI創始人兼CEO Alex Smola(亞歷克斯·斯莫拉)點出LLM運行方式的侷限也與token預測有關。他表示,LLM可預測下一個token(詞元)的能力已被用於理解圖像、聲音、製作聲音,在過去12個月,所有東西似乎都變成了token。

“某種程度上我們已經開始耗盡可用的token數量。粗略估算,或許已有100萬億tokens,這可能是人類所能用於建造LLM的tokens。現在還有很多視頻、音頻供給,某種程度上這將發揮作用,這還依靠英偉達或其他公司生產能處理這些模態的芯片。”Alex Smola表示,在可見的未來,LLM核心可能是序列建模(sequence modeling),現在能看到數據、硬件的收斂,概率模型也朝着相似的結構演進,可以看看相關探索接下來幾年能走多遠。

結合技術進展並展望未來,Antoine Blondeau認爲實現AGI可能是在10年或20年內,現在演進的速度很快。Simon See認爲要達到AGI,或許能在這10年內實現這一進程的80%,但他判斷最後的20%將非常具有挑戰性且需要更長時間。