Nature重磅:擊敗人類數學家,AI首次攻破經典數學難題

人工智能(AI)大模型,擊敗了人類數學家。

今天,在 Nature 上發表的一篇論文中,Google DeepMind 的研究團隊介紹了一種搜索數學和計算機科學新解決方案的方法——FunSearch,它的工作原理是將預先訓練的大型語言模型(LLMs)與自動“評估器”配對,從而防止幻覺和錯誤想法。通過在這兩個組件之間來回迭代,最初的解決方案會演變成新的知識。

這項研究首次利用了 LLMs 在挑戰科學或數學中的開放問題。FunSearch 發現了上限集問題的新解決方案,而這是數學中一個長期存在的開放問題。此外,爲了展示 FunSearch 的實際用途,研究人員用它來發現更有效的算法來解決“裝箱”問題,該問題具有無處不在的應用,例如提高數據中心的效率。

科學進步始終依賴於分享新理解的能力。FunSearch 成爲特別強大的科學工具的原因在於,它輸出的程序揭示瞭如何構建其解決方案,而不僅僅是解決方案是什麼。論文作者表示,“希望這能夠激發使用 FunSearch 的科學家的進一步見解,推動改進和發現的良性循環。”

威斯康星大學麥迪遜分校的合作者和數學教授 Jordan Ellenberg 表示:“FunSearch 生成的解決方案在概念上比單純的數字列表要豐富得多。當我研究它們時,我學到了一些東西。”

發現最大上限集,解決“裝箱”問題

FunSearch 採用由 LLMs 支持的進化方法,促進和開發得分最高的創意。這些想法被表達爲計算機程序,以便它們可以自動運行和評估。

首先,用戶以代碼的形式編寫問題的描述,該描述包括評估程序的過程和用於初始化程序池的種子程序。

FunSearch 是一個迭代過程。在每次迭代中,系統都會從當前的程序池中選擇一些程序,並將其反饋到 LLMs。隨後,LLMs 創造性地在此基礎上構建,並生成新的程序,並自動評估。最好的程序將被添加回現有程序庫中,從而創建一個自我改進的循環。

FunSearch 使用了 Google 的 PaLM 2,但它與其他受過代碼訓練的 LLMs 兼容。

圖|FunSearch 過程

研究重點關注了上限集問題,這是一項公開挑戰,數十年來一直困擾着多個研究領域的數學家,著名數學家陶哲軒曾將其描述爲他最喜歡的開放問題。

該問題包括在高維網格中找到最大的點集(稱爲上限集),其中沒有三個點躺在一條線上。這個問題很重要,因爲它可以作爲極值組合學中其他問題的模型,研究數字、圖形或其他對象的集合可以有多大或有多小。解決這個問題的強力計算方法不起作用,需要考慮的可能性數量很快就變得比宇宙中的原子數量還要多。

圖|交互式圖表顯示了從種子程序(上)到新的高分函數(下)的演變,每個圓圈都是一個程序,其大小與分配給它的分數成正比。

然而,FunSearch 以程序的形式在某些設置中發現了迄今爲止發現的最大上限集,這是過去 20 年來上限規模最大增幅。此外,FunSearch 的性能還優於最先進的計算求解器。

此外,研究人員還將 FunSearch 應用於計算機科學中的實際挑戰來探索 FunSearch 的靈活性。“裝箱”問題着眼於如何將不同尺寸的物品裝入最少數量的箱子中,這是許多現實世界問題的核心。

在線裝箱問題通常使用基於人類經驗的算法經驗法則(啓發式方法)來解決,但針對不同規模、時間或容量的具體方案可能難以提出。爲此,FunSearch 提供了一個自動定製的程序(適應數據的具體情況),使用更少的箱子來包裝相同數量的物品,性能優於既定的啓發式方法。

這只是一個開始

在不同領域發現新的數學知識和算法是一項衆所周知的艱鉅任務,很大程度上超出了最先進的 AI 系統的能力。爲了使用 FunSearch 解決此類具有挑戰性的問題,該研究引入了多個關鍵組件。

值得一提的是,FunSearch 並不是一個僅僅生成問題解決方案的黑匣子。相反,它會生成程序來描述如何得出這些解決方案,而這種展示工作方法是科學家通常的運作方式。

FunSearch 傾向於尋找以高度緊湊的程序爲代表的解決方案,具有低柯爾莫哥洛夫複雜度(low Kolmogorov complexity)的解決方案。短程序(Short programs)可以描述非常大的對象,使 FunSearch 能夠擴展到大海撈針的大型問題。此外,FunSearch 的這種特點也使得其程序輸出更容易讓研究人員理解。

更重要的是,FunSearch 程序的這種可解釋性可以爲研究人員提供可行的見解。例如,當使用 FunSearch 時,它的一些高分輸出的代碼中存在有趣的對稱性。

圖|檢查 FunSearch 生成的代碼產生了進一步的可操作的見解(左);使用左側(更短的)程序構建的原始“可接受”集(右)。

上限集問題的研究結果表明,FunSearch 技術可以超越困難組合問題的既定結果,而在這些問題上很難建立直覺。研究人員期望這種方法能夠在組合學中類似理論問題的新發現中發揮作用,並在通信理論等領域開闢新的可能性。

另外,在線裝箱等硬組合問題可以使用其他 AI 方法來解決,例如神經網絡和強化學習。事實證明,FunSearch 的方法也有效,但也可能需要大量資源來部署。另一方面, 該方法輸出的代碼可以輕鬆檢查和部署,這意味着其解決方案有可能被植入到各種現實世界的工業系統中,以帶來快速的效益。

FunSearch 表明,如果能夠防範 LLMs 的幻覺,這些模型的力量不僅可以用來產生新的數學發現,還可以揭示對重要現實世界問題的潛在有效解決方案。

研究團隊預計,對於科學和工業中的許多問題(無論是長期存在的還是新的),使用 LLMs 驅動的方法生成有效且定製的算法將成爲普遍做法。

事實上,這只是一個開始。研究人員表示:“我們還將努力擴大其能力,以解決社會各種緊迫的科學和工程挑戰。”