單靠推理Scaling Law無法成就o1!無限推理token,GPT-4o依然完敗

新智元報道

編輯:編輯部 HXY

【新智元導讀】o1的秘訣,和全新的「推理Scaling Law」關係有多大?Epoch AI最近的對比實驗表明,算法創新纔是關鍵。

CoT鑄就了o1推理王者。

它開創了一種推理scaling新範式——隨着算力增加、更長響應時間,o1性能也隨之增長。

這一點,爲AI scaling開闢了新的可能性。

既然如此,若是將o1這一訓練過程直接應用到所有LLM中,豈不皆是「推理王者」。

然而,研究機構Epoch AI發現,結果並不是這樣的。

他們稱,「雖然o1使用了逐步推理方法訓練,但其性能改進,可能還存在其他的因素」。

o1的秘訣是什麼?

上週,在o1-preview和o1-mini發佈之後,Epoch AI研究人員開啓了GPT-4o和o1-preview對比實驗。

他們選擇了一個具有挑戰性的基準測試GPQA進行評估,其中包含STEM領域研究生級別的多項選擇題,而且考慮到模型的隨機性進行了多次運行。

結果發現o1-preview的性能遠遠好於GPT-4o,比Claude 3.5 Sonnet、Llama3.1 405B也拉開了相當大的差距。

這個結果也和OpenAI自己放出的測試結果相吻合,尤其是在AIME和Codeforces這類難度更高的基準上,o1-preview相比GPT-4o的提升更加明顯。

然而,考慮到o1模型相比GPT-4o使用了更多的推理時計算,而且每個問題生成的token也更多,這種比較顯得不太公平。

因此,研究人員使用了兩種方法嘗試增加GPT-4o的輸出token,類似於讓GPT-4o模仿o1的思考過程。

- 多數投票(majority voting):選擇k個推理軌跡中最常見的答案

- 修正(revision):給模型n次反思和改進答案的機會

值得注意的是,這些都是相對簡單的方法。其實存在更復雜、有效的方法來利用推理時間計算,比如讓過程獎勵模型作爲驗證器參與搜索。

o1模型很可能使用了更復雜的方法,但Epoch研究人員只是想建立一個比較基線,因此選擇了較爲基礎的方法。

結果顯示,雖然這兩種方法都生成了更多的token,並提高了GPT-4o的準確性,但依舊無法匹敵o1-preview的性能。

GPT-4o變體的準確率仍然顯著低於o1-preview,差距始終大於10個百分點。

與o1-preview相比,輸出token數量對GPT-4o在GPQA上性能的影響

即使考慮到o1-preview每個輸出token的成本更高,這種性能差距仍然存在。

Epoch AI團隊的推算結果表明,即使在GPT-4o上花費1000美元用於輸出token,準確率仍將比o1-preview低10多個百分點。

對GPT-4o mini進行相同操作後也能得到類似的結果,但在進行模型修正後,結果存在一些差異。

隨着修正次數的增加,模型準確性不會持續提升,反而會在到達一定閾值後開始下降。這可能是由於GPT-4o mini在長上下文推理方面的侷限。

從以上結果可以看出,僅僅擴大推理處理能力並不足以解釋o1的卓越性能。

研究作者認爲,先進的強化學習技術和改進的搜索方法可能發揮了關鍵作用,凸顯了在Scaling Law之外,算法創新對AI發展的重要性。

但是,我們也並不能確定算法改進是o1-preview優於GPT-4o的唯一因素,更高質量的訓練數據也可能導致性能差異。

推理很強的o1,差在規劃能力

雖然GPQA或AIME這類問題相當困難,但一般只會考察模型的在STEM領域的知識儲備和推理能力。那麼強如o1,它的規劃能力如何?

2022年,亞利桑那州大學的學者們曾經提出過一個用於評測LLM規劃能力的基準套件PlanBench,包括了來自Blocksworld領域的600個任務,要求將一定數量的積木按照指定順序堆疊起來。

在MMLU、GSM8K等傳統基準相繼飽和時,兩年前提出的PlanBench依舊沒有飽和,可見當今的LLM在規劃能力方面依舊有很大的提升空間。

o1之前的模型中,PlanBench準確率很少超過50%

最近,提出PlanBench團隊又測試了一下最新的o1-preview模型,發現雖然o1的結果已經表現出了實質性改進,但仍然存在很大的侷限性,不能完全解決規劃任務。

論文地址:https://arxiv.org/abs/2409.13373

在Blocksworld任務上,o1實現了97.8%的準確率,遠遠優於LLaMA 3.1 405B之前達到的最好成績62.6%。

在更具挑戰性的任務版本Mystery Blocksworld上,之前的LLM幾乎完全失敗,而o1達到了52.8%的準確率。

此外,爲了排除o1的性能提升源於訓練數據中包含基準測試,研究人員還創建了Mystery Blocksworld的隨機變體進行測試(表2中的Randomized Mystery Blocksworld)。

o1在隨機變體測試集上的成績從52.8%下降至37.3%,但依舊超過得分接近於0的之前其他模型。

雖然o1和o1-mini都取得了不錯的成績,但性能並不穩健。隨着任務逐漸複雜、計劃步驟增加,性能會出現直線下降。

在這組含有110個實例的較大Blocksworld數據集上,每個問題都需要20~40個步驟的最佳計劃,而o1的準確率從之前報告的97.8%直接下降至23.6%,而且這些準確率大部分都來自步驟少於28的問題。

相比準確性更高、成本更低的傳統方法,如經典規劃器Fast Downward或LLM-Modulo系統,o1這樣的大型推理模型(LRM)非常缺乏正確性保證,而且使得可解釋性幾乎不可能,因此很難在實際應用中部署。

o1雖強,但絕不是萬能的。OpenAI想要真正實現AGI,還需要走很長一段路。

參考資料:

https://the-decoder.com/openais-o1-probably-does-more-than-just-elaborate-step-by-step-prompting/

https://x.com/EpochAIResearch/status/1838720157545648315

https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/