AI超越人類智慧的里程碑:過程監督的數學奇蹟

OpenAI已經訓練了一個模型,通過獎勵推理的每個正確步驟(“過程監督”)而不是簡單地獎勵正確的最終答案(“結果監督”),來實現數學問題解決的新水平。除了提高相對於結果監督的性能外,過程監督還有一個重要的對齊優勢:它直接訓練模型以產生由人類認可的思維鏈

介紹

近年來,大型語言模型在進行復雜的多步推理方面的能力大大提高。然而,即使是最先進的模型仍然會產生邏輯錯誤,通常被稱爲幻覺。減輕幻覺是構建對齊通用人工智能(AGI)的關鍵步驟。

我們可以使用獎勵模型來訓練以偵測幻覺,其中可以採用兩種方法進行監督:一種是基於結果的監督,根據最終結果提供反饋;另一種是基於過程的監督,針對推理鏈中的每個單獨步驟提供反饋。在前人的研究基礎上,我們使用MATH數據集作爲測試平臺,對這兩種方法進行了詳細比較。我們發現,即使根據結果判斷,基於過程的監督也能顯著提高性能。爲了促進相關研究,OpenAI發佈了完整的基於過程監督的數據集。

可以去這個網址下載https://github.com/openai/prm800k

對齊影響

相較於基於結果的監督,基於過程的監督在對齊方面具有幾個優勢。它直接獎勵模型按照對齊的推理鏈進行操作,因爲每個過程步驟都接受到精確的監督。基於過程的監督更有可能產生可解釋的推理結果,因爲它鼓勵模型遵循經過人類批准的過程。相反,基於結果的監督可能會獎勵不對齊的過程,並且通常更難進行審查。

在某些情況下,更安全的人工智能系統方法可能會導致性能下降,這種成本稱爲對齊稅。一般來說,由於部署最有能力的模型的壓力,任何對齊稅都可能阻礙對齊方法的採用。我們下面的結果表明,過程監督實際上會產生負對齊稅,至少在數學領域是這樣。這可以增加過程監督的採用,我們認爲這將產生積極的對齊副作用。

解決數學問題

我們使用 MATH 測試集中的問題評估我們的過程監督和結果監督獎勵模型。我們爲每個問題生成許多解決方案,然後選擇每個獎勵模型排名最高的解決方案。該圖顯示了達到正確最終答案的所選解決方案的百分比,作爲所考慮解決方案數量的函數。過程監督的獎勵模型不僅在各個方面表現更好,而且隨着我們爲每個問題考慮更多解決方案,績效差距也會擴大。這向我們表明,過程監督的獎勵模型更加可靠。

舉個例子

Model attempt

這個具有挑戰性的三角函數問題需要按照一系列並不明顯的步驟應用多個恆等式。大多數模型解題嘗試失敗,因爲很難確定哪些恆等式實際上是有幫助的。最先進的GPT-4無法解決這個問題(只有1%至0.1%的解題嘗試達到正確答案),但獎勵模型正確地識別出了這個解決方案的有效性。

以下是基於過程的人工智能模型解決三角函數問題過程

這裡https://openai.com/research/improving-mathematical-reasoning-with-process-supervision#samples展示了10個問題和解決方案,以及有關獎勵模型的優勢和劣勢的評論。

結論

目前尚不清楚這些結果在數學領域之外是否具有廣泛適用性,OpenAI認爲未來的研究探索基於過程監督在其他領域的影響非常重要。如果這些結果可以推廣,我們可能會發現基於過程的監督爲我們提供了最佳的解決方案,既能夠提高性能,又能夠更好地實現對齊,相比基於結果的監督而言。如果說通用人工智能是一場軍備競賽,OpenAI表現出的實力讓人驚歎不已,我們真的離通用人工智能越來越近了!

更加詳細的研究論文在這裡,感興趣的可以去下載https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf