OpenAI o1非GPT-4o直接進化,在成本與性能上妥協
9月14日消息,OpenAI已經推出了新模型OpenAI o1的兩大變體——o1-preview與o1-mini,這兩款模型都有許多值得深入探討的內容。人工智能專家西蒙·威利森(Simon Willison)專門發文,深入剖析了這些新模型背後的設計理念與實現細節,揭示了它們在技術上的獨特優勢與不足。威利森表示,o1並不是簡單的GPT-4o直接升級版,而是在強化“推理”能力的同時,做出了成本與性能上的權衡。
1. 訓練思維鏈
OpenAI的聲明是一個很好的起點:“我們研發了一系列新型人工智能模型,旨在讓它們在做出響應前花更多時間思考。”
這些新模型可以視爲思維鏈提示策略的深化拓展——“分步思維”策略的具體實踐。實際上,人工智能社區在這個領域已探索了數年,這一策略首次在2022年5月發佈的論文《大語言模型是零樣本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。
OpenAI發佈的《與大語言模型共學推理》(Learning to Reason with LLMs)一文詳細闡述了新模型的訓練方法,揭示了其能力提升背後的秘密。文中指出:
“我們的大規模強化學習算法精心設計了訓練流程,使模型在高效利用數據的同時,能夠熟練運用思維鏈進行深度思考。我們發現,隨着強化學習訓練時間的增加以及模型在測試時分配更多思考時間,o1的性能持續顯著提升。值得注意的是,這種擴展方法的限制與大語言模型預訓練中的挑戰有很大不同,我們正繼續深入探索這些新界限。”
通過強化學習的訓練,o1不僅學會了優化其思維鏈的使用,還掌握了自我提升的關鍵技能。o1能夠識別並糾正錯誤,將複雜難題拆解爲一系列更易處理的子任務。當現有方法失效時,它會嘗試不同的方法直至找到最佳解法。這一過程極大提升了模型的推理能力。
實際上,這標誌着模型在處理複雜提示方面實現了質的飛躍。面對那些需要回溯與深入“思考”的任務時,模型能夠展現出更加出色的表現,而不再僅僅依賴於下一個Token預測。
威利森指出,雖然他對“推理”一詞在大語言模型中的定義有保留,但鑑於OpenAI已明確採用此術語,併成功表達了新模型致力於解決的核心問題,他認爲這種表達在此情境下是恰當且有效的。
2. 來自API文檔的底層細節
關於新模型及其設計權衡,OpenAI在API文檔中提供了許多有趣的細節:
對於依賴圖像輸入、函數調用或追求即時響應速度的應用場景,GPT-4o及其精簡版GPT-4o mini仍是理想選擇。然而,如果你的項目需要深度推理能力,且能夠適應較長的響應時間,那麼o1模型無疑是更優的選擇。
威利森從OpenAI的文檔中摘錄了幾個關鍵點:
API訪問權限:目前,o1-preview與o1-mini的訪問僅限於五級賬戶用戶,且API積分累計需達到至少1,000美元方可解鎖。
系統提示限制:模型集成了現有的聊天完成API,但僅支持用戶與助手之間的消息交互,不支持系統提示功能。
其他功能限制:當前模型不提供流處理支持、工具集成、批處理調用或圖像輸入。
響應時間:鑑於模型解決問題所需推理量的不同,處理請求的時間可能介於幾秒至幾分鐘不等。
尤爲引人注目的是“推理Token”的引入。這些Token在API響應中不可見,卻扮演着至關重要的角色,是驅動新模型能力的核心,且作爲輸出Token計費並計數。鑑於推理Token的重要性,OpenAI建議爲充分利用新模型的提示預留約25,000個推理Token的預算。
爲此,輸出Token的配額顯著提升:o1-preview的配額增至32,768個,而o1-mini則高達65,536個。相比於GPT-4o及其mini版(兩者的配額均爲16,384個),這一增加爲用戶提供了更多資源。
API文檔還提供了一個新穎且關鍵的提示,旨在優化檢索增強生成(RAG):在整合附加上下文或文檔時,應嚴格篩選,保留最相關的信息,以避免模型生成過於複雜的響應。這與RAG的傳統做法截然不同,後者傾向於將大量潛在相關文檔納入提示。
3. 隱藏的推理Token
令人遺憾的是,推理Token在API調用中處於隱藏狀態。用戶需要爲這些Token支付費用,卻無法得知其具體內容。OpenAI對此政策的解釋如下:
“隱藏思維鏈的初衷在於確保模型‘思維’過程的獨立性和表達自由,避免外界干預或操控其推理邏輯。展示模型的完整思維鏈可能暴露不一致性,並影響用戶體驗。”
這項決策基於多重考量:一方面是爲了確保安全與策略的遵從性,另一方面則是爲了保持技術上的競爭優勢,避免競爭對手利用推理成果進行訓練。
作爲對大語言模型發展持保留意見的一方,威利森對此決定並不滿意。他認爲,在追求技術創新的同時,保持可解釋性與透明度至關重要。關鍵細節的隱藏,意味着對透明度的一種削弱,感覺像是一個倒退的舉措。
4.示例解讀
OpenAI在“思維鏈”部分提供了許多示例,包括Bash腳本生成、填字遊戲解答和化學溶液pH值計算等,初步展示了這些模型在ChatGPT用戶界面下的思維鏈能力。但它並未展示原始的推理Token,而是通過一種優化機制,將複雜的推理步驟簡化爲易於理解的摘要。
OpenAI還額外提供了兩份文檔,展示了更爲複雜的例子。在“使用推理進行數據驗證”一例中,o1-preview演示瞭如何在11列CSV數據中生成示例,並通過多種策略驗證數據的正確性;而“使用推理生成例程”則展示瞭如何將知識庫文章轉化爲大語言模型能夠解析並執行的標準化操作流程。
威利森也在社交媒體上徵集了許多GPT-4o未能成功應對卻在o1-preview上表現出色的提示案例。其中兩個尤爲引人注目:
字數計數挑戰:“你對這個提示的回答有多少字?” o1-preview模型在給出“這個句子裡有七個單詞”之前,耗時約十秒並經歷了五次推理過程。
幽默解析:“解釋一下這個笑話:‘兩頭牛站在地裡,一頭牛問另一頭:‘你怎麼看瘋牛病?’ 另一頭說:‘無所謂,我是直升機。’” o1-preview給出了既合理又詳細的解釋,而其他模型對此無解。
儘管如此,優質的示例仍然較少。OpenAI研究員Jason Wei指出,儘管o1在AIME和GPQA測試中的表現非常強大,但這種效果並不總是直觀可感。找到讓GPT-4o失手而o1表現出色的提示並不容易,但當你找到時,o1的表現堪稱神奇。大家都需要尋找更具挑戰性的提示。
另一方面,沃頓商學院管理學教授、人工智能專家伊森·莫里克(Ethan Mollick)通過幾周的預覽體驗,對o1給出了初步評價。他特別提到了一個填字遊戲示例,其中o1-preview模型展現了清晰的推理步驟,如指出1 Across與1 Down的首字母不匹配,並主動建議替換答案以確保一致性。
5.推理模型的未來
人工智能領域這一新進展帶來了諸多待解之謎與潛在機遇,社區正逐步探索這些模型的最佳應用場景。在此期間,威利森預計GPT-4o(及Claude 3.5 Sonnet等模型)將繼續發揮重要作用。同時,我們也將見證這些推理模型如何擴展我們的思維模式,解決更多前所未有的任務。
此外,威利森期待其他AI實驗室,特別是開放模型權重社區,能夠積極跟進,利用各自獨特的模型版本復現並深化這些思維鏈推理的成果。(小小)