☰

OpenAI o1佔領後訓練擴展律前沿，從快速識別走向深度思考

天風證券近日發佈通信行業專題研究：OpenAI o1佔領後訓練擴展律前沿，從快速識別走向深度思考。

以下爲研究報告摘要：

o1模型通過強化學習訓練和產生思維鏈，能在做出響應前花更多時間思考問題

9月12日，OpenAI發佈一系列新大語言模型o1，經過強化學習（Reinforcement Learning）訓練，可以執行復雜推理，該模型可以產生一個長程思維鏈（Chain of Thought），在做出響應前花更多時間思考問題。

新模型包括o1-preview和o1-mini兩種版本，其中o1-mini更快、更具成本效益，適用於需要推理但不需要廣泛知識的應用程序

o1-mini是一個較小的模型，針對預訓練期間的STEM推理進行了優化。速度方面，在單詞推理問題回答中o1-mini找到答案的速度比o1-preview大約快了3~5倍；成本方面，OpenAI向第五梯隊API用戶開放的o1-mini成本端比o1-preview便宜80%。

o1通用性不及GPT-4o，高推理能力伴隨高成本

作爲早期模型，o1並不具備瀏覽網頁、上傳文件和圖像等功能，通用性尚不及GPT-4o。但相較於GPT-4o多模態、反應快等特點，o1-preview更加註重推理能力，輸入、輸出tokens成本分別是GPT-4o的3、4倍。

o1在數理化複雜問題推理中的性能明顯優於GPT-4o，在物理和生物學專業知識基準上的表現超越人類博士

o1在競爭性編程問題（Codeforces）中拿到89%的百分位，GPT-4o僅爲11%；在國際數學奧林匹克競賽（IMO）的資格考試中，o1解答正確率爲83%，而GPT-4o正確率僅爲13%；在安全方面，o1在越獄測試中的分數高達84，而GPT-4o的得分僅爲22分。

後訓練擴展律（Post-Training Scaling Law）顯現，或將引發業界對算力重新分配、後訓練能力的思考

o1模型的亮點在於其性能會隨着強化學習時間（訓練時間的計算量）和思考時間（測試時間的計算量）的增加而不斷提升，擴展這種方法的限制與傳統LLM預訓練方法（通過增加參數量和數據量）的限制有着很大不同，後訓練方法的重要性或將引發業界對算力分配、後訓練能力的思考。

從快速反應走向深度思考，拓寬行業應用場景

o1在訓練過程中能夠使其思維鏈進行高效思考，模擬了人類在面對複雜問題時的思考過程，這預示着AI除了在快系統中可被應用（人臉識別等），在慢系統中的可用型或將得到提升。

快慢系統結合或將成爲新的AI發展戰略，OpenAI、Google佔據前沿陣地Google DeepMind在此前論文中提出測試時的計算比擴展模型參數更有效；AlphaGeometry模型在國際數學奧林匹克（IMO）幾何問題的基準測試中解決了25個問題（總共30個問題），AlphaGeometry由神經語言模型和符號推導引擎組成，將快慢系統結合，一個系統提供快速、直觀的想法，另一個系統則提供更深思熟慮、更理性的決策。

風險提示：AI應用發展不及預期風險；海外大廠投資不及預期風險；中美摩擦升級風險。（天風證券唐海清,王奕紅,餘芳沁）

免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前請覈實。據此操作，風險自擔。

OpenAI o1佔領後訓練擴展律前沿，從快速識別走向深度思考

相關資訊