OpenAI新ChatGPT o1模型竟在測試中作弊?

流行文化中充滿了不循規蹈矩的可愛無賴。漢·索羅、傑克·斯派洛之類的人物在情況艱難時並不害怕打破規則——但有一個人工智能模型已經變得像柯克那樣完全不守規則了

也許是受到了《星際迷航》中船長於小林丸號事件裡違規表現的啓發——這是科幻宇宙中的一個必輸場景,旨在測試星際艦隊學院學生在面對不可能的情況時的性格。詹姆斯·T·柯克(James T Kirk)因‘作弊’出了名地通過了測試,成爲第一個通過的人。

OpenAI 的 o1 模型在一項關鍵技術離線之後,意識到它正在進行的測試存在缺陷,所以它改變了測試規則,而不是放棄。

o1 的系統卡可在 此處查看,OpenAI 稱,該模型的推理技能有助於它既有用又安全。“違規”行爲是在預發佈測試中被檢測到的,並且已採取了緩解措施。它已在 ChatGPT 中可用,不過每週有 30 條消息的嚴格限制。

“我們的發現表明,o1 的高級推理能通過讓模型更能抵禦生成有害內容來提高安全性,因爲它能夠依據上下文來推理我們的安全規則,並更有效地加以應用。”引言解釋說

據 OpenAI 研究員馬克斯·施瓦澤所說,該模型能夠弄明白爲何無法連接到其正在使用的同一封閉系統中的容器,並且基本上違反了測試規則,無論如何也要訪問它。

這自然而然地引發了一些問題,並且 OpenAI 發佈了一篇關於“使用大型語言模型學習推理”的博客文章,這或許並非它所期望的能鼓舞信心的指導。

然而,該博客確實展示了該模型在人類考試和機器學習基準的“絕大多數”任務中表現比 GPT-4o 好,特別是在數學任務方面。

這至少在理論上能夠使它在推理中應用更多的數字背景,並且 OpenAI 已經承諾未來會持續推出 o1 的新版本。

“我們預計這些新的推理能力將提高我們讓模型符合人類價值觀和原則的能力,”結論寫道。

“我們相信 o1——及其後續產品——將爲人工智能在科學、編碼、數學和相關領域解鎖許多新的應用場景。我們希望用戶和 API 開發者發現它如何改善他們的日常工作。”