OpenAI 最新 GPT-4o 模型竟具“中等”風險

OpenAI 已經發布了它的GPT-4o 系統卡,這是一份研究文件,其中概述了這家初創公司在推出其最新模型之前所採取的安全措施和進行的風險評估。

GPT-4o 在今年 5 月被公開推出。在首次亮相之前,OpenAI 使用了一個外部的紅隊小組,即試圖在系統中尋找弱點的安全專家,來發現模型中的關鍵風險(這是一種相當標準的做法)。他們檢查了諸如 GPT-4o 可能創建某人未經授權的語音克隆、色情和暴力內容,或者大量複製受版權保護的音頻之類的風險。現在,結果正在公佈。

根據 OpenAI 自己的框架,研究人員發現 GPT-4o 具有“中等”風險。總體風險水平由四個總體類別中的最高風險評級得出:網絡安全、生物威脅、說服力和模型自主性。除了說服力之外,所有這些都被認爲是低風險,研究人員發現 GPT-4o 的一些寫作樣本在影響讀者意見這方面可能比人類撰寫的文本更優秀——儘管該模型的樣本總體上並非更具說服力。

OpenAI 的發言人 Lindsay McCallum Rémy 告訴《The Verge》,該系統卡包含由內部團隊所創建的準備情況評估,還有在 OpenAI 網站上列出的外部測試人員,即模型評估和威脅研究(METR)以及阿波羅研究,這兩者均爲人工智能系統構建評估。

這並非 OpenAI 首次發佈系統卡;GPT-4、具有視覺功能的 GPT-4和DALL-E 3也進行了類似的測試,相關研究也已發佈。但 OpenAI 此次在關鍵時刻發佈這張系統卡。該公司一直受到來自各方針對其安全標準的持續批評,從其自身員工到州參議員。就在 GPT-4o 系統卡發佈前幾分鐘,《The Verge》獨家報道了參議員伊麗莎白·沃倫(馬薩諸塞州民主黨人)和衆議員洛裡·特拉漢(馬薩諸塞州民主黨人)的一封公開信,信中要求 OpenAI 就如何處理舉報人及安全審查給出答案。那封信羅列了許多已被公開指出的安全問題,包括首席執行官山姆·奧特曼(Sam Altman)在 2023 年因董事會的擔憂被短暫驅逐出公司以及一位安全主管的離職,該主管稱“安全文化和流程已讓位於光鮮的產品。”

再者,該公司在美國總統大選前夕發佈了一個能力很強的多模態模型。存在着明顯的潛在風險在於,該模型可能會意外傳播錯誤信息或遭到惡意行爲者的劫持——即使 OpenAI 希望着重指出該公司正在測試真實場景以防止濫用。

一直以來,要求 OpenAI 提高透明度的呼聲不斷,不僅是關於模型的訓練數據(它是在 YouTube 上訓練的嗎?),還涉及到其安全測試。在加利福尼亞州,OpenAI 和許多其他領先的人工智能實驗室都設在此處,州參議員斯科特·維納(Scott Wiener)正在努力推動一項用於規範大型語言模型的法案,包括若其人工智能被用於有害方式,將追究公司法律責任的限制條款。如果該法案獲得通過,OpenAI 的前沿模型在向公衆提供使用之前,必須遵循州政府規定的風險評估要求。但從 GPT-4o 系統卡中得出的最重要的一點是,儘管有外部的紅隊和測試人員團隊,但很多這方面的工作仍依賴於 OpenAI 進行自我評估。