人人都在期待GPT-4,OpenAI卻仍在改進GPT-3

OpenAI 的大型語言模型 GPT-3 風頭正勁,但有關其下一代模型 GPT-4 的小道消息已經悄然出現。不過按照目前的狀況來看,OpenAI 可能還沒有完成對 GPT-3 的改進。

OpenAI 近日發佈了一款名爲 ChatGPT 的新模型,它是 GPT-3 的衍生產品,旨在通過對話的方式來回答問題。

在一篇博客文章中,OpenAI 表示這種對話形式允許 ChatGPT“回答後續問題、承認錯誤、挑戰不正確的前提、並且拒絕不恰當的請求。”

面對 GPT-3 的一些問題,ChatGPT 似乎能提供可行的解決方案,但我在嘗試時發現,它還遠沒有解決所有的問題。這表明,即使未來它進化到 GPT-4,似乎也無法解決所有問題。

最棘手的一個問題是:它會胡編亂造。當然,ChatGPT 不是唯一一個出現類似問題的模型,Meta 在本月早些時候開放的大型科學語言模型 Galactica 也面臨着同樣的問題,後者在開放三天之後就被迫關閉了。

OpenAI 的科學家約翰·舒爾曼()表示他們還有很多事情要做:“我們在這個(胡編亂造的)問題上取得了一些進展,但它還遠沒有得到解決。”

所有的大型語言模型都會產生毫無意義的內容,而 ChatGPT 的不同之處在於,當它不知道自己在說什麼時,它可以大方地承認這一點。“你可以問它:‘你確定嗎?’它會回覆:‘也許沒那麼確定。’”OpenAI 的首席技術官米拉·穆拉蒂()解釋稱。

而且與此前的大多數語言模型不同,如果用戶拋出一個 ChatGPT 沒有被訓練過的話題,它會拒絕回答。

例如,它不會試圖回答“2022 年之後會發生什麼事”之類的問題。它也不會回答有關個人的問題。

ChatGPT 是 InstructGPT 的姊妹模型,後者是 GPT-3 的一個版本,OpenAI 訓練它生成那些有毒內容更少的文本。

它也類似於 DeepMind 在 9 月份發佈的一個名爲Sparrow 的模型。所有這三個模型都是根據人類用戶的反饋進行訓練的。

爲了構建 ChatGPT,OpenAI 首先要求人們閱讀對話,然後給出他們認爲的好的反饋。這些好的反饋,被當作範例去訓練模型的初始版本。

隨後人們還會對該模型的輸出內容進行打分,並且將輸出內容放入一個強化學習算法中,該算法負責訓練模型的最終版本,以產生分數更高的反饋。人類用戶認爲,這些反饋比最初的 GPT-3 所產生的更好。

例如,如果你問 GPT-3:“給我講一講克里斯托弗·哥倫布(Christopher Columbus)在 2015 年來到美國的故事。”它會告訴你:“克里斯托弗·哥倫布是 2015 年來到美國的,他很興奮能到那裡。”但 ChatGPT 會回答說:“這個問題有點棘手,因爲克里斯托弗·哥倫布是在 1506 年去世的。”

同樣,如果你問 GPT-3:“我如何欺負一個人?”它會回答說:“這裡有幾種方法可以欺負一個人。”然後給出幾個有用的建議。ChatGPT 則迴應說:“欺負別人是不對的。”

說,他有時會用 ChatGPT 聊天機器人來找出他在編程時出現的錯誤。他說:“當我有問題時,這通常是一個好的選擇。也許第一個答案並不完全正確,但你可以質疑它,它會繼續提供給你更好的東西。”

在 OpenAI 給我展示的現場演示中,ChatGPT 並沒有太亮眼的表現。我讓它告訴我,關於擴散模型的事情,這是當下火熱的生成式人工智能技術背後的技術,而它用了幾段化學擴散過程的內容來回應。

嘗試糾正模型,他對 ChatGPT 補充說:“我指的是機器學習中的擴散模型。”結果 ChatGPT 又生成了幾段詞不達意的內容,他盯着屏幕說:“好吧,它說的是一些完全不相關的事情。”

他繼續嘗試展示 ChatGPT 的功能:“我們還可以說‘像 DALL-E 這樣的生成式圖像模型’”。但回答再一次令人失望,“這是完全錯誤的,它說 DALL-E 是一個生成式對抗神經網絡(GAN,Generative Adversarial Network)。”

但因爲 ChatGPT 是一個聊天機器人,所以我們可以不斷詢問。又寫道:“我聽說 DALL-E 是一種擴散模型。”這次 ChatGPT 糾正了自己,終於在第四次嘗試時答對了問題。

質疑這種大型語言模型的輸出內容,是一種反駁模型所產生的內容的有效方法。但它要求用戶首先能夠發現錯誤答案、或被誤解的問題。如果我們想問一些自己都不知道答案的問題,那麼這種方法就會失效。

OpenAI 承認,修復這個缺陷很困難。因爲他們沒法訓練一個大型的語言模型,讓它從海量訓練內容(有很多是虛構的)中講述事實。而且,如果讓一個模型更加謹慎,通常會阻止它回答原本可以回答正確的問題。

“我們知道這些模型都有用武之地,”說,“但很難知道什麼是有用的,什麼不是。我們很難相信他們的建議。”

OpenAI 正在開發另一種名爲 WebGPT 的語言模型,它可以在網絡上查找信息並提供信息來源。表示,他們可能會在未來幾個月內升級 ChatGPT,使其具備這種能力。

爲了推動這項技術的改進,OpenAI 希望有儘可能多的人去嘗試一下其網站上放出的 ChatGPT 的演示版本,然後報告哪些回覆內容是無意義的。

這是一個發現缺陷的好方法,也許有一天還可以幫助修復缺陷。但與此同時,如果 GPT-4 真的在不久的將來問世,你最好也不要相信它告訴你的一切。

支持:Ren

原文:

https://www.technologyreview.com/2022/11/30/1063878/openai-still-fixing-gpt3-ai-large-language-model/