ChatGPT「秘方」竟在拖LLM後腿?Karpathy、LeCun聯手開懟RLHF!

新智元報道

編輯:喬楊 好睏

【新智元導讀】RLHF到底是不是強化學習?最近,AI大佬圈因爲這個討論炸鍋了。和LeCun同爲質疑派的Karpathy表示:比起那種讓AlphaGo在圍棋中擊敗人類的強化學習,RLHF還差得遠呢。

昨天,Andrej Karpathy又發了長推,不過用了一句很有爭議的話開頭——「RLHF只是勉強的RL」。

這條推特可謂「一石激起千層浪」,瞬間點燃了LLM社區的討論熱情。

畢竟RLHF作爲剛提出沒幾年的方法,又新穎又有爭議。一邊遭受質疑,一邊又在工業界和學界迅速流行。

5G衝浪的LeCun也趕來聲援Karpathy,但他的話很短,只有一句——「RLHF不是真正的RL」。

RLHF最早可以追溯到OpenAI安全團隊2017年發表的論文:

論文地址:https://arxiv.org/abs/1706.03741

當時,Jan Leike還在DeepMind、Dario Amodei還沒創辦Anthropic,而OpenAI還沒all in語言模型,仍是一家研究範圍更廣泛的AI公司。

他們提出,通過人類反饋,讓AI模型更好地學習「如何翻出一個漂亮的後空翻」。

訓練時,AI agent在環境中不斷觀察並行動,並得到獎勵模型的反饋進行自我改進。但比較特別的是,獎勵函數是由擬合人類反饋得到的。

2019年,這項技術被用到了NLP領域,用於微調語言模型。

論文地址:https://arxiv.org/abs/1909.08593

這篇論文附帶的代碼也很好地定義了RLHF的標準流程。

倉庫地址:https://github.com/openai/lm-human-preferences?tab=readme-ov-file

到了2022年3月,ChatGPT發佈前夕,OpenAI發佈了使用RLHF微調過的大模型InstructGPT,這是彌合GPT-3和GPT-3.5 Turbo之間差距的關鍵一步,後者爲ChatGPT的推出提供了關健動力。

論文地址:https://arxiv.org/abs/2203.02155

此後,RLHF就成爲了OpenAI、DeepMind、谷歌、Anthropic等AI巨頭們訓練模型的必備環節。

所以,Karpathy爲什麼會突然對此發難?我們先來看一下他的推特原文是怎麼說的。

Karpathy原帖的大意如下:

RLHF全稱爲「從人類反饋中進行強化學習」(Reinforcement Learning from Human Feedback),是訓練LLM的第三個階段,也是最後一個主要階段,接在預訓練和監督微調(SFT)之後。

我對RLHF的批評是:它幾乎算不上是真正的強化學習,而且我認爲這一點沒有被廣泛理解。強化學習很強大,而RLHF則不然。

讓我們來看一個AlphaGo的例子,它的訓練用到了實際的RL算法:計算機通過下圍棋,在最大化獎勵函數(即贏得比賽)的推演過程中進行訓練,最終超越了最優秀的人類棋手。AlphaGo並不是用RLHF訓練的,否則它的效果就不會這麼好。

那麼,用RLHF訓練AlphaGo會是什麼樣子呢?首先,你需要讓人類標註者看到兩個圍棋局面,並詢問他們更喜歡哪個:

你需要收集大概10萬條這類的對比數據,並訓練一個「獎勵模型」RM(Reward Model)來模仿人類對棋盤狀態的這種「直覺判斷」(vibe check),使RM的判斷在平均水平上與人類一致。

有了獎勵模型的直覺判斷,就可以在此基礎上運行強化學習,讓原模型學習下出能夠讓人類直覺上認爲不錯的棋步。

顯然,這在圍棋中不會產出太好的結果,有兩個根本且獨立的原因:

1. 直覺可能會產生誤導。這並不是真正的獎勵(贏得比賽),而是個很差的替代目標。但更糟的是——

2. 強化學習優化會失控,因爲它很快就會發現對抗獎勵模型的棋盤狀態。RM是一個擁有數十億參數的龐大神經網絡,用來模仿直覺。有些棋盤狀態超出了訓練數據的分佈範圍,可能並不是好的狀態,但由於偶然性,也會從RM得到了很高的獎勵。

出於完全相同的原因,有時我驚訝於RLHF對LLM的效果,因爲其中的RM也在進行同樣的直覺判斷。它對人類評分員似乎喜歡的那類響應打出高分,但這不是正確解決問題的「實際」目標,只是人類覺得不錯的替代目標。

其次,RLHF不能運行太久,因爲原模型很快就能學會操控獎勵模型,從而預測出一些看起來很奇怪的token。比如,LLM助手會開始對提示詞響應一些無厘頭的內容,像「the the the the the the」。

這在人類看來很荒謬,但由於某種原因,RM認爲這些響應看起來很棒。

這就是LLM找到的對抗性案例(adversarial examples),對於RM的訓練數據而言,這是未定義領域的分佈外數據。

你可以反覆將這些特定例子添加到訓練集中來緩解這種情況,但下次還會有其他對抗性案例出現。因此,RLHF不能運行過多步驟,幾百/幾千步後就必須停下,因爲模型的優化過程將開始操控RM。這不是像AlphaGo那樣的強化學習。

然而,在構建LLM助手時,RLHF依舊是利大於弊。其中有幾個微妙的原因,但我最喜歡指出的是,LLM可以通過RLHF過程受益於生成器和判別器之間的難度差距(generator-discriminator gap)。

對於許多類型的問題,相比於從零開始撰寫理想答案,人類標註者會覺得從幾個候選中選擇最佳答案要容易得多。比如這樣的提示:「生成一首關於回形針的詩」,普通的人類標註者很難寫出一首好詩作爲SFT示例,但在給出幾個候選答案的情況下,他們可以選出一個看起來不錯的詩。

因此,RLHF相當於利用了這種人類監督的「簡便性」差距。

還有其他幾個原因,例如,RLHF也有助於減少幻覺現象。如果RM是一個足夠強大的模型,可以捕捉到LLM的虛構內容,就能通過低獎勵來懲罰這種行爲,教會模型在不確定時避免冒險使用事實知識。但對幻覺及其令人滿意的緩解措施是另一個話題,此處不再贅述。

總之,RLHF確實是淨有用的,但它不是傳統的強化學習。

迄今爲止,在開放領域還沒有出現生產級的「實際」RL方法,可以大規模地在LLM上實現,並給出令人信服的演示。從直觀上講,這是因爲在開放式的問題解決任務中給出獎勵值(等效於AlphaGo贏得比賽)確實很困難。

在一個封閉的、類似遊戲的環境中,比如圍棋,動態受到限制,獎勵函數易於評估且無法操控。但你如何爲總結一篇文章提供明確的獎勵?或者回答關於pip安裝的略顯模糊的問題?或者講個笑話?或者將一些Java代碼重寫爲Python?

原則上,朝這個方向發展是可能的,但並不簡單,它需要一些創造性的思考。如果有人給出令人信服的解決方案,就能運行實際的強化學習,那種讓AlphaGo在圍棋中擊敗人類的強化學習,只是最後得到的LLM將有可能在開放領域問題解決中擊敗人類。

強化學習到底是什麼

如果RLHF「不是RL」,那真正的RL是什麼?

Karpathy的描述比較簡潔而直觀——就是AlphaGo用的那種。

幸好,「強化學習」是一個人爲提出的概念,更容易釐清;而且「強化學習之父」Richard Sutton專門寫過一本書來解釋這個領域的基本問題。

https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf

開頭第一章第一節,強化學習的基本概念。雖然不是嚴謹完備的數學定義,但基本闡明瞭要點。

除了agent和環境的存在,強化學習系統中還有以下四個要素:

策略(policy),定義正在學習的agent在指定時間的行爲

獎勵信號(reward signal),定義強化學習問題的目標,是對agent行爲的即時反饋

值函數(value function),定義長期的優化目標

環境模型(model of the enviroment),模擬環境行爲

那麼問題來了,根據Sutton書中對強化學習的定義,你同意Karpathy的說法嗎?

誰贊同,誰反對?

非常明顯的是,Karpathy的觀點吸引了許多LLM領域的學者和研究員的關注。

谷歌大腦、DeepMind研究科學家Kevein Murphy:

Allen AI機器學習研究員Nathan Lambert回覆:

這張圖出自Lambert自己撰寫的博客:

之後,他又專門發推進一步解釋:

很罕見的是,以上是爲數不多力挺Karpathy的觀點。多數人還是站在了Karpathy的對立面反駁他。

評論區有網友直接回懟:「你就是看獎勵函數不順眼」。

Karpathy只能繼續解釋:

馬里蘭大學副教授Furong Huang的觀點更強調RLHF對LLM的價值。

Mila在讀博士、Meta研究員Pierluca D'Oro自己就在爲agent開發獎勵模型,他同意Karpathy「RLHF不是真正的RL」的說法,但並不認爲Karpathy預期的那種獎勵模型能夠實現。

華盛頓大學助理教授、谷歌AI高級研究科學家Natasha Jaques的反對態度更鮮明,力挺RLHF方法:

參考資料:

https://the-decoder.com/ai-researcher-says-that-chatgpts-secret-ingredient-may-be-holding-back-llm-capabilities/

https://x.com/karpathy/status/1821277264996352246 https://x.com/ylecun/status/1821478966365962255