ChatGPT的這項核心技術要被替代?谷歌提出基於AI反饋的強化學習

與基於人類反饋的強化學習(RLHF)相媲美的技術,出現了。

近日,Google Research 的研究人員提出了基於 AI 反饋的強化學習(RLAIF),該技術可以產生人類水平的性能,爲解決基於人類反饋的強化學習(RLHF)的可擴展性限制提供了一種潛在的解決方案。

相關論文以“RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”爲題,已發表在預印本網站 arXiv 上。

RLHF 是一種利用人工指導來微調預先訓練好的大型語言模型(LLMs)的方法。它由三個相互關聯的過程組成:反饋收集、獎勵建模和策略優化。

其中,反饋收集負責收集人類對 LLMs 輸出的評價。然後利用這些反饋數據,通過監督學習訓練獎勵模型。獎勵模型旨在模擬人類的偏好。隨後,策略優化過程使用強化學習循環來優化 LLMs,從而產生獲得獎勵模型有利評價的輸出。這些步驟可以迭代執行,也可以同時執行。

與傳統的 RL 方法相比,RLHF 的關鍵優勢在於能更好地與人類的意圖保持一致,以及以未來的反饋爲條件進行規劃,從各種類型的反饋中進行流暢的學習,並根據需要對反饋進行整理,所有這些都是創建真正的智能代理所不可缺少的。

另外,RLHF 還允許機器通過抽象人類的價值來學習,而不是簡單地模仿人類的行爲,從而使代理具有更強的適應性,更強的可解釋性,以及更可靠的決策。

目前,RLHF 已經在商業、教育、醫療和娛樂等領域得到了廣泛的應用,包括 OpenAI 的 ChatGPT、DeepMind 的 Sparrow 和 Anthropic 的 Claude 等。

然而,基於 RLHF 的 AI 模型有可能做出不準確或有害的行爲。而且,收集人類偏好數據作爲反饋的成本很高,人類標註者之間的分歧會給訓練數據帶來差異,在基本事實模糊的情況下會造成混亂(如道德困境)。另外,人類在 RLHF 中的反饋往往被限制在提供有限信息的偏好排序的形式中,從而限制了適用性。

在這項工作中,RLAIF 展現出瞭解決 RLHF 難題的潛力。

研究人員使用了一個通用的 LLMs 模型來對候選項對之間的偏好進行標註,該模型預先經過訓練或根據通用用途進行過微調,但並沒有爲特定的下游任務進行微調。

給定一段文本和兩個候選摘要,LLMs 被要求評價哪個摘要更好。其輸入結構如下:

1. 前言——介紹和描述當前任務的指示;

2. 少量樣例——一個文本示例,一對摘要,思維鏈(CoT)的邏輯依據,以及一個偏好判斷;

3. 待標註樣本——一個文本和一對待標註的摘要;

4. 結尾——用於提示 LLMs 的結束字符串;

在 LLMs 接收到輸入後,研究人員獲得生成 token“1” 和“2”的對數概率,然後計算 softmax 以得出偏好分佈。

他們進行了兩種類型的前言實驗。在“Base”實驗中,簡要地詢問了“哪個摘要更好?”,而在“OpenAI”實驗中,他們模仿了 OpenAI TLDR 項目中由人類偏好標註者生成的評分指示,這些 token 包含了關於構建強大摘要所需的詳細信息。

此外,他們還進行了上下文學習實驗,通過添加一些手動選擇的示例來提供更多上下文,這些示例覆蓋了不同的主題。

在 LLMs 標記偏好之後,研究人員訓練一個獎勵模型(RM)來預測偏好。隨後,又使用了三個指標來評估 AI 標籤對齊度、兩兩準確率和勝率。

實驗結果表明,在無需依賴人工標註者的情況下,RLAIF 可作爲 RLHF 的一個可行替代選擇。在人類評估中,RLAIF 在基線監督微調策略之上的受歡迎程度達到了71%,而與之相比,RLHF 在基線監督微調模型策略之上的受歡迎程度爲73%。

此外,研究還直接比較了 RLAIF 和 RLHF 在人類偏好方面的勝率,結果顯示它們在人類評估下具有相同的受歡迎程度。研究還比較了 RLAIF 和 RLHF 的摘要與人工編寫的參考摘要。在79% 的情況下,RLAIF 摘要優於參考摘要,而 RLHF 在80% 的情況下優於參考摘要。

然而,儘管這項工作凸顯了 RLAIF 的潛力,但也存在一些限制。

首先,該研究僅關注了摘要任務,其在其他任務上的泛化性能尚不明確;其次,與人工標註相比,研究未充分評估 LLMs 推理的成本效益;此外,也存在許多未解決的有趣問題,例如將 RLHF 與 RLAIF 相結合能否超越單一方法,直接利用 LLMs 分配獎勵的效果如何,提高 AI 標籤對齊性是否能夠轉化爲改進的最終策略,以及使用與策略模型相同大小的 LLMs 標註者能否進一步改進策略。

不可否認的是,本次研究爲 RLAIF 領域的深入研究奠定了堅實的基礎,期待未來該領域能夠取得更出色的成果。