斯坦福新作:無指令調優的指令遵循

機器之心報道

編輯:杜偉、陳陳

指令調優(Instruction tuning)是一種優化技術,通過對模型的輸入進行微調,以使其更好地適應特定任務。先前的研究表明,指令調優樣本效率是很高效的,只需要大約 1000 個指令-響應對或精心製作的提示和少量指令-響應示例即可。

本文中,來自斯坦福大學的研究者更進一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語言模型中產生,即通過並非明確設計的方法產生。本文發現了兩種執行隱式指令調優的適應形式,與顯式指令調優相比,它們似乎存在缺陷:(1)響應調優,僅對響應進行訓練;(2)單任務調優,僅對來自狹窄目標領域的數據進行訓練,如詩歌生成。

首先,該研究證明,響應調優(僅對響應進行訓練而不對其指令進行條件限制)足以產生指令遵循。特別是使用 LIMA 數據集進行調優,在 AlpacaEval 2 上的評估表明,響應調優模型與指令調優模型相比,有43%的勝率,在同等性能下則對應 50% 的勝率。

響應調優不提供有關從指令到響應映射的明確信息,只提供有關所需響應分佈的信息。這表明,指令-響應映射可以在預訓練期間學習,但所有理想響應的概率都太低而無法生成。

從響應調優的結果來看,指令調優的關鍵部分是得到期望響應的分佈。然而,作者發現這也不重要。對單任務、窄域數據進行微調,例如將英語請求映射到Python片段,或者從詩歌標題生成詩歌,也會產生廣泛的指令遵循行爲。

也就是說,儘管訓練只生成 Python 代碼或詩歌,但模型在收到指令後仍會生成傳記或食譜。例如,經過詩歌調優的 Llama-2-7B 在 AlpacaEval 2 中與經過指令調優的 Llama-2-7B 勝出 23.7%,而基礎模型勝出率爲 2.4%。

總之,本文結果表明, 即使適應方法本意不在於產生指令遵循行爲,它們也可能隱式地做到這一點。

論文作者之一John Hewitt 表示:這是他在斯坦福 NLP 的最後一篇論文。Hewitt即將加入哥倫比亞大學擔任助理教授。

實驗設置

指令調優。指令調優可以對一個語言模型的參數θ進行微調,以調整它的行爲並針對查詢給出包含相關有幫助答案的響應。給定包含指令和對應響應的一組示例D_ins = {instruction_i , response_i }^k _i=1,指令調優可以優化:

指令格式。在語言模型實踐中,指令和響應之間的區別通過輸入中的格式化token來指定。研究者使用了 Tulu 格式。之所以會介紹指令格式,是因爲它可能對從語言模型中產生指令遵循行爲的難易程度很重要。

定義指令遵循行爲。研究者區分了指令遵循行爲和非指令遵循行爲,實際上存在一系列更好和更糟糕的響應,沒有單一的界限。爲了保證一定程度的系統性,他們使用了以下評估設置

AlpacaEval vs 可比較的指令調優模型。研究者根據AlpacaEval LLM-as-a-judge框架來測量每個模型與可比較指令調優模型在長度控制方面的正面交鋒勝率。

貪婪解碼。研究者從模型中貪婪地解碼,以觀察指令遵循響應什麼時候最有可能是模型的延續。

響應調優產生指令遵循

在本章中,研究者探討了響應調優,即僅對響應進行微調,而無需任何相應的指令。

響應調優

方法,給定包含指令和對應響應的一組示例D_ins = {instructioni , response_i }^k_i=1,響應調優將指令字符串替換爲空字符串,並優化如下:

研究者比較了指令調優和響應調優。對於適應數據集,研究者使用包含1030個訓練示例的LIMA。對於基礎預訓練模型,研究者使用了Llama-2-7B 和 OLMo-7B-Feb2024語言模型,並對這兩個模型的所有參數進行微調。對於超參數選擇,研究者在爲本文開發的held-out驗證集上使用了 AlpacaEval 相對GPT-3.5-turbo的勝率。驗證集部分手寫部分由GPT-4生成,包含各種知識、蒸餾、翻譯和行政指令,比如「給我安排兩天假期去玩《虛幻勇士》」。

結果發現,響應調優的Llama-2-7B模型對指令調優的Llama-2-7B的平均勝率是43.3%,而基礎模型對指令調優模型的勝率爲2.4%。對於OLMo-7B-Feb2024,響應調優模型對指令調優模型的勝率爲 43.7%, 而基礎模型的勝率爲 4.7%。研究者在下圖2中提供了響應調優、指令調優和基礎Llama-2-7B模型的示例。

對於Llama-2-7B 和 OLMo-7B-Feb2024 基礎模型,響應調優模型的行爲比基礎模型更接近指令調優模型。指令調優始終優於響應調優,但差別不大。因此在調整過程中指定指令會帶來一些收益,但這對於產生基線水平的指令遵循行爲並不重要。

響應排序能力

研究者提出了響應排序能力:爲一個指令的正確響應分配的可能性高於一個其他隨機指令的預期響應。對於獨立的指令-響應對(instruction, response)∼ D 和(instruction′ , response′)∼ D 以及一個模型 pθ,若如下公式(3)所示,則響應排序能力成立。

由於這兩個概率可能都很小,因此即使沒有遵循指令的模型,響應排序能力也可以成立。通過響應調優來增加預期響應的概率,並且當模型的很多指令具有響應排序能力時,可能會產生預期的響應。

對於Alpaca訓練集,研究者針對預訓練、LIMA 指令調優和響應調優模型,計算了它們指令對的響應排序能力成立的可能性。結果表明,預訓練模型的響應排序能力成立的可能性與指令調優模型類似。具體如下表2所示。

單任務微調產生指令遵循

此方法與指令調優相同,只是輸入和輸出的分佈發生了變化。

研究發現,在每個單任務微調數據集上對 Llama-2-7B 和 OLMo-7B-Feb2024 進行微調都會導致一般的指令遵循行爲,並且與基礎模型相比,指令調優模型(表 3)的勝率明顯更高。

在 OLMo-7B-Feb2024 和 Llama-2-7B上,對 GSM 數據集進行微調可獲得最高的 AlpacaEval 勝率。圖 4 提供了模型輸出的示例。

如圖 5 所示,對於非常類似於 GSM 的指令,模型輸出遵循 GSM 樣式及其使用的特定數學符號。然而,對於大多數指令,作者注意到輸出僅受到 GSM 的細微影響:它們具有普遍存在的 GSM 序列結尾樣式,以四個哈希和一個整數答案結尾,例如 ####1。

更多技術細節和實驗結果請參閱原論文。

返回