高效評估多模態預訓練對齊質量,中科大提出模態融合率MIR

本文作者來自於中國科學技術大學,上海人工智能實驗室以及香港中文大學。其中第一作者黃啓棟爲中國科學技術大學三年級博士生,主要研究方向包括多模態大模型(MLLM)和可信 / 高效 AI,師從張衛明教授。

是否還在苦惱如何評估自己預訓練好的多模態 LLM 的性能?是否還在使用並不靠譜的損失 Loss,困惑度 Perplexity(PPL),上下文 In-Context 評估,亦或是一遍遍地通過有監督微調(SFT)之後下游測試基準的分數來判斷自己的預訓練是否有效?

來自中科大等單位的研究團隊共同提出了用來有效評估多模態大模型預訓練質量的評估指標 Modality Integration Rate(MIR),能夠快速準確地評估多模態預訓練的模態對齊程度。

研究背景

預訓練(Pre-training)是現有多模態大模型(MLLM)在訓練過程中一個不可或缺的階段。不同於大型語言模型(LLM)的預訓練,多模態預訓練的主要目標聚焦於不同模態之間的對齊。隨着近兩年的發展,多模態預訓練已經從輕量級圖像 - 文本對的對齊,發展爲基於廣泛多樣的多模態數據進行深層次模態集成,旨在構建更通用的多模態大模型。

然而,多模態預訓練的評估對於業界仍然是一個未被充分解決的挑戰。現有最常用的評估手段爲通過進一步的有監督微調(SFT)來測試在下游基準上的模型能力,但是其伴隨的計算成本和複雜性不容忽視。另外有一些方法通過借用 LLM 的預訓練評估指標,包括損失值 Loss、困惑度 PPL 和上下文 In-Context 評估等方式,在多模態預訓練評估中都被證明是不穩定和不可靠的。

研究者們通過在不同規模的高質量預訓練數據上預訓練 LLaVA-v1.5 的 7B 模型,用上述不同的方法評估其預訓練質量,並與有監督微調之後在下游測試基準上的得分進行對照。如下圖所示,損失值 Loss、困惑度 PPL、以及上下文 In-Context 評估都無法準確的對應 SFT 之後在下游測試基準上的模型性能,而本文提出的模態融合率 MIR 則能完美對應。

實際上,PPL 等指標的不適用主要由於 LLM 與 MLLM 在預訓練目標上的差異。LLM 預訓練主要學習建模語言的基本模式,而 MLLM 預訓練則側重於縮小不同模態之間的差距。如果用多個不同來源的圖像和文本數據,並在 LLaVA-v1.5 的大模型輸入層去可視化它們的特徵分佈,會發現儘管圖像或文本內容多樣,但在每種模態內,它們的分佈相對均勻,而模態之間則存在明顯的分佈差距,如下圖(左)所示。

如上圖(右)所示,通過進一步計算現有 MLLM 的在大模型不同層中的模態差距,會觀察到淺層的時候仍然有較大差距,但當到越來越深的層,這一差距逐漸縮小,這表明 MLLM 在訓練過程中仍需要學習對齊不同分佈,以理解新引入的模態。

技術方案

本文提出模態融合率 MIR,能夠用於評估多模態預訓練的跨模態對齊質量。該指標能準確反映各種預訓練配置(如數據、策略、訓練配方和架構選擇)對模型性能的影響,而無需再進行有監督微調 SFT 並於下游測試基準上評估。

對於一個預訓練的多模態大模型 M = (E, P, D),其中 E 表示視覺編碼器,P 表示視覺語言映射模塊,D = (D_t, F) 表示包含分詞器 D_t 和 K 層 transformer 的底座大模型 F。當輸入一組 “圖像 - 文本” 對 {v_n, t_n}, n = 1,..., N 給模型,會從大模型第 k 層 F_k 得到該層關於數據對 {v_n, t_n} 的視覺 token 特徵 f_k^{v_n} 和文本 token 特徵 f_k^{t_n},即

研究者們將多個樣本的特徵 f_k^{v_n} 合併到一起得到 f_k^v,同理 f_k^{t_n} 可以合併得到 f_k^t,並且定義 f_{k, i}^v 爲第 i 個視覺 token 特徵,f_{k, j}^t 爲第 j 個語言 token 特徵。

文本中心歸一化

由於越深層的 token 特徵在數值絕對尺度上明顯比淺層的大,並且不同模態特徵間在絕對尺度上存在差異,直接使用 Frechet 距離等度量函數、或是把所有 token 特徵統一歸一化後再使用度量函數都是不合適的。爲此,研究者們設計了一種文本中心的歸一化方法,對於 f_k^t 中的總共 s 個文本 token 特徵,計算尺度因子:

然後對第 k 層對應的視覺特徵和文本特徵都使用該因子進行放縮,在保證跨層對比合理性的同時,保持模態間絕對尺度帶來的差異。

離羣值篩除

許多工作如 StreamLLM [1]、Massive Activations [2] 都提到,有極少部分絕對數值異常大的 token 會用來在注意力模塊的 SoftMax 計算中使總和填充到 1。爲了避免此類離羣值對整體統計分佈的影響,這裡使用 “3-sigma” 的準則對於所有 f_k^v 和 f_k^t 中的離羣值進行篩除。以下用 omega 表示這個操作。

模態融合率

在經過文本中心歸一化以及離羣 token 篩除之後,模態融合率 MIR 可以通過累和大模型逐層的模態域間距離來得到:

其中,mu_{v, k} 和 mu_{t, k} 分別是處理後視覺 token 特徵和文本 token 特徵的均值,而

對應於各自的協方差計算。最後的平方根項通常在 PyTorch 中計算緩慢,這是由於大模型的特徵維度普遍較高。因此研究者們使用 Newton-Schulz 迭代近似的方式估計該項,在大大提高計算速度的同時,保證實踐中誤差不超過 1%。總體上來看,越低的 MIR 代表着越高的預訓練模態對齊質量。

可學習模態校準

在對 MIR 的探究推導過程中,證明了底座大模型在訓練過程中展現出的在淺層逐漸縮小模態間差距的傾向。這促使研究者們重新思考多模態大模型中一些繼承自大型語言模型的設計是否不利於促進跨模態對齊。爲此,研究者們提出了 MoCa,一個可插拔輕量級的可學習模塊,來促進跨模態對齊。簡單來說,即對於每一層的視覺 token 特徵單獨進行一個可學習的縮放和偏移:

其中縮放向量 u 初始化爲全一向量,偏移向量 v 初始化爲全 0 向量,兩者隨着模型一起訓練,但是基本不增加額外參數量。

實驗探究

研究者們首先展示了 MIR 在在擴大預訓練數據規模時衡量預訓練質量的有效性。這裡採用兩種預訓練策略:1) 僅訓練 MLP 投影模塊;2) 解鎖視覺編碼器後半部分和整個 LLM。在第一種策略下,SFT 後的性能在 800K∼1M 數據規模時逐漸改善但趨於飽和。而在使用第二種策略時,即使在 1.8M 數據規模下,性能仍持續顯著提升。該結果說明了了 MIR 在擴大預訓練數據時的有效性,也說明了適當地放開視覺編碼器或 LLM 在大規模數據上有持續改善預訓練的效果。

研究者們也探究了 MIR 在超參數調整、預訓練策略選擇上的有效性。在超參數調整方面,研究者們發現 MIR 與 SFT 後下遊測試基準性能之間存在正相關,這說明 MIR 直接反映不同訓練超參數對於在預訓練質量的影響,以後對照 MIR 就可以實現預訓練調參煉丹!

在訓練策略方面,研究者們探討了 MIR 如何指導選擇有效的預訓練放開策略。結果顯示,放開 LLM 顯著降低了 MIR,且顯著增強下游基準上的表現。

同時,MIR 也可以幫助選擇一些有利於跨模態對齊的模塊設計。如下圖所示,當使用不同的視覺語言投影模塊結構時,MIR 可以很準確的對應到 SFT 之後的測試基準性能。

同樣,所提出的可學習模態校準 MoCa 也可以有效幫助不同模型在下游測試基準上漲點,並取得更低的 MIR。

本文仍有較多其他方面的實驗和探索,有興趣的同學可以參考原文!

參考文獻:

[1] Xiao et al. Efficient Streaming Language Models with Attention Sinks. ICLR, 2024.

[2] Sun et al. Massive Activations in Large Language Models. COLM, 2024.