重新定義自監督學習!LeCun團隊讓MMCR再進一步

新智元報道

編輯:alan

【新智元導讀】近日,來自斯坦福、MIT、紐約大學和Meta-FAIR等機構的研究人員,通過新的研究重新定義了最大流形容量表示法(MMCR)的可能性。

多視圖自監督學習(MVSSL,或稱爲聯合嵌入自監督學習)是一種強大的無監督學習方法。它首先創建無監督數據的多個轉換或視圖,然後以類似監督的方式使用這些視圖來學習有用的表示。

實現MVSSL的具體方法有很多,但大致可以分爲四類:對比、聚類、蒸餾/動量、冗餘減少。

在這衆多的方法中,最大流形容量表示(Maximum Manifold Capacity Representation,MMCR)是與衆不同的一類。

MMCR不明確使用對比,不執行聚類,不利用蒸餾,也不明確減少冗餘,但效果卻可以媲美甚至超越其他領先的MVSSL方法。

而來自斯坦福、MIT、紐約大學和Meta-FAIR等機構的研究人員,正在通過新的研究重新定義這個框架的可能性。

論文地址:https://arxiv.org/pdf/2406.09366

作爲論文作者之一,LeCun也發推表達了自己的觀點:

信息最大化維度對比方法的核心思想,是推動編碼器學習輸入的表示,使其儘可能充分地利用表示空間,就像在有限的畫布上儘可能展現豐富的細節。

爲了更好地理解MMCR,研究人員利用高維概率工具證明了,MMCR可以激勵學習嵌入的對齊和均勻性。

同時,這種嵌入最大化了視圖之間的互信息的下界,從而將MMCR的幾何視角與MVSSL中的信息論視角聯繫起來。

爲了更好地利用MMCR,研究人員對預訓練損失的非單調變化進行數學預測和實驗確認,發現了類似於雙下降的行爲。

此外,研究人員還發現了計算上的scaling law,可以將預訓練損失預測爲梯度步長、批量大小、嵌入維度和視圖數量的函數。

最終,作者證明了這個最初應用於圖像數據的MMCR方法,在多模態圖像文本數據上同樣表現優異。

MMCR

MMCR由紐約大學數據科學中心(NYU Center for Data Science,CDS)的研究人員於2023年提出。

該方法源於神經科學中的有效編碼假說:生物感覺系統通過使感覺表徵適應輸入信號的統計數據來優化,例如減少冗餘或維度。

最初的MMCR框架通過調整「流形容量」(衡量給定表示空間內可以線性分離的對象類別數量的指標)將這一想法從神經科學擴展到了人工神經網絡。

許多MVSSL方法要麼明確源自信息論,要麼可以從信息論的角度來理解,但MMCR不同。

MMCR指出估計高維互信息已被證明是困難的,且逼近互信息可能不會改善表示。MMCR的基礎在於數據流形線性可分性的統計力學表徵。

不過LeCun等人的這篇工作,將MMCR的幾何基礎與信息論原理聯繫起來,探索了MMCR的更深層次機制,並將其應用擴展到了多模態數據,例如圖像文本對。

理論基礎

MMCR源自有關線性二元分類器性能的經典結果。考慮D維度中的P點(數據),具有任意分配的二進制類標籤;線性二元分類器能夠成功對點進行分類的概率是多少?

統計力學計算表明,在熱力學極限下,容量α= 2時會發生相變。MMCR將此結果從點擴展到流形:

最小化MMCR損失意味着最大化平均矩陣的核範數。

直觀上,完美重建意味着同一數據的所有視圖都被網絡映射到相同的嵌入,完美均勻性意味着嵌入均勻分佈在超球面周圍。

具有完美重建和完美均勻性的嵌入實現了儘可能低的MMCR損失

基於對MMCR嵌入分佈的新認識,我們如何將MMCR的統計力學幾何觀點與信息論觀點聯繫起來?

答案是,MMCR激勵表示的最大化,對應於同一數據的兩個視圖的兩個嵌入共享的互信息的下限。

考慮某些輸入數據兩個不同視圖的嵌入之間的互信息。兩個視圖之間的互信息必須至少與兩項之和一樣大:一個嵌入重建另一個的能力,再加上嵌入的熵:

MMCR的雙下降

通過高維概率分析可知,預測最大流形容量表示的預訓練損失,也應該在其預訓練損失中表現出非單調雙下降樣行爲。

(雙下降:測試損失作爲數據總數和模型參數數量的函數表現出非單調變化 )。

然而,本文的分析也表明,這種類似雙下降的行爲應該發生在非典型參數(流形的數量P和維數D)上,而不是數據的數量和模型的參數量。

具體來說,理論預測最高的預訓練誤差應該恰好發生在閾值P = D處,預訓練誤差落在閾值的兩側。

爲了比較不同超參數對的點數P和數據維度D之間的損失,這裡使用MMCR預訓練界限來定義預訓練百分比誤差:

研究人員在STL-10上預訓練了ResNet-18,STL-10是一個與CIFAR-10類似的數據集,但分辨率更高 (96x96x3),並且包含100000張圖像的附加未標記分割。

掃描範圍P:{64, 128, 256, 512, 1024} × D:{64, 128, 256, 512, 1024} × K:{2, 4, 8}(K爲視圖數),結果如上圖所示。

Compute Scaling Laws

在許多MVSSL方法中,更改超參數通常會導致預訓練損失不相稱,從而使運行之間的比較變得困難。

然而,MMCR預訓練百分比誤差產生的數量介於0和1之間,因此可以將不同超參數(P和D)時的訓練情況放在一起比較。

執行這樣的比較會產生有趣的經驗現象:計算MMCR預訓練百分比誤差中的神經縮放定律。

通過繪製在STL-10上預訓練的ResNet-18網絡,我們可以清楚地看到預訓練百分比誤差的冪律縮放與所有點數P 、嵌入維度D和視圖數量K的計算量的關係。

一個關鍵細節是這些神經縮放曲線突出了類似雙下降的行爲:對角線子圖(P = D時)具有較高的預訓練百分比誤差和較小的預訓練百分比斜率。

MMCR與多模態

考慮OpenAI的對比語言圖像預訓練模型CLIP的設置,兩個不同的網絡在圖像文本標題對上進行預訓練,從兩個不同的數據域X和Y獲取數據。

X和Y是配對的,使得X中的每個示例在Y中都有對應的正對,反之亦然。從MMCR角度來看,X和Y可以理解爲同一底層對象的兩個視圖。

因此,最優變換嵌入f(X)和g(Y)應映射到同一空間,並且我們可以利用對MMCR的改進理解來訓練這些最優網絡。

與常見的MVSSL不同,這裡的X和Y在實踐中可能代表極其不同的分佈。

在上圖的圖像-文本對齊實驗中,作者將多模態MMCR應用於DataComp-Small,並將零樣本Imagenet性能與標準CLIP目標進行比較。

可以發現,多模態MMCR在小批量(< 512)下表現優於CLIP。

參考資料:

https://x.com/ylecun/status/1834666512856031537