新視角設計下一代時序基礎模型,Salesforce推出Moirai-MoE
本文由 Salesforce、新加坡國立大學、香港科技大學(廣州)共同完成。其中,第一作者柳旭是 Salesforce 亞洲研究院實習生、新加坡國立大學計算機學院四年級博士生。通訊作者劉成昊是 Salesforce 亞洲研究院高級科學家。該工作的短文版本已被 NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收。
時間序列預測是人類理解物理世界變化的重要一環。自去年底以來,時序預測領域正在經歷重大轉型,從傳統的「單一數據集訓練單一模型」的模式逐步轉向「通用預測基礎模型」。目前雖然有不少基礎模型已經提出,但如何有效地在高度多樣化的時序數據上訓練基礎模型仍是一個開放問題。
近期,來自 Salesforce、新加坡國立大學、香港科技大學(廣州)的研究者以模型專家化這一全新視角作爲抓手,設計並提出了下一代時序預測基礎模型 Moirai-MoE。該模型將模型專業化設計在 token 這一細粒度運行,並且以完全自動的數據驅動模式對其賦能。模型性能方面,不同於僅在少量數據集上進行評估的已有時序基礎模型,Moirai-MoE 在一共 39 個數據集上進行了廣泛評估,充分驗證了其優越性。
研究動機
訓練通用基礎模型的一大挑戰在於適應時間序列數據的高度異質性,這種時序數據的獨特特性凸顯了設計專業化模塊的必要性。現有的解決方案主要分爲兩種。第一種是通過基於語言的提示來識別數據源,從而實現非常粗粒度的數據集級別模型專業化。第二種方案利用了時序數據的頻率這一元特徵實現了更細粒度的專業化:該方法爲特定頻率設計單獨的輸入 / 輸出投影層,從而實現特定頻率的模型專業化。
作者認爲,這種人爲強加的頻率級專業化缺乏普適性,並引入了一些侷限性。(1)頻率並不總是一個可靠的指標,無法有效地捕捉時序數據的真實結構。如下圖所示,具有不同頻率的時間序列可以表現出相似的模式,而具有相同頻率的時間序列可能顯示出多樣且不相關的模式。這種人爲強加的頻率和模式之間的不匹配削弱了模型專業化的有效性,從而導致性能下降。(2)現實世界的時間序列本質上是非平穩的,即使在單個時間序列的短窗口內也會顯示出不同的分佈。顯然,頻率級專業化的粒度無法捕捉這種程度的多樣性,這凸顯了對更細粒度的建模方法的需求。
爲了解決上述問題,作者提出了全新的時間序列統一訓練解決方案 Moirai-MoE,其核心思想是利用單個輸入 / 輸出投影層,同時將各種時間序列模式的建模委託給 Transformer 層中的稀疏混合專家。通過這些設計,Moirai-MoE 的專業化以數據驅動的方式實現,並在 token 級別運行。
基於稀疏混合專家的時序基礎模型
Moirai-MoE 構建在它的前序工作 Moirai 之上。雖然 Moirai-MoE 繼承了 Moirai 的許多優點,但其主要改進在於:Moirai-MoE 不使用多個啓發式定義的輸入 / 輸出投影層來對具有不同頻率的時間序列進行建模,而是使用單個輸入 / 輸出投影層,同時將捕獲不同時間序列模式的任務委託給 Transformer 中的稀疏混合專家。此外,Moirai-MoE 提出了一種新型的利用預訓練模型中知識的門控函數,並採用自迴歸的訓練目標來提高訓練效率。下面簡要介紹 Moirai-MoE 的模塊。
1. 時序 Token 構造
Moirai-MoE 採用切塊(patching)技術將時間序列輸入切成沒有重疊的小塊,而後對小塊進行標準化來緩解分佈遷移的問題。爲了在自迴歸模型中獲取準確、魯棒的標準化統計值,作者引入掩蔽率 r 作爲超參數,它指定整個序列中專門用於正則化器計算的部分,不對這些 patch 計算預測損失。最後,一個輸入投影層來負責把 patch 投影到和 Transformer 一樣的維度,生成時序 token。
2. 稀疏混合專家 Transformer
通過用 MoE 層替換 Transformer 的每個 FFN 來建立專家混合層。該 MoE 層由 M 個專家網絡和一個門控函數 G 組成。每個 token 只激活一個專家子集,從而允許專家專注於不同模式的時間序列數據並確保計算效率。在 Moirai-MoE 中,作者探索了不同的門控函數。首先使用的是最流行的線性投影門控函數,它通過一個線性層來生成專家子集的分配結果。此外,作者提出了一種新的門控機制,利用從預訓練模型的 token 表示中得出的聚類中心來指導專家分配。這一方法的動機是,與隨機初始化的線性投影層相比,預訓練 token 表示的聚類更接近數據的真實分佈,可以更有效地實現模型專業化。
3. 訓練目標
爲了同時支持點預測和概率預測兩種預測模式,Moirai-MoE 的訓練目標設定爲優化未來混合分佈的對數似然函數。
實驗效果
作者在 39 個數據集上的進行了廣泛測試評估來驗證 Moirai-MoE 的有效性。
上圖展示了在 Monash 基準中 29 個數據集上進行的分佈內預測評估。結果表明,Moirai-MoE 擊敗了所有競爭對手。相比前序工作 Moirai,Moirai-MoE 的提升幅度達到了 19%。與 Moirai 無法超越的基礎模型 Chronos 相比,Moirai-MoE 成功彌補了差距,並相比它少 65 倍激活參數,這帶來了巨大的推理速度的優勢。
上表展示了在零樣本預測設定時,Moirai-MoE 在 10 個數據集上的點預測和概率預測的表現。Moirai-MoE-Base 取得了最佳的零樣本性能,甚至超越了 Google 的 TimesFM 和 Amazon 的 Chronos(他們在預訓練語料庫中已包含了部分評估數據,因此存在數據泄露)。與所有規模的 Moirai 相比,Moirai-MoE-Small 在 CRPS 方面提高了 3%-14%,在 MASE 方面提高了 8%-16%。考慮到 Moirai-MoE-Small 只有 11M 激活參數(比 Moirai-Large 少 28 倍),這些進步是非常顯著的。
在這篇研究中,作者還對時序 MoE 基礎模型的內部工作機制進行了首次探索。上圖是對 Moirai-MoE 的專家分配分佈進行的可視化。基於此,作者總結了以下觀點:
1. 在淺層中,不同頻率的數據在專家選擇的分佈上呈現多樣化。隨着層數的加深,模型將重點轉移到更通用的時間依賴性,例如更廣泛的趨勢和長期模式,這些依賴性可以在不同頻率之間共享。到最後一層(第 6 層),專家分配在所有頻率上變得幾乎相同,表明模型已將時間序列抽象爲與頻率基本無關的高級表示。這一證據表明 Moirai-MoE 學習到了頻率不變的隱層表示,這對於模型泛化至關重要。
2. 隨着層數增加專家選擇逐漸收斂的行爲與 Large Language Models 中觀察到的模式完全相反。這種分歧可能源於時間序列 token 的動態和噪聲特性,它們是由小時間窗口生成的,不像從固定詞彙表中派生的語言 token。研究結果表明,隨着層數增加,模型實際上是在進行逐步去噪過程。這一觀察結果與 GPT4TS 的結論一致:隨着層深度增加,token 會被投影到輸入的低維頂部特徵向量空間中。
更多實驗結果,可參考原論文。