Sora之後,蘋果視頻生成大模型STIV,87億參數一統T2V、TI2V任務

Apple MM1Team 再發新作,這次是蘋果視頻生成大模型,關於模型架構、訓練和數據的全面報告,87 億參數、支持多模態條件、VBench 超 PIKA,KLING,GEN-3。

OpenAI 的 Sora 公佈了一天之後,在一篇由多位作者署名的論文《STIV: Scalable Text and Image Conditioned Video Generation》中,蘋果正式公佈自家的多模態大模型研究成果 —— 這是一個具有高達 8.7B 參數的支持文本、圖像條件的視頻生成模型。

近年來,視頻生成領域取得了顯著進展,尤其是基於 Diffusion Transformer (DiT) 架構的視頻生成模型 Sora 的推出。儘管研究者已在如何將文本及其他條件融入 DiT 架構方面進行了廣泛探索,如 PixArt-Alpha 使用跨注意力機制,SD3 將文本與噪聲塊拼接並通過 MMDiT 模塊應用自注意力等,但純文本驅動的視頻生成(T2V)在生成連貫、真實視頻方面仍面臨挑戰。爲此,文本 - 圖像到視頻(TI2V)任務被提出,通過加入初始圖像幀作爲參考,提供了更具約束性的生成基礎。

當前主要挑戰在於如何將圖像條件高效地融入 DiT 架構,同時在模型穩定性和大規模訓練效率方面仍需創新。爲解決這些問題,我們提出了一個全面、透明的白皮書,涵蓋了模型結構,訓練策略,數據和下游應用,統一了T2V和TI2V任務。

基於以上問題,該工作的貢獻與亮點主要集中在:

該研究不僅提升了視頻生成質量,還爲視頻生成模型在未來多種應用場景中的推廣奠定了堅實基礎。

構建 STIV 的配方解析

基礎模型架構

STIV 基於 PixArt-Alpha 架構,通過凍結的變分自編碼器(VAE)將輸入幀轉換爲時空潛變量,並使用可學習的 DiT 塊進行處理。文本輸入由 T5 分詞器和內部訓練的 CLIP 文本編碼器處理。此外,該研究還對架構進行了以下優化:

模型擴展與訓練優化

融合圖像條件的方法

簡單的幀替換方法

在訓練過程中,我們將第一個幀的噪聲潛變量替換爲圖像條件的無噪聲潛變量,然後將這些潛變量傳遞到 STIV 模塊中,並屏蔽掉被替換幀的損失。在推理階段,我們在每次 擴散步驟中使用原始圖像條件的無噪聲潛變量作爲第一個幀的潛變量。

幀替換策略爲 STIV 的多種應用擴展提供了靈活性。例如,當 c_I (condition of image)=∅ 時,模型默認執行文本到視頻(T2V)生成。而當 c_I 爲初始幀時,模型則轉換爲典型的文本-圖像到視頻(TI2V)生成。此外,如果提供多個幀作爲 c_I,即使沒有 c_T (condition of text),也可以用於視頻預測。同時,如果將首尾幀作爲 c_I提供,模型可以學習幀插值,並生成首尾幀之間的中間幀。進一步結合 T2V 和幀插值,還可以生成長時視頻:T2V 用於生成關鍵幀,而幀插值則填補每對連續關鍵幀之間的中間幀。最終,通過隨機選擇適當的條件策略,可以訓練出一個能夠執行所有任務的統一模型。

圖像條件隨機丟棄

如前所述,幀替換策略爲訓練不同類型的模型提供了高度靈活性。我們在此展示其具體應用,即同時訓練模型以執行文本到視頻(T2V)和文本 - 圖像到視頻(TI2V)任務。在訓練過程中,我們隨機丟棄圖像條件 cI 和文本條件 cT,類似於 T2V 模型中僅對文本條件隨機丟棄的方式。

聯合圖像 - 文本無分類器引導(JIT-CFG)

無分類器引導(Classifier-Free Guidance, CFG)在文本到圖像生成中表現出色,可以通過將概率質量引導到高似然區域來顯著提升生成質量。在此基礎上,我們提出了聯合圖像 - 文本無分類器引導(JIT-CFG),同時利用文本和圖像條件進行引導,其速度估計公式爲:

其中 s 爲引導比例。當 c_I=∅ 時,該方法退化爲標準的 T2V 無分類器引導。儘管可以像 InstructPix2Pix 所述引入兩個獨立的引導比例,以平衡圖像和文本條件的強度,我們發現兩步推理方法已經能夠取得優異效果。此外,使用兩個引導比例會增加一次前向傳遞,從而提高推理成本。

實驗證明圖像條件隨機丟棄結合 JIT-CFG 不僅能自然地實現多任務訓練,還有效解決了高分辨率視頻生成模型訓練的 “靜止” 問題。我們推測,圖像條件隨機丟棄可以防止模型過度依賴圖像條件,從而更好地捕捉視頻訓練數據中的運動信息。

漸進式訓練策略

我們採用漸進式訓練策略,其流程如圖 4 所示。首先訓練一個文本到圖像(T2I)模型,用以初始化文本到視頻(T2V)模型;隨後,T2V 模型用於初始化 STIV 模型。爲快速適應高分辨率和長時訓練,我們在空間和時間維度中加入了插值的 RoPE 嵌入,並利用低分辨率、短時長模型的權重進行初始化。值得注意的是,高分辨率 T2V 模型同時結合了高分辨率 T2I 模型和低分辨率 T2V 模型的權重進行初始化。

數據

視頻預處理和特徵提取細節

爲了確保高質量的輸入數據,我們首先解決了原始視頻中不一致的動作以及諸如切換和漸變之類的不必要過渡問題。利用 PySceneDetect,我們對視頻幀進行分析,識別並分割出包含突兀過渡或漸變的場景。這一過程剔除了不一致的片段,確保視頻片段在視覺上保持一致性,從而減少僞影並提升整體質量。隨後,我們提取了一系列初始特徵用於後續篩選,包括運動分數、美學分數、文本區域、幀高度、幀寬度、清晰度分數、時間一致性以及視頻方向等。

視頻字幕生成與分類細節

視頻 - 文本對在訓練文本到視頻生成模型中起着至關重要的作用。然而,許多視頻數據集缺乏高質量的對齊字幕,並且通常包含噪聲或不相關內容。爲此,我們在數據處理流程中引入了一個額外的視頻字幕生成模塊,用於生成全面的文本描述。

我們主要探索了兩種方向:(1) 抽樣少量幀,應用圖像字幕生成器生成字幕後,再使用大型語言模型(LLM)對生成的字幕進行總結;(2) 直接使用視頻專用的 LLM 生成字幕。

在初步嘗試了第一種方法後,我們發現兩個主要侷限性:一是圖像字幕生成器只能捕捉單幀的視覺細節,導致缺乏對視頻動作的描述;二是 LLM 在基於多幀字幕生成密集描述時可能會出現虛構現象(hallucination)。

近期研究使用 GPT 家族模型創建微調數據集並訓練視頻 LLM。爲了在大規模字幕生成中平衡質量和成本,我們選擇了一種高效的視頻字幕生成器。隨後,我們使用 LLM 對生成的字幕進行分類,並統計視頻的類別分佈。

DSG-Video: 虛構檢測評估

爲了比較不同字幕生成技術,我們開發了一個評估模塊,用於評估字幕的豐富度和準確性。

我們通過測量字幕中提及的唯一對象的多樣性來量化字幕的豐富度,並通過檢測虛構對象來評估準確性。

受文本到圖像評估方法的啓發,我們提出了 DSG-Video,用於驗證字幕中提到的對象是否真實出現在視頻內容中。

1. 首先,我們利用 LLM 自動生成針對字幕關鍵細節的問題,例如對象的身份、動作和上下文。

舉例來說,給定一段提到 “沙發上坐着一隻貓” 的字幕,LLM 會生成問題,比如 “視頻中是否有一隻貓?” 以及 “貓是否在沙發上?”

2. 然後,我們使用多模態 LLM 回答這些對象驗證問題,通過評估視頻中多個均勻採樣幀的每個參考對象的存在情況。

對於每個生成的問題(例如,“該幀中是否有貓?”),多模態 LLM 檢查每個採樣幀並提供響應。如果對於某個問題,所有幀的響應都表明對象不存在,則我們將其分類爲虛構對象。

這一方法確保了對視頻中每個對象的逐幀驗證。基於此,我們定義了兩個評估指標:

結果

基於上述研究,我們將 T2V 和 STIV 模型從 600M 參數擴展到 8.7B。

主要結果展示在表格中,與最新的開源和閉源模型對比後,證明了我們方法的有效性。具體而言,我們基於 Panda-70M 數據集中的 20,000 條經過篩選的視頻,使用預訓練的視頻生成模型進行了微調(SFT)。在預訓練階段採用了 MaskDiT 技術後,我們嘗試對模型進行無掩碼方式的微調(UnmaskSFT)。此外,我們還對 STIV 模型進行了時間插值微調,以提升生成視頻的運動平滑度(+TUP)。

T2V 性能

表格列出了不同 T2V 模型在 VBench 上的對比結果,包括 VBench-Quality、VBench-Semantic 和 VBench-Total 分數。分析表明,擴展 T2V 模型的參數能夠提升語義理解能力。具體來說,當模型從 XL 增加到 XXL 和 M 時(三種模型尺度),VBench-Semantic 分數從 72.5 提升到 72.7,最終達到 74.8。這表明更大的模型在捕獲語義信息方面表現更好。然而,對於視頻質量的影響相對有限,VBench-Quality 僅從 80.7 提升至 82.1。這一發現表明,模型參數擴展對語義能力的提升大於對視頻質量的影響。此外,將空間分辨率從 256 提升到 512 時,VBench-Semantic 分數顯著提高,從 74.8 上升到 77.0。

SFT 的影響

通過高質量的 SFT 數據微調模型,可以顯著提升 VBench-Quality 分數,從 82.2 提升到 83.9。在無掩碼條件下對模型進行微調時,語義分數略有提升。我們的最佳模型實現了 79.5 的 VBench-Semantic 分數,超越了 KLING、PIKA 和 Gen-3 等領先的閉源模型。結合時間插值技術後,我們的模型在質量評分方面超越了所有其他模型,達到了最新的行業標準。

TI2V 性能

如表中所示,我們的模型在與最新方法的對比中表現出色。分析表明,儘管模型參數擴展提升了 I2V 分數,但對質量的影響較小。相比之下,提高分辨率能夠顯著改善質量和 I2V 分數。這一趨勢表明,分辨率的提高對於提升多任務生成能力尤爲關鍵。完整的分解維度結果見文章附錄。

應用

視頻預測

我們從 STIV-XXL 模型出發,訓練一個以前四幀爲條件的文本 - 視頻到視頻模型(STIV-V2V)。實驗結果表明,在 MSRVTT 測試集和 MovieGen Bench 上,視頻到視頻模型的 FVD 分數顯著低於文本到視頻模型。這表明視頻到視頻模型在生成高保真和一致性視頻幀方面表現出色,尤其適用於自動駕駛和嵌入式 AI 等需要高質量生成的領域。

幀插值

我們提出了 STIV-TUP,一個時間插值模型,以 STIV-XL 爲初始模型,並在具有時間間隔的連續幀上進行訓練,同時添加文本條件。實驗表明,STIV 可以在文本和圖像條件下進行高質量的幀插值,並且在 MSRVTT 測試集中,使用文本條件稍微優於其他條件。此外,我們將時間插值器與主模型級聯,發現這種方法能夠提升生成質量,同時保持其他指標穩定。

多視角生成

多視角生成旨在從給定的輸入圖像創建新視角。這項任務對視角一致性要求較高,依賴於良好預訓練的視頻生成模型。通過將視頻生成模型適配爲多視角生成,我們可以驗證預訓練是否有效捕獲了 3D 信息,從而提升生成效果。

我們使用某些新視角相機的定義,並以初始幀爲給定圖像,預測接下來的新視角幀。通過訓練一個 TI2V 模型並調整分辨率和訓練步數,我們實現了與現有方法相當的表現,同時驗證了我們的時空注意力機制在保持 3D 一致性方面的有效性。

長視頻生成

我們開發了一種高效生成長視頻的分層框架,包括兩種模式的訓練:(1) 關鍵幀預測,學習以較大時間間隔採樣的幀;(2) 插值幀生成,通過學習連續幀,並將首尾幀作爲條件。在採樣階段,首先使用關鍵幀預測模式生成關鍵幀,再通過插值模式生成中間幀,從而實現長視頻生成。

更多關於模型結構、圖像條件融合方法,訓練策略的各種消融實驗以及其他研究細節,請參考原論文。