火山引擎發佈大模型訓練視頻預處理方案 已應用於豆包

10月15日消息,火山引擎在視頻雲技術大會上發佈了大模型訓練視頻預處理方案。目前,該技術方案已應用於豆包視頻生成模型。

火山引擎總裁譚待在活動致辭表示,在AIGC、多模態等技術的共同推動下,用戶體驗在多個維度上經歷着深刻轉變,“基於抖音業務實踐和與行業客戶共創,火山引擎視頻雲正積極探索AI大模型與視頻技術的深度融合,在技術底座、處理鏈路和業務增長層面爲企業尋找解法。”譚待說。

據介紹,對訓練視頻進行預處理是保障大模型訓練效果的重要前提。預處理過程可以統一視頻的數據格式、提高數據質量、實現數據標準化、減少數據量以及處理標註信息,從而使模型能更高效地學習視頻中的特徵和知識,提升訓練效果和效率。

抖音集團視頻架構負責人王悅表示,對大模型廠商而言,上述過程中面臨着諸多挑戰。

“首先,超大規模視頻訓練數據集導致計算和處理成本激增,”王悅說,“其次是視頻樣本數據參差不齊,然後是處理鏈路環節多、工程複雜,最後還面臨着對GPU、CPU、ARM等多種異構算力資源的調度部署。”

藉助Intel的CPU、GPU等不同資源,火山引擎此次發佈的大模型訓練視頻預處理方案依託於自研的多媒體處理框架BMF,能有效應對模型訓練的算力成本挑戰。此外,該方案還在算法和工程方面進行了調優,可以對海量視頻數據高質量預處理,短時間內實現處理鏈路的高效協同,提高模型訓練效率。值得一提的是,火山引擎本次還發布並開源了移動端後處理解決方案BMF lite版本。BMF lite支持端側大模型接入和算子加速,更加輕量、通用。

據瞭解,豆包視頻生成模型PixelDance於9月24日發佈,該模型採用 DiT 架構,通過高效的DiT融合計算單元和全新設計的擴散模型訓練方法,突破了多主體運動的複雜交互、多鏡頭切換的內容一致性難題。目前,豆包視頻生成模型已通過火山引擎面向企業開啓邀測。(定西)