☰

MiniMax低調發布首款文生視頻模型

8月31日，MiniMax低調發布首款視頻生成大模型，同時發佈一條由MiniMax大模型生成的2分鐘視頻《魔法硬幣》。

值得注意的是，目前MiniMax並未公佈模型的具體參數和技術要點。當天，MiniMax創始人閆俊傑在接受界面新聞等媒體羣訪時表示，“我們確實在視頻模型生成方面取得很大的進展，根據內部評測以及跑分，我們比Runway的（生成視頻）效果更好。”

據其透露，目前的視頻生成模型只是第一版，很快會有新版本，後續還會在數據、算法本身、使用細節等方面繼續迭代，現在只提供文生視頻。未來圖生視頻、文+圖生成視頻都會陸續出來。

“我們的策略先再等一兩週，等新東西到達滿意狀態後，可能會考慮商業化。”閆俊傑進一步表示。

目前，MiniMax的商業化由兩部分組成，開放平臺有兩千多家客戶。其次，該公司的產品中也有廣告機制。“現階段，最重要的東西不是商業化，而是技術能夠到達廣泛可用的程度。”閆俊傑說。

然而，相較於快手可靈，MiniMax推出視頻生成模型在時間上晚了一兩個月。

閆俊傑解釋，這期間，團隊一直在解決更難的技術問題——如何訓練算力較高的內容。難度在訓練視頻生成能力，需要先把視頻變成token，這些token非常長，越長複雜度越高。最終，MiniMax團隊通過算法不斷降低複雜度，壓縮率變得更高，因此發佈時間晚了一兩個月。

但他也表示，不管是視頻、文本、聲音，MiniMax團隊的核心研發思路不在於找一個算法提升5%、10%的路徑，“如果能提升幾倍就一定要做出來，只提升5%就不太值得做。”

談及爲何一定要做文生視頻，閆俊傑認爲，本質在於人類每天消費的大部分內容是圖文和視頻，文字佔比不高。爲了有更高的用戶覆蓋度和使用度，唯一的辦法是輸出多模態內容，而不是單純輸出文字內容，一定要做多模態，這個路線是一以貫之的。

視頻生成大模型存在一定難度。閆俊傑解釋稱，視頻的工作複雜度比做文本更難，視頻的上下文文本天然很長，處理難度大。

其次，視頻量很大，例如5秒視頻有幾兆，100個字可能都不到1K，背後是幾千倍的存儲差距。

生成視頻模型的挑戰在於，之前基於文本建的這套底層基礎設施不適用於視頻生成，例如怎麼處理、清洗以及標註數據，這就意味着基礎設施也需要升級。

在當天的發佈會上，閆俊傑着重提及“快”。他認爲，長期看，進步越快的東西就越好。不管是做MOE還是Linear attention，還是其他探索，本質上還是讓同樣的效果模型變得更快。閆俊傑指出：“快才意味着同樣的算力（訓練內容）可以變得更好。”

當天，MiniMax開放平臺負責人魏偉業在活動中表示，當前，大模型的效果、成本和多模態還面臨挑戰。

第一，大模型有不可避免的幻覺，也會因爲對指令遵從和語言理解能力不足，導致輸出不符合預期，因此要堅持做更高、更快、更強的模型。

第二，去年到今年上半年，成本是制約很多企業用不起大模型的原因。

今年五月以來，大模型領域掀起價格戰，API一路降至“白菜價”。魏偉認爲，低成本能夠激發出更多應用場景的出現，未來API成本會再進一步降級。

第三，多模態會觸發出更多的應用場景，比如文本和語音的結合，能夠讓大模型更好地識別和表達情緒。語音和視頻的結合，能夠生成帶配音的短視頻和廣告片段。

當前，大模型領域存在很多非共識：到底要做toB（企業）還是toC（用戶）？國內市場還是做海外市場，Scaling Law（規模法則）能否延續？針對這些行業內普遍的問題，閆俊傑直言：儘管有很多挑戰，我們屬於最樂觀的公司，對技術進步、用戶、產品迭代效率都充滿樂觀。

相關資訊