☰

MiniMax閆俊傑：大模型快就是好可有時候慢是爲了更快

本報記者李玉洋上海報道

大模型是拼速度的領域，但有時候慢可能是另一種快。

8月31日，國內AI獨角獸企業MiniMax上海稀宇科技有限公司（以下簡稱“MiniMax”）在首屆開發者大會“MiniMaxLink夥伴日”上低調發布視頻模型abab-video-1，輸入提示詞就可生成時長最高6秒的視頻，主打高分辨率、高幀率。

換個說法，MiniMax所說的視頻模型類似於OpenAI的Sora這種文生視頻模型。作爲MiniMax的創始人兼首席執行官，閆俊傑認爲“快”是該公司底層大模型的核心技術研發目標，不過，該視頻模型晚了Sora好幾個月。

“爲什麼我們的推出要晚一兩個月？核心是我們在解決一個更難的技術問題，即如何能原生訓練算力比較高的東西。”閆俊傑對《中國經營報》記者表示，在訓練視頻生成能力時，需要先把視頻轉化爲一個個token（令牌），而這些token會非常長，隨之複雜度就越高，“我們其實上半年主要乾的事是把複雜度降低一些，把壓縮率變得更高，所以晚了一兩個月”。

MiniMax介紹，根據內部評測以及跑分，該公司的視頻模型比Runway的效果更好。目前，可靈已推出會員訂閱計劃的商業化模式。那麼，MiniMax視頻模型的商業模式會如何？對此，閆俊傑表示：“我們的策略先再等一兩週，新的東西出來之後，到了一個更加滿意的狀態後，可能會考慮（採取）一些商業化（舉措）。”

他還提到，由於模型進步速度很快，AI生成視頻儘管還不能替代傳統的渲染引擎，但爲創造出《黑神話：悟空》這樣的3A遊戲，“至少能提供一種可能性”。

到更加滿意狀態才考慮商業化

儘管未提及視頻模型的商業化路徑，但閆俊傑表示：“整個公司的商業化基本上分成兩個形式，一個形式是我們的開放平臺，現在已經有2000多家的客戶，包括很多知名的互聯網公司，也包括傳統的企業。這裡面本來就有用戶使用聲音和視覺的能力，不是所有的公司都像快手一樣可以自己做，我們是一個很好的合作伙伴，這是2B部分。”

“第二個是我們自己的產品裡也有廣告的機制，廣告可以做商業化的變現。”閆俊傑認爲在目前的階段，“最重要的東西還不是商業化，而是真正地讓技術達到廣泛可用的程度。”

技術相對複雜的AI生成視頻（視頻模型），成爲今年大模型廠商的展示實力或“秀肌肉”的一個慣常操作，OpenAI開了這個頭。今年2月，OpenAI發佈視頻大模型Sora，但跳票至今未公測。4月，生數科技發佈視頻大模型Vidu；6月，快手發佈視頻大模型可靈；7月，智譜AI生成視頻模型清影正式上線……

MiniMax出於什麼考慮要做視頻模型？閆俊傑表示，本質在於人類每天消費的大部分內容是圖文和視頻，文字佔比不高，“爲了能夠有非常高的用戶覆蓋度，以及更高的使用深度，作爲大模型廠商，唯一的辦法是能夠輸出多模態的內容，而不是隻輸出單純的基於文字的內容，這是一個非常核心的判斷”。

他進一步提到：“只是在之前我們先做出來文字，又做出來聲音，很早前做出來了圖片，現在技術變得更強，（可以）把視頻也做出來。這個路線是一以貫之的，一定要能做多模態。”之前MiniMax做出大語言模型，又做聲音模型，接着是圖片模型，“只是現在技術變得更強，把視頻也做出來。這個路線是一以貫之的，一定要能夠做多模態”。

在AI算法工程師張昱軒看來，雖然MiniMax並未公佈視頻模型的具體參數和技術要點，但從所展示的模型生成視頻中可以看出公司的算法還是很強的，而快手的可靈相對來說工程技術更好。

而閆俊傑對記者表示：“不管是視頻、文本、聲音，MiniMax團隊的核心研發思路不在於要讓算法提升5%、10%，比較重要的是能否提升幾倍，如果能提升幾倍就一定要做出來，只提升5%就不太值得做。”

據瞭解，MiniMax的視頻模型目前只是第一版，將先免費提供給用戶使用一段時間，很快會有新版本。“後續會在數據、算法本身，包括更加方便使用的細節，比如現在只提供了文生視頻，未來圖生視頻、文+圖生成視頻，以及可編輯、可控性都會陸續出來。”閆俊傑說。

《黑神話：悟空》的熱度依舊，AI又在遊戲中創造了新玩法。日前，谷歌在一篇論文中指出，他們打造出了首個完全AI驅動的實時遊戲引擎——GameNGen，能以每秒20幀實時生成經典射擊遊戲《毀滅戰士》的遊戲畫面，所有遊戲畫面都是根據玩家操作，與複雜環境進行交互而實時生成，每一幀都由擴散模型預測。

那麼，未來AI實時生成3A遊戲大作還會遠嗎？閆俊傑表示，《黑神話：悟空》採用的還是傳統建模渲染的方式，這種方式進步速度已經很慢了，而生成視頻和生成文本是一樣的，兩年前生成文本可能完全不可用，但現在變得可用，且發展速度很快。

“（視頻生成）其實都只是一個開始，因爲這只是第一年，接下來的進步速度一定會變得非常快。我不太知道能否替代掉傳統的渲染引擎，但是至少能夠提供一種可能性，因爲進步速度快，越長期看，進步越快的東西就越好。”閆俊傑表示。

使用量顯著增長模型競爭力增強

快，是閆俊傑多次提到的關鍵詞。“不管是做MoE還是Linear attention，還是其他的探索，本質上還是讓同樣的效果模型變得更快。”閆俊傑表示，快就是好，意味着同樣的算力可以變得更好，這是MiniMax做底層研發的思路。

同時，他還指出，如何讓模型的錯誤率持續降低、無限長的輸入和輸出以及多模態，是行業需要持續解決的三個挑戰。

據公司介紹，MiniMax在過往經歷了兩次關鍵的底層技術變革，包括MoE（Mixture of Experts，混合專家模型）和Linear Attention（線性注意力）。今年4月，該公司研發出的新一代基於MoE+ Linear Attention的模型，水平比肩GPT-4o。

公開資料顯示，MiniMax是一家成立於2021年12月的人工智能初創公司，由商湯科技前副總裁、研究院前副院長閆俊傑創立，成員主要來自商湯科技這些知名AI公司。

天眼查顯示，今年3月，MiniMax完成了B輪的6億美元融資，投資方爲阿里巴巴，其估值達到25億美元。此前的2023年6月，MiniMax完成了超2.5億美元的A輪融資，投資方爲騰訊投資。

創立一年後，MiniMax自研了文本到視覺、文本到語音、文本到文本三個模態的基礎模型架構，並在基礎模型之上構建起一個計算推理平臺。

在產品上，MiniMax同時兼顧B端和C端市場，C端應用有角色扮演類AI聊天應用Glow、AI社交軟件星野、AI語音對話助手海螺問問等，B端則是爲企業提供定製化的API接口，允許企業接入ABAB模型的各種能力，火山引擎、金山辦公、釘釘、智聯招聘、閱文等公司都在使用其服務。官方數據顯示，目前MiniMax的模型每天與全球用戶進行超30億次交互，處理超3萬億文本token、2000萬張圖片和7萬小時語音。一年前，MiniMax交互時長僅爲ChatGPT的3%，現在這一比例已提升至53%。

自5月以來，大模型領域掀起價格戰，API降至“白菜價”。談及大模型價格戰時，閆俊傑指出，有了價格戰後，很多傳統的企業開始願意使用大模型，“客觀地來說，非常大地提高了模型的調用量”。

同時，這也從側面推動模型性能的進步，中國的大模型在東南亞等海外也有了競爭力。“國內的模型正是這麼激烈的競爭，推着大家一定要往前趕，目前至少在非英語國家的語種上也能夠有一個跟GPT不相上下的水平。”閆俊傑表示，競爭不可避免，就要努力做到最好，樂觀的一面顯示兩個積極的變化：一是國內大模型的使用量在顯著地增長，二是中國的模型在海外確實越來越具有競爭力。

閆俊傑表示，大部分公司本認爲大模型很貴，之後很多人認爲大模型很便宜，可以放心地使用。最終驚奇地發現，有許多傳統企業非常願意使用大模型，他們覺得反正成本低，出錯了之後也不要緊，多調用一次就好了。客觀來說，這極大提高了模型調用量，從而推動模型做得更好，至少目前在非英語語種上，國內大模型水平已與GPT不相上下。因此，樂觀角度看，國內大模型的使用量確實在顯著地增長，並且中國AI大模型在海外確實越來越具有競爭力。

當談及與互聯網大廠可能發生正面競爭時，閆俊傑表示，能做的就是把有可能變強的事無限地放大，一個是技術如何做提升，另一個是如何跟用戶做更好的共創。

（編輯：吳清審覈：李正豪校對：翟軍）

MiniMax閆俊傑：大模型快就是好 可有時候慢是爲了更快

相關資訊

MiniMax閆俊傑：大模型快就是好可有時候慢是爲了更快