MiniMax閆俊傑:大模型快就是好 可有時候慢是爲了更快

本報記者 李玉洋 上海報道

大模型是拼速度的領域,但有時候慢可能是另一種快。

8月31日,國內AI獨角獸企業MiniMax上海稀宇科技有限公司(以下簡稱“MiniMax”)在首屆開發者大會“MiniMaxLink夥伴日”上低調發布視頻模型abab-video-1,輸入提示詞就可生成時長最高6秒的視頻,主打高分辨率、高幀率。

換個說法,MiniMax所說的視頻模型類似於OpenAI的Sora這種文生視頻模型。作爲MiniMax的創始人兼首席執行官,閆俊傑認爲“快”是該公司底層大模型的核心技術研發目標,不過,該視頻模型晚了Sora好幾個月。

“爲什麼我們的推出要晚一兩個月?核心是我們在解決一個更難的技術問題,即如何能原生訓練算力比較高的東西。”閆俊傑對《中國經營報》記者表示,在訓練視頻生成能力時,需要先把視頻轉化爲一個個token(令牌),而這些token會非常長,隨之複雜度就越高,“我們其實上半年主要乾的事是把複雜度降低一些,把壓縮率變得更高,所以晚了一兩個月”。

MiniMax介紹,根據內部評測以及跑分,該公司的視頻模型比Runway的效果更好。目前,可靈已推出會員訂閱計劃的商業化模式。那麼,MiniMax視頻模型的商業模式會如何? 對此,閆俊傑表示:“我們的策略先再等一兩週,新的東西出來之後,到了一個更加滿意的狀態後,可能會考慮(採取)一些商業化(舉措)。”

他還提到,由於模型進步速度很快,AI生成視頻儘管還不能替代傳統的渲染引擎,但爲創造出《黑神話:悟空》這樣的3A遊戲,“至少能提供一種可能性”。

到更加滿意狀態才考慮商業化

儘管未提及視頻模型的商業化路徑,但閆俊傑表示:“整個公司的商業化基本上分成兩個形式,一個形式是我們的開放平臺,現在已經有2000多家的客戶,包括很多知名的互聯網公司,也包括傳統的企業。這裡面本來就有用戶使用聲音和視覺的能力,不是所有的公司都像快手一樣可以自己做,我們是一個很好的合作伙伴,這是2B部分。”

“第二個是我們自己的產品裡也有廣告的機制,廣告可以做商業化的變現。”閆俊傑認爲在目前的階段,“最重要的東西還不是商業化,而是真正地讓技術達到廣泛可用的程度。”

技術相對複雜的AI生成視頻(視頻模型),成爲今年大模型廠商的展示實力或“秀肌肉”的一個慣常操作,OpenAI開了這個頭。今年2月,OpenAI發佈視頻大模型Sora,但跳票至今未公測。4月,生數科技發佈視頻大模型Vidu;6月,快手發佈視頻大模型可靈;7月,智譜AI生成視頻模型清影正式上線……

MiniMax出於什麼考慮要做視頻模型?閆俊傑表示,本質在於人類每天消費的大部分內容是圖文和視頻,文字佔比不高,“爲了能夠有非常高的用戶覆蓋度,以及更高的使用深度,作爲大模型廠商,唯一的辦法是能夠輸出多模態的內容,而不是隻輸出單純的基於文字的內容,這是一個非常核心的判斷”。

他進一步提到:“只是在之前我們先做出來文字,又做出來聲音,很早前做出來了圖片,現在技術變得更強,(可以)把視頻也做出來。這個路線是一以貫之的,一定要能做多模態。”之前MiniMax做出大語言模型,又做聲音模型,接着是圖片模型,“只是現在技術變得更強,把視頻也做出來。這個路線是一以貫之的,一定要能夠做多模態”。

在AI算法工程師張昱軒看來,雖然MiniMax並未公佈視頻模型的具體參數和技術要點,但從所展示的模型生成視頻中可以看出公司的算法還是很強的,而快手的可靈相對來說工程技術更好。

而閆俊傑對記者表示:“不管是視頻、文本、聲音,MiniMax團隊的核心研發思路不在於要讓算法提升5%、10%,比較重要的是能否提升幾倍,如果能提升幾倍就一定要做出來,只提升5%就不太值得做。”

據瞭解,MiniMax的視頻模型目前只是第一版,將先免費提供給用戶使用一段時間,很快會有新版本。“後續會在數據、算法本身,包括更加方便使用的細節,比如現在只提供了文生視頻,未來圖生視頻、文+圖生成視頻,以及可編輯、可控性都會陸續出來。”閆俊傑說。

《黑神話:悟空》的熱度依舊,AI又在遊戲中創造了新玩法。日前,谷歌在一篇論文中指出,他們打造出了首個完全AI驅動的實時遊戲引擎——GameNGen,能以每秒20幀實時生成經典射擊遊戲《毀滅戰士》的遊戲畫面,所有遊戲畫面都是根據玩家操作,與複雜環境進行交互而實時生成,每一幀都由擴散模型預測。

那麼,未來AI實時生成3A遊戲大作還會遠嗎?閆俊傑表示,《黑神話:悟空》採用的還是傳統建模渲染的方式,這種方式進步速度已經很慢了,而生成視頻和生成文本是一樣的,兩年前生成文本可能完全不可用,但現在變得可用,且發展速度很快。

“(視頻生成)其實都只是一個開始,因爲這只是第一年,接下來的進步速度一定會變得非常快。我不太知道能否替代掉傳統的渲染引擎,但是至少能夠提供一種可能性,因爲進步速度快,越長期看,進步越快的東西就越好。”閆俊傑表示。

使用量顯著增長 模型競爭力增強

快,是閆俊傑多次提到的關鍵詞。“不管是做MoE還是Linear attention,還是其他的探索,本質上還是讓同樣的效果模型變得更快。”閆俊傑表示,快就是好,意味着同樣的算力可以變得更好,這是MiniMax做底層研發的思路。

同時,他還指出,如何讓模型的錯誤率持續降低、無限長的輸入和輸出以及多模態,是行業需要持續解決的三個挑戰。

據公司介紹,MiniMax在過往經歷了兩次關鍵的底層技術變革,包括MoE(Mixture of Experts,混合專家模型)和Linear Attention(線性注意力)。今年4月,該公司研發出的新一代基於MoE+ Linear Attention的模型,水平比肩GPT-4o。

公開資料顯示,MiniMax是一家成立於2021年12月的人工智能初創公司,由商湯科技前副總裁、研究院前副院長閆俊傑創立,成員主要來自商湯科技這些知名AI公司。

天眼查顯示,今年3月,MiniMax完成了B輪的6億美元融資,投資方爲阿里巴巴,其估值達到25億美元。此前的2023年6月,MiniMax完成了超2.5億美元的A輪融資,投資方爲騰訊投資。

創立一年後,MiniMax自研了文本到視覺、文本到語音、文本到文本三個模態的基礎模型架構,並在基礎模型之上構建起一個計算推理平臺。

在產品上,MiniMax同時兼顧B端和C端市場,C端應用有角色扮演類AI聊天應用Glow、AI社交軟件星野、AI語音對話助手海螺問問等,B端則是爲企業提供定製化的API接口,允許企業接入ABAB模型的各種能力,火山引擎、金山辦公、釘釘、智聯招聘、閱文等公司都在使用其服務。官方數據顯示,目前MiniMax的模型每天與全球用戶進行超30億次交互,處理超3萬億文本token、2000萬張圖片和7萬小時語音。一年前,MiniMax交互時長僅爲ChatGPT的3%,現在這一比例已提升至53%。

自5月以來,大模型領域掀起價格戰,API降至“白菜價”。談及大模型價格戰時,閆俊傑指出,有了價格戰後,很多傳統的企業開始願意使用大模型,“客觀地來說,非常大地提高了模型的調用量”。

同時,這也從側面推動模型性能的進步,中國的大模型在東南亞等海外也有了競爭力。“國內的模型正是這麼激烈的競爭,推着大家一定要往前趕,目前至少在非英語國家的語種上也能夠有一個跟GPT不相上下的水平。”閆俊傑表示,競爭不可避免,就要努力做到最好,樂觀的一面顯示兩個積極的變化:一是國內大模型的使用量在顯著地增長,二是中國的模型在海外確實越來越具有競爭力。

閆俊傑表示,大部分公司本認爲大模型很貴,之後很多人認爲大模型很便宜,可以放心地使用。最終驚奇地發現,有許多傳統企業非常願意使用大模型,他們覺得反正成本低,出錯了之後也不要緊,多調用一次就好了。客觀來說,這極大提高了模型調用量,從而推動模型做得更好,至少目前在非英語語種上,國內大模型水平已與GPT不相上下。因此,樂觀角度看,國內大模型的使用量確實在顯著地增長,並且中國AI大模型在海外確實越來越具有競爭力。

當談及與互聯網大廠可能發生正面競爭時,閆俊傑表示,能做的就是把有可能變強的事無限地放大,一個是技術如何做提升,另一個是如何跟用戶做更好的共創。

(編輯:吳清 審覈:李正豪 校對:翟軍)