豆包“王炸”,字節版Sora來了,有多厲害?

出品|本站科技《態度》欄目

作者|定西

具備掀桌子實力的玩家下場了。字節跳動正式宣告進軍AI視頻生成。

日前,旗下火山引擎一舉發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業市場開啓邀測。而字節版Sora的主要特點,是能實現自然連貫的多拍動作與多主體複雜交互。做到這點並不容易。

從策略上看,火山引擎的思路是,先在ToC打磨產品,模型能力具備競爭優勢後開始拓展ToB市場。我們注意到,豆包視頻生成模型的早期版本早在今年2月就在即夢(Dreamina)上應用,並且持續迭代優化。這次官宣,說明火山引擎做好了十足的把握。

從產品上看,字節版Sora也打出差異化,此前視頻生成模型大多隻能完成簡單指令,豆包視頻生成模型則能實現自然連貫的多拍動作與多主體複雜交互。有創作者在搶鮮體驗豆包視頻生成模型時發現,其生成的視頻不僅能夠遵循複雜指令,讓不同人物完成多個動作指令的互動,人物樣貌、服裝細節甚至頭飾在不同運鏡下也保持一致,接近實拍效果。

破局多主體互動和一致性難題

據火山引擎介紹,豆包視頻生成模型基於 DiT 架構,通過高效的DiT融合計算單元,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。

基於此,全新設計的擴散模型訓練方法攻克了多鏡頭切換的一致性難題,在鏡頭切換時可同時保持主體、風格、氛圍的一性。

這被稱爲是這次豆包視頻生成模型“獨樹一幟的技術創新”。

本站科技瞭解到,此前經過剪映、即夢AI等業務場景打磨,豆包視頻生成模型已經具備專業級光影佈局和色彩調和。不僅如此,深度優化的Transformer結構,則大幅提升了豆包視頻生成的泛化能力,支持3D動畫、2D動畫、國畫、黑白、厚塗等多種風格,適配電影、電視、電腦、手機等各種設備的比例,適用於電商營銷、動畫教育、城市文旅、微劇本等企業場景,也能爲專業創作者和藝術家們提供創作輔助。

這樣的泛化能力,正是當下,豆包視頻生成模型的想象空間,出手ToC,劍指ToB。

目前,新款豆包視頻生成模型正在即夢AI內測版小範圍測試,未來將逐步開放給所有用戶。剪映和即夢AI市場負責人陳欣然認爲,AI能夠和創作者深度互動,共同創作,帶來很多驚喜和啓發,即夢AI希望成爲用戶最親密和有智慧的創作夥伴。

大模型要從卷價格走向卷性能了

火山引擎總裁譚待說,大模型的應用成本已經得到很好解決。大模型要從卷價格走向卷性能,卷更好的模型能力和服務。

據披露,截至9月,豆包語言模型的日均tokens使用量超過1.3萬億,相比5月首次發佈時猛增十倍,多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。

譚待認爲,大模型價格已不再是阻礙創新的門檻,隨着企業大規模應用,大模型支持更大的併發流量正在成爲行業發展的關鍵因素。

譚待透露,業內多家大模型目前最高僅支持300K甚至100K的TPM(每分鐘token數),難以承載企業生產環境流量。例如某科研機構的文獻翻譯場景,TPM峰值爲360K,某汽車智能座艙的TPM峰值爲420K,某AI教育公司的TPM峰值更是達到630K。爲此,豆包大模型默認支持800K的初始TPM,還可根據需求靈活擴容。

性能之外是服務,這次,豆包大模型不僅新增視頻生成模型,還發布了豆包音樂模型和同聲傳譯模型,已全面覆蓋語言、語音、圖像、視頻等全模態,可以滿足不同行業和領域的業務場景需求。

然而,豆包大模型的殺手鐗還有生態。

今年5月,火山引擎與 OPPO、vivo、榮耀、小米、三星、華碩宣佈成立智能終端大模型聯盟。同在5月,火山引擎聯合中國電動汽車百人會與一汽、吉利、長城、廣汽、捷途、智己等20餘家廠商,宣佈成立汽車大模型生態聯盟。8月,汽車大模型生態聯盟迎來第二批成員單位加入,包括領克汽車、吉利銀河、幾何汽車、上汽榮威、上汽名爵、雄獅科技、大聖科技等廠商。還有今年8月,火山引擎攜手多點DMALL成立零售大模型生態聯盟,聯盟首批成員包括物美集團、抖音電商、抖音生活服務、百勝、麥當勞、中國飛鶴、海底撈、居然之家、南7-11、重慶百貨、百果園、波司登、天虹、三得利、絕味、名創優品、NielsenIQ、電通等。

雄心勃勃的豆包大模型已經迫不及待在企業市場大展拳腳。在ToC市場一騎絕塵的豆包,正在以全家桶的形式捲土重來。

豆包能否複製豆包,拭目以待。