☰

實測字節全新豆包·視頻生成模型：Sora 畫的餅被實現了......

OpenAI搭好戲臺，主角卻是字節跳動。

作者丨林傑鑫

編輯丨陳彩嫺

過去3個月中國廠商在AI視頻賽道已經殺瘋了。從快手可靈到Minimax 海螺AI、生數科技Vidu、智譜清影，每個AI視頻產品的發佈都在全球範圍內獲得廣泛認可。並且由於Sora的超長期貨行爲，在看到中國AI視頻生成模型的效果之後，外國人直呼“We don't need Sora anymore.”，並在過去幾個月一直想方設法拿中國手機號註冊體驗國內的AI產品。

但更多的網友則是期待字節的視頻生成模型，因爲早在去年11月，字節的項目Make Pixels Dance就已經展示出其具備瞭解決長AI視頻中角色一致性難以保持這一問題的能力。所以我也看到很多外網網友的另一個問題“Where is ByteDacne?”。

而就在9.24火山引擎AI創新巡展深圳站上，火山引擎一口氣發佈了2個視頻生成模型PixelDance和Seaweed模型。兄弟們感受下這個絲滑的運鏡和轉場，10秒鐘時間從跟隨一個女人走進人羣，然後女人轉身鏡頭跟着右旋然後改變焦距變到另一個場景。這種效果相較於現在的AI只能說是斷層式的領先。

外網看了視頻的人，直接確認了，很可怕，但我沒有中國手機號。（PS：是不是可以考慮模仿一下那些搞GPT的人，反向輸出一波？）當然這次咱們也很幸運拿到了測試資格，測試前我先總結了所有AI視頻產品都會有的問題：

其他AI視頻生成效果展示

1、語義理解差。不管提示詞寫的多認真，產品會抽風亂生成，這問題體現在人物動作、畫面風格、運鏡、天氣、各種補充細節上。而且一些國外產品由於語種的問題，就算我們用翻譯軟件也很難達到原生語種的水平。比如上面這個想讓鏡頭上擡，人物擡頭看向天空，AI直接給來一手人頭氣球。提示詞寫的像情書一樣深情，寄給AI之後換來的卻是一坨大的。

其他AI視頻生成效果展示

2、一致性差，用AI進行影視創作的小夥伴都會面臨這個問題，一個6秒的視頻如果涉及到鏡頭切換或者高速運動，那麼畫面內容必定變形甚至出現國足行爲，要把球踢出去鏡頭一轉球像磁鐵一樣吸到腳上要進自家球門。

所以這次豆包·視頻生成模型的測試我會重點關照這些問題，能按照需求生成視頻是AI視頻能服務專業影視創作者的基礎條件。同時拉上可靈、Minimax、老玩家Runway以及LUMA，看看是先發者保持優勢還是後來者登基爲王。

空間理解測試

提示詞：膠片質感，下雨天，四周堆滿垃圾的小巷裡，鏡頭拍攝一隻橘貓轉身走向巷子深處，雨水倒映它的身體。

英文提示詞：Film texture, on a rainy day, the camera shot an orange cat turned to go deep into the alley, the rain reflected its body.

上面提示詞雖短。但測試點卻有4個：1、畫面是膠片風格；2、場景是堆滿垃圾的小巷。3、橘貓轉身走向巷子需要AI反推出貓一開始是面對鏡頭的然後轉身走；4、雨水要能倒映貓和場景。

首先是豆包·視頻生成模型的作品。我只能說完成度太高了，我只生成了一遍，就覺得OK了。有種當年Sora剛出現的震撼感。貓在水裡的倒影、腳步踩過水麪泛起的漣漪....甚至走到盡頭垃圾堆有起伏，貓腳落地點都擡高了，說明AI在生成的時候甚至注意到了地形！！！

對比一下這是用可靈1.5高畫質模式生成的，可靈的動態天氣也很厲害，但問題就出在這個膠片質感用力過猛，貓都變成飽和度戰士了。而且貓在加速跑時尾巴出現一下變長一下變短的情況。

再看一下Minimax的海螺AI，我覺得海螺的畫面觀感比可靈好很多，膠片質感也到位。但是很可惜，沒有理解到貓轉身這個動作。

接下來看下國際服選手LUMA和Runway的表現。

LUMA怎麼說呢，這種畫面放到網上，大家可能會說很驚豔。但如果用來影視創作那絕對是不合格的。場景沒按要求生成、貓也沒轉身走到巷子深處，貓臉甚至還是糊的.......只能說，拉得很徹底......

Runway也拉了，這雨下得怕是膠水，貓腳完全動不了，甚至貓還學會了中國的川劇變臉！

在這次空間理解測試中，豆包·視頻生成模型是毋庸置疑的第一。不管是隱藏測試點貓面向鏡頭然後轉身，還是水面的物理反射、按照提示詞對場景的搭建能力都屬於斷層式第一。可靈貓尾巴變形了，但其他要求也是完美執行能排第二。第三名是Minimax，場景還原到位，但貓這個演員不怎麼配合演出，生成了3次都不配合。至於LUMA和Runway，不知道是不是訓練了什麼詭異素材，貓的臉都很抽象。

特效電影測試

提示詞：深夜的巷子漂浮着濃煙，地面污水橫流，許多老鼠走來走去，鏡頭逐漸推進到一個雪人戴着禮帽坐在垃圾桶上仰頭喝啤酒，隨後扔掉啤酒瓶。鏡頭特寫啤酒瓶在地面上滾動，老鼠向四周逃竄。

英文提示詞：There is thick smoke floating in the alley late at night, sewage flowing across the ground, and many rats walking around. The camera gradually advances to a snowman wearing a top hat sitting on a trash can, drinking beer, and then throwing away the beer bottle. Close-up shot of beer bottles rolling on the ground and mice scurrying around.

測試點：複雜的場景，兩次鏡頭變化高度考驗場景一致性，現實和3D動畫的畫風融合（這種一般在影視中要做特效，很燒錢。）

這次我不打算先放豆包了，太欺負人，咱先看看其他幾家表現。

首先是可靈，這裡我用的是1.5的模型，花錢了就是不一樣，畫質肉眼可見的高清。先說完成項：場景完成度到位，濃霧、水、老鼠、鏡頭推進。加分項：畫質不錯。扣分項：人物沒有坐在垃圾桶上，沒有仰頭喝酒、扔酒瓶的操作，鏡頭沒特寫扔酒瓶。

接下來是海螺AI，海螺這個鏡頭我挺喜歡的，先從老鼠和濃霧開始有大片的感覺。結果他鏡頭是後移不是推進。這雪人估計造他的女媧不算用心。而且也沒有仰頭喝酒，雖然扔了酒瓶但沒有執行酒瓶在地面滾動嚇跑老鼠的鏡頭特寫。

好了看完國內組，再看看國際組的表現，Runway表現還是持續拉胯，感覺文生視頻這塊算是沒救了。老鼠沒老鼠，水也沒有水，要求讓雪人穿衣服也只戴了個帽子，更重要的是鏡頭完全沒動.......

LUMA這波的表現畫面中只有鏡頭和煙霧在動，老鼠和雪人感覺只是手辦擺件。在影視創作中又是一條廢片。

最後是豆包·視頻生成模型，這畫面第一眼觀感就是通透而且所有要求都做到了，濃霧、老鼠、雪人的動作和服裝甚至是鏡頭推進的要求也完成了。最重要的是，兄弟真來了個鏡頭特寫切換到酒瓶丟到地面上。這個片段我真的反覆看了很多遍，就是雪人隨手一扔然後畫面絲滑切換到酒瓶落地。酒瓶跟手裡那個一模一樣，地面場景跟開頭場景一模一樣，丟到地上還高清化了。而且地上那些雪我估計是雪人老哥留下的，顆粒分明！！

好了這一場評分我只能說.....豆包·視頻生成模型再次斷層式第一，我現在是真沒心思寫文章。以前被其他AI封印的靈感都爆發了，只想趕緊寫完文章然後再去搞一波。當然本場排名依然是中國隊領先。繼可靈炸場之後，字節幹了件更大的事——掀桌！！！

上面的雪人喝啤酒動畫意味着豆包·視頻生成模型在動畫教育也能大展拳腳。於是我又生成了一個毛氈動畫風格的短片。提示詞：夜晚森林中的篝火派對，穿着超人服裝的小豬在打碟，其他小動物跟着節奏一起搖擺。

我發現畫面中總共14只動物，居然都是同一時間做動作，他們是真的有自己的節奏！！！也就是關於AI視頻進行多角色動作控制的難題，已經被豆包·視頻生成模型完美解決。

我也在官方的Demo中看到了這種多隻綿羊一起跑的畫面，也就是說如果有小夥伴要做古裝戰爭片，以後生成什麼千軍萬馬過大江的畫面，豆包·視頻生成模型也完全能勝任！

而剛剛扔酒瓶後切換鏡頭後的一致性，我相信所有影視愛好者都會瘋狂。因爲像這種從身上掏鑰匙開車的連續畫面以往AI想都不用想，最多就是分成幾個視頻生成。而現在，豆包表示不好意思，一鏡到底！

對決sora

說了這麼多，還是要跟Sora對線一波。小編在之前就有聊過Sora爲啥遲遲不上線的原因。這裡簡單總結下問題，然後進行測試，看看豆包·視頻生成模型能否解決Sora暴露出來的問題。

這個氣球男孩的短片大家肯定都很熟悉，是影視團隊shykids藉助Sora耗時2周製作的。但團隊後來爆料視頻最終成品跟原定的劇本完全不符合。問題可以總結爲：角色一致性差、語義理解差。核心原因是因爲Sora只支持文生視頻。

比如在廣場奔跑這個鏡頭，文字要求的是，黃色氣球人穿着正裝從廣場左邊跑向右邊，生成的卻是，頭頂紙袋的人追紅色氣球。或者一個通靈的衣服拉着氣球裸奔。跟要求的運動方向和畫面內容完全不符。

再比如人臉和玩滑板畫面，AI會在氣球上印人臉，甚至直接讓人頂着氣球玩。而且AI對很多東西都有刻板印象，比如氣球一定要被線拉着導致他們後期要用AE處理。

並且生成素材很花時間，3~20秒的畫面通常要10到20分鐘來生成，團隊至少生成了300多個片段，花上50多小時，再用Topaz工具提升畫面分辨率。最終得到的素材總時長約1.2小時，卻只能做出80秒的短片。另一個問題就是Sora很喜歡生成慢動作視頻，很多視頻看起來都是0.5倍速播放。

而Sora表現出來的問題，像廣場中氣球人不理解空間位置亂跑。豆包·視頻生成模型已經有比較好的表現，像這隻小貓咪，叫他轉身走，人家就轉身走。

角色特徵的問題，人家甚至能在10秒時間內360度無死角展示主角外觀，同時還完成了場景的切換和鏡頭的變焦。這能力在目前我看到的Sora生成的影片中還沒見過！

總結

其實字節這次表現可以說是在我意料之中。因爲從Sora還沒發佈之前，字節就一直加碼AI視頻技術領域的研究。文章開頭我也講了5月份的時候，字節的視頻生成模型研究就已經征服了外網網友。

至於現在各大平臺最近才上線的運動畫筆功能，其實字節2月份的時候就已經研究出來了，項目名爲Boximator。通過框選目標AI會智能識別不同主題，甚至讓狗和球產生逼真互動。

再往回追溯你會發現，去年11月份，人家的“Make Pixels Dance”項目就已經能生成3分鐘時長的北極熊冒險視頻。所以字節這一波登場看似驚豔實則合理。反觀Sora的現狀我也不好評價，給我最大的感覺就是一把火點燃了AI視頻，然後由於產品沒開發完整把自己憋死了......

最後說一下，豆包·視頻生成模型也是 DiT 架構，跟Sora是同類型的技術。其實說開了就是擴散模型和Transformer相結合，在2023年的計算機視覺會議上因“缺少創新性”而遭到拒絕。因爲剛出來的時候很多人不看好用這個架構做視頻生成模型，入門門檻太高了。

爲什麼說 DiT 架構入門門檻高？因爲首先需要廠商有自己的語言大模型，然後藉助大模型的能力來輔助指導擴散模型生成視頻。講人話就是，你在用豆包·視頻生成模型，其實豆包語言大模型也參與了工作，它是一個翻譯官的角色負責把你的內容優化成視頻生成模型更容易理解的話。這樣子生成的畫面才更符合用戶提示詞的要求。

這也是爲什麼後來國內的幾個AI視頻廠商在語義理解方面壓着國外打，甚至於runway gen3直接放棄文生視頻只做圖生視頻了，因爲他們沒怎麼做大模型相關研發。

當然，像豆包·視頻生成模型這麼離譜的能力，其深層次原因還是在於團隊研發新的擴散模型訓練方法，保證一致性多鏡頭生成的穩定性，同時深度優化Transformer結構提升視頻生成的泛化能力。簡單說就是所有的技術都是定製化的。纔有了現在10秒講一個完整故事，分鏡多、可控主題多、一致性還穩定的超能力。

字節的這波爆發並不意味徹底壓垮Sora，因爲OpenAI的大模型底子還在，Dall·E 的底子也還在，不過要是OpenAI的產品繼續難產，那Sora要穩坐AI視頻這個王位恐怕不行。

更多內容，點擊下方關注：

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公衆號轉載請先在「AI科技評論」後臺留言取得授權，轉載時需標註來源並插入本公衆號名片。

實測字節全新豆包·視頻生成模型：Sora 畫的餅被實現了......

相關資訊