終於拿到內測!豆包-PixelDance真是字節視頻生成大殺器

機器之心報道

作者:Panda、楊文

「火山爆發,震撼天地。」這八個字會在你的頭腦中觸發怎樣的影像?是否與下面的視頻類似?

視頻鏈接:

https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

提示詞:火山噴發,升起巨大蘑菇雲,岩漿順着山體往下流,鏡頭拉近,岩漿正在火山口跳動冒出。

這段 10 秒的視頻是豆包視頻生成模型基於以上提示詞想象創造的。可以說這段視頻的擬真度非常高,並且有着嫺熟的運鏡,足以放入任何影視作品中。

有着剪映、即夢等視頻創作工具的字節跳動,正式宣告進軍 AI 視頻生成領域。那是在本週二,「2024 火山引擎 AI 創新巡展」來到了深圳。這一巡展上,字節跳動如火山爆發,一連發布了三個面向不同細分領域(視頻生成、音樂和同聲傳譯)的多模態大模型,同時給之前已有的通用語言模型、文生圖模型、語音模型來了一波大升級。這些模型共同構建起了火山引擎的「豆包全模態大模型家族」。

家族新秀:豆包視頻生成模型 PixelDance 和 Seaweed

驚豔、驚喜、目眩神迷……

在深圳站城市巡展上,火山引擎爲豆包全模態大模型家族帶來了兩員新秀:PixelDance(像素跳動)和 Seaweed(海草)。

對於 PixelDance,記憶好的讀者可能依然記得這個名詞。是的,去年 11 月份,PixelDance 就已經憑藉高動態視頻生成能力在 AI 社區刷了一波存在感,感興趣的讀者可訪問《視頻生成新突破:PixelDance,輕鬆呈現複雜動作與炫酷特效》。

今年 5 月份,豆包視頻生成模型的早期版本開始在即夢 AI 上應用,收穫了不少好評。現在又過去了幾個月時間,豆包視頻生成模型已經完成迭代升級,能力更是大幅提升,機器之心也測試體驗了其最新版本。

實測下來,PixelDance 和 Seaweed 這兩個豆包視頻生成模型的效果確實超乎了我們的想象。在此之前,大多數視頻生成模型給出的結果都像是 PPT 一樣:場景通常變化不大,而變化較大的場景又常會出現不一致問題。

豆包視頻生成模型不僅能生成連貫一致的視頻,而且還支持在生成的視頻中採用不同運鏡方式、多鏡頭切換、變焦等技法。此外,豆包視頻生成模型還支持多種不同的風格以及各種常見設備的高寬比,適用於各種平臺和場景。

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

提示詞:一位老人正眺望遠方的大海,鏡頭緩慢拉遠,一艘白色的輪船從畫面右側駛來,天上飛着幾隻海鷗。

具體技術上,豆包視頻生成模型基於 DiT(擴散 Transformer)架構。通過高效的 DiT 融合計算單元,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。全新設計的擴散模型訓練方法更是攻克了多鏡頭切換的一致性難題,在鏡頭切換時可同時保持主體、風格、氛圍的一致性,這也是豆包視頻生成模型獨具特色的亮點。

前些天,豆包視頻生成模型剛發佈時,機器之心已經受邀進行了一波內測,那時候我們主要測試的模型是豆包-Seaweed,參閱機器之心報道《字節版 Sora 終於來了!一口氣兩款視頻模型,帶來的震撼不只一點點》中帶「即夢 AI」水印的視頻。報道發出後,有讀者評論表示這比仍處於 PPT 階段的 Sora 強多了。

這一次,我們又獲得了另一個模型豆包-PixelDance 的內測機會。讓我們用更多實例來驗證一下豆包視頻生成模型的各項能力,看它是否真像傳說中那樣,有着超越 Sora 的表現。

能力 1:支持更復雜的提示詞和多動作多主體交互:想象一個充滿活力的城市廣場,人羣熙攘,街頭藝人表演,孩童嬉戲,情侶漫步。豆包視頻生成模型能將這複雜場景栩栩如生地呈現出來,不再侷限於單一動作或簡單指令。它能精準捕捉多個主體之間微妙的互動,從眼神交流到肢體語言,都能完美詮釋。這種高級理解能力可爲創作者打開無限可能,讓想象力在視頻中自由翱翔。

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

提示詞:80 年代風格,小男孩們在街頭奔跑,汽車在街道上行駛。

能力 2:可在鏡頭切換時有效地保持鏡頭一致性:10 秒,足以讓豆包視頻生成模型講述一個跌宕起伏的微電影。從溫馨的家庭晚餐到激烈的街頭追逐,再到感人的重逢場景,鏡頭切換行雲流水,卻始終保持主角特徵、場景風格、情感氛圍和敘事邏輯的完美統一。這種高超的一致性掌控,可爲創作者的視頻作品增添專業電影般的敘事魅力。

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

提示詞:女生先是流下眼淚,然後開心地笑起來,並主動擁抱了男生。

能力 3:強大動態與酷炫運鏡:生成的視頻可同時存在主體的大動態與鏡頭的炫酷切換。支持變焦、環繞、平搖、縮放,目標跟隨等超多鏡頭語言,實現對視角的靈活控制。無論是震撼的動作場面,還是細膩的情感表達,豆包視頻生成模型都能以最佳視角呈現,帶來超越想象的視覺盛宴。

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

提示詞:特寫,一個女生悲傷的面部,她緩緩轉身,鏡頭拉遠,看見了一個英俊的男子正注視着她。

能力 4:多樣化的風格支持:從經典黑白到前衛 3D 動畫,從清新淡雅的水墨國畫到熱烈奔放的厚塗風格,再到溫馨可愛的 2D 動畫,豆包視頻生成模型可爲每個創意賦予獨特的藝術魅力。無論你想要懷舊、未來、寫實還是夢幻,豆包視頻生成模型都能完美詮釋你的藝術視野。

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

提示詞:油畫風格,鏡頭拉遠,一個穿着黑色西裝的男人正走在這條路上。

能力 5:支持多種寬高比:支持 1:1、3:4、4:3、16:9、9:16、21:9,全面覆蓋各種常見的顯示器或應用。無論是傳統電視、電影銀幕、電腦顯示器,還是各類移動設備,生成的視頻都能完美呈現。讓創意不受設備限制,在任何平臺上綻放光彩。

心動了嗎?你不僅能心動,而且不久之後就能真正開始體驗豆包視頻生成模型!據瞭解,豆包視頻生成模型 PixelDance 和 Seaweed 已在火山引擎開啓邀測,企業可通過火山引擎官網提交測試申請。

音頻模態的破局者:豆包音樂及同聲傳譯模型

除了視頻生成,字節跳動也強勢進軍音頻生成領域,發佈了豆包音樂模型及同聲傳譯模型。我們知道,聲音的本質是空氣中震盪的機械波,人類對此的物理理解已經相當深刻,但要讓 AI 創作出動人心絃的和諧韻律,或在瞬息間跨越語言的鴻溝,卻是兩個截然不同的挑戰。

火山引擎近日發佈的豆包音樂模型和同聲傳譯模型在各自的難點上都取得了質的突破,達到了可實際投入生產應用的水平。

豆包音樂模型:每個人都能有自己的歌

想象一下,僅憑一句話或一張圖片,就能瞬間編織出動人心絃的旋律!

是的,不同於 Suno 等其它常見的音樂生成模型只能使用文本作爲提示詞或歌詞信息,豆包的音樂生成模型還能使用圖片作爲靈感來源。這不僅能極大豐富用戶的靈感來源,並且還能讓用戶根據視覺場景生成最適合場景的音樂。豆包音樂模型還支持音樂轉換,只需 10 秒的語音或歌聲錄音,即可將其轉換爲不同風格的音樂。

不僅如此,這位 AI 作曲家還精通 10 多種音樂風格和情感色彩,讓你可以隨心所欲地探索民謠、流行、搖滾、國風、嘻哈等多種風格和情緒表現。

比如隨手拍攝的小貓照片,它就能給你創作出一首非常好聽的歌:

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

當然,你也可以讓豆包音樂模型演唱你自己創作的歌詞。我們以杜甫名篇《登高》做了測試:

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

豆包音樂模型現已向用戶開放,企業和開發者可以通過火山方舟使用其 API,用戶也可以直接通過豆包 App 和海綿音樂 App 創作音樂。

豆包同聲傳譯模型:準確、實時、真正同聲

相較於注重和諧韻律的音樂模型,同聲傳譯模型的核心需求是準確和實時。

豆包同聲傳譯模型採用了端到端的方式來實現同聲傳譯。這不僅能避免分階段處理(語音識別→機器翻譯→語音合成)時錯誤的傳遞和積累問題,還能極大降低延遲。據瞭解,豆包同聲傳譯模型的準確度在辦公、法律、教育等場景中接近甚至超越人類同傳水平,而延遲水平僅有半句話左右。

基礎能力之上,豆包同聲傳譯模型還具備音色克隆能力,可生成與說話人音色一致的外語聲音,實現真正的「同聲」傳譯。

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

更多相關細節可參閱我們之前的報道《字節大模型同傳智能體,一出手就是媲美人類的同聲傳譯水平》。

已有模型大升級,效率大提升

除了新發布的視覺和音頻模態模型,在火山引擎這一次還對已有的通用語言模型、文生圖模型、語音模型來了一波大升級。

通用語言模型:增大上下文、提升綜合能力

從 5 月到 9 月,豆包大模型的使用量實現了超過 10 倍的爆發式增長,順着這股爆發式增長的勢頭,火山引擎宣佈將旗艦級豆包大模型「豆包通用模型 Pro」迭代成了更強大的新版本,讓模型的綜合能力提升了 25%,在各個維度上都達到了國內領先水平,尤其是在數學和專業知識能力上。

這樣的提升可讓豆包更加輕鬆地應對更爲複雜的工作和生活場景。

此外,豆包通用模型 Pro 的上下文窗口也從之前的 128k 倍增到了 256k,可一次性處理約 40 萬漢字,相當於一口氣讀完《三體》的前兩部。

文生圖模型:推理效率和性能大幅提升

火山引擎也將豆包文生圖模型迭代到了 2.0 版本。其採用了更高效的 DiT 架構。模型的推理效率和性能都獲得了顯著提升。除了繼承之前已有的高美感等優勢,這一次升級,火山引擎着重優化了文生圖模型的物理感知能力,可讓模型感知多主體、數量、大小、高矮、胖瘦和運動等複雜屬性並實現對應的生成。

文生圖模型 2.0 的想象力也獲得了提升,可更好地呈現虛構和超現實畫面。另外,文生圖模型 2.0 還能以極高的美感呈現中國古代的各類繪畫風格。如下例子所示,生成人物的頭髮、手指和妝造都堪稱完美。

提示詞:古裝美人賞月圖,長髮飄飄,燭火熒熒

同時,文生圖模型的出圖速度也獲得了提升 —— 最快可做到 3 秒出圖。

文生圖模型 2.0 已經上線即夢,用戶可以即刻開始嚐鮮了。

語音模型:超強混音,音色自由組合

火山引擎也爲自家的語音合成模型帶來了一輪升級,其中最具看點的新功能是通過混音來組合形成不同的音色,並由此打破了音色數量的限制。並且,這個功能不僅允許用戶自由組合火山引擎提供的聲音,還能將自己的聲音復刻爲混音音源。

這些通過混音生成的聲音不僅在音色自然度上有了質的飛躍,其連貫性、音質和韻律也達到了與真人幾乎無異的水平,難以分辨虛實,令人驚歎。

比如我們可以通過混合猴哥和港劇女聲的音色比例來獲得妙趣橫生的新音色。

視頻鏈接:https://mp.weixin.qq.com/s/3UuumW-tSvR86dhO6UQ-Mg

效率提升和成本降低:讓大模型真正可用的基礎

大模型服務要真正有用並能被用戶使用,只是能力強大還不夠,還需要強大的服務器提供硬件支持,同時還需要控制使用成本,讓用戶可以接受。

效率方面,火山引擎總裁譚待宣佈,豆包 Pro 默認的初始 TPM(每分鐘 token 數)爲 800k,高於業界其它模型,並且還可根據企業具體需求進一步擴容。實際上,800k 的 TPM 足稱業界最強,可以滿足很多企業級的應用場景。

而在成本方面,火山引擎也做了很多創新和探索,併成功在今年 5 月將每千 token 的使用成本降到了 1 釐(0.001 元)以下,使字節跳動成爲國內第一家能做到如此低成本的公司。可以說,token 的價格已經不再是阻礙 AI 應用創新的阻力。

另外,火山引擎還開發了全新的上下文緩存技術。這能讓用戶無需重複對話,就能保留上下文。由此可以降低多輪對話的延遲,改善用戶體驗。同時還能有效降低企業使用大模型的成本。

結語

在這場令人目眩神迷的 AI 盛宴中,火山引擎展示了其在視頻、音頻、文本等不同模態上的卓越能力。同時其也不斷重申了對安全和隱私的重視。

火山引擎的全模態大模型戰略正在逐步展現其全力以赴 AI 的決心。從文本到圖像,從視頻到音頻,再到跨模態的融合應用,火山引擎正在構建一個全方位、多維度的 AI 生態系統,甚至能讓用戶「一個人就能成爲想象的指揮家」,完成從創意加工到視頻製作的全流程。這個生態系統不僅能爲開發者和企業用戶提供豐富的工具和接口,更爲未來的智能應用描繪了一幅令人期待的前景。