☰

“視頻生成大模型”角逐資本市場，誰先跑通商業化？

今年2月Sora發佈，一石激起千層浪，如今，只過去不到半年時間，國內外已然進入了視頻生成大模型的"百模大戰"。

國內來看，前不久字節、快手等大廠出手入局，將行業推向了新的發展階段。隨後，創業公司緊跟腳步，動作頻頻。僅7月份，就有生數科技Vidu正式上線、智譜AI獲億元融資並全面上線智譜清影、智象未來發布大模型2.0……

在國家創新驅動發展戰略的指導下，近年來，人工智能行業得到了政策方面的大力支持。去年《生成式人工智能服務管理暫行辦法》頒佈之後，全國已有30餘省份落實了生成式AI的細化政策及行動方案。近日北京最新頒佈的人工智能+行動計劃甚至76次提到了大模型。

可見，迅猛生長的視頻生成大模型行業，不僅在資本市場炙手可熱，更是未來國家需要搶佔的戰略高地。那麼，萬衆矚目之下，國內視頻生成大模型從技術、產品到應用落地整個產業鏈的運作情況和商業化進程情況如何呢？

01 產品爆發，行業打響PK戰

談到視頻生成大模型，Sora的地位毋庸置疑，但發佈至今，OpenAI目前仍未計劃向公衆開放，業內笑稱Sora是"一個只發視頻不發產品的巨型期貨"。

國外Stability AI、LumaAI、Runway、HaiperAI等明星企業，雖然也相繼發佈了各自的視頻生成大模型產品，但在使用上，一方面，國內外在文化、語境等方面存在差異，另一方面，來自海外政府的限制使用風險仍然存在。

然而，這些挑戰並未影響國內AI視頻生成市場的增長。據QuestMobile發佈的數據，2024年第一季度，生成式AI（AIGC）成爲移動互聯網行業增速最快、收益最大的行業；今年6月，AIGC類APP的月活躍用戶規模達6170萬，同比增長653.3%。另有頭豹研究院數據顯示，預計到2026年，中國AI視頻生成行業的市場規模將達到92.79億元。

外部風險和國內市場的快速發展，成爲國內大廠和科技創業公司依據自身優勢，研發更具開放性、實用性的本土化視頻生成大模型的重要契機。據統計，當前國內已有不少創業公司發佈了視頻生成大模型，並且大部分爲公開可用。

國內主要視頻生成大模型對比

高手過招，妙至毫巔。視頻生成大模型雖然還不能歸類於高成熟度產品，但各廠之間的迭代方向已經非常細化，在視頻質量、清晰度、生成時間、速度、多模態指令、運動幅度、創意策劃等維度的競爭已經拉開序幕。

其中，快手可靈是近期的高熱產品，基於快手平臺海量的視頻數據優勢，可靈能夠快速生成符合中文語境和審美習慣的視頻，主打對物理世界特性的高強度模擬，還攻克了難倒衆多AI的"吃"的問題。

另一大廠字節旗下的剪映上線即夢AI，在視頻生成的基礎上創新故事模式，能夠從提示詞到角色、場景，實現想法到成片的快速落地。

此外，阿里達摩院的AI視頻產品"尋光"、百度的AI視頻模型UniVG雖然都在內測階段，但從官方發佈的信息來看，二者在可控編輯、語義一致性等方面值得期待。

同時，國內創業公司同樣也有優秀的表現。近期，智譜AI發佈升級後的視頻生成模型CogVideoX，C端用戶可通過智譜清言的AI視頻生成功能"清影"免費無限次使用，至此，智譜AI完成了與OpenAI全模型產品現的的全面對標。

生數科技則聯合清華大學發佈了國內首發的全自研視頻大模型Vidu，由百度智能雲提供訓練服務，憑藉長時長、高一致性、高動態性收穫行業的關注。智象未來最新發布的智象大模型2.0，通過創新文字嵌入生成、劇本多鏡頭視頻生成、IP連貫一致性等能力引發市場的關注。

隨着生成技術日漸成熟，視頻大模型也正在加速通過測試階段，目前在商業端和非商業端均已有出圈案例。

在商業端，今年夏季關注度較高的綜藝節目《歌手2024》，其片頭的部分視頻畫面採用了AI視頻生成技術，由上市公司萬興科技推出的"天幕"大模型提供技術支持。同時，博納影業與抖音合作推出的科幻短劇集《三星堆：未來啓示錄》、快手原創上線的AI奇幻短劇《山海奇鏡之劈波斬浪》也成爲視頻生成大模型在商業端的初步嘗試。截止目前，上述兩部短劇作品的播放量已經分別累計達到5316.2w次和5241.3w次。

在非商業端，視頻生成對於C端用戶而言，作爲內容生產工具，可以極大程度的豐富各社交平臺、視頻平臺的內容創作。近期，不僅跨越次元擁抱、AI復活與親人跨越時空互動、明星換臉等內容頻繁出現在熱門上，而且利用AI創作的熱梗視頻如甄嬛傳二創、表情包生成視頻等內容也獲得了較好的傳播效果。questmobile數據顯示，剪映、快影兩大剪輯APP在上線AIGC類玩法後，月人均使用時長分別達到50.2分鐘、45.2分鐘，同比提升7.1%和15.3%。

快手視覺生成與互動中心負責人萬鵬飛公開表示，在可靈大模型上線後，視頻創作的效果和ROI大幅度提升，視頻創作者和消費者界限逐漸模糊，越來越多消費者變成創作者，對於視頻創作生態的繁榮是非常有價值的。

總體來看，國內主要的視頻生成大模型產品已經能夠達到1080p甚至4K的高清分辨率，單個鏡頭的視頻時長在2-15秒左右，符合影視化的鏡頭時長需求，但分鐘級的長鏡頭在實現上還存在難度。提示詞方面，目前，圖生視頻、文生視頻、視頻生視頻均處在迭代階段，視頻生成趨勢正在由檢索生成、局部生成、走向依靠自然語言提示詞的全量生成，創作門檻更低、生成內容更加靈活豐富。

02"謹慎"的資本和"挑剔"的用戶

在持續奔涌的全球機會浪潮中，金融行業總是積極地奔走在風口的最前端，視頻生成式AI能夠成爲全球爆點，資本在其中承擔着重要的助推作用。啓明創投數據顯示，2023年，一級市場中AI投資金額達到224億美元，超過前十年投資累計總和。

資本市場，分秒必爭，市場的任何變化都有可能影響投資方的態度。愛詩科技創始人兼CEO王長虎曾向媒體表示，去年整個投資環境實際上對視頻生成沒有太大信心，要獲得投資人的認可和投入並不容易。"Sora出來之後，我們也有遺憾，如果在過去一年拿到了更多的資源，也許Sora會是我們自己做出來的。"

時間來到今年，Sora發佈後，融資動作明顯加速，除近期質譜AI獲億級融資外，愛詩科技、生數科技也均在短時間內連續獲兩筆億級資金。新入局的創業公司Sand AI在未發佈產品的情況下，已經拿到了數千萬美元A輪融資。值得注意的是，今年的國內視頻生成大模型投資方中，不乏螞蟻、百度、紅衫、高瓴等知名投資方。並且，從國內外機構調研中能夠觀察到，在大模型數量、投融規模等方面，中國已經躋身世界前列。可見，國產大模型的實力和來自市場的認可。

但從投資人的視角來看，每隻基金的投向受到多重限制。有投資機構透露，目前大手筆投向大模型的案例仍是少數。此外，當前在模型層面的技術爭論仍然比較激烈，大多數投資人對模型項目的態度保持相對謹慎，更傾向於尋找已經找到或看到落地場景的應用端項目。

智譜AI CEO張鵬在接受媒體採訪時表示："現在（視頻生成大模型）的商業化仍處於非常早期的階段，而且成本實際上也非常高，後面會根據市場的反饋做逐步迭代。"

據相關機構及媒體的不完全統計，當前國內的大模型數量超300個，其中僅有140個左右完成了生成式人工智能服務備案。今年1-7月，僅35家大模型產業相關企業拿到了億元級的融資，大部分企業仍然處在融資早期，甚至尚未過審。

Founder Park在研報中分析到，大量早期AI應用仍未獲得融資一方面是因爲項目的功能點單薄，產品商業化天花板較低；另一方面，項目需求的資金量小，需求的是天使投資在資本市場上相對稀缺。

而從產品應用端來看，國內大部分視頻生成式大模型都處在公測及體驗階段，用戶反饋也仍然存在部分質疑的聲音。比如，不少大模型生成的視頻成片存在明顯的扭曲問題；還有C端用戶反應，AI生成的視頻內容過於機械、內容不流暢、畫面過於誇張、脫離真實性等問題。甚至針對AI出錯，在短視頻上還形成了一個新的流量賽道。

據博納影業的反饋，即夢AI作爲短劇集《三星堆：未來啓示錄》創作中的重要助手，適用於製作主體高速運動的畫面，但不適合多人關係的畫面、不適合保持人臉一致性，在創作過程中需要調整提示詞及不同模式的搭配來優化效果。

張鵬表示，多模態模型的視頻生成效果對物理世界規律的理解、高分辨率、鏡頭動作連貫性以及時長等，都有非常大的提升空間。模型本身還需要更具突破式創新的新模型架構。另外，視頻生成大模型還存在隱私信息泄漏、生成內容錯誤引導等風險，也因此，部分視頻平臺針對AI內容有嚴格的管控措施。對於企業而言，這些都是需要規避和解決的問題。

03 需求沸騰，企業如何找準PMF

儘管產品並不完美，但無論是企業、需求市場還是資本市場對視頻生成大模型的未來發展均抱有較高的期待。啓明創投主管合夥人周志峰在2024世界人工智能大會上將"3年內AI視頻生成技術將全面爆發"作爲2024生成式AI的十大展望之一。

而視頻生成之所以能夠在AI繪圖之後，成爲下一個有明確落地應用場景的行業，一個重要的原因在於："視頻"已經成爲互聯網時代下，C端用戶的最大內容消費形式。據量子位研究，在移動互聯網的用戶使用時常佔比中，短視頻佔比達28%，移動視頻行業用戶規模達10.76億，月人均時常超64小時。

並且在成本端，有數據顯示，當前Runway的生成價格爲3美元/分鐘，即使按照100:1的生成可用率來計算，視頻製作的實際成本約爲300美元/分鐘，遠低於當前動畫動漫數千美元/分鐘、甚至動畫電影數十萬美元/分鐘的製作成本。

行業背景和優勢加持下，需求端的熱情非常明顯。快手可靈發佈三個多月以來，申請體驗用戶數量已突破70萬大關，累計生成的視頻作品高達700萬份。愛詩科技的PixVerse大模型則在國內上線88天后即達成了一千萬次視頻生成量的里程碑。國內外頭部視頻生成大模型在使用時，還一度出現長時間排隊等待的情況。

期許之下，企業如何找準PMF（Product Market Fit產品市場匹配度），最大程度的發揮自有產品優勢呢？

五源資本副總裁石允豐表示，目前的視頻生成技術底座還沒有穩固，找PMF的挑戰很大。張鵬在談及智譜AI技術在B端和C端的落地成果時也說到，目前PMF中M(Market)的新場景、新市場，F(Fit)所代表的技術和產品的性價比，都沒做到極致。

在當前國內產品仍處在技術驅動階段的環境下，第一新聲認爲，首先，保持技術的領先性是提升B端和C端交付能力的關鍵；其次，加強與用戶溝通，獲取一線真實、客觀的需求，積累早期用戶社羣是企業下一階段的重要壁壘；此外，視頻生成大模型不應僅限於視頻內容的生成，統一多模態的生成和理解是通往通用人工智能的重要路徑。

目前，OpenAI斷供、芯片限制出口等問題日益嚴重，國內大模型對於公開數據的依賴也是亟待解決的問題之一。但至少可見的是，AI視頻生成在影視、廣告、電商、社交媒體等領域具有廣泛的應用前景。而且目前的視頻生成能力，已經可以覆蓋相當一部分特效、動畫、廣告短片、商品動態展示等需求。

未來，國產大模型還需夯實自主可控的技術底座，來迎接後OpenAI時代。

“視頻生成大模型”角逐資本市場，誰先跑通商業化？

相關資訊