☰

智譜AI張鵬：視頻生成是大模型對世界理解逐漸複雜的過程

本報記者曲忠芳北京報道

“凡是我不能創造的，必是我還不理解的。”這是20世紀著名的物理學家理查德·費曼的名言，大意是說真正的理解往往來自能夠從頭開始構建一個概念或物體，並觀察它是如何工作的。自今年年初OpenAI的文生視頻模型Sora面市以來，大模型的功能便不再侷限於文本生成，多模態——指文本、圖片、視頻、音頻等多種模態的信息生成以及跨模態之間的融合等，越來越成爲大模型廠商的“必爭之地”。

近日，在智譜AI開放日活動上，智譜AI首席執行官張鵬正式發佈了AI生成視頻模型“清影”（Ying），即日起面向所有C端用戶開放AI文生視頻、圖生視頻能力。張鵬向《中國經營報》等媒體記者表示，費曼的方法論放在當下AI大模型領域依然適用。“從文字、圖片到視頻，這既是一個模態逐漸豐富的過程，也是一個大模型對世界的理解逐漸複雜、多維化的過程。”

打出“全量開放、不限量使用”策略

記者第一時間在智譜清言App內測試體驗了清影功能，用手機號碼註冊申請後立即可以使用，這與一些大模型工具在註冊申請與試用資格之間存有時間差不同。輸入一段文字（即Prompt），可以選擇“視頻風格”“情感氛圍”“運鏡方式”等不同參數，等待30秒即可生成一段6秒時長的高清視頻。而圖生視頻功能，則支持用戶上傳一張不超過10M大小的圖片，輸入描述文字，即可讓圖片動起來。

需要指出的是，清影的文生視頻、圖生視頻遇高峰時可能需要排隊等待1分鐘，如果想要“加速”，用戶可以購買加速包，加速日包、年包分別爲5元、199元。

記者觀察到，免費註冊體驗、付費訂閱加速或加量，是目前大模型產品普遍採用的產品商業化運營模式。比如，在清影之前，快手於今年6月6日上線了視頻生成大模型“可靈”，截至目前總申請試用人數超過百萬人，其中已有30多萬人獲得了使用資格。記者從可靈AI官網看到，試用者可付費成爲不同等級的會員，月度、年度會員分別爲33元起、396元起，相比非會員，付費會員在生成視頻的數量、速度、時長、運鏡方式等方面享受更多的權益。

張鵬表示，清影底座的視頻生成模型是CogVideoX，參考了OpenAI的Sora算法設計，同樣採用的DiT架構，通過優化比前代推理速度提升了6倍。在生成式視頻模型的研發中，大模型開發的經驗法則Scaling Law（大意指規模越大，性能越好）繼續在算法和數據兩方面發揮作用。“智譜AI在模型層面探索更高效的Scaling方式，隨着算法、數據不斷迭代，Scaling Law將發揮更大威力。”

毫無疑問，大模型離不開大算力、大數據的支撐。張鵬透露，智譜AI生成式視頻研發得到了北京市的大力支持。當前，北京市正在以海淀區爲中心打造人工智能產業高地，而海淀區是智譜AI總部所在地，因此智譜AI開展大模型研發獲得了產業投資、算力補貼、應用場景示範、人才等全方位的支持。與此同時，智譜AI生成式視頻研發算力支持來自北京亦莊人工智能公共算力平臺。除此之外，視頻網站嗶哩嗶哩（B站）、影視公司華策影視作爲合作伙伴也分別參與到清影的研發、模型共建中。

多模態成爲“兵家必爭之地”

“人類對一個複雜系統認知的功能是通過各腦區相互配合完成的，不僅包括文字語言，還包括視覺理解、聽覺等，因此多模態的感知和理解，同認知能力的發展有非常密切的關係。”張鵬指出，智譜AI的目標定位是一家AGI（通用人工智能）公司，因此一直以爲非常重視多模態技術，自2021年開始佈局文生圖、文生視頻的模型。正如費曼所倡導的方法論，不創造一個東西，就不會理解一個東西。

記者瞭解到，目前全球範圍內文本、圖片生成視頻模型賽道上已有多家企業參與競逐，除了OpenAI的Sora之外，還有Runway的Gen系列，微軟的Nuwa，Meta的Emu，谷歌的Phenaki、VideoPoet、CogVideo等，國內入局的比如智譜AI的清影、快手可靈、商湯“日日新”模型等。從記者對各家國產視頻生成模型的測試體驗來看，目前視頻生成的內容在高清、運動特效等方面已有驚喜，但在時長、動畫呈現效果等方面仍有較大的提升改進空間。

正如張鵬在活動現場坦言，清影功能的上線是智譜AI在視頻生成模型研發的階段性成果，目前剛剛起步，並不完美，還有很大的進步空間，一些問題需要階段性去解決。現在上線的目的是讓人們體驗到目前較優秀的視頻生成產品，而不是將產品關在實驗室裡。目前，智譜AI方面已收到來自產業和客戶側的需求及反饋，涉及諸如電商產品營銷、影視特效等諸多領域的具體應用場景。

大模型及生成式AI從單模態向多模態發展已成爲行業共識，近兩年來，2022年11月底ChatGPT“出圈”、2023年3月MidJourney V5面市、2024年2月Sora亮相，分別被業內視爲大模型在文本端、圖像端、視頻端的生成應用典型代表，由此吸引了資本界及各個行業領域的高度關注。無論是科技大廠，還是大模型獨角獸，抑或學界研究機構，都成爲多模態生成的積極參與者。

在前不久舉行的2024世界人工智能大會（WAIC）上，騰訊集團副總裁蔣傑公開表示，大模型行業正從最初的單模態向多模態過渡，甚至即將邁入全模態的新階段。多模態能力是大模型從認知空間走向物理世界的第一步，文本、圖像、語音甚至視頻的多模態對齊和融合，已經成爲主流大模型發展方向，是通往人工智能的必由之路。

（編輯：吳清審覈：李正豪校對：顏京寧）

智譜AI張鵬：視頻生成是大模型對世界理解逐漸複雜的過程

相關資訊