智譜AI張鵬:視頻生成是大模型對世界理解逐漸複雜的過程
本報記者 曲忠芳 北京報道
“凡是我不能創造的,必是我還不理解的。”這是20世紀著名的物理學家理查德·費曼的名言,大意是說真正的理解往往來自能夠從頭開始構建一個概念或物體,並觀察它是如何工作的。自今年年初OpenAI的文生視頻模型Sora面市以來,大模型的功能便不再侷限於文本生成,多模態——指文本、圖片、視頻、音頻等多種模態的信息生成以及跨模態之間的融合等,越來越成爲大模型廠商的“必爭之地”。
近日,在智譜AI開放日活動上,智譜AI首席執行官張鵬正式發佈了AI生成視頻模型“清影”(Ying),即日起面向所有C端用戶開放AI文生視頻、圖生視頻能力。張鵬向《中國經營報》等媒體記者表示,費曼的方法論放在當下AI大模型領域依然適用。“從文字、圖片到視頻,這既是一個模態逐漸豐富的過程,也是一個大模型對世界的理解逐漸複雜、多維化的過程。”
打出“全量開放、不限量使用”策略
記者第一時間在智譜清言App內測試體驗了清影功能,用手機號碼註冊申請後立即可以使用,這與一些大模型工具在註冊申請與試用資格之間存有時間差不同。輸入一段文字(即Prompt),可以選擇“視頻風格”“情感氛圍”“運鏡方式”等不同參數,等待30秒即可生成一段6秒時長的高清視頻。而圖生視頻功能,則支持用戶上傳一張不超過10M大小的圖片,輸入描述文字,即可讓圖片動起來。
需要指出的是,清影的文生視頻、圖生視頻遇高峰時可能需要排隊等待1分鐘,如果想要“加速”,用戶可以購買加速包,加速日包、年包分別爲5元、199元。
記者觀察到,免費註冊體驗、付費訂閱加速或加量,是目前大模型產品普遍採用的產品商業化運營模式。比如,在清影之前,快手於今年6月6日上線了視頻生成大模型“可靈”,截至目前總申請試用人數超過百萬人,其中已有30多萬人獲得了使用資格。記者從可靈AI官網看到,試用者可付費成爲不同等級的會員,月度、年度會員分別爲33元起、396元起,相比非會員,付費會員在生成視頻的數量、速度、時長、運鏡方式等方面享受更多的權益。
張鵬表示,清影底座的視頻生成模型是CogVideoX,參考了OpenAI的Sora算法設計,同樣採用的DiT架構,通過優化比前代推理速度提升了6倍。在生成式視頻模型的研發中,大模型開發的經驗法則Scaling Law(大意指規模越大,性能越好)繼續在算法和數據兩方面發揮作用。“智譜AI在模型層面探索更高效的Scaling方式,隨着算法、數據不斷迭代,Scaling Law將發揮更大威力。”
毫無疑問,大模型離不開大算力、大數據的支撐。張鵬透露,智譜AI生成式視頻研發得到了北京市的大力支持。當前,北京市正在以海淀區爲中心打造人工智能產業高地,而海淀區是智譜AI總部所在地,因此智譜AI開展大模型研發獲得了產業投資、算力補貼、應用場景示範、人才等全方位的支持。與此同時,智譜AI生成式視頻研發算力支持來自北京亦莊人工智能公共算力平臺。除此之外,視頻網站嗶哩嗶哩(B站)、影視公司華策影視作爲合作伙伴也分別參與到清影的研發、模型共建中。
多模態成爲“兵家必爭之地”
“人類對一個複雜系統認知的功能是通過各腦區相互配合完成的,不僅包括文字語言,還包括視覺理解、聽覺等,因此多模態的感知和理解,同認知能力的發展有非常密切的關係。”張鵬指出,智譜AI的目標定位是一家AGI(通用人工智能)公司,因此一直以爲非常重視多模態技術,自2021年開始佈局文生圖、文生視頻的模型。正如費曼所倡導的方法論,不創造一個東西,就不會理解一個東西。
記者瞭解到,目前全球範圍內文本、圖片生成視頻模型賽道上已有多家企業參與競逐,除了OpenAI的Sora之外,還有Runway的Gen系列,微軟的Nuwa,Meta的Emu,谷歌的Phenaki、VideoPoet、CogVideo等,國內入局的比如智譜AI的清影、快手可靈、商湯“日日新”模型等。從記者對各家國產視頻生成模型的測試體驗來看,目前視頻生成的內容在高清、運動特效等方面已有驚喜,但在時長、動畫呈現效果等方面仍有較大的提升改進空間。
正如張鵬在活動現場坦言,清影功能的上線是智譜AI在視頻生成模型研發的階段性成果,目前剛剛起步,並不完美,還有很大的進步空間,一些問題需要階段性去解決。現在上線的目的是讓人們體驗到目前較優秀的視頻生成產品,而不是將產品關在實驗室裡。目前,智譜AI方面已收到來自產業和客戶側的需求及反饋,涉及諸如電商產品營銷、影視特效等諸多領域的具體應用場景。
大模型及生成式AI從單模態向多模態發展已成爲行業共識,近兩年來,2022年11月底ChatGPT“出圈”、2023年3月MidJourney V5面市、2024年2月Sora亮相,分別被業內視爲大模型在文本端、圖像端、視頻端的生成應用典型代表,由此吸引了資本界及各個行業領域的高度關注。無論是科技大廠,還是大模型獨角獸,抑或學界研究機構,都成爲多模態生成的積極參與者。
在前不久舉行的2024世界人工智能大會(WAIC)上,騰訊集團副總裁蔣傑公開表示,大模型行業正從最初的單模態向多模態過渡,甚至即將邁入全模態的新階段。多模態能力是大模型從認知空間走向物理世界的第一步,文本、圖像、語音甚至視頻的多模態對齊和融合,已經成爲主流大模型發展方向,是通往人工智能的必由之路。
(編輯:吳清 審覈:李正豪 校對:顏京寧)