對話智譜AI CEO張鵬:視頻生成是AGI必經之路,超級App將在“不知不覺”中到來

出品|本站科技《態度AGI》對話欄目

作者|丁廣勝

“讓大家體驗一下目前視頻生成每人可用的前提下能做到什麼程度,而不是關在實驗裡。”

智譜AICEO張鵬說,這是發佈清影(Ying)的初衷,今天,AI視頻生成再添猛將。

清影是一個視頻模型,它能幹什麼,一句話表述就是:只要你有好的創意(幾個字到幾百個字),再加上一點點耐心(30秒),清影(Ying)就能生成1440x960清晰度的高精度視頻。

本次清影(Ying)底座的視頻生成模型是CogVideoX,它能將文本、時間、空間三個維度融合起來,參考了Sora的算法設計,它也是一個DiT架構,通過優化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。

智譜清影(Ying)AI視頻生成(尋人啓事)(來源:本站科技報道)

“我們積極在模型層面探索更高效的scaling方式。”張鵬表示:“隨着算法、數據不斷迭代,相信Scaling Law將繼續發揮強有力作用。”

在接受採訪時,張鵬謙虛的說到,清影(Ying)上線,主要是階段性成果,還不完美。他坦言,“我們和世界頂級水平之間有差距。但雖然我們承認差距,但這條路還得自己走,我們在追求技術高度的同時,也同步追求技術的可普及性,這是我們的特點。”

問及清影(Ying)是否朝着超級App努力,張鵬表示,所謂超級APP它不一定是大家理解的“超級”,它可能是在循序漸進、潛移默化過程當中讓大家真的愛上,然後習慣使用這個工具。這件事的發生,不一定是階梯狀或者階躍式的。

關於AGI路徑,他認爲,視頻生成並不孤立來看,它是多模態或者AGI多模態路徑當中的一環,是AGI必須要走的路!

以下爲本站科技等媒體對話精選實錄(作不改變原意的調整):

問:清影(Ying)是不是有商業化考量了,後續商業化的策略是什麼,比較偏向於2C還是2B?

張鵬:清影(Ying)功能上線,主要是階段性成果,要說它多麼完美還不是,還需要階段性解決,給大家彙報一下我們的進展,讓大家體驗一下目前視頻生成這樣的事情在每人可用的前提下能做到什麼程度,而不是關在實驗室裡或者在很小的概率上生成出什麼東西。

從現在這個階段來說,無論是2C還是2B,純粹走向大規模商業化還比較早期。爲了公平起見,除了C端和B端,還有創作者們也都能享受這個能力,所以在開放平臺開放了API,它有一定的收費,這是爲了統一計費方式,但是這樣的形式比較親民。大家知道生成視頻成本代價也是非常高的,稍稍收回來一點點也是比較好的事。

問:除了智譜之外,很多企業發佈了新的AI生成視頻產品,大家都往可控性做優化,您覺得清影的優勢在哪裡?

張鵬:第一是技術層面,視頻本身的可控。我們認爲內容生成,尤其是視頻內容生成將來絕大部分情況下還是由人用語言的方式控制。所以如何從文字到語言或者一個簡圖到語言,這樣的方式更可控,這纔是真正的可控,更高層面的可控,這是技術層面的事情。

第二個層面就是安全,生成的內容,因爲視頻信號裡包括的內容和細節更多,要保證生成出來的東西符合你的要求,而且還保證安全,可控肯定是非常重要的一個點,所以我相信所有做視頻生成團隊都很重視這塊內容。

最後,生成出來這件事情如果能做到商業化應用,可控也是必要的條件,你要非常精準表達創作者意圖,而且要讓大家買單,可控也是非常重要的一件事。

問:Sora還沒有開放給公衆使用,智譜AI開放了,這背後是如何思考的?如何前期準備的?

張鵬:首先Sora效果還是不錯的,剛纔我也提到了,今天還是一個初步的階段性成果,還達不到像Sora演示出來那麼好的,那麼長的視頻,這個還需要更多的努力。

我們從來都坦誠承認我們和OpenAI、和世界頂級水平之間的差距。但是,雖然我們承認之間的差距,但是走的這條路還得自己走,我們在不斷用自己的方式往前追趕,讓所有人可以用,所以我們是在追求技術高度的同時,也同步追求技術的可普及性和成本,這也是我們團隊的特點。

問:智譜清言或者這個新產品怎麼提高活躍度,如何才能做成超級APP、殺手級APP?

張鵬:這是個思路問題。我們認爲清言APP定位是人工智能助手。助手意思是幫你解決工作學習生活當中的實際的問題,是要幫你做生產力提效,學習效率提升,工作便利的提升等等這些方面的事情。

可能你會覺得它好像不是那麼好玩,不是那麼像娛樂工具一樣吸引你,但我們也認爲所謂超級APP可能它不一定是這樣的“超級”,是循序漸進、在潛移默化過程當中讓大家真的愛上使用、習慣上使用這個工具。

所以可能這個改變並不一定是階梯狀或者階躍式改變,可能是潛移默化的改變。

我們認爲,與其不斷預測這件事,還不如踏踏實實一點一點做這件事。

問:現在模型都是DiT架構,咱們在這方面有沒有一些創新?

張鵬:第一個算力上DiT+Tansformer這類方面,大家知道Sora也是這種方案,我們也是採用這種方案,但是因爲技術細節上的公開和不透明,很多地方需要自己摸索。然後算力這件事,我不是太同意生成視頻這件事情會小於文字生成這件事情,可能未來很多都會變成多模態信號融合,但以視覺信號爲主,人的大腦目前還是衝擊力最強的。

比如,PPT爲什麼比傳統方式要更被人接受,是因爲有更主觀的視覺信號,把文字轉換成結構化的信息,那未來就會是視頻的形式,所有內容都轉成視覺形式,沒有所謂的PPT,這有待大家一起探討。

問:智譜做視頻生成,是不是隻是在整個模型矩陣中的一部分,還是說未來希望讓它能夠獨立形成商業閉環?

張鵬:視頻生成並不孤立來看,是放到整個技術和產品發展路線當中來看,我們認爲它是多模態或者AGI多模態路徑當中的一環。

我們認爲它是AGI裡必須要走的路徑,從產品角度來講會不會單獨成爲一個單獨的產品去商業化落地,我覺得這是肯定的,只要市場有需求,作爲一個公司就應該做商業化的事情,這是兩件事。

問:文生視頻技術對影視行業有哪些改變?智譜和bilibili和華策都有合作,會不會出現AI取代長視頻拍攝的情況?

張鵬:從技術發展角度來說大家認爲這是很好的事情,是很重要的方向,對影視行業的變化是有積極的意義。但是目前來講,用來做一些輔助的工作是可以的,甚至做一些小規模的創作,但真正要達到改變電影的製作等,這些更高要求的事情可能還得有一段路去走。

問:智譜AI今年的重點是落地產業,那現在佈局包括B端C端和多模態,資金包括您的精力如何分配?

張鵬:確實做大模型這件事太燒錢了,而且確實也面臨市場上的需求,你要商業化落地,所以我們是分層次去做。最基礎的技術突破創新是我們消耗資源,消耗算力方面是最大的部分,商業化層面是在這個基礎之上推進的,但商業化這個事情在我們看來還是根源於你的技術創新和驅動做這件事,我們不太希望說研究是一張皮,商業化,我們的產品,服務客戶是另外一張皮,這樣的割裂對企業來講會面臨一個問題,就是怎麼樣分配資源,我們希望是貫通的,商業化過程當中,服務客戶過程當中就是以我們的技術和產品核心能力驅動的,客戶需求和反饋是我們技術往前創新突破和邁進的驅動力,讓兩者比較好的閉環,我們努力做到這樣的事情。

記者:清影(Ying)當下有沒有綁定的種子用戶畫像和重點關注的場景?

張鵬:像線上電商營銷、媒體的需求等,包括社交上的短視頻等需求,主要是這些比較旺盛,但是我相信肯定不僅止於這些客戶。

問:未來從文本模型到視頻生成模型、多模態模型以後,傳統程序員在開源多模態模型開發中會扮演什麼角色?

張鵬:文本模型相對於視頻多模態模型先跑了一段時間,現在這個模式是未來視頻或者多模態也會往這個方向走,模式也類似,開發者社區裡很多人在做技術建設,風格化等一些事情,這些事情都是開源社區充滿熱情的一些人做的事情,慢慢會積累成一定的套路,通過的方法論都會遷移到多模態的模型上。

記者:Sora作爲視頻生成模型出來,還提出來一個“世界模型”,智譜AI有沒有對世界模型和物理世界的研究?

張鵬:很多的討論還沒有定論。我們的觀點和OpenAI比較相近,對於人的大腦來說,或者人對世界的認知,除了語言以外,視覺、聽覺、嗅覺各種各樣的感官是綜合在一起的,人爲什麼看似學習的速度、效率沒有計算機那麼快,但是人的智能比計算機高,就是在於人的大腦的學習過程會遠比現在的更復雜,不同模態之間信號的互相驗證和交叉。所謂世界模型的路徑上,跨模態是非常重要的事情,一步一步來吧。

記者:你們 是從什麼時候開始做清影(Ying)的,團隊規模、產品研發投入是什麼樣?

張鵬:從2021年開始就佈局這件事,這個過程當中也不斷積累其他相關的東西。我們認爲本身做大模型這件事最終目標想要實現AGI,本質上還是在於如何對現實世界裡的信號、數據進行提煉、壓縮、學習的過程,這個事情可能語言是密度最高的,相對來說比較容易,而且是人機交互當中非常重要的環節。然後,語言模型轉去做多模態模型,我認爲,單模態的建模,語言模態的建模,跨模態的建模,最終會走向本質的物理世界統一的表示,大家追求的是同一個真理,只是走不同的路而已,可能是這樣一個結局。

關於《態度AGI》

本站科技重磅推出系列對話欄目《態度AGI》。過去三年,AI變革風起雲涌,全球科技秩序正在重構,通往AGI的道路或許正在悄然臨近。本欄目以AGI爲題,將對話100位AI專家、企業家、投資人,試圖撥開雲霧,與大家一道見證AGI時代的到來。第八期對話智譜AICEO張鵬。

往期回顧:

《態度AGI》第一期:對話李開復:大模型創業狂奔一年 中美差距縮小 我十年不套現

《態度AGI》第二期:對話王小川:我們不跟進大模型價格戰

《態度AGI》第三期:對話戴文淵:大模型價格戰不解決核心問題

《態度AGI》第四期:智源研究院院長王仲遠:GPT4不是國內大模型的盡頭

《態度AGI》第五期:對話朱嘯虎:5年後將沒有獨立的大模型公司存在,因爲沒有商業模式

《態度AGI》第六期:對話梅花創投吳世春:“中國大模型五虎”想要跑出來非常難

《態度AGI》第七期:對話躍然創新CEO李勇:做大模型應用 如何和巨頭錯位競爭