文生視頻爆發 生數科技商業化重點仍在B端市場

《科創板日報》9月12日訊(記者 張洋洋) “我們目前判斷下來的話,B端市場有比較明確直接的需求,所以B端是我們長期非常重點的一個方向。C端的話,我們也在不斷的探索過程中。”昨日,在生數科技媒體開放日活動上,當問及產品商業化時,生數科技CEO唐家渝如是回覆到。

4月底,由生數科技和清華大學聯合研發的國內首個純自研原創視頻大模型Vidu面向全球發佈,7月底正式上線,全面開放使用,該模型生成視頻時長最長爲16秒,公司稱全面對標Sora。

按照唐家渝的說法,Vidu目前採取SaaS訂閱和API接口兩種商業化模式。從收入角度來看,目前階段B端市場收入更大,C端增長曲線“非常高”。

Sora之後,今年上半年,大模型領域最熱鬧的細分賽道要數文生視頻,國內AI廠商加速趕來,一衆產品在6-7月迎來發布更新潮。

不過,做好文生視頻這件事並不簡單,這一點從OpenAI在今年初發布了Sora之後,仍未正式對外開放便可見一斑。

這主要是因爲當前的視頻生成技術產出的結果與用戶期望之間仍存在較大差距,這些模型在理解和應用物理規則方面表現不足,並且在生成過程中缺乏有效的可控性。

在讓視頻生成更加穩定、可控這件事情上,昨日,Vidu更新了一項功能,全球首發“主體參照”功能,該功能能夠實現對任意主體的一致性生成,讓視頻生成更加穩定、可控。

所謂“主體參照”,就是允許用戶上傳任意主體的一張圖片,Vidu就能夠鎖定該主體的形象,通過描述詞任意切換場景,輸出主體一致的視頻。

唐家渝表示, "主體參照”這一全新功能的上線,代表着AI完整敘事的開端,AI視頻創作也將邁向更高效、更靈活的階段。無論是製作短視頻、動畫作品還是廣告片,在敘事的藝術中,一個完整的敘事體系是“主體一致、場景一致、風格一致”等要素的有機結合。

可以看到的是,生數科技寄希望於“主體參照”功能,在競爭激烈的視頻大模型領域維持競爭優勢。

視頻作爲圖像模態的再擴展,將AIGC的技術推向高潮,也讓AIGC的應用離大衆越來越近。在技術路徑上,國內視頻生成的主流選擇是基於Transformer架構的擴散模型,這一架構能使模型在處理語言、計算機視覺、圖像生成等領域表現出擴展能力。

商業方面,從公開情況來看,國內外廠商的商業選擇上還是比較類似,即便是像Sora、Runway,都在積極擁抱好萊塢,或者服務廣告企業。

在技術路線和商業化路徑上,行業內幾乎已經處在同質化狀態。

對此,唐家渝認爲,在技術路線上,現在處於底層架構收斂的狀態,同質化並不代表大家所有進展的能力都相同。因爲在架構這一大的基礎上,中間有非常多的環節,例如怎麼有效地去進行Scale up,例如視頻如何有效的壓縮,都會有非常多的一些技巧、實踐的經驗在裡面。包括說生成的速度,在保證質量的情況下能否保證快速,這些其實都是在所謂架構收斂的大思路下,還涉及到的非常多的算法技巧、算法難點,包括算法工程化的一些難點,這些是導致大家差異性的主要原因。

“商業化選擇雖然比較類似,但整體AI生成視頻領域,還處於發展前期,國際頭部玩家在齊頭並進或者叫共同擴大市場。”唐家渝表示,“關於目前的客戶選擇,生數科技會關注企業和視頻的相關性,最直接用於各種視頻內容創作的,以及天然與視頻內容相關的領域,比如廣告、遊戲、短劇和影視等。”

面對激烈的市場競爭,他坦言,技術仍是關鍵因素,目前的視頻生成只是初步符合物理規律,還有很高的天花板需要突破,比如更強的模型能力以及更多模態的協同生成。