商湯科技數字文娛事業部總經理欒青:未來三到五年,更多大...

9月6日上午,在界面新聞舉辦的2024 REAL科技大會上, 商湯數字文娛事業部總經理欒青在演講中介紹,商湯爲AI大模型全方位佈局,覆蓋算力基礎層、AI模型層與上層應用。

目前商湯投建的國產化人工智能算力集羣已擁有GPU是5.4萬塊,總運營算力總運營峰值是2萬P,公司在上海臨港正在投建全國最大規模人工智能數據中心,全國算力節點遍及上海、廣州、重慶、深圳、福州等地。

今年7月,商湯發佈“日日新5o”模型,交互體驗對標GPT-4o,實現全新AI交互模式。該模型能夠整合跨模態信息,通過基於聲音、文本、圖像和視頻等多種形式,呈現實時的流式多模態交互。

在視頻生成領域,商湯在7月發佈首個“可控”人物視頻生成大模型Vimi,該模型主要面向C端用戶,支持聊天、唱歌、舞動等多種娛樂互動場景。Vimi可生成長達1分鐘的單鏡頭人物類視頻,畫面效果不會隨着時間的變化而劣化或失真,通過一張任意風格的照片就能生成和目標動作一致的人物類視頻,通過已有人物視頻、動畫、聲音、文字等多種元素進行驅動。

欒青提出,2024年將成爲AI視頻的應用元年,未來三到五年,更多應用場景將隨着模型能力提升和推理成本下降逐步解鎖。

其次,AI視頻生成將重塑傳統視頻製作工作,整合音視頻創作的流程方法變爲一個整體,降低AI視頻內容的製作門檻,並以全新視頻交互界面展現。

過去十幾年,視頻產業一直不斷地發展,製作一個視頻從幾百人的團隊,精簡至幾十個人的網劇團隊,再到個人也可以創作短視頻。技術推動下,視頻團隊和製作時間不斷精簡,而視頻數量卻在指數級的爆增,人類的消費習慣從曾經的看文案、圖片、新聞,變成了看視頻。

欒青認爲,當視頻的生成速度更快,甚至達到實時生成視頻,AI能夠帶來新的交互體驗,例如通過算法自動地控制人物動作,實時可交互的視頻。

當前,AI視頻生成有兩大方向,一是用文字提示生成視頻;另一個則是用其他信號,比如可控的邏輯性信號。例如動畫設計師會捕捉人體和自然信號,再讓人工智能學習,最終完成。這樣生成的人物不僅合理,還能隨着可控的信號進行變化。

欒青也提到,AI視頻大模型在人物類視頻生成上存在三大挑戰:人物動作、表情難以精確控制,出效果僅靠大量“抽卡” ;人物身份穩定性不高,“常常換長相” ;僅支持穩定生成3-4秒時長,難以滿足需求。因此,日常視頻創作尚未達到可用的階段。

“當前人們每天看到的視頻80%都是人物爲主題的視頻。”

欒青介紹,商湯正在嘗試用APP幫助用戶來生成視頻寫真大片,利用AI算法控制運鏡、光影變化、人物背景,讓內容變得更真實和自然。例如用戶輸入一張照片,大模型產品也可以用不同的動畫方式去製作內容,讓內容形式更爲豐富。

欒青認爲,隨着AGI技術在視頻領域的深入,除了生產效率的變化,更多的是全新體驗。大模型的能力可以讓普通人更好的進行創作。