視頻生成羣雄逐鹿,哪些重要問題待解?

12月5-6日,2024中國生成式AI大會(上海站)「GenAICon 2024」將在上海中星鉑爾曼大酒店盛大舉辦。中國生成式AI大會已成功舉辦兩屆,迅速成長爲國內生成式AI領域最具影響力的產業峰會之一。

此次也是中國生成式AI大會首次登陸上海舉辦,由智一科技旗下智能產業第一媒體智東西、AI與硬科技知識分享社區智猩猩共同發起。上海市人工智能行業協會爲本次大會的指導單位。

大會上海站以“智能躍進 創造無限”爲主題,將設置“主會場峰會+分會場研討會+展覽區”。其中,主會場將進行大模型峰會、AI Infra峰會,分會場將組織端側生成式AI、AI視頻生成和具身智能三場技術研討會。主會場與分會場外則設有展覽區。

50+位嘉賓將在大會上帶來致辭、演講、報告和對話討論,以前瞻性視角爲大家解構和把脈生成式AI的技術產品創新、商業落地解法、未來趨勢走向與前沿研究焦點。

作爲大會上海站的三場技術研討會之一,AI視頻生成技術研討會將在第二日上午的分會場進行,由主題報告和圓桌Panel兩個環節組成。

Sora自年初問世以來,AI視頻生成領域風起雲涌,到年末來看,國內外都已是羣雄逐鹿的局面。儘管如此,依舊有不少重要問題有待解決。目前,從學術界到工業界,都在致力於解決AI視頻生成尚未解決的問題,以期爲視頻生成大模型及應用產品帶來更優質的體驗。

一、上海站三場研討會之一,完整議程公佈

目前,AI視頻生成技術研討會邀請到中存算董事長陳巍,上海交通大學人工智能研究院助理教授晏軼超,新壹科技AI算法主任架構師李璋,井英科技聯合創始人、CTO王健,曠視研究院高級研究員李華東5位青年學者和技術專家帶來報告,將圍繞視頻大模型架構比較、三維數字人視頻生成、面向數字人生成的視頻垂直大模型、AI短劇技術突破、可控人物視頻生成展開講解。

視頻大模型(VLM)正與短視頻產業結合並迎來新爆發點。中存算董事長陳巍將圍繞《視頻大模型架構對比及長序列模型加速》這一主題,從視頻生成大模型與世界模型的視角出發,對比主流架構(如NaViT、RADM),探討內存牆和通信牆對視頻大模型GPGPU/TPU集羣訓練和部署的挑戰,並分享算力芯片級訓練部署的解決方案和系統經驗。

三維高斯、大模型等技術在過去一年快速發展,並與數字人技術進行了廣泛結合。上海交通大學人工智能研究院助理教授晏軼超將帶來主題爲《先驗引導的三維數字人視頻生成》的報告,從數字人重建、生成與編輯等方向介紹三維數字人視頻生成的最新進展,並探討三維數字人技術的發展趨勢。

在生成式AI技術的推動下,智能數字人已成爲內容創作的重要方向。新壹科技AI算法主任架構師李璋將圍繞《視頻垂直大模型在智能數字人生成中的應用》,介紹從通用大模型到垂直大模型的技術演進,講解新壹視頻大模型在數字人視頻生成中的核心技術突破,並深入分析如何實現自然語言驅動的動作與表情生成,還將展示其在相關領域的典型應用案例。

近期,井英科技通過視頻生成模型實現了100分鐘以上短視頻的製作,併成功實現了用戶付費觀看的商業模式。公司聯合創始人、CTO王健將在此次論壇上將分享AI短劇從最初的不可行到現如今可行的關鍵技術突破,主題爲《AI短劇拐點背後的技術突破》。

隨着短視頻、影視和遊戲動畫的快速發展,傳統的視頻製作方式因耗時耗力而逐漸顯現侷限性。視頻生成大模型算法爲高效生成高質量視頻提供了新選擇,但現有算法的生成內容可控性不足。曠視研究院高級研究員李華東將以《可控人物視頻生成》爲主題,介紹支持混合模態控制的人像視頻生成算法MegActor 系列工作。

主題報告環節結束後的圓桌Panel,將由中存算董事長陳巍,上海交通大學人工智能研究院助理教授晏軼超,井英科技聯合創始人、CTO王健,以及曠視研究院高級研究員李華東一起帶來。

二、五位學者專家多維度講解AI視頻生成

1、中存算董事長 陳巍

陳巍博士,大模型+AI芯片專家,高級職稱,中存算等企業董事長。國際計算機學會(ACM)、中國計算機學會(CCF)專業會員,多個國際人工智能期刊審稿人。主要研究方向爲大模型架構、稀疏量化壓縮與部署加速,存算一體與3D Chiplet處理器,相關技術成果已被廣泛應用於知名IDC和互聯網企業。

曾任領域知名人工智能(自然語言處理)企業首席科學家,中國科學院副主任(2012),多個國家科技重大專項課題負責人。中國與美國發明專利軟件著作權約70+項(約50+項發明專利已授權)。著有《Sora大模型技術精要—原理、關鍵技術、模型架構與未來趨勢》《GPT-4大模型硬核解讀》《ChatGPT大模型技術精要—發展歷程、原理、技術架構詳解和產業未來》《智能網聯汽車:激光與視覺SLAM詳解》等。

報告主題:《視頻大模型架構對比及長序列模型加速》

內容概要:隨着大模型技術的快速發展,視頻大模型(VLM)正與短視頻產業結合並迎來新的爆發機遇,逐漸成爲互聯網應用的熱點。

本次分享從視頻大模型與世界模型的角度,對比主流視頻生成大模型架構,探討視頻生成的關鍵技術(包括NaViT、RADM等),分析視頻生成類大模型的主要挑戰與發展趨勢;探討內存牆(Memory Wall)和通信牆對視頻大模型GPGPU/TPU集羣訓練和部署的挑戰,並針對這類視頻長序列模型的算力芯片級訓練部署,結合具體項目給出軟硬結合的解決方案與系統經驗。

2、上海交通大學人工智能研究院助理教授 晏軼超

晏軼超,上海交通大學人工智能研究院助理教授,博士生導師。獲上海交通大學電子工程系學士、博士學位,法國里昂中央理工學院碩士學位,曾擔任阿聯酋起源人工智能研究院研究科學家。主要研究方向爲AIGC及三維數字人技術,發表包括TPAMI、CVPR、NeurIPS在內的論文40餘篇。先後主持國家自然科學基金青年項目、CCF-阿里巴巴青年科學家基金等項目8項。曾入選上海市海外高層次人才計劃,獲2020年度中國圖象圖形學學會優秀博士論文獎。

報告主題:《先驗引導的三維數字人視頻生成》

內容概要:“人”一直是視頻生成的核心對象,面對大規模視頻的生成需求,利用生成式人工智能技術產生高擬真,規模化的虛擬數字人正逐漸成爲研究熱點。三維高斯、大模型等技術在過去一年快速發展,並與數字人技術進行了廣泛結合,本次報告將從數字人重建、生成、編輯等方向介紹數字人視頻生成領域的最近進展,對三維數字人技術的發展趨勢進行探討。

3、新壹科技AI算法主任架構師 李璋

李璋,擁有中國科學院軟件工程碩士學位,是生成式人工智能領域的資深技術專家。在深度學習、算法優化以及大模型研發方面具有深厚的理論基礎和豐富的實戰經驗。在新壹(北京)科技有限公司擔任AI算法主任架構師,主導設計並研發了多個具有行業標誌性的AI項目。設計與研發了“新壹視頻大模型”——國內首個專注於視頻生成的生成式AI大模型。該模型在視頻內容生成、理解與優化方面取得了突破性成果,爲推動國內生成式AI技術在視頻領域的實際應用提供了強有力的支撐。

報告主題:《視頻垂直大模型在智能數字人生成中的應用》

內容概要:在生成式AI技術蓬勃發展的背景下,智能數字人已成爲內容創作、虛擬助手和人機交互等領域的重要應用之一。然而,傳統生成模型在高精度、多模態的智能數字人生成中仍面臨諸多挑戰。爲此,垂直領域的大模型提供了一條全新路徑。

本次演講,首先會介紹從通用大模型到垂直大模型的演進,之後將着重講解新壹視頻大模型的整體架構設計及其在數字人視頻生成與優化中的核心技術突破;此外,還將對智能數字人生成的技術難點,包括數字人生成中實現自然語言驅動動作與表情生成的關鍵技術等進行深入分析,並分享視頻垂直大模型驅動的智能數字人在相關領域的典型應用案例。

4、井英科技聯合創始人、CTO 王健

王健,井英科技聯合創始人,CTO,國內視頻生成模型的首批創業者,從2020年起專注於視頻生成模型及相關應用。在參與創立井英科技之前,擔任觸寶科技聯合創始人、CTO,是觸寶輸入法主創,自然語言模型專家。

報告主題:《AI短劇拐點背後的技術突破》

內容概要:自今年2月OpenAI發佈Sora起,視頻生成大模型成爲了熱點方向。但其具體落地的業務場景卻一直不明確。近期,井英科技通過視頻生成模型實現了100分鐘以上短視頻的製作,併成功實現了用戶付費觀看的商業模式。本次分享將介紹AI短劇從最初的不可行到現如今可行的關鍵技術突破,並探討了除視頻生成大模型之外的其他關鍵技術進展。

5、曠視研究院高級研究員 李華東

李華東,曠視研究院高級研究員,碩士畢業於清華大學計算機系。研究方向爲計算機視覺,主要包括視頻生成與理解,深度估計等,已在ECCV,AAAI等人工智能頂級會議上發表多篇論文。

報告主題:《可控人物視頻生成》

內容概要:短視頻、影視和遊戲動畫創作正在迅速發展。然而,傳統的視頻製作過程耗時耗力,通常需要大量的人工後期編輯。視頻生成大模型算法提供了一種低成本、高效的高質量視頻內容生成解決方案。但視頻生成算法生成的內容可控性不足,限制了其實際應用的有效性。因此,如何實現視頻生成內容的可控性仍是一大關鍵挑戰。

在本次報告中,我將介紹 MegActor 系列工作,這是一種支持混合模態控制的人像視頻生成算法。該算法支持角色自定義(包括真實人物、二次元人物和遊戲人物等),並能夠通過視頻、音頻和文本輸入實現單獨和混合控制。其功能涵蓋了控制角色說話、唱歌和生成表情動畫等。MegActor 系列是社區內的首個開源可控人物視頻生成大模型,將持續優化以推動技術的不斷髮展。

三、中國生成式AI大會上海站日程