AIGC的下一站:期待、警惕充斥着AI剪輯師的世界

上月底,名爲“chaindrop”的 Reddit 用戶,在 r/StableDiffusion subreddit 上分享了一個由人工智能生成的視頻,在業內引起了不小的爭議。

視頻中,一個由 AI 生成的醜陋畸形的 “威爾·史密斯”,以一種可怕的熱情將一把意大利麪條鏟進嘴裡。這一 “地獄般” 的視頻迅速傳播到其他形式的社交媒體,數字媒體和廣播公司 Vice 表示該視頻將 “伴隨你的餘生”,美國娛樂網刊 The A.V. Club 稱其爲 “AI 開發的自然終點”。僅在 Twitter 上,這一視頻的觀看次數就超過了 800 萬。

下面這段動圖是其中的部分內容。每一幀都以不同的角度展示了模擬的威爾·史密斯狼吞虎嚥地吃着意大利麪的場景。

自從威爾·史密斯吃意大利麪的視頻瘋狂傳播後,互聯網上就出現了斯嘉麗·約翰遜和喬·拜登吃意大利麪等後續報道,甚至還有史密斯吃肉丸子的視頻。儘管這些可怕的視頻正在成爲互聯網中完美且 “恐懼” 模因素材,但就像之前的文生圖以及每一種 AI 生成的內容一樣,文生視頻(Text2Video)正加速走進我們的生活。

“威爾·史密斯吃意大利麪”的視頻出自開源 AI 工具 ModelScope 模型,創建這一視頻的工作流程相當簡單:僅需給出“Will Smith eating spaghetti”的提示,並以每秒 24 幀(FPS)的速度生成。

據瞭解,ModelScope 是一種 “文生視頻” 擴散模型,經過訓練可以通過分析收集到 LAION5B、ImageNet 和 Webvid 數據集中的數百萬張圖像和數千個視頻,根據用戶的提示來創建新視頻。這包括來自 Shutterstock 的視頻,因此在其輸出上有幽靈般的 “Shutterstock” 水印,就像視頻中所展示的那樣。

目前,在文生視頻這一賽道,國內外大廠和研究機構也在悄然競爭。早在去年 9 月 29 日,Meta 就發佈了 Make-A-Video,在最初的公告頁面上,Meta 展示了基於文本生成的示例視頻,包括 “一對年輕夫婦在大雨中行走” 和 “一隻正在畫肖像的泰迪熊”。

同時,Make-A-Video 具備拍攝靜態源圖像並將其動畫化的能力。例如,一張海龜的靜止照片,一旦通過 AI 模型處理,就可以看起來像是在游泳。

僅僅在 Meta 推出 Make-A-Video 不到一週後,Google 便發佈了 Imagen Video,它能夠根據書面提示以每秒 24 幀的速度生成 1280×768 的高清晰視頻。Imagen Video 包括幾個顯著的風格能力,例如根據著名畫家的作品(如梵高的畫作)生成視頻,生成 3D 旋轉對象同時保留對象結構,以及渲染文本多種動畫風格。Google 希望,這一視頻合成模型能夠 “顯著降低高質量內容生成的難度”。

隨後,Google 推出了另一個文生視頻模型 Phenaki。區別於 Imagen Video 主打視頻品質,Phenaki 主要挑戰視頻長度。它可以根據詳細提示創建更長的視頻,實現 “有故事、有長度”。它生成任意時間長度的視頻能力來源於其新編解碼器 CViVIT——該模型建立在 Google 早期文生圖系統 Imagen 中磨練的技術之上,但在其中加入了一堆新組件,從而可以將靜態幀轉換爲流暢的運動。

今年 2 月 6 日,Stable Diffusion 背後的原始創業公司 Runway 推出了視頻生成 AI——Gen-1 模型,可以通過使用文本提示或者參考圖像所指定的任意風格,將現有視頻轉換爲新視頻,改變其視覺風格。3 月 21 日,Runway 發佈 Gen-2 模型,專注於從零開始生成視頻,通過將圖像或文本提示的構圖和樣式應用於源視頻的結構(視頻到視頻),或者,只使用文字(文生視頻)。

Make-A-Video 等文生視頻模型背後的關鍵技術——以及爲什麼它比一些專家預期得更早到來——是因爲它踩在了“文生圖”技術巨人的肩膀上。

據 Meta 介紹,他們不是在標記的視頻數據(例如,描述的動作的字幕描述)上訓練 Make-A-Video 模型,而是採用圖像合成數據(用字幕訓練的靜止圖像)並應用未標記的視頻訓練數據,以便模型學習文本或圖像提示在時間和空間中可能存在的位置的感覺。然後,它可以預測圖像之後會發生什麼,並在短時間內顯示動態場景。

從 Stable Diffusion 到 Midjourney,再到 DALL·E-2,文生圖模型已經變得非常流行,並被更廣泛的受衆使用。隨着對多模態模型的不斷拓展以及生成式 AI 的研究,業內近期的工作試圖通過在視頻領域重用文本到圖像的擴散模型,將其成功擴展到文本到視頻的生成和編輯任務中,使得用戶能夠僅僅給出提示便能得到想要的完整視頻。

早期的文生圖方法依賴於基於模板的生成和特徵匹配等方法。然而,這些方法生成逼真和多樣化圖像的能力有限。在 GAN 獲得成功之後,還提出了其他幾種基於深度學習的文生圖方法。其中包括 StackGAN、AttnGAN 和 MirrorGAN,它們通過引入新的架構和增強機制進一步提高了圖像質量和多樣性。

後來,隨着 Transformer 的進步,出現了新的文生圖方法。例如,DALL·E-2 是一個 120 億參數的變換器模型:首先,它生成圖像令牌,然後將其與文本令牌組合,用於自迴歸模型的聯合訓練。之後,Parti 提出了一種生成具有多個對象的內容豐富的圖像的方法。Make-a-Scene 則通過文生圖生成的分割掩碼實現控制機制。現在的方法建立在擴散模型的基礎上,從而將文生圖的合成質量提升到一個新的水平。GLIDE 通過添加無分類器引導改進了 DALL·E。後來,DALL·E-2 利用了對比模型 CLIP:通過擴散過程,從 CLIP 文本編碼到圖像編碼的映射,以及獲得 CLIP 解碼器……

這些模型能夠生成具有高質量的圖像,因此研究者將目光對準了開發能夠生成視頻的文生圖模型。然而,文生視頻現在還是一個相對較新的研究方向。現有方法嘗試利用自迴歸變換器和擴散過程進行生成。

例如,NUWA 引入了一個 3D 變換器編碼器-解碼器框架,支持文本到圖像和文本到視頻的生成。Phenaki 引入了一個雙向掩蔽變換器和因果關注機制,允許從文本提示序列生成任意長度的視頻;CogVideo 則通過使用多幀速率分層訓練策略來調整 CogView 2 文生圖模型,以更好地對齊文本和視頻剪輯;VDM 則聯合訓練圖像和視頻數據自然地擴展了文生圖擴散模型。

前面展示的 Imagen Video 構建了一系列視頻擴散模型,並利用空間和時間超分辨率模型生成高分辨率時間一致性視頻。Make-A-Video 在文本到圖像合成模型的基礎上,以無監督的方式利用了視頻數據。Gen-1 則是擴展了 Stable Diffusion 並提出了一種基於所需輸出的視覺或文本描述的結構和內容引導的視頻編輯方法。

如今,越來越多的文生視頻模型不斷迭代,我們可以看到,2023 年似乎將要成爲 “文生視頻” 的一年。

儘管複用了文生圖的技術與訓練集,但在視頻領域應用擴散模型並不簡單,尤其是由於它們的概率生成過程,很難確保時間一致性。即主要主體往往在幀與幀之間看起來略有不同,背景也不一致,這使得完成的視頻看起來一切都在不斷運動,缺乏真實感。同時,大多數方法都需要大量的標記數據並進行大量的訓練,這是極其昂貴並難以負擔的。

近日,由 Picsart AI Resarch(PAIR)團隊介紹的一種新穎的零樣本的文本到視頻生成任務,提出了一種低成本的方法,通過利用現有的文本到圖像合成方法(如 Stable Diffusion),將其應用於視頻領域。該研究主要進行了兩個關鍵修改:一是爲生成幀的潛在代碼添加動態運動信息,以保持全局場景和背景時間的一致性;二是使用新的跨幀注意力機制,對每個幀在第一幀的關注,重新編程幀級自注意力,以保持前景對象的上下文、外觀和身份。

圖|Text2Video-Zero使用(i)文本提示(見第1、2行)、(ii)結合姿勢或邊緣指導的提示(見右下角)和(iii)視頻指令-Pix2Pix,即指令引導視頻編輯(見左下角),實現零樣本視頻生成。結果在時間上是一致的,並嚴格遵循指導和文本提示。

這個方法的意義在於它具有低開銷,同時能生成高質量且相當一致的視頻。此外,這種方法不僅適用於文本到視頻合成,還適用於其他任務,如條件和內容專用視頻生成,以及視頻指導下的圖像到圖像翻譯。

實驗證明,這種方法在性能上可與最近的方法相媲美,甚至在某些情況下優於它們,儘管它沒有在額外的視頻數據上進行訓練。這項技術可以用於創作動畫、廣告和短片,節省成本和時間。此外,它還可以在教育領域提供可視化材料,使學習變得更加生動有趣。

然而,隨着不斷的技術迭代,這些文生視頻 AI 模型將變得更加精確、逼真和可控。就像是恐怖的 “史密斯吃意大利麪” 視頻一樣,這些工具很可能被用來生成虛假、仇恨、露骨或有害的內容,信任與安全等問題也逐漸涌現。

谷歌稱,Google Imagen Video 的訓練數據來自公開可用的 LAION-400M 圖像文本數據集和 “1400 萬個視頻文本對和 6000 萬個圖像文本對”。儘管它已經接受了谷歌過濾的 “有問題的數據” 的訓練,但仍然可能包含色情和暴力內容——以及社會刻板印象和文化偏見。

Meta 也承認,按需製作逼真的視頻會帶來一定的社會危害。在公告頁面的底部,Meta 表示,所有來自 Make-A-Video 的人工智能生成的視頻內容都包含一個水印,以 “幫助確保觀衆知道視頻是用人工智能生成的,而不是捕獲的視頻”。但是,競爭性的開源文生視頻模型可能會隨之而來,這可能會使 Meta 的水印保護變得無關緊要。

美國麻省理工學院人工智能教授菲利普·伊索拉就表示,如果看到高分辨率的視頻,人們很可能會相信它。也有專家指出,隨着人工智能語音匹配的出現,以及逐漸擁有改變和創建幾乎觸手可及的逼真視頻的能力,僞造公衆人物和社會大衆的言行可能會造成不可估量的傷害。但是,“潘多拉的魔盒已經打開”,作爲生成式 AI 的下一站,文生視頻的技術需要不斷改進,與此同時,依然需要警惕安全與倫理風險。