Runway發佈新一代視頻生成模型,行業還有哪些難題待解?
美東時間6月17日,Runway發佈新一代視頻生成模型Gen-3Alpha,視頻生成賽道上再添“大將”。
Runway是一家視頻、媒體和藝術的生成式AI公司,在美國紐約於2018年成立,爲電影和視頻製作中的內容生成構建基礎多模式AI模型。目前該公司已經完成C輪融資,累計融資金額達2.36億美元,估值達15億美元,投資者包括谷歌、Nvidia和Salesforce。
2023年2月,該公司連續發佈生成式AI系統Gen-1以及多模態AI系統Gen-2,該模型能夠通過圖像或文本提示生成視頻。
該公司表示,Gen-3Alpha是對此前Gen-2模型在保真度、一致性和運動性有了重大改進。
在細粒度時間控制上,Gen-3Alpha具有高度描述性、時間密集的字幕,能夠實現豐富的過渡和場景中元素的精確關鍵幀。Gen-3Alpha擅長通過各種動作、手勢和情感產生富有表現力的人類角色。
Runway在官網表示,Gen-3Alpha在視頻和圖像方面接受聯合訓練,將爲Runway的文本到視頻、圖像到視頻和文本到圖像工具、運動刷、高級相機控制、導演模式等現有控制模式以及即將推出的工具提供動力,以更精細地控制結構、風格和運動。
另一方面,該公司稱Gen-3Alpha將發佈一套新的保障措施,包括內部視覺審覈系統和C2PA來源標準。
該公司創始人Germanidis接受TechCrunch採訪時表示:“Gen-3Alpha模型在處理複雜的角色和物體交互時可能會遇到困難,生成過程並不總是嚴格遵循物理定律。首次推出的版本將支持5秒和10秒的高分辨率生成,生成時間明顯快於Gen-2。生成一段5秒的視頻需要45秒,生成一段10秒的視頻則需要90秒。”
值得一提的是,Runway並未在相關消息及採訪中透露訓練數據來源。而這也是目前生成式模型最容易遭遇挑戰的部分——版權問題。此前,360創始人、董事長兼CEO周鴻禕發佈該公司新產品——360AI時,被藝術家創作者指責竊取其作品,雙方“隔空喊話”,版權爭議一直是行業頑疾。
“我們正在與藝術家密切合作,找出解決這一問題的最佳方法,”Germanidis告訴TechCrunch,“我們正在探索各種數據合作伙伴關係,以便進一步發展和構建下一代模型。”
Germanidis還聲稱,其全新改進的內部視覺和文本審覈系統採用自動監督來過濾掉不適當或有害的內容。C2PA身份驗證可驗證使用所有Gen-3模型創建的媒體的出處和真實性。隨着模型功能和生成高保真內容的能力不斷提高,公司將繼續在協調和安全工作上投入大量資金。
當前,生成式模型賽道上擠滿了對手,包括Sora、pika、Vidu、Luma AI等,競爭愈發激烈。
Runway在博客上表示,Gen-3Alpha也是朝着構建通用世界模型邁出的一步。這與中國公司的同行們判斷一致。
近日,生數科技CTO鮑凡在智源大會的視覺大模型論壇上表示,從Vidu4D的工作裡面看到,這種視頻大模型有作爲世界模型的潛力,把世界上各種物理規律都給模擬出來,後續再結合3D或者4D的技術進行開發。
他認爲,要通往世界模型有兩條路。一是通過大語言模型,先把抽象的知識構建好,再拓展成世界模型。第二條是把物理規律構建好,拓展成世界模型,這兩條道路目前都是探索狀態。
與此同時,生成視頻的成本問題也備受關注。愛詩科技創始人王長虎在智源大會上透露,現在生成一個三五秒鐘的視頻需要耗時幾十秒。如果採用RTX 4090芯片,用時40秒鐘,或者60秒鐘的成本大概1、2美元左右,未來成本還會進一步下降。
他指出,AI視頻生成產品能用的也就是3秒-5秒,生成視頻越長,誤差隨之會更大,這是接下來行業要解決的問題。
王長虎表示,目前生成視頻還存在以下三個問題。第一,生成視頻往往是單鏡頭的,真正的視頻是由多個鏡頭組合,多鏡頭的內容是未來AI視頻生成要解決的問題。其次,當前等待時長比較長,普通用戶很難玩起來。第三,推理成本高,也是行業亟待解決的問題。