快手可靈大模型開放視頻續寫功能 可生成最長約3分鐘視頻

快手的視頻生成大模型“可靈”自面世以來,以其驚豔效果引發了國內外的廣泛關注。6月21日,可靈再度進化,正式推出圖生視頻功能,支持用任意靜態圖像生成5s視頻,並且可搭配不同的文本內容,實現豐富的視覺敘事。同時,可靈還發布了業內領先的視頻續寫功能,可爲已生成的視頻(含文生視頻及圖生視頻)提供便捷的一鍵續寫和連續多次續寫,將視頻最長可延伸至約3分鐘,充分顯示了可靈強[jeupvb.miyoshiki.cn)大的想象力與精細的可控性,極大地拓展了視頻大模型的創作邊界。

化靜爲動按需定[6cu3xz.mamas-collection.cn)制視覺敘事

此前,“可靈”在文生視頻方面已經展現出了創造逼真運動場景、精確模擬物理特性的強大能力,以及將複雜概念巧妙融合的高超技藝,其輸出堪比電影級畫質,並允許用戶自由調節視頻的縱橫比。而這些卓越特性,如今都被完[couexq.suxitong.cn)美融入到了圖生視頻模型。用戶只需上傳一張圖片,“可靈”即能基於對圖像的深度解析,變靜爲動,賦予其5秒的鮮活生命力。

上傳經典的蒙娜麗莎,可靈能夠讓蒙娜麗莎戴上墨鏡,並賦予她靈[fza3sg.rise-t.cn)動的眼神交流。讓名畫中的人物活靈活現。

蒙娜麗莎得益於其基礎模型架構中的3D時空聯合注意力機制,可靈在構建複雜時空運動方面也展現了卓越能力。這使得模型在轉換靜態圖像爲動態視頻時,能夠細膩而準確地實現大幅度運動場景。例如,只需上傳一張牧羊犬追球的靜止照片,模型就能生成一段生動的視頻:牧羊犬活靈活現[35lrzs.momoyuxiaoyouxi.cn)地奔跑追逐網球,其耳朵輕輕晃動,毛髮隨風飄揚,而網球則在空中彈跳,視頻整體自然而流暢。

牧羊犬再以一張汽車飛馳的圖片爲素材,可靈能創[j0obx8.nuibi.cn)造出身臨其境的駕駛場景。在這段視頻中,汽車不僅在公路上展現出疾速前行的姿態,而且巧妙地融入了對向車道上連續不斷的車流。同時,道路兩旁的樹木快速向後掠去,模擬出強烈的行駛速度感,而虛化處理的隔離帶進一步增強了視覺上的動態效果與速度印象,整體畫面宛如出自精心策劃的廣告大片。

飛馳的汽車可靈圖生視[m9awt1.gk-innovate.cn)頻模型還融入了強大的提示詞融合技術,深化了對圖像語義與用戶指令的理解整合。這意味着,模型能夠根據用戶提供的不同文本指令,精妙地變換視頻中的動態表現。舉例來說,當使用一張女孩的照片生成視頻,模型默認生成的效果可能是輕風中她髮絲輕輕飄動,周遭花朵搖曳,水面閃爍着細膩的波紋。而如果用戶具體輸入“女孩轉身背對鏡頭”,視頻便會智能添加女孩優雅轉身的動作,並細膩捕捉到轉身瞬間的微笑和眨眼,展現了自然而生動的細節處理能力。

女孩照片再比如用巨龍圖片生成視頻,輸入“正在捕食的巨龍,飛揚的沙子,奇幻風格的電影”,視頻[jqzk42.sportsworks.cn)便呈現巨龍昂首展翅掀起漫天黃沙,嘴部開合彷彿在咆哮的生動效果與奇幻場景。通過這種文本與圖像意義的緊密聯動,可靈將按需定製的視覺敘事提升到了一個新高度。

巨龍此外,可靈圖生視頻模型支持不同風格的圖像輸入,不論是自然寫實還是風格化圖像都能輕鬆處理,同時兼容各種長寬比的圖像輸入,展示出強大的靈活性和適應性。例如這張騎士拿劍的豎[0h42ks.locksaas.cn)版圖片,生成視頻中騎士黑袍飛舞,亮劍仙氣環繞,拉滿氛圍感。

騎士業內領[fsrhc1.khpgolf.cn)先視頻續寫可生成最長約3分鐘視頻

可靈大模型還新推出了視頻續寫功能,用戶只需一鍵操作,即可在已生成視頻的基礎上延續生成約5秒內容,該功能同時適用於文生視頻和圖生視頻。更令人矚目的是,通過連續多次續寫,能夠最長生產約3分鐘的連貫視頻。基於對物理運動的深入理解,視頻續寫不僅確保新生成部分與原視頻間的運動連貫性及物理合理性,還能巧妙融入大幅度的動作變化,提升[z26ifq.eyedock.cn)視頻的生動性。

此次升級的一大亮點是集成文本控制機制於視頻續寫中,這意味着用戶能夠通過自定義提示詞,爲每段視頻續寫注入個性化創意。得益於此,模型利用高效的提示詞融合技術,平滑地在場景間過渡,響應用戶的每一個靈感火花。舉例來[sicgjn.huizhirx.cn)說,一個關於古堡的視頻片段,用戶既可以選擇讓它先“太陽落下去,天空變暗”,繼而“太陽升起來,天空變亮”,亦可探索另一路徑:“太陽落下去,天空變暗,燈光漸亮”,隨後“燈光亮起,霧氣氤氳”,以此創造出各具特色的連續視覺敘事,完美貼合用戶的多樣化需求。

古堡的視頻片段截圖6月6日,可靈文生視頻大模型正式亮相,不僅在效果上比肩Sora,還即時在快影App上啓動了邀測體驗,截至目前,已有累計超過14萬人排隊申請。[yo5t1e.lp-energy.cn)此次進化,可靈文生視頻基礎大模型的強大能力被無縫整合到圖生視頻和視頻續寫功能中,將爲用戶帶來更爲豐富、靈活的視頻創作體驗。

恰逢近日CVPR2024在美國舉行,在這[p3nhx7.adapresents.cn)一國際頂級計算機視覺和模式識別領域學術盛會上,快手也同步發佈了可靈大模型的圖生視頻和視頻續寫等最新功能,引起現場的強烈反響。

據悉,快手還將在下月召開的2024世界人工智能大會(WAIC)上,舉辦以“新AI·新應用·新生態”爲主題的大模型技術生態論壇。屆時,快手將發佈最新的大模型技術與應用戰略,包括快手大模型技術矩陣全景、基座模型技術創新、應用和落地情況等[ib3oa9.he-japut..cn)。