“治癒”了百萬人的抖音AI繪本特效,背後是豆包大模型
國慶期間,抖音上一款名爲“AI治癒繪本”的特效憑藉溫暖優美的畫風和高還原度吸引了數百萬用戶投稿,採用了動態繪本的擬物玩法,“AI治癒繪本”特效首次使用了3D立體翻書的形式,巧妙地將首張用戶圖作爲書皮呈現,玩法新穎有趣。基於該特效投稿的“成爲繪本里的溫暖主角”話題播放量超過11億。
據瞭解,“AI治癒繪本”特效底層使用了字節跳動豆包大模型的圖像生成能力,技術團隊通過多項自研算法,保證了模型有更好的風格響應度、畫面美觀度,讓風格化效果更富有表現力,並且更大程度還原了人物面部特徵、服裝款式、顏色、配飾等主體特徵,在“美且像”的維度上取得了良好的效果。
爲呈現更好的交互方式,技術團隊還使用了自研的主體抹除、擴圖能力,對風格化結果圖進行後處理,使得多張結果圖可以在端上進行切換。上述過程中應用到的IP保持技術RealCustom和AI擴圖和AI消除技術ByteEdit,兩項成果分別入選CVPR2024和ECCV2024。
RealCustom :生成效果又美又像本人的IP保持技術
RealCustom是一種個性化定製技術即IP保持,對於任意開放域物體或人物IP均可實現無需微調的實時定製化生成,在AI繪本中主要起到保持輸入圖片特徵的作用。不同於以往風格化特效中用的圖片特徵保持方法, RealCustom不僅能夠還原圖片的細節特徵,還具有對圖片的抽象語義理解,從而可以根據文本輸入自適應地做出變化,並生成更加和諧的效果。爲了更好的還原主體外觀,RealCustom使用了多個層次的圖片信息融合,爲了讓視覺信息跟文本信息能更好的融合,RealCustom通過自適應模塊學習了視覺條件與文本條件之間的對齊能力,並根據不同時刻的狀態準確地推導出相應的視覺條件。從而能對用戶多種多樣的輸入做出自適應的處理,在保證好看的風格化效果的同時,穩定保持圖片特徵。
(注:RealCustom論文已入選CVPR2024,瞭解詳細內容見:https://corleone-huang.github.io/realcustom/,https://corleone-huang.github.io/RealCustom_plus_plus/)
ByteEdit:讓填充背景更自然和諧的AI擴圖和AI消除能力
特效中用到了AI擴圖和AI消除的能力,其中AI消除是指消除圖像中指定的某個物體或區域,並根據周圍的背景來填充消除位置的內容;AI擴圖則根據指定的擴展比例來延展原圖像的內容。這兩個任務本質上都是根據已知圖像的內容去填充周圍的區域,重點在於如何讓填充的內容和原圖沒有違和感。
爲了達到這個目的,首先,技術團隊增大了訓練數據量級,讓模型「看到」更多泛化場景,此外,ByteEdit提出了一種創新的框架,利用反饋學習來增強生成性圖像編輯任務。ByteEdit通過集成圖像獎勵模型來提升美學質量、圖像與文本的一致性,並引入密集的像素級獎勵模型以增強輸出的一致性,讓希望填充的區域和非填充區域更加的和諧。此外,提出了一種對抗性和漸進式反饋學習策略,以加快模型的推理速度。
除此之外,“AI治癒繪本”特效可以支持用戶上傳多張圖,在做能力部署時,技術團隊針對該場景單獨做了一套多服務並行邏輯以及性能加速策略,最大程度保障了在流量高峰期時,能夠在最短時間內將風格化結果圖、後處理結果圖等順利返回到端上。端上獲取多張結果圖後,技術團隊依託自研的書本3D運動和陰影跟隨算法,對書內各個物體的運動曲線進行參數自動化調整,在模擬書本翻頁以及內頁跳出的過程中,陰影效果可以隨書頁自然移動,更大程度保留了書頁翻動的立體感與自然感,邊緣的陰影過渡相對流暢。
近期,抖音特效團隊還在國慶期間上線了同樣是溫暖治癒系的“金秋繪本風特效”,特效投稿量已超百萬,相關話題播放量超過1.8億次。
豆包大模型是字節跳動自研的大語言模型,通過字節跳動旗下雲服務平臺火山引擎面向企業開放服務。目前豆包模型家族已全面覆蓋語言、語音、圖像、視頻等全模態,全方位滿足不同行業和領域的業務場景需求。(資訊)
上游新聞 馬亮