騰訊混元文生圖開源模型上線三款插件,ControlNet生態直追Stable Diffusion
(原標題:騰訊混元文生圖開源模型上線三款插件,ControlNet生態直追Stable Diffusion)
8月15日,騰訊混元文生圖開源大模型(開源項目名稱爲“HunyuanDiT”,以下簡稱爲“混元DiT”)聯合社區發佈了最新的三款可控制插件ControlNet,包括tile(高清放大)、inpainting(圖像修復與擴充)、lineart(線稿生圖)等不同類型,與此前官方插件一同形成混元DiT的ControlNet矩陣,組合使用可以覆蓋包括美術、創意、建築、攝影、美妝、電商等80%案例和場景。
這意味着,全球的企業與個人開發者、創作者們,都可以基於豐富混元DiT模型的ControlNet生態更加精準地生成圖片,創造更具個性化的專屬模型,進行更大自由度的創作。
騰訊混元DiT ControlNet矩陣,實現多樣化場景創作
AI生圖領域的可控制插件ControlNet是一種應用於文生圖領域的可控化生成算法,它允許用戶通過添加額外條件來更好地控制圖像的生成。
Tile(高清放大)可以爲畫面擴充信息,用於增加細節輔助超清放大,將畫面清晰度變成4K甚至8K,連毛髮都清晰可見,非常適合對於圖片有極致細節追求的場景使用。
使用tile模型將人物寫真畫面放大八倍
適當調整使用方法的情況下,tile插件也可以對畫面進行其他操作,比如通過如衰減權重後把下面圖中的真人寫真變成一個可愛的動漫人物。
Inpainting(圖像修復與擴充)插件的能力類似於部分圖像處理軟件的AI塗抹重繪、AI擴圖,該能力可以將圖片中被塗抹和斑駁褪色的部分,根據創作者的需要進行填充。通過該插件可以實現圖片背景、人物主體改變、局部修改畫面等需求,能處理高達70%面積塗抹重繪。
通過騰訊混元DiT Inpainting插件改變圖片背景
通過騰訊混元DiT Inpainting插件實現多點重繪,將原來的深色貓咪改變爲黃色貓咪,並保持四肢和臉部毛髮的一致性
通過騰訊混元DiT Inpainting插件實現局部細節修改,將原來的睜眼的人物變成閉眼
通過騰訊混元DiT Inpainting插件實現擴圖
Lineart(線稿生圖)則可參考各種不同類型線條,創作真人、動漫和建築圖片,既可用戶建築行業效果圖的生成,也可以給手稿上色作爲創作參考。
Lineart插件可以接受由原有混元DiT插件canny提取的線稿,也能兼容預處理模型 anyline輸出的線稿,根據線稿生成精緻的場景。
在建築設計場景下,用lineart生成建築設計效果圖後,還能搭配inpainting模型更換內容、調整材質,最後使用tile模型放大輸出最終效果圖。在動漫創作場景下,將原有動漫圖片稍加反色處理輸入給模型,就能通過提示詞爲角色上色。
使用騰訊混元DiT lineart插件生成建築設計效果圖
使用騰訊混元DiT lineart插件給動漫手稿上色
此前,騰訊混元DiT官方發佈了能提取與應用圖像的canny(邊緣)、depth(深度)、pose(人體姿勢)等條件的三個首發ControlNet模型,開發者可直接使用其進行推理。該三個ControlNet插件能實現通過線稿生成全綵圖、生成具有同樣深度結構的圖、生成具有同樣姿態的人等能力。同時,混元DiT也開源了ControlNet的訓練方案,開發者與創作者可以訓練自定義的ControlNet模型。
騰訊混元DiT官方上線的三個ControlNet插件效果演示
本次騰訊混元DiT新增的三款可控制插件ControlNet由混元DiT聯合社區模型製作者調參訓練,選取了創作者最爲常用的場景方向進行製作。
三款ControlNet模型的加入,將擴充混元DiT已有的ControlNet插件矩陣,並可互相組合搭配進行創作。隨着騰訊混元DiT ControlNet生態的完善,並在ComfyUI等多種工具支持下,混元DiT模型的繪圖質量、多樣性和可靠性大大提高,將更能激發使用者的創意,產出更多優秀視覺作品。
衆多開發者關注,成最受歡迎國產DiT開源模型
今年5月,騰訊混元文生圖大模型宣佈全面升級並對外開源,可供企業與個人開發者免費商用。這是業內首箇中文原生的DiT架構文生圖開源模型,支持中英文雙語輸入及理解。
作爲首箇中文原生DiT開源模型,混元DiT自全面開源以來,一直持續建設開發者生態。
6月,混元DiT發佈的專屬加速庫,可將推理效率進一步提升,生圖時間縮短75%;並進一步開源了推理代碼;發佈LoRA和ControlNet等插件。
與此同時,模型易用性大幅提升,用戶可以通過Hugging Face Diffusers快速調用混元DiT模型及其插件,或基於Kohya和ComfyUI等圖形化界面訓練與使用混元DiT。
7月4日,騰訊混元文生圖大模型(混元DiT)升級至1.2版本並宣佈開源小顯存版本,僅需6G顯存即可運行,對使用個人電腦本地部署的開發者十分友好;並新增對Kohya圖形化界面的支持,讓開發者可以低門檻地訓練LoRA模型。
目前,在衆多開發者的支持下,混元DiT發佈僅3個月,Github Star數已經超過3.1k,成爲最受歡迎的國產DiT開源模型。