又一修圖魔法!MIT、谷歌團隊推出受控擴散模型Alchemist,任意修改圖像屬性,或顛覆視頻遊戲、機器人等領域

實現對圖像中物體材料屬性的細粒度控制是一項複雜的任務,具有廣泛的商業應用前景,特別是在圖像編輯、廣告和圖像取證等領域。

如今,來自麻省理工學院計算機科學與人工智能實驗室(CSAIL)和 Google Research 的研究團隊推出了一種圖像編輯“數字魔法”——Alchemist。

據介紹,Alchemist 可以任意改變圖像中物體的材料屬性,如粗糙度(roughness)、金屬度(metallicity)、反照率(albedo)和透明度(transparency)。

例如,讓《星球大戰》中的尤達(Yoda)看起來更加透明:

讓《寶可夢》中的噴火龍更有金屬質感:

據介紹,作爲一種圖像到圖像的擴散模型,Alchemist 可以基於用戶輸入的任何圖像,在 -1 到 1 的連續範圍內調整每種屬性,從而創建全新的視覺效果。

“當你看着你創造的圖像時,往往不是很滿意。” 麻省理工學院電氣工程與計算機科學博士生、論文第一作者 Prafull Sharma 說,“有了 Alchemist,我們就能利用文本到圖像模型輸出的逼真性,在提供初始圖像後修改特定屬性。”

而且,由於相對屬性強度是線性變化的,Alchemist 只對所需的材料屬性進行平滑編輯,同時保留圖像中的高級語義和其他信息。

如下圖所示,如果是兩隻貓或兩個杯子,可以使用特定實例的分割圖來掩蓋相對的材質變化。

此外,研究團隊表示,這些圖像編輯功能有可能擴展到改進視頻遊戲模型、增強人工智能在視覺特效方面的能力,以及大幅增加機器人的訓練數據。

具體而言,Alchemist 有助於調整視頻遊戲中不同模型的外觀,幫助創作者加快設計過程,優化紋理以適應關卡的玩法;通過讓機器人接觸各種各樣的紋理,它們可以更好地理解現實世界中的各種物品;甚至有助於優化圖像分類,分析神經網絡無法識別圖像材質變化的部分。

Alchemist 因何擁有“神奇魔法”?

在計算機圖形學中,雙向反射分佈函數(BRDFs)定義了材料屬性,這導致了基於物理的 BRDF 模型的發展。

以往的方法通常採用逆渲染(inverse rendering)方法來分離和估計複雜的場景屬性(如幾何和照明),從而修改材料屬性。

2023 年,Daniel Subias 和 Manuel Lagunas(arXiv:2302.03619)提出了一種基於 GAN 的方法,該方法在合成數據上進行訓練,用於感知材料編輯,重點關注金屬和粗糙度參數,但依然需要對目標現實世界物體進行遮罩處理。

爲此,在這項工作中,研究團隊提出了一種利用預訓練的文本到圖像模型來操作圖像中的細粒度材料屬性的方法。

他們克服了兩個主要挑戰:

首先,缺乏具有精確標註材料屬性的真實世界數據集,使得從監督訓練中泛化變得困難。

爲了克服第一個挑戰,研究團隊渲染了一個具有基於物理的材料和環境地圖的合成數據集,隨機編輯了 1200 種材料的材料屬性,從而解決了對材料屬性進行細粒度標註的需求。

其次,文本到圖像模型是使用文本描述如“金色”、“木頭”或“塑料”等進行訓練的,通常缺乏關於材料的細粒度細節。這個問題因單詞的離散性和材料參數的連續性之間的脫節而變得更加複雜。

爲此,他們在現成的擴散模型中引入了額外的輸入通道,並通過一個受 InstructPix2Pix 啓發的基於指令的過程來完善這個模型。

結果顯示,以前的擴散系統可以從帽子裡變出一隻兔子,而 Alchemist 則可以將同一只兔子變成半透明的,還能讓橡皮小鴨呈現金屬質感,去除金魚的金色色調,擦亮舊鞋,等等。

而且,相比於 Baseline 的閃爍過渡,Alchemist 的過渡效果更加平滑。

值得注意的是,儘管這一模型僅在 500 個合成場景上進行了訓練,但卻能夠有效地將材料屬性的控制泛化到真實的輸入圖像上。

侷限性

研究團隊希望進一步研究 Alchemist 如何在場景層面改善 3D 圖形資產。

此外,Alchemist 還能幫助從圖像中推斷材料屬性。這類工作在未來可以解開物體的視覺和機械特性之間的聯繫。

不過,Alchemist 目前還存在一些侷限性,比如粗糙度和金屬屬性的感知變化很小,有時還會產生物理上不切實際的透明度。

例如,想象一隻手部分伸進了麥片盒——在 Alchemist 對這一屬性的最大設置下,你會看到一個沒有手指伸進去的透明容器。

該模型缺乏完整的 3D 世界模型,無法通過內噴塗(inpaint)來保持物理一致性,如上述和下圖柺杖糖示例。

圖|Alchemist 有時無法達到預期效果。例如,經過粗糙度編輯後,茶壺表面仍有光澤(左圖);柺杖糖的水杯內部分被刪除了(右圖)。

此外,與典型的生成模型一樣,Alchemist 可以生成符合給定指令的合理解釋,但並不一定能複製傳統圖形渲染器的精確結果。

https://www.prafullsharma.net/alchemist/alchemist_paper.pdf

https://www.prafullsharma.net/alchemist/

https://news.mit.edu/2024/controlled-diffusion-model-can-change-material-properties-images-0528

|點擊關注我 記得標星|