☰

提升生成式零樣本學習能力，視覺增強動態語義原型方法入選CVPR

機器之心專欄

機器之心編輯部

雖然我從來沒見過你，但是我有可能「認識」你 —— 這是人們希望人工智能在「一眼初見」下達到的狀態。

爲了達到這個目的，在傳統的圖像識別任務中，人們在帶有不同類別標籤的大量圖像樣本上訓練算法模型，讓模型獲得對這些圖像的識別能力。而在零樣本學習（ZSL）任務中，人們希望模型能夠舉一反三，識別在訓練階段沒有見過圖像樣本的類別。

生成式零樣本學習（GZSL）是實現零樣本學習的一種有效方法。在生成式零樣本學習中，首先需要訓練一個生成器來合成未見類的視覺特徵，這個生成過程是以前面提到的屬性標籤等語義描述爲條件驅動的。有了生成的視覺特徵作爲樣本，就可以像訓練傳統的分類器一樣，訓練出可以識別未見類的分類模型。

生成器的訓練是生成式零樣本學習算法的關鍵，理想狀態下，生成器根據語義描述生成的某個未見類的視覺特徵樣本，應與此類別真實樣本的視覺特徵具有相同的分佈。

在現有的生成式零樣本學習方法中，生成器在被訓練和使用時，都是以高斯噪聲和類別整體的語義描述爲條件的，這限制了生成器只能針對整個類別進行優化，而不是描述每個樣本實例，所以難以準確反映真實樣本視覺特徵的分佈，導致模型的泛化性能較差。另外，已見類與未見類所共享的數據集視覺信息，即域知識，也沒有在生成器的訓練過程中被充分利用，限制了知識從已見類到未見類的遷移。

爲了解決這些問題，華中科技大學研究生與阿里巴巴旗下銀泰商業集團的技術專家提出了視覺增強的動態語義原型方法（稱爲 VADS），將已見類的視覺特徵更充分地引入到語義條件中，推動生成器學習準確的語義 - 視覺映射，研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已被計算機視覺頂級國際學術會議 CVPR 2024 接收。

具體而言，上述研究呈現了三個創新點：

第一，研究使用視覺特徵對生成器進行增強，來爲零樣本學習中的未見類生成可靠的視覺特徵，在零樣本學習領域中是具有創新性的方法。

第二，研究提出了 VDKL 和 VOSU 兩個組件，有效地獲取數據集的視覺先驗並用圖像的視覺特徵動態更新預定義好的類別語義描述，從而有效地實現了對視覺特徵的利用。

第三，從試驗結果上看，本研究使用視覺特徵對生成器進行增強的效果顯著，而且作爲一個即插即用的方法，具有較強的通用性。

研究細節

VADS 由兩個模塊組成：（1）視覺感知域知識學習模塊（VDKL）學習視覺特徵的局部偏差和全局先驗，即域視覺知識，這些知識取代了純高斯噪聲，提供了更豐富的先驗噪聲信息；（2）面向視覺的語義更新模塊（VOSU）學習如何根據樣本的視覺表示更新其語義原型，更新的後語義原型中也包含了域視覺知識。

最終，研究團隊將兩個模塊的輸出連接爲一個動態語義原型向量，作爲生成器的條件。大量實驗表明，VADS 方法在常用的零樣本學習數據集上實現了顯著超出已有方法的性能，並可以與其他生成式零樣本學習方法結合，獲得精度的普遍提升。

在視覺感知域知識學習模塊（VDKL）中，研究團隊設計了一個視覺編碼器（VE）和一個域知識學習網絡（DKL）。其中，VE 將視覺特徵編碼爲隱特徵和隱編碼。通過使用對比損失在生成器訓練階段利用已見類圖像樣本訓練 VE，VE 可以增強視覺特徵的類別可分性。

在訓練 ZSL 分類器時，生成器生成的未見類視覺特徵也被輸入 VE，得到的隱特徵與生成的視覺特徵連接，作爲最終的視覺特徵樣本。VE 的另一個輸出，即隱編碼，經過 DKL 變換後形成局部偏差 b，與可學習的全局先驗 p，以及隨機高斯噪聲一起，組合成域相關的視覺先驗噪聲，代替其他生成式零樣本學習中常用的純高斯噪聲，作爲生成器生成條件的一部分。

在面向視覺的語義更新模塊（VOSU）中，研究團隊設計了一個視覺語義預測器 VSP 和一個語義更新映射網絡 SUM。在 VOSU 的訓練階段，VSP 以圖像視覺特徵爲輸入，生成一個能夠捕獲目標圖像視覺模式的預測語義向量，同時，SUM 以類別語義原型爲輸入，對其進行更新，得到更新後的語義原型，然後通過最小化預測語義向量與更新後語義原型之間的交叉熵損失對 VSP 和 SUM 進行訓練。VOSU 模塊可以基於視覺特徵對語義原型進行動態調整，使得生成器在合成新類別特徵時能夠依據更精確的實例級語義信息。

在試驗部分，上述研究使用了學術界常用的三個 ZSL 數據集：Animals with Attributes 2（AWA2），SUN Attribute（SUN）和 Caltech-USCD Birds-200-2011（CUB），對傳統零樣本學習和廣義零樣本學習的主要指標，與近期有代表性的其他方法進行了全面對比。

在傳統零樣本學習的 Acc 指標方面，該研究的方法與已有方法相比，取得了明顯的精度提升，在三個數據集上分別領先 8.4%，10.3% 和 8.4%。在廣義零樣本學習場景，上述研究方法在未見類和已見類精度的調和平均值指標 H 上也處於領先地位。

VADS 方法還可以與其他生成式零樣本學習方法結合。例如，與 CLSWGAN，TF-VAEGAN 和 FREE 這三種方法結合後，在三個數據集上的 Acc 和 H 指標均有明顯提升，三個數據集的平均提升幅度爲 7.4%/5.9%, 5.6%/6.4% 和 3.3%/4.2%。

通過對生成器生成的視覺特徵進行可視化可以看出，原本混淆在一起的部分類別的特徵，例如下圖 (b) 中顯示的已見類「Yellow breasted Chat」和未見類「Yellowthroat」兩類特徵，在使用 VADS 方法後，在圖（c）中能夠被明顯地分離爲兩個類簇，從而避免了分類器訓練時的混淆。

可延展到智能安防和大模型領域

機器之心瞭解到，上述研究研究團隊關注的零樣本學習旨在使模型能夠識別在訓練階段沒有圖像樣本的新類別，在智能安防領域具有潛在的價值。

第一，處理安防場景中新出現的風險，由於安防場景下，會不斷出現新的威脅類型或不尋常的行爲模式，它們可能在之前的訓練數據中未曾出現。零樣本學習使安防系統能快速識別和響應新風險類型，從而提高安全性。

第二，減少對樣本數據的依賴：獲取足夠的標註數據來訓練有效的安防系統是昂貴和耗時的，零樣本學習減少了系統對大量圖像樣本的依賴，從而節約了研發成本。

第三，提升動態環境下的穩定性：零樣本學習使用語義描述實現對未見類模式的識別，與完全依賴圖像特徵的傳統方法相比，對於視覺環境的變化天然具有更強的穩定性。

該技術作爲解決圖像分類問題的底層技術，還可以在依賴視覺分類技術的場景落地，例如人、貨、車、物的屬性識別，行爲識別等。尤其在需要快速增加新的待識別類別，來不及收集訓練樣本，或者難以收集大量樣本的場景（如風險識別），零樣本學習技術相對於傳統方法具有較大優勢。

該研究技術對於當前大模型的發展有無借鑑之處？

研究者認爲，生成式零樣本學習的核心思想是對齊語義空間和視覺特徵空間，這與當前多模態大模型中的視覺語言模型（如 CLIP）的研究目標是一致的。

它們最大的不同點是，生成式零樣本學習是在預先定義好的有限類別的數據集上訓練和使用，而視覺語言大模型則是通過對大數據的學習獲得具有通用性的語義和視覺表徵能力，不侷限在有限的類別，作爲基礎模型，具有更寬廣的應用範圍。

如果技術的應用場景是特定領域，可以選擇將大模型針對此領域進行適配微調，在此過程中，與本文相同或相似研究方向的工作，理論上可以帶來一些有益的啓發。

作者介紹

侯文金，華中科技大學碩士研究生，感興趣的研究方向包括計算機視覺，生成建模，少樣本學習等，他在阿里巴巴 - 銀泰商業實習期間完成了本論文工作。

王炎，阿里巴巴 - 銀泰商業技術總監，深象智能團隊算法負責人。

馮雪濤，阿里巴巴 - 銀泰商業資深算法專家，主要關注視覺和多模態算法在線下零售等行業的應用落地。

提升生成式零樣本學習能力，視覺增強動態語義原型方法入選CVPR

相關資訊