☰

下載次數破39萬！CMU、Meta聯合發佈VQAScore文生圖優化方案：Imagen3已採用

新智元報道

編輯：LRST

【新智元導讀】VQAScore是一個利用視覺問答模型來評估由文本提示生成的圖像質量的新方法；GenAI-Bench是一個包含複雜文本提示的基準測試集，用於挑戰和提升現有的圖像生成模型。兩個工具可以幫助研究人員自動評估AI模型的性能，還能通過選擇最佳候選圖像來實際改善生成的圖像。

近年來，生成式人工智能（AIGC）引發廣泛關注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能夠根據自然語言提示詞生成美觀且逼真的圖像和視頻，廣受用戶喜愛。

然而，這些模型在處理複雜的提示詞時仍存在不足。例如，當讓Stable Diffusion或Midjourney生成「棕色的狗繞着一棵樹追黑色的狗」時，模型可能會錯誤生成兩隻黑狗，或將「追逐」誤解爲兩隻狗在「玩耍」。

有什麼辦法可以自動發現這些模型的不足，並進一步提升它們呢？

爲解決這一問題，CMU和Meta團隊聯合推出了全新的評估指標VQAScore及基準GenAI-Bench，用於自動評估圖像、視頻和3D生成模型在複雜提示詞下的表現。

ECCV’24論文鏈接:：https://arxiv.org/abs/2404.01291

CVPR’24 SynData最佳論文鏈接：https://arxiv.org/abs/2406.13743

論文代碼：https://github.com/linzhiqiu/t2v_metrics

模型下載：https://huggingface.co/zhiqiulin/clip-flant5-xxl

VQAScore模型：https://huggingface.co/zhiqiulin/clip-flant5-xxl

GenAI-Bench數據集：https://huggingface.co/datasets/BaiqiL/GenAI-Bench

這些成果已在ECCV和CVPR等頂會上發表，並被谷歌DeepMind用於評估其最新的Imagen3模型，被譽爲當前文生圖領域超越CLIP等模型的最佳評估方案！

背景介紹

近年來，文生圖模型（如DALL-E 3、Imagen3、Sora等）發展迅速，但如何準確評估這些模型的表現仍是一個關鍵問題。

儘管許多公司採用人類評估（Human Evaluation）來提升結果的準確性，但這種方式成本高、難以大規模應用，而且缺乏可復現性。

在圖片生成領域，已有多種方法使用模型來自動評估（Automated Evaluation）生成圖像的表現，其中常見的指標包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。

然而，這些指標真的足夠好嗎？

現有自動化指標的不足

在評估兩張圖片的相似性（similarity）時，傳統指標LPIPS等方法依靠預訓練的圖像編碼器，將圖像特徵嵌入後再計算距離。然而，這類方法只能評估圖像與圖像之間的相似度（image-to-image metric），而無法判斷文本和圖像之間的相似度（text-to-image metric）。

爲了解決這一問題，當前主流的文生圖評估採用了CLIPScore，通過獨立的圖像編碼器和文本編碼器，將圖像和文本嵌入到同一特徵空間，並通過計算特徵相似度來判斷它們的匹配程度。

然而，CLIPScore存在嚴重的「bag-of-words」問題：也就是說，CLIP在處理文本時可能忽略詞序，混淆像「月亮在牛上面」和「牛在月亮上面」這樣的句子。這使得模型難以準確抓住複雜文本中的關鍵信息。

爲了解決這一問題，CMU和Meta的研究團隊提出了VQAScore，採用更強大的生成式VQA模型（如GPT-4o）來更準確地評估文生圖模型：

VQAScore：一種簡單有效的評估指標

研究團隊基於GPT-4o等用於視覺問答（VQA）任務的生成式視覺語言模型，將圖像與提示詞之間的相似度定義爲模型在回答「這個圖像是否顯示了[提示詞]？請回答是或否。」時給出「是」（Yes）答案的概率：

例如，在計算某張圖像與提示詞「牛在月亮上面」之間的相似度時，VQAScore會將圖像和問題「這個圖像是否顯示了『牛在月亮上面』？請回答是或否。」輸入模型，並返回模型選擇「是」的概率。

另外，研究團隊發現，當前主流的VQA模型（如LLaVA-1.5）使用了具備單向（auto-regressive）注意力機制的語言模型（如Llama）。這種機制導致模型在提取圖像特徵時，無法提前獲取提示詞的完整信息。

爲了更有效的提取視覺特徵，研究團隊使用開源數據訓練了一個更強的CLIP-FlanT5 VQA模型。該模型採用了具備雙向注意力機制的語言模型FlanT5，使得圖像特徵提取能夠根據輸入的提示詞動態調整。

研究表明，這一機制在提升VQA模型對複雜提示詞的理解方面效果顯著。

VQAScore比主流評估指標更簡單高效。許多傳統指標依賴大量人類標註（如 ImageReward、PickScore）或私有模型（如GPT-4Vision）才能取得好表現。

相比之下，VQAScore具備以下核心優勢：

1. 無需人類標註：VQAScore能直接利用現有的VQA模型取得優異表現，無需在人工標註數據上進行額外微調。

2. 分數更精準：使用GPT-4給圖片打分（如在0到100之間打分）時，模型往往會隨意給出高分（如90），而忽略圖片的真實質量。相比之下，VQAScore使用概率值來判斷圖片與提示詞的相似度，結果更加精確。

VQAScore實驗結果

研究人員在大量複雜圖文匹配基準（如Winoground和EqBen）以及文生圖評估基準（如Pick-a-pic和TIFA160）上對VQAScore進行了測試。

結果顯示，VQAScore在所有圖像、視頻和3D生成任務的基準上超越了CLIPScore等流行指標，取得了最佳表現。

值得注意的是，VQAScore採用了開源模型（CLIP-FlanT5），卻仍大幅超越了使用更強閉源模型（如PALI-17B和GPT-4）的方法（如VQ2、ViperGPT 等）。

此外，VQAScore也超越了依賴提示分解進行視覺推理的先進方法（如 CVPR'23最佳論文Visual Programming和ViperGPT等），進一步驗證了端到端評估方案的有效性。

最新的谷歌DeepMind Imagen3報告還指出，使用更強大的VQA模型（如 Gemini）可以進一步提升VQAScore的表現，凸顯了其在未來生成式模型評測中的潛力。

GenAI-Bench：由設計師收集的高難度文生圖基準

爲了更好地評估文生圖模型及其評估指標的性能，研究團隊推出了GenAI-Bench。該基準包含1600個由設計師收集的複雜提示詞，覆蓋了10種生成模型（如DALL-E 3、Midjourney、SDXL等），並配有超過80,000條人工標註。

GenAI-Bench相比較之前的基準有以下優勢：

1. 更具挑戰性：研究表明，大多數文生圖/視頻模型在GenAI-Bench上表現仍有不足，還有大量的提升空間。

2. 避免空洞詞彙：所有提示詞均經過嚴格篩選，避免使用假大空的詞語，確保評估更具客觀性。

3. 細粒度技能分析：GenAI-Bench能提供更細緻的技能分類和分析，幫助研究人員深入瞭解模型在不同能力上的具體表現。

GenAI-Rank：用VQAScore來提升文生圖表現

研究人員構建了一個新的GenAI-Rank基準，爲每個提示詞使用DALL-E 3和Stable Diffusion（SD-XL）生成3到9張候選圖像。

研究表明，從這些候選圖像中返回VQAScore得分最高的圖像，可以顯著提升文生圖模型的效果。

這一方法無需微調生成模型本身，因此也能優化（黑箱）私有模型，如DALL-E 3。

實驗結果進一步證明，VQAScore在圖像排序上比其他方法（如CLIPScore、PickScore等）更加有效。

結語

VQAScore和GenAI-Bench爲文生圖模型提供了更精準且全面的評估，已被Imagen3、VILA-U、RankDPO等多個項目用於更好地評估和優化最新的生成式模型。研究團隊已開源代碼和數據集，期待未來更多探索與進展！

團隊介紹

團隊的一作林之秋（Zhiqiu Lin）是卡內基梅隆大學的博士研究生，由Deva Ramanan教授指導，專注於視覺-語言大模型的自動評估與優化。Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等頂級會議上發表了十數篇論文，並曾榮獲最佳論文提名和最佳短論文獎等。其研究成果在生成模型和多模態學習領域受到了學術界和工業界的廣泛認可。

Pengchuan Zhang是Meta AI（原Facebook AI研究院）的人工智能研究科學家，曾在微軟研究院擔任高級研究科學家。他的研究領域主要集中在深度學習、計算機視覺和多模態模型等方向，曾發表多項具有深遠影響力的成果，例如AttnGAN、OSCAR、VinVL、Florence和GLIP等。他在頂級會議如CVPR、ICCV、NeurIPS等發表了大量高影響力論文，是計算機視覺和多模態模型領域的領軍人物之一。

Deva Ramanan教授是計算機視覺領域的國際知名學者，現任卡內基梅隆大學教授。他的研究涵蓋計算機視覺、機器學習和人工智能領域，曾獲得多項頂級學術榮譽，包括2009年的David Marr獎、2010年的PASCAL VOC終身成就獎、2012年的IEEE PAMI青年研究員獎、2012年《大衆科學》評選的「十位傑出科學家」之一、2013年美國國家科學院Kavli Fellow、2018年和2024年的Longuet-Higgins獎，以及因其代表性工作（如COCO數據集）獲得的Koenderink獎。此外，他的論文在CVPR、ECCV和ICCV上多次獲得最佳論文提名及榮譽獎。他的研究成果對視覺識別、自動駕駛、和人機交互等應用產生了深遠影響，是該領域極具影響力的科學家之一。

參考資料：

https://arxiv.org/abs/2404.01291

https://arxiv.org/abs/2406.13743

下載次數破39萬！CMU、Meta聯合發佈VQAScore文生圖優化方案：Imagen3已採用

相關資訊