媲美GPT-4o,多模態模型Molmo挑戰Scaling law
機器之心報道
編輯:佳琪、Panda
雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲備和頂尖人才的大廠做出新的 Sota 模型。不過,一家默默耕耘的創業公司 Ai2 發佈了一款多模態人工智能模型 Molmo。
在下面展示的視頻中,我們可以看到 Molmo 就像鋼鐵俠的「賈維斯」一樣萬能。想賣自行車,諮詢一下 Molmo 的建議,僅靠一張照片,Molmo 就能把自行車的顏色、品牌和二手售價搞清楚,並且幫你寫出一句順口的廣告語。
視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650936903&idx=2&sn=316f42606cfd78b61ff4fafb06ca96e4&chksm=84e7d239b3905b2fd9adf4b72e3e9350b415411f29cf5cdc244b3a9d350ab431baaecd42e6f2&token=140482680&lang=zh_CN#rd
它也可以從虛擬世界幫你解決現實世界的問題,說一句:「Molmo,幫我買杯星巴克的南瓜拿鐵。」剩下的就不用動手了,打開外賣網頁、點餐、付款,Molmo 一氣呵成。你所要做的,就是坐在家中,靜候咖啡送到你的手中。
機器之心也嘗試了一下他們在線發佈的 Demo 模型。相較於宣傳視頻,其功能還很有限,所以我們讓其執行了圖像描述任務,可以看到 Molmo 在細節描述和準確度上的表現確實很不錯,它甚至能注意到貓背上的小玩具:「玩具看起來像一隻綠色的老鼠,鼻子是粉紅色的,尾巴是蓬鬆的,羽毛色彩繽紛。」
但遺憾的是,Molmo 的漢語輸出能力非常有限,即使我們明確要求其輸出漢語,它也未能辦到:
除了 Demo,從數據來看,Molmo 的表現也足夠驚豔。在人類測評和一系列測試集中,Molmo 的得分擊敗了 Claude 3.5 Sonnet、GPT4V 等一衆頂尖模型,甚至可以媲美 GPT4o。
不過,Molmo 的體量更小,卻能「以小搏大」,性能超越了比它的參數量大十倍的其他模型。據 Ai2 首席執行官 Ali Farhadi 稱,Molmo 的體積小到可以在本地運行,它無需 API、無需訂閱、更無需成本高昂的液冷 GPU 集羣。
更重要的是 Molmo 完全免費且開源,所有的權重、代碼、數據和評估流程都即將公佈。
部分模型權重、推理代碼和一個基於 Molmo-7B-D 模型的公開演示已經可以使用。
體驗鏈接:https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19
Ai2 又是如何做到「四兩撥千金」的呢?答案在 Ai2 公佈的技術報告和論文中,這個秘訣就是:數據。
論文鏈接:https://molmo.allenai.org/paper.pdf
目前,最先進的多模態模型大多是閉源的,即使有一些開源的模型表現不錯,但它們通常依賴於專有模型生成的合成數據。因此,如何從零開始構建高性能 VLM,對於開源社區來說,種種基礎知識都很難獲得。
各大多模態模型的開源程度
如上圖所示,Ai2 的研究團隊統計了目前 VLM 的開源程度,除了直接看模型的權重、數據和代碼是否公開,他們還考慮了模型是否依賴於其他閉源模型。如果一個模型在訓練中用了其他專有模型生成的數據,那它就被標記爲「蒸餾」,這意味着它無法完全獨立再現。
針對「閉源」的瓶頸,Ai2 使用語音描述收集了一個高細節度的圖像描述數據集,這個數據集完全由人工標註,並可以公開訪問。
該團隊認爲提升模型性能的訣竅是使用更少但質量更好的數據。面對數十億張圖像,不可能僅靠人力完成篩選、精細標註和去重的工作,因此,他們沒有選擇 scaling law,而是精心挑選並註釋了 60 萬張圖像。
數據集鏈接:https://docs.google.com/forms/u/0/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/formResponse?pli=1
爲了讓 Molmo 能處理更多任務,Ai2 還引入了一個多樣化的數據混合對模型進一步微調,其中就包括一種獨特的二維「指向」數據。
因爲現在市面上的多模態模型的工作原理是把圖片、聲音、文字等多種模態轉換成自然語言的表示,而基於「指向」數據的 Molmo 更進一步,它可以用非語言的方式(如指向物體)進行解答。
比如,向 Molmo 提問:「你可以指出這塊白板上的哪個模型的訓練時間最短嗎?」它不僅能用語音準確回答,還能直接用箭頭「指向」它是從哪些數據中得到答案的。
Molmo 用紅色的波紋標出了自己識別的對象。
要求 Molmo 數圖中有多少隻狗,它的計數方法是在每隻狗的臉上畫一個點。如果要求它數狗狗舌頭的數量,它會在每隻舌頭上畫一個點。
「指向」讓 Molmo 能夠在零樣本的情況下執行更廣泛的任務,同時,無需查看網站的代碼,它可以懂得如何瀏覽頁面、提交表單。
這種能力也讓 Molmo 更自然地連接現實世界和數字世界,爲下一代應用程序提供全新的互動方式。
PixMo:數據質量勝過數量
通常而言,要訓練一個大型 VLM,需要數以十億計的圖像 - 文本對數據。而這些數據往往取自網絡,因此噪聲很高。模型就需要在訓練過程中分離信號與噪聲。有噪聲文本還會導致模型輸出出現幻覺。
基於這樣的考慮,該團隊採用了不同的方法來獲取數據。他們將數據質量放在了更重要的位置,結果發現,使用少於 1M 的圖像 - 文本對就足以訓練出強大的模型 —— 這比許多其它同類方法少了 3 個數量級。
Molmo 系列模型之所以能取得成功,最關鍵的要素莫過於 PixMo——Molmo 的訓練數據。
Pixmo 包含兩大類數據:(1) 用於多模式預訓練的密集描述數據和 (2) 用於實現各種用戶交互的監督式微調數據,包括問答、文檔閱讀和指向等行爲。
該團隊表示,在收集這些數據時,主要限制是避免使用已有的 VLM,因爲「我們希望從頭構建一個高性能 VLM」,而不是蒸餾某個已有的系統(但注意,他們也確實會使用僅語言的 LLM,但並不會把圖像輸入這些模型)。
在實踐中,要讓人類來標註大量數據是非常困難的。而且人類編寫的圖像描述往往僅會提及一些突出的視覺元素,而缺乏細節。如果強制要求最低字數,標註者要麼需要花費太長時間,使收集過程成本高昂,要麼就會從專有 VLM 複製粘貼響應,這又會違背避免蒸餾模型的目標。
因此,開放研究社區一直在努力,在不依賴專有 VLM 的合成數據的前提下,創建這樣的數據集。
該團隊提出了一種簡單但有效的數據收集方法,可以避免這些問題:讓標註者用語音描述圖像 60 到 90 秒,而不是要求他們打字。他們讓標註者詳細描述他們看到的一切,包括空間定位和關係的描述。
從結果上看,該團隊發現,通過這種模態切換「技巧」,標註者可以在更短的時間內提供更詳細的描述,並且對於每個描述都有對應的錄音,可證明未使用 VLM。
總的來說,他們收集了 71.2 萬幅圖像的詳細音頻描述,涵蓋 50 個高層級主題。
他們的混合微調數據包含了標準的學術數據集以及一些新收集的數據集,這些新數據集也將會公開發布。學術數據集主要用於使模型在基準測試數據上表現良好,而新收集的數據集則能賦予模型大量重要功能,包括在與用戶聊天時能夠回答關於圖像的一般性問題(超出學術基準數據範圍)、提升 OCR 相關任務(如讀取文檔和圖表)、精準識別模擬時鐘的時間,以及在圖像中指向一個或多個視覺元素。
指向功能可爲圖像中的像素提供自然的解釋,從而帶來 Molmo 全新且更強大的能力。該團隊認爲,指向將成爲 VLM 和智能體之間重要的交流方式。例如,一個機器人可以查詢具有指向功能的 VLM 以獲得路徑點或要拾取物體的位置,而一個網頁智能體可以查詢 VLM 以定位需要點擊的用戶界面元素。這組系列數據集也分爲以下六個:
基準評估和大規模人類偏好排名
爲了進行全面的評估,該團隊既使用了學術基準評測,也執行了人類評估以根據用戶偏好對模型進行排名。
從結果上看,學術基準評測結果與人類評估結果高度一致。唯一的例外是 Qwen VL2,其在學術基準上表現很好,但在人類評估中表現相對較差。
該團隊總結得到了一些關鍵結果,並表示「Small is the new big, less is the new more」,詳情如下:
在接受 TechCrunch 的採訪時, Ai2 首席執行官 Ali Farhadi 表示,人工智能界有條定律 ——「越大越好」,訓練數據越多,模型中的參數就越多,需要的算力也就越多。但發展到一定階段時,「scaling law」就會遇到瓶頸,根本無法繼續擴大模型規模了:沒有足夠的數據、或者計算成本和時間變得太高,以至於弄巧成拙。你只能利用現有的資源,或者更好的辦法是,用更少的資源做更多的事情。
Ai2 首席執行官 Ali Farhadi
模型架構
Molmo 的模型架構採用了簡單的標準設計,也就是將一個語言模型和一個圖像編碼器組合起來。其包含 4 個組件:
該團隊基於這一模板構建了一個模型系列。通過選擇不同的視覺編碼器和 LLM 可以爲其賦予不同的參數。在這些選擇基礎上,所有模型的後續訓練數據和方案都一樣。
對於視覺編碼器,他們發佈的所有模型均使用 OpenAI 的 ViT-L/14 336px CLIP 模型,該模型的效果好且質量穩定。
對於 LLM,他們採用不同的規模,基於不同的開放程度訓練了模型:OLMo-7B-1024 的權重和數據完全開放的(使用了 2024 年 10 月的預發佈權重,其將於晚些時候公佈)、高效的 OLMoE-1B-7B-0924 也是完全開放權重和數據,Qwen2 7B、Qwen2 72B、Mistral 7B、Gemma2 9B 則是僅開放權重。新發布的是該系列的 4 個樣本。
他們的訓練過程也很簡單,首先從已經獨立完成預訓練的視覺編碼器和 LLM 開始,接下來分爲兩個階段:
這兩個階段都會對所有參數進行更新,並且過程中不使用 RLHF。
發佈計劃
該團隊首次發佈就分量十足,包含一個演示模型、推理代碼、一份簡要的技術報告和以下模型權重:
未來兩個月,該團隊還將陸續發佈以下研究成果:
更多研究細節,可訪問原博客。
https://x.com/reach_vb/status/1838938439267258840
https://techcrunch.com/2024/09/25/ai2s-molmo-shows-open-source-can-meet-and-beat-closed-multimodal-models/
https://molmo.allenai.org/blog
https://molmo.allenai.org/paper.pdf