開源視覺大模型黑馬Molmo AI 來襲!超越GPT-4o 和 Claude 3.5

位於西雅圖的非營利人工智能研究機構——艾倫人工智能研究所(Ai2)最近推出了Molmo,這是一系列多模態人工智能模型,旨在與大型科技公司如OpenAI和Anthropic的專有視覺產品相媲美。本週二,Molmo的發佈沒有像許多大型AI模型那樣受到廣泛關注,但它具備了任何頂尖視覺模型所需的所有先進功能。甚至在多個第三方基準測試中超越了 OpenAI 的 GPT-4o、Anthropic 的 Claude3.5Sonnet 和谷歌的 Gemini1.5。

Molmo小型模型比其大型模型的性能高出 10 倍。雖然當前的多模態模型可以解釋多模態數據並用自然語言表達,但它們的全部潛力尚未得到充分發揮。Molmo 則更勝一籌。通過學習指向其感知到的內容,Molmo 可以實現與物理和虛擬世界的豐富交互,爲能夠與其環境互動的下一代應用程序提供支持。(鏈接在文章底部)

01 模型能力對比

該系統使用了近100萬張經過精心挑選的圖像進行訓練,這比競爭對手通常使用的數十億張要少得多。因爲數據量較小,降低了計算需求,AI的錯誤率也更低。Molmo系列包括多種不同大小的模型。其中,MolmoE-1B是一個混合專家模型,具有10億個活躍參數(總共70億個)。Molmo-7B-O是最開放的70億參數模型,而Molmo-7B-D則是一個演示模型。最高端的Molmo-72B是該系列中最先進的模型。

02 模型開放性對比

目前最先進的多模態模型仍然是私有的,而利用開放數據構建視覺語言模型(VLM)的研究進展緩慢。爲了改變這一局面,Molmo的創新在於收集了一個全新的圖像標題數據集,完全由人工註釋者通過語音描述創建。此外,還引入了多樣化的數據集組合,允許模型用自然語言和非語言提示進行互動。

Molmo系列不僅在開放性和數據質量上超越其他模型,性能也與GPT-4o、Claude 3.5等專有系統相當。未來,將發佈所有模型的權重、代碼和數據,讓更多開發者和研究者能夠使用。

03 模型使用

邏輯理解能力:

數學能力(略差):

圖片表達能力:

代碼能力 :

有一點小驚喜,Molmo在官網對國產阿里QwenVL2的評價。《總體而言,學術基準結果和人類評估結果非常吻合,但 Qwen VL2 除外,它在學術基準上表現強勁,但在人類評估中表現相對較差。》

歡迎交流~,帶你學習AI,瞭解AI