智源百模大考閱卷出分

“在7-12年級,大模型與人類之間的差異變化不明顯。然而,在3-6年級,呈現年級越低,大模型與人類差異越大的趨勢。”

5月17日,智源研究院舉辦大模型評測發佈會,發佈並解讀國內外140餘個開源和商業閉源的語言及多模態大模型全方位能力評測結果。

智源研究院在測評中引入海淀區教師進修學校新編小學三年級至高三學段,覆蓋語數英物化史6個學科,總計45套試卷,1400道試題。每套試卷由教師預估海淀學生平均分數,答案不唯一的題目由海淀教師評分。

智源研究院院長王仲遠在接受界面新聞等媒體採訪時表示:引入K12本身不是爲了評測教育,而是爲了評測大模型跨學科的能力。

王仲遠表示,造成上述問題的原因在於,往往越低年級的題目圖片越多。他認爲,這也反映了目前多模態技術還不如大語言模型,當低年級測試題目中包含圖片越多,大模型反而做不好。

智源研究院智能評測組負責人楊熙表示:從表面上來看,大模型做不好低年級的題目是因爲圖形題目比較多。低年級教輔書有一些趣味化的展示,所以對於小朋友而言,圖片更直觀,但大模型讀圖還沒有達到很高的水平。

其次,這是大模型訓練導致的,大模型訓練更多是面向成人的認知,使用的數據大部分來自於互聯網。小朋友的相關數據較少,以及人類在低幼期間獲取知識的方式和成人獲取知識的方式也有不同。也能從側面反映出,大模型學習的方式和人的認知發展方式有差別。

“從某種意義上來講,也證明了人類在多模態認知上還是非常獨特的。人腦的機制依然在科學研究上還沒完全理解透,對於AGI到底會什麼時候實現、以什麼方式實現,還有很多探討的地方。”王仲遠表示。

整體來看,這次的測評顯示出:圖表與難度存在一定的交互影響,圖表會拉低模型在容易、中等難度題目上的表現。

綜合各年級、各學科綜合得分率,表現優異的前五名都是閉源大模型,分別是通義Qwen-vl-max、百度文心一言4.0、智譜華章GLM-4、百川智能Baichuan3、GPT-4。

然而,在學科測驗上,大模型略低於海淀各年級學生平均水平。

北京市海淀區教師進修學校校長姚守梅指出,大模型具備強大的信息優勢,多數大模型能從多角度解答問題,且條理清晰。值得注意的是,部分大模型在文學閱讀方面表現驚人。這也與過去人們認爲AI難以理解文學、藝術領域的“常識”相悖。

此次測評還發現大模型存在以下問題,一是不能準確判斷題目要求,導致一些簡單題目反而錯答率高。二是大模型尚難以應對一些情境較爲複雜的問題,解題邏輯混亂,甚至會出現基本概念理解問題。

三是大模型未掌握特定學科的學科規範,尚不能準確使用學科語言來表達學科內容。大模型不能準確把特定情景中的語言邏輯,難以理解語言的弦外之音。

值得警惕的是,大模型在作答中生成“僞知識”,提供錯誤信息,以及可能存在與主流價值觀不符的意識形態問題。

姚守梅指出,語言大模型不具備識圖能力,與多模態大模型相比處於天然劣勢。其次,在作答時間、書寫長度等方面,大模型受限較少,“因此,大模型學習結果不能與學生作答結果簡單對應。一次測試尚不足以評價人工智能大模型的學習能力,需要理性看待。”

王仲遠指出,語言模型在中文語境下,國內頭部語言模型的綜合表現已接近國際一流水平,但存在能力發展不均衡的情況,“文科能力比理科能力要好”。

發佈會當天,智源研究院正式推出智源評測體系。語言模型主觀評測結果顯示,前五名分別是字節跳動豆包Skylark2、OpenAI GPT-4、文心一言、Kimi、GLM-4。

多模態模型在理解圖文問答任務上,開閉源模型平分秋色,國產模型表現突出。

多模態理解模型客觀評測結果顯示,圖文問答方面,阿里巴巴通義Qwen-vl-max與上海人工智能實驗室InternVL-Chat-V1.5先後領先於OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能實驗室Intern-XComposer2-VL-7B緊隨其後。

文生視頻能力上,對比各家公佈的演示視頻長度和質量,Sora有明顯優勢,其他開放評測的文生視頻模型中,國產模型PixVerse表現優異。

開源與閉源模型整體能力差距較大,並且能力分佈不同。閉源優秀模型在代碼能力上表現優異,但模型之間的能力差距顯著。在數學能力和推理能力上,閉源模型強於開源模型,但整體還有待提高。

安全與價值觀上,閉源優秀模型表現突出,但整體還有較大提升空間。

王仲遠在接受界面新聞等媒體採訪時指出:未來行業會朝着兩個方向發展,頂尖的大模型在算力、數據和參數量的消耗會進一步擴大。

其次,當頂尖的大模型能力出現天花板,越來越多的企業把模型做小,也能達到同樣的能力。很多國產大模型用千億級的參數,能力已逼近GPT-4。如果將來在AI手機或AIPC上運用,還需要進一步壓縮參數量到十億級別的模型,可能使用效果會更好。因此從產業端來講,參數量不是越大越好。

在語言模型客觀評測中,OpenAI GPT-4、百川智能Baichuan3、百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進入語言模型主客觀評測前五。

多模態生成模型文生圖評測結果顯示,OpenAI DALL-E3,智譜華章CogView3、Meta-Imagine分列前三,百度文心一格、字節跳動doubao-Image緊隨其後。

多模態生成模型文生視頻測評中,OpenAI Sora、Runway、愛詩科技PixVerse、Pika、騰訊VideoCrafter-V2位列前五。

在文生圖測試中,文生圖模型普遍對於數量、否定指令理解較差。海外模型普遍對中文理解不佳,且生成的圖片帶有明顯文化色彩。

智源方面表示,由於安全與價值觀對齊是模型產業落地的關鍵,但海外模型與國內模型在該維度存在差異,因此語言模型主客觀評測的總體排名不計入該單項分數。

智源研究院在語言模型中採用58000道題進行評測,包括4000道的主觀題,覆蓋全球140餘個的模型,覆蓋了全球40餘家的大多數企業,從主觀、客觀兩個維度考察了語言模型的簡單理解、知識運用、推理能力、數學能力、代碼能力、任務解決、安全與價值觀七大能力;針對多模態模型則主要評估了多模態理解和生成能力。

值得注意的是,本次測評模型均來自4月20日之前。但在最新測試中,OpenAI旗下的GPT-4o處於領先位置。