國內百模誰第一?清華14大LLM最新評測報告出爐,GLM-4、文心4.0站在第一梯隊

新智元報道

編輯:編輯部

【新智元導讀】大模型混戰究竟誰纔是實力選手?清華對國內外14個LLM做了最全面的綜合能力測評,其中GPT-4、Cluade 3是當之無愧的王牌,而在國內GLM-4、文心4.0已然闖入了第一梯隊。

在2023年的「百模大戰」中,衆多實踐者推出了各類模型,這些模型有的是原創的,有的是針對開源模型進行微調的;有些是通用的,有些則是行業特定的。如何能合理地評價這些模型的能力,成爲關鍵問題。

儘管國內外存在多個模型能力評測榜單,但它們的質量參差不齊,排名差異顯著,這主要是因爲評測數據和測試方法尚不成熟和科學。我們認爲,好的評測方法應當具備開放性、動態性、科學性和權威性。

爲提供客觀、科學的評測標準,清華大學基礎模型研究中心聯合中關村實驗室研製了SuperBench大模型綜合能力評測框架,旨在推動大模型技術、應用和生態的健康發展。

最近,2024年3月版《SuperBench大模型綜合能力評測報告》正式發佈。

評測共包含了14個海內外具有代表性的模型。其中,對於閉源模型,選取API和網頁兩種調用模式中得分較高的一種進行評測。

根據評測結果,可以得出以下幾個主要結論:

● 整體來說,GPT-4系列模型和Claude-3等國外模型在多個能力上依然處於領先地位,國內頭部大模型GLM-4和文心一言4.0表現亮眼,與國際一流模型水平接近,且差距已經逐漸縮小。

● 國外大模型中,GPT-4系列模型表現穩定,Claude-3也展現了較強的綜合實力,在語義理解和作爲智能體兩項能力評測中更是獲得了榜首,躋身國際一流模型。

● 國內大模型中,GLM-4和文心一言4.0在本次評測中表現最好,爲國內頭部模型;通義千問2.1、Abab6、moonshot網頁版以及qwen1.5-72b-chat緊隨其後,在部分能力評測中亦有不俗表現;但是國內大模型對比國際一流模型在代碼編寫、作爲智能體兩個能力上依然有較大差距,國內模型仍需努力。

大模型能力遷移&SuperBench

自大語言模型誕生之初,評測便成爲大模型研究中不可或缺的一部分。隨着大模型研究的發展,對其性能重點的研究也在不斷遷移。根據我們的研究,大模型能力評測大概經歷如下5個階段:

2018年-2021年:語義評測階段

早期的語言模型主要關注自然語言的理解任務(e.g. 分詞、詞性標註、句法分析、信息抽取),相關評測主要考察語言模型對自然語言的語義理解能力。代表工作:BERT、GPT、T5等。

2021年-2023年:代碼評測階段

隨着語言模型能力的增強,更具應用價值的代碼模型逐漸出現。研究人員發現,基於代碼生成任務訓練的模型在測試中展現出更強的邏輯推理能力,代碼模型成爲研究熱點。代表工作:Codex、CodeLLaMa、CodeGeeX等。

2022年-2023年:對齊評測階段

隨着大模型在各領域的廣泛應用,研究人員發現續寫式的訓練方式與指令式的應用方式之間存在差異,理解人類指令、對齊人類偏好逐漸成爲大模型訓練優化的關鍵目標之一。對齊好的模型能夠準確理解並響應用戶的意圖,爲大模型的廣泛應用奠定了基礎。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。

2023年-2024年:智能體評測階段

基於指令遵從和偏好對齊的能力,大模型作爲智能中樞對複雜任務進行拆解、規劃、決策和執行的能力逐漸被髮掘。大模型作爲智能體解決實際問題也被視爲邁向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。

2023年-future:安全評測階段

隨着模型能力的提升,對模型安全性和價值觀的評估、監管與強化逐漸成爲研究人員關注的重點。加強對潛在風險的研判,確保大模型的可控、可靠和可信,是未來「AI可持續發展」的關鍵問題。

因此,爲了全面地評估大模型的各項能力,SuperBench評測體系包含了語義、代碼、對齊、智能體和安全等五個評測大類,28個子類。

PART 1 語義評測

ExtremeGLUE是一個包含72箇中英雙語傳統數據集的高難度集合,旨在爲語言模型提供更嚴格的評測標準,採用零樣本 CoT 評測方式,並根據特定要求對模型輸出進行評分。

首先,使用超過20種語言模型進行初步測試,包括了GPT-4、Claude、Vicuna、WizardLM和ChatGLM等。

然後,基於所有模型的綜合表現,決定每個分類中挑選出難度最大的10%~20%數據,將它們組合爲「高難度傳統數據集」。

評測方法&流程

●評測方式:收集了72箇中英雙語傳統數據集,提取其中高難度的題目組成4個維度的評測數據集,採取零樣本CoT評測方式,各維度得分計算方式爲回答正確的題目數所佔百分比,最終總分取各維度的平均值。

●評測流程:根據不同題目的形式和要求,對於模型的零樣本CoT生成的結果進行評分。

整體表現:

在語義理解能力評測中,各模型形成了三個梯隊,70分檔爲第一梯隊,包括Claude-3、GLM-4、文心一言4.0以及GPT-4系列模型。

其中,Claude-3得分爲76.7,位居第一;國內模型GLM-4和文心一言4.0則超過GPT-4系列模型位居第二和第三位,但是和Claude-3有3分差距。

分類表現:

● 知識-常識:Claude-3以79.8分領跑,國內模型GLM-4表現亮眼,超過GPT-4網頁版位居第二;文心一言4.0表現不佳,距離榜首Claude-3有12.7分差距。

● 知識-科學:Claude-3依然領先,並且是唯一一個80分以上模型;文心一言4.0、GPT-4系列模型以及GLM-4模型均在75分以上,爲第一梯隊模型。

● 數學:Claude-3和文心一言4.0並列第一,得65.5分,GLM-4領先GPT-4系列模型位列第三,其他模型得分在55分附近較爲集中,當前大模型在數學能力上仍有較大提升空間。

● 閱讀理解:各分數段分佈相對較爲平均,文心一言4.0超過GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

PART 2 代碼評測

NaturalCodeBench(NCB)是一個評估模型代碼能力的基準測試,傳統的代碼能力評測數據集主要考察模型在數據結構與算法方面的解題能力,而NCB數據集側重考察模型在真實編程應用場景中寫出正確可用代碼的能力。

所有問題都從用戶在線上服務中的提問篩選得來,問題的風格和格式更加多樣,涵蓋數據庫、前端開發、算法、數據科學、操作系統、人工智能、軟件工程等七個領域的問題,可以簡單分爲算法類和功能需求類兩類。

題目包含java和python兩類編程語言,以及中文、英文兩種問題語言。每個問題都對應10個人類撰寫矯正的測試樣例,9個用於測試生成代碼的功能正確性,剩下1個用於代碼對齊。

評測方法&流程

●評測方式:運行模型生成的函數,將輸出結果與準備好的測例結果進行比對進行打分。將輸出結果與準備好的測例結果進行比對進行打分,最終計算生成代碼的一次通過率pass@1。

●評測流程:給定問題、單元測試代碼、以及測例,模型首先根據問題生成目標函數;運行生成的目標函數,以測例中的輸入作爲參數得到函數運行輸出,與測例中的標準輸出進行比對,輸出匹配得分,輸出不匹配或函數運行錯誤均不得分。

整體表現:

在代碼編寫能力評測中,國內模型與國際一流模型之間仍有明顯差距,GPT-4系列模型、Claude-3模型在代碼通過率上明顯領先,國內模型中GLM-4,文心一言4.0與訊飛星火3.5表現突出,綜合得分達到40分以上。

然而,即使是表現最好的模型在代碼的一次通過率上仍只有50%左右,代碼生成任務對目前的大模型來說仍是一大挑戰。

分類表現:

在Python、Java、中文、英文四個維度的數據集中GPT-4系列模型包攬頭名,體現出強大而全面的代碼能力,除Claude-3外其餘模型差距明顯。

● 英文代碼指令:GPT-4 Turbo比Claude-3在Python和Java問題上分別高出6.8分和1.5分,比GLM-4在Python和Java問題上分別高出14.2分和5.1分,國內模型與國際模型在英文代碼指令上差距比較明顯。

● 中文代碼指令:GPT-4 Turbo比Claude-3在Python上高出3.9分,在Java上低2.3分,差距不大。GPT-4 Turbo比GLM-4在Python和Java問題上分別高出5.4分和2.8分,國內模型在中文編碼能力上與國際一流模型仍存在一定差距。

PART 3 對齊評測

AlignBench旨在全面評測大模型在中文領域與人類意圖的對齊度,通過模型打分評測回答質量,衡量模型的指令遵循和有用性。

它包括8個維度,如基本任務和專業能力,使用真實高難度問題,並有高質量參考答案。優秀表現要求模型具有全面能力、指令理解和生成有幫助的答案。

「中文推理」維度重點考察了大模型在中文爲基礎的數學計算、邏輯推理方面的表現。這一部分主要由從真實用戶提問中獲取並撰寫標準答案,涉及多個細粒度領域的評估:

● 數學計算上,囊括了初等數學、高等數學和日常計算等方面的計算和證明。

● 邏輯推理上,則包括了常見的演繹推理、常識推理、數理邏輯、腦筋急轉彎等問題,充分地考察了模型在需要多步推理和常見推理方法的場景下的表現。

「中文語言」部分着重考察大模型在中文文字語言任務上的通用表現,具體包括六個不同的方向:基本任務、中文理解、綜合問答、文本寫作、角色扮演、專業能力。

這些任務中的數據大多從真實用戶提問中獲取,並由專業的標註人員進行答案撰寫與矯正,從多個維度充分地反映了大模型在文本應用方面的表現水平。具體來說:

● 基本任務考察了在常規NLP任務場景下,模型泛化到用戶指令的能力;

● 中文理解上,着重強調了模型對於中華民族傳統文化和漢字結構淵源的理解;

● 綜合問答則關注模型回答一般性開放問題時的表現;

● 文本寫作則揭示了模型在文字工作者工作中的表現水平;

● 角色扮演是一類新興的任務,考察模型在用戶指令下服從用戶人設要求進行對話的能力;

● 專業能力則研究了大模型在專業知識領域的掌握程度和可靠性。

評測方法&流程

●評測方式:通過強模型(如GPT-4)打分評測回答質量,衡量模型的指令遵循能力和有用性。打分維度包括事實正確性、滿足用戶需求、清晰度、完備性、豐富度等多項,且不同任務類型下打分維度不完全相同,並基於此給出綜合得分作爲回答的最終分數。

●評測流程:模型根據問題生成答案、GPT-4根據生成的答案和測試集提供的參考答案進行詳細的分析、評測和打分。

整體表現:

在人類對齊能力評測中,GPT-4網頁版佔據榜首,文心一言4.0和GPT-4 Turbo同分(7.74)緊隨其後,國內模型中GLM-4同樣表現優異,超越Claude-3,位列第四,通義千問2.1略低於Claude-3,排名第六,同爲第一梯隊大模型。

分類表現:

中文推理整體分數明顯低於中文語言,當下大模型推理能力整體有待加強:

● 中文推理:GPT-4系列模型表現最好,略高於國內模型文心一言4.0,並且和其他模型拉開明顯差距。

● 中文語言:國內模型包攬了前四名,分別是KimiChat網頁版(8.05分)、通義千問2.1(7.99分)、GLM-4(7.98分)、文心一言4.0(7.91分),超過GPT-4系列模型和Claude-3等國際一流模型。

各分類細拆分析:

中文推理:

● 數學計算:GPT-4系列模型包攬前兩名,國內模型文心一言4.0、通義千問2.1分數超過Claude-3,但與GPT-4系列模型仍有一定差距。

● 邏輯推理:7分以上爲第一梯隊,由國內模型文心一言4.0領跑,同在第一梯隊的還有GPT-4系列模型、Claude-3、GLM-4和Abab6。

中文語言:

● 基本任務:GLM-4拿下榜首,通義千問2.1、Claude-3和GPT-4網頁版佔據二到四位,國內其他大模型中文心一言4.0和KimiChat網頁版也表現較好,超過了GPT-4 Turbo。

● 中文理解:國內模型整體表現較好,包攬了前四名,文心一言4.0領先優勢明顯,領先第二名GLM-40.41分;國外模型中,表現尚可,排在第五位,但GPT-4系列模型表現較差,排在中下游,並且和第一名分差超過1分。

● 綜合問答:各大模型均表現較好,超過8分的模型達到了6家,GPT-4網頁版和KimiChat網頁版拿下最高分,GLM-4和Claude-3分數相同,與榜首分數接近,並列第三。

● 文本寫作:KimiChat網頁版表現最好,同時也是唯一一個8分以上的模型,GPT-4 Turbo和分列二、三位。

● 角色扮演:國內模型Abab6、通義千問2.1和KimiChat網頁版包攬前三名,且均在8分以上,超過GPT-4系列模型和Claude-3等國際一流模型。

● 專業能力:GPT-4 Turbo佔據了首位,KimiChat網頁版超過GPT-4網頁版拿下第二名,國內其他模型中,GLM-4和通義千問2.1同樣表現不俗,並列排名第四。

PART 4 智能體評測

AgentBench是一個評估語言模型在操作系統、遊戲和網頁等多種實際環境中作爲智能體性能的綜合基準測試工具包。

代碼環境:該部分關注LLMs在協助人類與計計算機代碼接口互動方面的潛在應用。LLMs以其出色的編碼能力和推理能力,有望成爲強大的智能代理,協助人們更有效地與計算機界面進行互動。爲了評估LLMs在這方面的表現,我們引入了三個代表性的環境,這些環境側重於編碼和推理能力。這些環境提供了實際的任務和挑戰,測試LLMs在處理各種計算機界面和代碼相關任務時的能力。

遊戲環境:遊戲環境是AgentBench的一部分,旨在評估LLMs在遊戲場景中的表現。在遊戲中,通常需要智能體具備強大的策略設計、遵循指令和推理能力。與編碼環境不同,遊戲環境中的任務不要求對編碼具備專業知識,但更需要對常識和世界知識的綜合把握。這些任務挑戰LLMs在常識推理和策略制定方面的能力。

網絡環境:網絡環境是人們與現實世界互動的主要界面,因此在複雜的網絡環境中評估智能體的行爲對其發展至關重要。在這裡,我們使用兩個現有的網絡瀏覽數據集,對LLMs進行實際評估。這些環境旨在挑戰LLMs在網絡界面操作和信息檢索方面的能力。

評測方法&流程

●評測方式:模型和預先設定好的環境進行多輪交互以完成各個特定的任務,情景猜謎子類會使用GPT-3.5-Turbo對最終答案進行評分,其餘子類的評分方式根據確定的規則對模型完成任務的情況進行打分。

●評測流程:模型與模擬環境進行交互,之後對模型給出的結果採用規則評分或GPT-3.5-Turbo評分。

●打分規則:由於不同子任務的分數分佈不同,直接按平均分計算總分受極值的影響較爲嚴重,因此需要對各子任務的分數進行歸一化處理。如下表所示,各個子任務對應的「Weight(-1)」的值即是歸一化的權重,這個值爲在 Agentbench上最初測試的模型在該子任務上得分的平均值。計算總分時將各個子任務的分數除以Weight(-1)後求平均值即可。根據該計算方式,具有平均能力的模型最終得到的總分應爲1。

SR:成功率

#Avg.Turn:解決單一問題所需的平均交互回合數

#Dev、#Test:開發集和測試集單個模型的預期總交互輪數

Weight⁻¹:各單項分在計算總分的時候的權重的倒數

整體表現:

在作爲智能體能力評測中,國內模型整體明顯落後於國際一流模型。其中,Claude-3和GPT-4系列模型佔據了前三甲,GLM-4在國內模型中表現最好,但與榜首的Claude-3仍有較大差距。

國內外大模型在本能力下均表現欠佳,主要原因是智能體對模型要求遠高於其他任務,現有的絕大部分模型還不具有很強的智能體能力。

分類表現:

除網上購物被國內模型GLM-4拿到頭名外,其他分類下,榜首均被Claude-3和GPT-4系列模型佔據,體現出相對強大的作爲智能體能力,國內模型仍需不斷提升。

● 具身智能(Alfworld)前三甲均被Claude-3和GPT-4系列模型包攬,和國內模型差距最大。

● 在數據庫(DB)和知識圖譜(KG)兩個維度下,國內模型GLM-4均進入top3,但是與前兩名仍有一定差距。

PART 5 安全評測

SafetyBench是首個全面的通過單選題的方式評估大型語言模型安全性的測試基準。包含攻擊冒犯、偏見歧視、身體健康、心理健康、違法活動、倫理道德、隱私財產等。

評測方法&流程

●評測方式:每個維度收集上千個多項選擇題,通過模型的選擇測試對各個安全維度的理解和掌握能力進行考察。評測時採用few-shot生成方式,從生成結果中抽取答案與真實答案比較,模型各維度得分爲回答正確的題目所佔百分比,最終總分取各個維度得分的平均值。針對拒答現象,將分別計算拒答分數和非拒答分數,前者將拒答題目視爲回答錯誤,後者將拒答題目排除出題庫。

●評測流程:從模型針對指定問題few-shot的生成結果中提取答案,與真實答案比較。

整體表現:

在安全能力評測中,國內模型文心一言4.0表現亮眼,力壓國際一流模型GPT-4系列模型和Claude-3拿下最高分(89.1分),在國內其他模型中,GLM-4和Claude-3同分,並列第四。

分類表現:

在違法活動、身體健康、攻擊冒犯、心理健康、隱私財產這五個分類下,各模型各有勝負,但是在倫理道德和偏見歧視上,各個模型分差較大,並保持了和總分較爲一致的偏序關係。

● 倫理道德:文心一言4.0力壓Claude-3位列第一,國內大模型GLM-4同樣表現亮眼,超過GPT-4 Turbo位列前三甲。

● 偏見歧視:文心一言4.0繼續排名榜首,領先GPT-4系列模型,GLM-4緊隨其後,同爲第一梯隊模型。

參考資料:

https://mp.weixin.qq.com/s/r_aAjFHTRDBGXhl3bd06XQ

https://mp.weixin.qq.com/s/VhVEnRrIzJza1SZC9bKa6Q