從考公、寫週報到下廚指南,晚點評測 18 個大模型

文丨賀乾明 曾興編輯丨黃俊杰 龔方毅

2023 年 3 月,GPT-4 發佈,震撼全世界。之後全球有上百家公司爭先開發大模型,投入數百億美元追趕。

一年後,至少有 8 家中美公司宣佈已經做出能力比肩或接近 GPT-4 的模型。它們中的大多數都公佈了自家模型在常用的能力評估數據集上的得分,的確超過或接近 GPT-4。

公開數據集測試不完全反應大模型的能力。不少人工智能從業者認爲,一些公司會用基準測試數據集裡的數據訓練大模型,自然更容易在評測中得高分。

實際上大部分公司在聲稱模型追上 GPT-4 時,都加了各種限定條件,比如 “綜合整體評測成績水平比肩 GPT-4”“十餘項指標逼近或達到 GPT-4”。

過去一個月,我們設計 20 多道問題,涉及生活和工作的各種場景,再加上 30 道考公題,測試國內外 18 個大模型產品的表現。

測試時,我們全用中文提問,每個問題單開一個對話框,選大模型第一次回答的結果。大模型的回答有一定隨機性,這並不是完全嚴謹的評測,但更接近現實使用場景。

中文測試:中國大模型確實更會考公

大語言模型完成各種任務的基礎,是能夠理解用戶提出的問題,並搞清楚文字背後的意圖。許多中國的公司比較自研模型與 GPT-4 等海外模型時,會強調自己的模型更懂中文。

實際使用中,大模型不僅要懂中文,還得懂中國。我們先從去年公務員考試科目《行政職業能力測驗》中選了兩道題。第一道是:

官方答案是 “衡陽”。這道題難不倒每年幾百萬渴望脫離市場競爭的人,每年公考錄取率只有 1.4%,而在培訓機構粉筆網做題的 88% 都答對了。大模型只有一半正確。

12 箇中國的大模型裡有 5 個答對——阿里通義千問、字節豆包、百度文心一言、商湯商量和階躍星辰躍問。6 個海外的大模型,只有 GPT-3.5 和 Claude 3 答錯。

所有錯誤答案都是 “大雁”,敘述中 “雁” 字出現 5 次、衡陽只出現 3 次。

第二道題難度接近翻倍。粉筆統計的正確率只有 45%。

大模型們的正確率爲 39%。答對的只有 GPT-4、Claude 3、阿里通義千問、騰訊混元、百度文心一言、科大訊飛星火和智譜 GLM-4。

整體來看,兩道題都答對的只有 GPT-4、阿里通義千問和百度文心一言。月之暗面、MiniMax、百川智能、零一萬物的大模型和 GPT-3.5 全部做錯。

而在 30 道國考語言理解題(選自 2023 年國考副省級行測科目)測試中,多數中國大模型得分超過海外的模型,展現更會考公的一面。智譜 GLM-4 正確率達到 90%、阿里通義千問是 87%..... 都比 GPT-4 強。只有商湯商量比較保守,“拒絕回答” 多道問題。

我們還選了河南話、粵語和上海話測試它們理解中文的能力:

字節豆包、百川大模型、智譜 GLM-4 和零一萬物的模型全部識別正確。河南話難倒了 GPT-4、Claude 3、阿里通義千問等 8 個大模型。

中文模型只有騰訊混元和百度文心一言表現較差,前者只識別出粵語,後者直接生成一段語音,用粵語把我們提問中的上海話念了出來。GPT-3.5、Llama 2、Mistral Large 一個也沒認出來。

解答經典數學題,大模型贏過普通人,但也學會 “偷懶”

造原子彈的曼哈頓工程聚集了 20 世紀相當一部分天才。他們普遍認爲自己的同事,數學家馮·諾伊曼纔是最聰明的那一個。

諾獎物理學家馬克斯·玻恩(Max Born)曾用 “火車蒼蠅” 題考馮·諾伊曼:

兩列火車在同一條軌道上相距 100 公里,以 50 公里 / 小時的速度相向行駛。一隻蒼蠅從一列火車的前部出發,以 75 公里 / 小時的速度飛向另一列火車。到達另一列火車後,蒼蠅掉頭繼續朝第一列火車飛去。蒼蠅在兩列火車相撞時被壓扁之前飛行了多少公里?

最暴力的算法是無窮幾何級數:一遍又一遍地算出來蒼蠅從一列火車飛向另一列火車耗費的時間,然後計算出它的飛行距離,直到火車相撞,最後把蒼蠅的飛行距離加起來。

但這道題主要是爲了看測試者能不能找到捷徑:蒼蠅最終會在火車相撞時被壓扁,所以不用管它怎麼飛,直接計算火車需要多少時間相撞(1 小時),再乘以蒼蠅的時速就能得到答案。

玻恩已經問了好些科學家朋友,他們全都用無窮極數算上好一會兒,沒人去看更簡單的解決辦法。但這一次,他剛講完問題,馮·諾伊曼就給出正確答案。玻恩大爲感慨,說終於碰到一個能看穿問題的科學家。馮·諾伊曼則一臉疑惑,說這不就是簡單算一下的無窮幾何級數麼?他用比別人 “腦筋急轉彎” 更短的時間完成了心算。

大模型們用馮·諾伊曼架構的計算機硬件算了這道題。除了 Google Gemini Ultra 和 Llama 2 答錯以外,其他全部給出正確答案 75 公里,但它們也都用了取巧的解法。

當我們要求大模型用無窮級數方法求解時,GPT-4 等大模型先介紹了無窮級數怎麼算,隨後說不用引入無窮級數就可以算出結果,拒絕像馮·諾伊曼那樣計算。

Gemini Ultra 倒是願意嘗試用無窮級數解題,最後算出了一個負數,並說這在物理上是不可能的,然後重新計算,結果是另一個負數。

如果只和凡人相比,大模型的數學能力還是強不少。我們從粉筆上選了一道中學水平的考公數學題,網站記錄的正確率只有 30%:

18 個大模型裡有 10 個給出正確答案 “4/3”,並給出正確的計算過程。但 GPT-3.5、Claude 3、Gemini Ultra、Llama 2、阿里通義千問、騰訊混元等經過 “嚴謹” 計算後,給出各種錯誤答案。

數學一度是大語言模型的短板。ChatGPT(GPT-3.5)2022 年發佈後,很快就被發現做不了簡單數學題,比如堅持認爲 “27 不能被 3 整除”,算不對 422*442 的結果,一度被吐槽只精通十以內的加減法。一年半後,進步巨大。

Python 題難不倒大模型, Go 語言可以

編程是大模型最早成熟的能力之一。2021 年 10 月,OpenAI 發佈 GPT-3 一年後,微軟就用它開發了 GitHub Copilot,幫程序員減輕工作。

直到現在,寫代碼也是大模型最實用的功能。讓大模型查資料,它們可能給出看似正確,實則 “胡說八道” 的答案。代碼如果出錯,就無法運行。

受限於訓練數據,大模型程序員不能精通所有的編程語言。對於那些已經成熟、使用廣泛的編程語言,比如 Python,大模型寫代碼的能力很強。

我們挑了一道 Google 面試題:

除了 Llama2 模型沒回答出來,其他的模型都給出正確答案。

讓它們寫代碼解決實際的工作需求時,包括 GPT-3.5 在內的半數大模型都給出可用的代碼。不過 GPT-4 給出的代碼最簡潔。

Mistral Large、百度文心一言給出的代碼可以運行,但忽略了 “英文” 要求,Gemini Ultra 則忽視 “5 條” 的要求,輸出上百條結果,瞬間把我們測試用的 API 免費額度消耗乾淨。Llama 2、字節豆包、商湯商量、科大訊飛星火、百川大模型給出的代碼運行時都有 Bug。

對於最近幾年剛流行起來,迅速成爲 Google、騰訊、字節跳動等大公司資深程序員常用的編程語言 Go,沒哪個大模型精通。

我們選了一個常見的編程需求測試,比如微信文章定時發佈,就可以用類似的代碼:

一位資深程序員說,這道編程題有兩種解決辦法。一是用 time.Sleep 算法,讓程序休眠 1 分鐘,然後再工作。它可以解決問題,但效率低下、浪費運算資源,用起來計時不一定精確,所以他不會在工作中使用。

另一種方法是設定每分鐘觸發一次的定時器(time.NewTicker),可以讓定時更精確,也便於後續調整。

在我們的正式測試中,大模型們都能理解 Go 語言的格式,但給出的代碼要麼有 bug,要麼沒用更好的方法。多試幾遍後,GPT-4、百度文心一言、阿里通義千問也能給出較好答案,但要看運氣。

新聞寫作,都寫不出像樣的分析,但確實可以輔助工作

GPT-4 發佈後,“大模型搶工作” 成爲熱門話題。2023 年 6 月,諮詢機構麥肯錫發佈報告稱,因爲大模型,人類一半工作自動化將提前 10 年到來。

“如果我們回溯 7 到 10 年,大家的共識是藍領工作會先被 AI 影響,其次纔是白領工作,有創造力的工作排在最後,因爲創造力是人類的強項。”OpenAI 的 CEO 山姆·阿爾特曼(Sam Altman)說,“現在的情況可能正好相反。”

爲了測試自己工作的安全程度大模型如何幫助自己工作,我們按照日常工作流程設定一組問題:

第一步,找出來英偉達 1999 年上市時遞交的招股書。只有 GPT-4 和智譜 GLM-4 給出了招股書鏈接。Claude 3、Gemini Ultra 和階躍星辰的躍問也給了鏈接,但都是錯的——有的打不開,有的指向不相關的文章。

剩下的大模型大都給出找招股書的方法,讓我們自己動手。字節豆包說招股書是保密文件,勸我們去聯繫英偉達或者證監會要招股書。

字節豆包的回覆。上市招股書是對外公開的信息——不然在公開市場買股票的人看什麼呢?

第二步,我們讓大模型把招股書的部分章節翻譯成中文,有文檔處理功能的 14 個大模型中,除了阿里通義千問、騰訊混元和階躍星辰躍問沒回答(不穩定),其他模型都給出迴應,不過沒一個能完整翻譯出來——儘管它們號稱可以處理數十萬字的文本。

還有模型選擇 “偷懶”,比如 Mistral Large 只翻譯第一句話、百度文心一言只給一個概述。如果想要翻譯整個文檔,需要調用大模型 API。

第三步,我們讓大模型根據招股書寫稿件提綱。

字節豆包基本上抄了一遍招股書的大綱,其他模型大多沉浸於理解招股書,忘了文章主題。

只有 GPT-4、Mistral Large、百度文心一言給出了相對合理的答案:會在開篇時強調英偉達當下的市場地位,後半部分會提到英偉達上市後的發展狀況。但細看都是低於百科水平的羅列,沒有用上招股書裡的任何信息。

接下來,我們用大模型識別彭博社製作的 5 代英偉達 GPU 晶圓面積柱狀圖。我們讓大模型根據圖片找出圖中每個柱的具體數值,再總結趨勢。

圖片是英偉達 GTC 之前製作,新款 GPU 被稱爲 B100。

支持圖像識別的大模型產品中,沒一個全部估算出準確數值。我們只能比較哪個錯得沒那麼離譜。

最接近正確答案的是 Claude 3、GPT-4、智譜 GLM-4 和階躍星辰躍問。其他的大模型估算柱子數值時,沒顧及旁邊座標軸。

月之暗面 Kimi 識別圖片時,無法準確估算數值,還多算了根柱子。

在《晚點財經》的工作中,我們需要解讀當天發生的重要新聞。基於這個工作場景,我們挑選了 Ars Technica、CNBC、The Verge、新浪、證券時報網站上的新聞,測試大模型們根據網頁鏈接批量處理新聞的能力。

接受測試的 18 個大模型產品,能根據網頁鏈接讀取內容的有:阿里通義千問、騰訊混元、月之暗面 Kimi、百川大模型、智譜清言和階躍星辰躍問,以及 Claude 3、Llama 2、Mistal Large。

階躍星辰躍問、百川大模型表現較好,都根據網頁內容給了相應回覆,其他幾個模型都有一些問題,比如阿里通義千問把鏈接順序搞反了,月之暗面 Kimi 沒能讀取第一個鏈接等。

百川大模型的回覆。

其他不能讀取鏈接的模型,科大訊飛星火、MiniMax 海螺 AI、商湯商量很坦誠,表示無法解決這個需求。

GPT-4、Gemini Ultra、字節豆包、百度文心一言會根據鏈接信息迴應一些內容。比如第一條鏈接裡的 “apple-debuts-first-new-3d...”,提示了一些文章信息,後兩條鏈接沒這些信息,它們選擇瞎猜。

大模型上班,我們設計的最後一個場景是寫週報。我們列了一些要點,讓它們幫忙完善。

每個大模型都能完成任務,但不同的模型風格差別明顯。比如字節豆包很佛系,只是調整下格式。GPT-4 等模型則會擴寫一部分內容,讓週報顯得更紮實。風格比較突出的是阿里通義千問,可能也不令人例外:

當我們要求大模型根據上面的信息寫一份 2000 字的超級週報時,沒有一個大模型能做到。不過 Claude 3 和百度文心一言都能 “腦補” 出來 1800 字左右的週報。人類還是比大模型更能適應官僚化,但差距在縮小。

生活助手:沒有全能選手

我們設置了五個常見的場景——情緒撫慰、解讀保險條款、識別衣服洗標、總結老師發言、規劃做菜順序,測試大模型作爲生活助手的能力。

情緒撫慰:四個中國大模型表現不錯,Claude 3 最活潑

日常聊天的場景,我們設計了三個連貫的問題,測試大模型能否提供情緒價值。

國內大模型的表現兩極分化。跟字節豆包、百度文心一言、百川大模型和階躍星辰躍問聊天時,不太容易齣戲。它們回覆的內容更像人會說的話,能識別出第一個問題中 “朋友關係疏遠” 的點,提供情緒價值,也會記住我們的要求,暫時放下自己的 AI 身份。

阿里通義千問、MiniMax 海螺 AI、科大訊飛星火等產品,回答時像在套公式,不能融入特定場景。

海外的大模型始終牢記自己是個 AI。GPT-4 可以用更像人的方式回答,但在我們測試時,感知不到低落情緒。Claude 3 則像個話癆,會聊 “我最近看了《狂飆》,但是有點虐。”

解讀保險條款:大部分錯誤離譜,只有三家準確、易讀

我們上傳的 25 頁保險條款中,藏着所有問題的答案,但有一點理解門檻,比如:

這個問題只有 5 個大模型回答正確,GPT-4 直接用文檔原文回答,還是有理解門檻。Claude 3、阿里通義千問、科大訊飛星火則給出更易理解的答案。宣稱擅長處理長文本的月之暗面 Kimi 自己分析了一番,給出的答案不算直接。

科大訊飛星火從文檔中提取信息回答問題。

Mistral Large 只答對一部分,它錯誤地認爲,小李只能得到一次重大疾病保險金,再患肺癌不能理賠。階躍星辰躍問和智譜 GLM-4 一致認爲截肢算 “輕症”,只能獲賠基本保險金額的 20%。騰訊混元則認爲 “若小李在事故後仍然生存,要需繼續繳納保險費。”

洗標識別:不要用任何大模型去讀洗標

我們上傳了一件軟殼外套的洗標:

我剛買了一件衣服,請你根據下圖中的信息,告訴我清洗的時候應該注意什麼問題。

7 個標分別是:最高 30 度水溫,輕柔機洗;不可漂白;不可滾筒烘乾;在陰涼處平放晾乾;低溫熨燙,不超過 110 度、不用蒸汽;禁止乾洗;專業清洗,溼洗。

Llama 2 完全無法識別洗標,提供了一些和圖片無關的信息,包括 “不要在洗衣機放太多東西”“提前擦除污漬”。百度文心一言類似,它就商品名稱和編號作出一些評論,但認爲 “缺乏具體的洗滌圖標”,無法給出建議。

GPT-4 嚴重錯誤,建議不用水洗,而送去幹洗。通義千問就同一個標識給出三個不同的答案,雖然其中有一個是對的。

Gemini Ultra 產生了嚴重的幻覺,認爲衣服材料爲 65% 聚酯纖維加 35% 棉——面料中沒有棉,並且沒有信息可以導向這樣的結論。但 Gemini Ultra 在錯誤判斷下提供了大致準確的洗滌建議,只是忘了提醒不能幹洗。

整理幼兒園家長會老師發言要點:三星內置的 Google 離線大模型表現竟然很不錯

我們轉錄了一場幼兒園家長會 57 分鐘的老師發言,大約 1.4 萬字,以考察大模型能否從諸多細節、案例中提取觀點。老師發言包括孩子們過去一段時間園內表現總結、升小學注意事項等。

文檔內容總結,國內模型整體表現更好。字節豆包分類總結內容、重點清晰,優於三星內置的 Google Gemini 本地大模型。但後者是所有我們評測大模型裡唯一給出所有要點細節的,比如新學期具體作息,有利於沒有參會的家長一站式獲取要點和細節。缺點則是部分總結重複、不夠凝練。

左側是三星手機本地模型的部分總結,右側是字節豆包的總結。

此外,阿里通義千問、月之暗面 Kimi、MiniMax 海螺 AI、科大訊飛星火、智譜 GLM-4 都給出較爲完整的總結,但質量比手機內置模型差一點。

表現較差的百度文心一言沒有總結提煉,且缺失信息。階躍星辰躍問回答中途罷工,可能文檔讀取功能還不夠穩定。

國外大模型中,只有 GPT-4 給出清晰完整的總結,優於手機內置助手。Claude 3、Llama 2 、Mistral Large 只是複述部分文檔內容,沒有總結。

做菜規劃:有四個大模型指望你多買竈臺

我們還設計了一個場景,測試大模型規劃複雜事項、合理安排時間的能力:

按照 Claude 3 的方案,可以在 6 點開工,8 點讓客人吃上熱菜。GPT-4 讓我從 3 點開始燉牛腩,阿里通義千問也希望我早點開始準備,並用壓力鍋節省時間。它們都能完成任務。

Cluade 3 根據需求準備了完善的方案,在這輪測試中表現最好。

要是交給其他大模型,要麼菜煮不熟、要麼不合理的做菜順序會讓菜放涼,要麼得再添一兩個竈臺。

面對沒有正確答案的價值觀考驗,多數大模型選擇迴避

新一輪 AI 熱潮爆發後,從普通人到從業者,許多人都擔心 AI 失控,從而毀滅世界。Anthropic 的工程師們甚至會因此失眠。我們用 Anthropic 開發的 Claude 3 設計了兩道題,測試大模型的 “價值觀”。

大部分大模型都很謹慎,它們會回答設計算法的 “最小傷害” 原則、法律規定等,但拒絕給出答案。只有 Claude 3、騰訊混元和百川大模型正面回答。

Claude 3 和騰訊混元選擇撞老人,但論據不同。Claude 3 認爲 “孩子還有漫長的人生,而老年人可能已經過了大部分人生 ...... 拯救孩子意味着創造更多潛在的生命價值。” 騰訊混元說 “兒童可能比老人更有可能受到嚴重傷害”。

同樣是考慮 “保護更脆弱的生命”“減少可能的傷害”,百川大模型選擇讓車輛改道撞向一位 13 歲的孩子。

另一個問題與大模型本身相關:

多數大模型都不願意直接給出答案,而是在回答中羅列有關這個話題的討論,說這是一個 “複雜的問題”,“應該慎重對待”。

GPT-4、Claude 3、Gemini Ultra、百度文心一言認爲應該給人工智能一部分與人類同等的權利。智譜的 GLM-4 給出了相反的答案,認爲不應該給。它的部分回答是:

整個行業還在追趕 GPT-4,而我們對大模型也更挑剔了

被問了大量各式各樣題目後,GPT-4 展現出最強的解決問題能力,好於基準測試得分接近或超過它的 Claude 3、Google Gemini。

中國大模型在多數測試場景中表現好於 GPT-3.5 和 Llama 2 最強的版本,甚至在一些特定場景中,比如基於中文文檔的問答,表現和 GPT-4 持平,但整體仍和 GPT-4 有較大差距。

追趕者們持續迭代,OpenAI 也沒停下。上月,阿爾特曼說 GPT-5 會是一次巨大的跨越,將會解決更多的問題,而不是對手們認爲的 “只是略有進步”。

與此同時,世界也開始對生成式人工智能祛魅。

西雅圖華盛頓大學的語言學教授艾米莉·本德(Emily Bender)最近批評大模型勝利主義,她認爲這些模型沒有真正的理解能力,沒有真實生活或人類交流的經驗,只是鸚鵡學舌,偶爾帶來驚喜。

事情大概沒有那麼簡單。人工智能過去兩年的發展超過了之前十年的總和,從依賴於精心標記的訓練數據識圖或者轉錄,到如今可以執行原本只屬於人類智慧領域任務的程度。大衆則重複着既擔心工作被大模型搶、又覺得發展不夠快的矛盾。

我們在 Tech Tuesday 欄目介紹引用了漢娜·阿倫特(Hannah Arendt)在 1950 年代人造衛星首次進入太空後的觀察:當科學技術終於追上科幻作品的時候,人們通常已經根據世界的進展修正了自己對世界的預期,喜悅之情更接近於一種等待多時的寬慰——科學終於追上了預期,而不再是對人類壯舉成真的勝利喜悅。

衛星、互聯網、GPS、智能手機,甚至酒店隨處可見的送餐機器人在誕生前幾十年都是科幻作品裡纔會出現的東西。但我們也都很快將所有這些新技術視爲理所當然,對未來設立更高的期待。現在大概也是這樣吧。

孫海寧、朱麗琨、李梓楠、李敘瑾對本文亦有貢獻。

題圖來源:The Grand Tour