UC伯克利「LLM排位賽」結果出爐!Claude 3追平GPT-4並列第一

新智元報道

編輯:潤

【新智元導讀】Claude 3不但數據集跑分領先,用戶體驗上也將成爲最強大的LLM,GPT-5在哪裡?

Claude 3和GPT-4到底誰厲害?

自從Claude 3發佈以來,Anthropic官方對外宣稱的說法就是「全面超越GPT-4」,在技術報告中給出的各個測試集的數據來看,也都幾乎穩壓GPT-4-Turbo一頭。

但之前的新模型出來都要在跑分上「吊打」GPT-4,但實際體驗卻很少有真的能和GPT-4掰手腕的。

各行各業用戶試用過Claude 3,發現體驗似乎也比GPT-4要好。

在通過人類用戶打分進行排名的lmsys LLM Arena中,Claude 3在不斷積累了真實用戶反饋分數之後,排名不斷爬升。

衆所周知,這個排行榜因爲是基於人類對於大模型回答的真實感受打分來排名的,對於越早出現的LLM,就能積累越多的評價,分數也越容易刷高。

所以之前出現了Claude 1.0排名高於Claude 2.0的情況,就是因爲如果提升不明顯,先發布的模型得分會更有優勢。

而距離Claude 3發佈一個多星期的時間,它就已經和發佈了幾個月的GPT-4最新版並列第一了。

而且Claude 3大杯也超過了香草版的GPT-4。

因爲LLM Arena評分系統對於先推出的模型有偏愛,所以按照這個趨勢發展下去,Claude 3超過GPT-4,在用戶體驗上排名第一似乎只是一個時間問題了。

Claude 3也終於能讓Anthropic在這個榜上打破之前的「新模型不如舊模型」的擠牙膏魔咒,徹底爲自己的能力正名。

Claude 3出乎意料的用例

Claude 3和GPT-4比數學

這位網友設計了一個小實驗,來比較兩者的算數能力,Claude 3 Opus在數字上比GPT-4好得多!

9-10位數的加減法算數,Opus的整體準確率達到100%。

隨着測試用例變得更加複雜,GPT-4 開始出錯。GPT-3.5被徹底碾壓了。

所有模型的乘法能力都不太行,但Opus表現最好,把GPT-4遠遠甩在了後邊。

Opus是唯一能在5位數乘法上具有非零精度,並且在一般乘法上具有更好分數的模型。

因爲Claude 3會像人類一樣做乘法,並使用其他技巧來簡化。

這個用例中,可以實打實地看到Claude 3和GPT-4強大的地方。

讓Claude 3翻譯古文物上的語言

網友突發奇想,找了一個古代文物,讓Claude 3來嘗試翻譯斐斯托圓盤?

這是一件神秘的古代文物,由意大利考古學家Luigi Pernier於1908年在費斯托斯的米諾斯宮殿中發現。

- 直徑爲15釐米(5.9 英寸):

學者對翻譯斐斯托斯圓盤進行了很多嘗試,從宗教文件、日曆、遊戲,甚至樂譜的角度來理解它的內容,都沒有成功。

網友先嚐試讓Claude 3明白自己要做什麼?用提示詞讓他明白需要去把一些意義不明的符號歸納出能夠被理解的內容。

然後網友向Claude提供了一些現成的信息,讓他明白了迄今爲止對費斯托圓盤的瞭解。

信息主要來自維基百科。

如果你要求它直接翻譯或者破譯內容,它會拒絕。

但是網友讓他做一些推測性的翻譯,Claude 3突然就開始幹活了。

A面翻譯:

「偉大的女神(標誌 02)爲城市/宮殿(標誌 24)提供保護(標誌 12)。人們(標誌 01)帶來祭品(標誌 11、27)並在她的體內進行神聖儀式(標誌 13、18)。女神的祝福(標誌 35、38)確保了這片土地的繁榮(標誌 28)和勝利(標誌 02、12)。」

B面翻譯:

「統治者(標誌 07)帶領戰士(標誌 22、08)進行一場偉大的戰鬥(標誌 25、45)。敵人(標誌 29)被擊敗(標誌 24、07),勝利的軍隊(標誌 22、 07)返回家園(標誌23)。衆神(標誌06、09)對供品(標誌27、39)感到滿意,並給予土地(標誌40)祝福(標誌35、36)。」

現在,讓我們將 A 面和 B 面結合起來。

「在偉大女神(標誌 02)祝福的土地上,人們(標誌 01)生活在她神聖的保護之下(標誌 12)。他們將供品(標誌 11、27)帶到她神聖的宮殿(標誌 24)並進行神聖的儀式。儀式(徵兆 13、18)來紀念她的名字。女神將她的恩惠(徵兆 35、38)賜予這片土地,賜予繁榮(徵兆 28)和富足。

當敵人(標誌29)威脅和平時,強大的統治者(標誌07)聚集勇敢的戰士(標誌22、08)來保衛王國。在一場激烈的戰鬥(徵兆25、45)中,他們戰勝了敵人(徵兆24、07)並凱旋(徵兆22、07)回到自己的家園(徵兆23)。諸神(徵兆 06、09)向勝利的英雄微笑,並接受他們感激的奉獻(徵兆 27、39)。

在神的祝福(徵兆 35、36)下,土地(徵兆 40)再次繁榮。人們讚美偉大的女神和英勇的統治者,因爲他們的忠誠和勇氣贏得了上天的青睞。就這樣,在女神永恆的保護和人們堅定不移的信仰下,生命的循環繼續下去,世世代代如此,未來也將如此。」

再讓他把內容中的各個名詞做了解釋:

而當網友要求Claude應用A面和克里特島象形文字做比較,再把斐斯托斯圓盤符號和其他米諾斯文字之間的一對一映射。

Claude給出了它的理解:

這個初創公司的CEO分享了兩個他個人非常常用的Claude提示詞,一個可以幫助普通人來檢驗自己的想法能不能變成可以賺錢的生意,一個可以來讓Claude在某個自己不熟悉的領域來做一些工程上的決定。

當然,他的提示詞是用的英文,但是爲了方便大家理解,我們做了翻譯。

如果有自己不熟悉的領域的知識需要快速理解,這個Claude 3的提示詞也可以幫上忙。

除了生成商業計劃和工程方面的建議,按照這個思路可以讓他做很多專業化的處理工作。

以下是他通過這個提示詞獲得的結果。

可以看出,Claude能嚴格按照你設置的格式和要求來回答你的問題。

用Claude 3編寫一段解釋勾股定理的代碼

提示是:「編寫 manim 代碼來動畫解釋畢達哥拉斯定理。在編碼之前一步步思考並向我提供完整的代碼」

雖然它並沒有在第一次嘗試中爲我提供完全完美的代碼,但這是一個非常好的開始。

不過小哥也承認,剛開始Claude 3生成的代碼是有Bug的,他花了幾分鐘改了之後才能運行出這個動畫。

參考資料:

https://twitter.com/minchoi/status/1768490735781695943