OpenAI的勁敵發了一款新模型,Claude 3.5 Sonnet多模態能力超過GPT-4o

在GPT-4o炸場一個月後,OpenAI最大的競爭對手Anthropic放出了一款頗有競爭力的新模型。

北京時間6月21日,Anthropic正式發佈Claude 3.5 Sonnet,這是其Claude系列的最新AI模型。從Anthropic透露的信息來看,在閱讀、編碼、數學和視覺等幾個主要AI基準測試中,新模型能力不僅超過了Claude 3 Sonnet,還超越了Anthropic此前最強版本的旗艦模型Claude 3 Opus。

按照慣例,Anthropic也釋出了一系列與行業競爭對手的測試結果榜單,令人矚目的是,Claude 3.5 Sonnet的大部分成績優於OpenAI、Google、Meta的旗艦模型,其中自然也包括剛推出不久還處於風口的GPT-4o。

細緻來看,Claude 3.5 Sonnet在研究生水平推理 (GPQA)、編碼能力 (HumanEval) 、文本推理(DROP)等方面的成績均好於GPT-4o,但在數學問題解決能力上稍遜於後者。

Claude 3.5 Sonnet強調了自己在創意寫作方面的突出表現,公司表示它能夠更好理解prompt(指令)之間的細微差別以及有更強的幽默能力。

而作爲一款多模態大模型,Claude 3.5 Sonnet與GPT-4o相比,沒有將重點放在實時音頻交互能力上,而是暫時着重突出了圖像處理能力的提升。

Claude 3.5 Sonnet在大多數視覺基準測試中比Claude 3 Opus平均表現高出10%。公司稱,Claude 3.5 Sonnet可以更準確地解釋圖表和圖形,在帶有扭曲和視覺僞像的這類“不完美”圖像中,它也能順利完成文本轉錄任務。

據TechCrunch報道,Anthropic的產品主管Michael Gerstenhaber表示,這些技術改進的來源是架構調整和新訓練數據(包括人工智能生成的數據),但他並未透露具體數據內容。

性能提高、成本降低的規律也體現在這款最新模型上。根據公司分享的信息,Claude 3.5 Sonnet比Opus速度更快(以聊天機器人爲例其速度大約是Opus的兩倍),但價格僅爲後者的五分之一。

在定價上,該模型的輸入價格爲3美元/百萬Tokens,輸出價格爲15美元/百萬Tokens,上下文窗口長度達200K Tokens。

除了大模型產品,Anthropic此次還推出了一款應用產品Artifacts預覽版。這是一個可供用戶添加和編輯其模型生成內容的工作空間,例如用其生成的代碼、文檔、圖像、網站設計等內容創建作品。

這款產品會在Claude的web客戶端設置一個專用窗口,產品形態類似於將大模型接入工作流。Anthropic表示,Artifacts後續還可能會與其他團隊合作以接入新功能。

此外,Anthropic透露,公司將在今年晚些時候陸續更新其餘兩款大模型Claude 3.5 Haiku和Claude 3.5 Opus。

作爲Anthropic背後的科技巨頭,亞馬遜雲科技也隨即宣佈,Claude 3.5 Sonnet已正式接入其Amazon Bedrock。