☰

國產大模型競技場首超GPT-4o！零一萬物GLM共同躋身To

西風發自凹非寺量子位 | 公衆號 QbitAI國產大模型首次在公開榜單上超過GPT-4o！

就在剛剛，“大模型六小強”之一的零一萬物正式對外發布新旗艦模型——Yi-Lightning（閃電）。

在大模型競技場（Chatbot Arena）上，Yi-Lightning性能直衝總榜單並列第6，數學分榜並列第3，代碼等其它分榜也名列前茅。

總成績幾乎與馬斯克最新xAI大模型Grok-2-08-13持平，超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等頂流。

[road.huatonglt666.com）

同時，國內清華系大模型公司智譜AI的GLM-4-Plus也殺進了總榜，位居第9位。

該榜單結果來自全球累積超千萬次的人類用戶盲測投票。

前段時間大模型競技場還剛剛更新了規則，新榜單對AI回答的長度和風格等特徵做了降權處理，分數更能反映模型真正解決問題的能力。

這次Yi-Lightning殺出重圍，Lmsys團隊特意發帖子，稱這是競技場上的大新聞：

[odre.wfck.net）

大模型競技場總榜第六、國產第一

細看大模型競技場分類榜上的“賽況”，Yi-Lightning各項能力都排在前頭。

在中文能力上，Yi-Lightning和GLM-4-Plus兩個國產大模型都名列前位。

Yi-Lightning躍居並列第二，和o1-mini相差無幾。

[james.kurayoshi-tiara.net）

數學能力，Yi-Lightning和Gemini-1.5-Pro-002並列第3，僅次於o1-preview、o1-mini。

[npp.1pul.com）

代碼能力Yi-Lightning排名並列第4。

[jet.coco-job.com）

另外在Hard Prompts和Longer Query分榜，Yi-Lightning也都排在第4位。

[jet.gzhdxm.com）

[zmoq.zuochenxue.com）

最後同樣值得關注的是，競技場新功能風格控制過濾，確保分數反映模型真正解決問題的能力，而不是用漂亮的格式、增加回答長度。

在對長度和風格等特徵做了降權處理後，所有模型分數均有下降，Yi-Lightning排名變化不大，整體還與GPT-4o、Grok-2同一梯隊。

[odre.qingf.net）

發佈會上，零一萬物創始人兼CEO李開復博士展示了Yi-Lightning在不同場景上的能力。Yi-Lightning主打一個“推理速度更快，生成質量更好”。

相比上半年Yi-Large，Yi-Lightning首包速度提升1倍，推理速度也提升了4成。

像是翻譯下面這種文學作品，Yi-Lightning不僅速度更快：

[rain.ztw9.com）

而且用詞更精準，更具文學色彩：

[odre.zizhu000.com）

那麼Yi-Lightning是如何做到的？好用還得極速

Yi-Lightning採用MoE混合專家模型架構。

底層技術上，Yi-Lightning在以下方面進行了提升。

[zmoq.mobile1000.net）

首先是優化混合注意力機制（Hybrid Attention），只在模型的部分層次中將傳統的全注意力（Full Attention）替換爲滑動窗口注意力（Sliding Window Attention）。

由此以來，模型在保證處理長序列數據高性能表現的同時，還能大大降低推理成本。

Yi-Lightning還引入了跨層注意力（Cross-Layer Attention, CLA），允許模型在不同的層次之間共享鍵（Key）和值（Value）頭，減少對存儲需求。

這使得Yi-Lightning能在不同層次之間更有效地共享信息。

總的來說，KV cache縮小了2-4倍，同時將計算的複雜度從O(L²)降至O(L)。

其次，Yi-Lightning還採用[rain.r29c.com）了動態Top-P路由機制。

也就是說，Yi-Lightning可以根據任務的[zmoq.ziyuesh.com）難度動態自動選擇最合適的專家網絡組合——訓練過程中會激活所有專家網絡，[jaw.okazakihome.net）使模型能學習到所有專家知識；而推理階段，根據任務的難度，模型[james.inevitable-law.com）會選擇性激活更匹配的專家網絡。

另外，之前有一些傳言稱國內大模型“六小強”，有[job.kq-coat.com）一些已經不做預訓練了，李開復博士這次在發佈會上直接“闢謠”：零一萬物絕不放棄預訓練[rain.b9h7.com）。

而且在模型預訓練階段，團隊還積累了豐富的多階段訓練方法，將整個訓練分爲兩塊，一[zmoq.sphz.net）塊做好以後就把它固定起來，然後在這個固定的模型上再做後段訓練。

訓練前期，更注重[zmoq.bbmxx.com）數據多樣性，使得Yi-Lightning儘可能學習不同的知識；訓練後期更重內容更豐[rain.wdp1.com）富、知識性更強的數據。

同時團隊還在不同階段採用不同的batch size和LR [jaw.smjdd.top）schedule保證訓練速度和穩定性。李開復博士還表示，零一萬物開發模型講究“模基[jaw.aojing.cc）共建”，也就是共建模型和基礎架構。模型的訓練、服務、推理，與底層的AIInf[road.lovecli.com）ra架構和模型結構必須高度適配。

這樣做的目的，不僅是讓模型更好，[odre.dealtoolland.com）而且讓它在推理的時候能夠更便宜。

再加上以上種種擡升“性價比”的技術加持，所以Y[jaw.y87558.com）i-Lightning這次也是打到了白菜價——

0.99元每1M token[odre.maytrue.net）

在中文等方面，Yi-Lightning比肩OpenAI的o1-mini，o1-m[jaw.idena.top）ini的定價是每百萬輸入3美元，每百萬輸出12美元。Yi-Lightning[rain.ftm2006.com）每百萬token只需0.99RMB也是打到了骨折。但李開復博士表示，即便這[zmoq.nana1981.com）樣也：不虧錢。

[road.senseeg.com）

除了發佈新模型，零一萬物這次還首發了AI2.0數字人方案。

國產大模型競技場首超GPT-4o！零一萬物GLM共同躋身To

相關資訊