☰

在「最難LLM評測榜單」上，階躍萬億參數模型拿下中國第一

機器之心報道

編輯：澤南、蛋醬

剛剛，國內 AI 領域傳來一則重要消息。

頭部大模型創業公司階躍星辰，憑藉萬億參數大語言模型 Step-2，在業內權威大模型基準 LiveBench AI 上獲得了第五名的好成績，成爲了前十名之內唯一的國產大模型。

排在階躍星辰 Step-2 身前的，只剩下 OpenAI 和 Anthropic 兩家公司。

榜單地址：https://livebench.ai/#

LiveBench 是當前生成式 AI 領域最權威、客觀的模型能力評測榜單之一。它是由圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 聯合 Abacus.AI、紐約大學等機構推出的，今年六月才首次上線。

它旨在消除現有 LLM 基準的侷限性，被稱作是「世界上第一個無法被操縱的大語言模型基準測試」。

LiveBench 提出了一種創新的基準測試方法，其中包含 6 大類 18 項任務。

爲了避免大模型「作弊」，LiveBench 每月發佈新問題，並根據最近發佈的數據集、arXiv 論文、新聞文章和 IMDb 電影簡介設計問題，以限制潛在的數據污染。每個問題都有可驗證的、客觀的基本真實答案，這樣就可以在不使用 LLM 評審員的情況下，對難題進行準確的自動評分。

通過定期更新的問題集和客觀的自動化評分方法，LiveBench 提供了一個公平、準確的評估平臺，還同時推動了 LLM 的持續改進和社區參與。

此次殺入榜單前十的 step-2-16k-202411 模型的「Global Average」得分位列第五，已經非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。

值得注意的是，在這次提交的成績中，Step-2 的指令跟隨（IF Average）得分全榜排名第一，展示了對語言生成細節的強大控制力。具體來說，該任務是對《衛報》最近的新文章進行轉述、簡化、概括或編寫故事，但須遵守一項或多項指令，例如字數限制或在答辯中納入特定元素。

不斷進化的 Step-2 萬億參數大模型

自從最初的預覽版發佈以來，Step-2 一直在經歷快速的技術迭代，迅速縮短與國際最頂級大模型的差距。

今年 3 月，階躍星辰發佈了 Step-2 語言大模型預覽版，這是國內首個由創業公司發佈的萬億參數模型。WAIC 2024 期間，階躍星辰發佈了 Step-2 萬億參數語言大模型正式版，在數理邏輯、編程、中文知識、英文知識、指令跟隨等方面的體感都非常接近全球頂尖模型。

細看下來，Step-2 萬億參數語言大模型有兩大亮點：採用 MoE 架構，萬億參數。

訓練 MoE 模型主要有兩種方式：基於已有模型通過 upcycle（向上複用）開始訓練，或者從頭開始訓練。upcycle 方式對算力的需求低、訓練效率高，但上限低（比如基於拷貝複製得到的 MoE 模型容易造成專家同質化嚴重）。如果選擇從頭開始訓練 MoE 模型，雖然訓練難度高，但能獲得更高的模型上限。

階躍星辰團隊在設計 Step-2 MoE 架構時選擇完全自主研發從頭開始訓練，通過部分專家共享參數、異構化專家設計等創新 MoE 架構設計，讓 Step-2 中的每個「專家模型」都得到充分訓練，不僅總參數量達到了萬億級別，每次訓練或推理所激活的參數量也超過了市面上的大部分 Dense 模型。

此外，從頭訓練這樣一個萬億參數模型對於系統團隊是很大的考驗。在 Step-2 訓練過程中，階躍星辰系統團隊突破了 6D 並行、極致顯存管理、完全自動化運維等關鍵技術，成功完成了 Step-2 的每一次升級。

基於 Scaling Law，在模型參數達到萬億規模之後，數學、編程等涉及推理的能力都會顯著提升。這也最終推動了 Step-2 今天能夠取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成績。

不斷進化的 Step-2 萬億參數語言大模型，已經接入了階躍星辰 C 端智能助手「躍問」，在躍問 App 和躍問網頁端（https://yuewen.cn）都可以使用。

階躍星辰的大模型矩陣打造之路

相比國內大模型領域的幾家知名公司，階躍星辰可謂是後來者。它由微軟前全球副總裁姜大昕創辦，於去年 4 月成立，今年 3 月纔開始嶄露頭角。

階躍星辰創始人、CEO 姜大昕，曾任職微軟全球副總裁、微軟亞洲互聯網工程院首席科學家。

但這家公司卻在短短几個月時間站穩了國內 AI 創業公司的第一梯隊，並在一年內快速發佈了包括萬億 MoE 語言大模型 Step-2、多模態理解大模型 Step-1.5V、圖像生成模型 Step-1X 在內的 Step 系列模型 “全家桶”。

從 AGI 技術路線上看，階躍星辰的選擇是：單模態 - 多模態 - 統一多模態理解和生成 - 世界模型 - 通用人工智能（AGI）。

在快速迭代模型的同時，這家公司也將模型接入了兩款 C 端產品智能生活助手躍問和 AI 開放世界冒泡鴨。目前，階躍星辰已經完成了自身的大模型 + 產品矩陣，呈現出強勢崛起的姿態。

在「最難LLM評測榜單」上，階躍萬億參數模型拿下中國第一

相關資訊