在「最難LLM評測榜單」上,階躍萬億參數模型拿下中國第一

機器之心報道

編輯:澤南、蛋醬

剛剛,國內 AI 領域傳來一則重要消息。

頭部大模型創業公司階躍星辰,憑藉萬億參數大語言模型 Step-2,在業內權威大模型基準 LiveBench AI 上獲得了第五名的好成績,成爲了前十名之內唯一的國產大模型。

排在階躍星辰 Step-2 身前的,只剩下 OpenAI 和 Anthropic 兩家公司。

榜單地址:https://livebench.ai/#

LiveBench 是當前生成式 AI 領域最權威、客觀的模型能力評測榜單之一。它是由圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 聯合 Abacus.AI、紐約大學等機構推出的,今年六月才首次上線。

它旨在消除現有 LLM 基準的侷限性,被稱作是「世界上第一個無法被操縱的大語言模型基準測試」。

LiveBench 提出了一種創新的基準測試方法,其中包含 6 大類 18 項任務。

爲了避免大模型「作弊」,LiveBench 每月發佈新問題,並根據最近發佈的數據集、arXiv 論文、新聞文章和 IMDb 電影簡介設計問題,以限制潛在的數據污染。每個問題都有可驗證的、客觀的基本真實答案,這樣就可以在不使用 LLM 評審員的情況下,對難題進行準確的自動評分。

通過定期更新的問題集和客觀的自動化評分方法,LiveBench 提供了一個公平、準確的評估平臺,還同時推動了 LLM 的持續改進和社區參與。

此次殺入榜單前十的 step-2-16k-202411 模型的「Global Average」得分位列第五,已經非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。

值得注意的是,在這次提交的成績中,Step-2 的指令跟隨(IF Average)得分全榜排名第一,展示了對語言生成細節的強大控制力。具體來說,該任務是對《衛報》最近的新文章進行轉述、簡化、概括或編寫故事,但須遵守一項或多項指令,例如字數限制或在答辯中納入特定元素。

不斷進化的 Step-2 萬億參數大模型

自從最初的預覽版發佈以來,Step-2 一直在經歷快速的技術迭代,迅速縮短與國際最頂級大模型的差距。

今年 3 月,階躍星辰發佈了 Step-2 語言大模型預覽版,這是國內首個由創業公司發佈的萬億參數模型。WAIC 2024 期間,階躍星辰發佈了 Step-2 萬億參數語言大模型正式版,在數理邏輯、編程、中文知識、英文知識、指令跟隨等方面的體感都非常接近全球頂尖模型。

細看下來,Step-2 萬億參數語言大模型有兩大亮點:採用 MoE 架構,萬億參數。

訓練 MoE 模型主要有兩種方式:基於已有模型通過 upcycle(向上複用)開始訓練,或者從頭開始訓練。upcycle 方式對算力的需求低、訓練效率高,但上限低(比如基於拷貝複製得到的 MoE 模型容易造成專家同質化嚴重)。如果選擇從頭開始訓練 MoE 模型,雖然訓練難度高,但能獲得更高的模型上限。

階躍星辰團隊在設計 Step-2 MoE 架構時選擇完全自主研發從頭開始訓練,通過部分專家共享參數、異構化專家設計等創新 MoE 架構設計,讓 Step-2 中的每個「專家模型」都得到充分訓練,不僅總參數量達到了萬億級別,每次訓練或推理所激活的參數量也超過了市面上的大部分 Dense 模型。

此外,從頭訓練這樣一個萬億參數模型對於系統團隊是很大的考驗。在 Step-2 訓練過程中,階躍星辰系統團隊突破了 6D 並行、極致顯存管理、完全自動化運維等關鍵技術,成功完成了 Step-2 的每一次升級。

基於 Scaling Law,在模型參數達到萬億規模之後,數學、編程等涉及推理的能力都會顯著提升。這也最終推動了 Step-2 今天能夠取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成績。

不斷進化的 Step-2 萬億參數語言大模型,已經接入了階躍星辰 C 端智能助手「躍問」,在躍問 App 和躍問網頁端(https://yuewen.cn)都可以使用。

階躍星辰的大模型矩陣打造之路

相比國內大模型領域的幾家知名公司,階躍星辰可謂是後來者。它由微軟前全球副總裁姜大昕創辦,於去年 4 月成立,今年 3 月纔開始嶄露頭角。

階躍星辰創始人、CEO 姜大昕,曾任職微軟全球副總裁、微軟亞洲互聯網工程院首席科學家。

但這家公司卻在短短几個月時間站穩了國內 AI 創業公司的第一梯隊,並在一年內快速發佈了包括萬億 MoE 語言大模型 Step-2、多模態理解大模型 Step-1.5V、圖像生成模型 Step-1X 在內的 Step 系列模型 “全家桶”。

從 AGI 技術路線上看,階躍星辰的選擇是:單模態 - 多模態 - 統一多模態理解和生成 - 世界模型 - 通用人工智能(AGI)。

在快速迭代模型的同時,這家公司也將模型接入了兩款 C 端產品智能生活助手躍問和 AI 開放世界冒泡鴨。目前,階躍星辰已經完成了自身的大模型 + 產品矩陣,呈現出強勢崛起的姿態。