元象開源650億參數高性能大模型,無條件免費商用
11月6日消息,元象XVERSE公司宣佈,開源650億參數高性能通用大模型XVERSE-65B,無條件免費商用。
元象XVERSE創始人姚星表示:“面對研發時間緊、算力持續短缺等挑戰,團隊依靠豐富經驗,三個月內研發出多款高性能7B、13B模型,並最早爲社區獻上一個‘大有可爲’的65B模型,爲研究、商業及生態創造三重價值。”
據介紹,XVERSE-65B底座模型在2.6萬億Tokens的高質量數據上從頭訓練,上下文窗口擴展至16K,支持中、英、俄、法等40多種語言。
元象堅持“高性能”定位,提升了65B三方面能力: 一、理解、生成、推理和記憶等基礎能力,到模型的多樣性、創造性和精度表現,從優異到強大;二、擴展了工具調用、代碼解釋、反思修正等能力,爲構建智能體(AI Agent)奠定技術基礎,提高模型實用性;三、顯著緩解7B、13B中常見且可能很嚴重的幻覺問題,減少大模型“胡說八道”,提高準確性和專業度。
據悉,元象大模型系列均爲全鏈條自研,涵蓋多項關鍵技術與研發創新:
複雜分佈式系統設計:借鑑團隊研發騰訊圍棋AI“絕藝”、王者榮耀AI“絕悟”等大系統上的豐富經驗,自研高效算子、顯存優化、並行調度策略、數據-計算-通信重疊、平臺與框架協同等關鍵技術,打造高效穩定的訓練系統, 千卡集羣峰值算力利用率達58.5%。
全面提升性能:65B訓練中採用FlashAttention2加速計算, 3D並行基礎上採用虛擬流水線(virtual pipeline)技術,降低較長流水線產生過高氣泡率,提升計算推理效率; 上下文窗口長度從8K逐步提升到16K,使其不僅能出色完成複雜任務,包括長文理解、長文生成和超長對話,還拓展了工具調用、代碼解釋及反思修正能力,能更好構建智能體(AI Agent)。
提升訓練穩定性:因計算量龐大,通信擁塞、芯片過熱或計算節點故障成爲65B訓練常態,初期出現過一週最高八次故障的情況。通過集羣基礎設施運營、資源調度、訓練框架和調度平臺協同等持續優化,元象打造出高穩定、低中斷、強容錯的訓練系統,將每週有效訓練率提升至98.6%。
此外,在接近1.6萬億Tokens的模型訓練中期,損失函數產生了NaN值,可能導致訓練中斷。通常情況下,業界一般會在分析後刪除與之相關的數據區間。而團隊根據經驗判定這是模型自然演化,選擇不刪除數據,直接跳過相關參數更新,最終 NaN值 問題解決。後期對參數值、激活值、梯度值等中間狀態的進一步分析表明,該問題可能 與模型最後一層transformer block激活值的最大值變化有關,並會隨最大值的逐漸降低而自行解決。
爲確保業界能對元象大模型性能有全面、客觀、長期認知,研究人員參考了一系列權威學術測評,制定了涵蓋問答、理解、知識、推理、數學、代碼等六個維度的11項主流權威測評標準,將持續使用並迭代。
XVERSE-65B在與國外標杆對比測評中,部分指標超越、綜合性能媲美GPT3.5;全面超越開源標杆 Llama2-70B和Falcon-180B ;與GPT4仍有差距。
據介紹,元象大模型可在Github、Hugging Face、魔搭ModelScope等多平臺搜索“XVERSE”下載,簡單登記後即可無條件免費商用,能滿足中小企業、科研機構和個人開發者絕大部分的應用與迭代需求。
元象同時提供模型訓練、推理、部署、精調等全方位技術服務,賦能文娛、金融、醫療等各行各業,幫助在智能客服、創意寫作、精準推薦等多場景打造行業領先的用戶體驗。2023年10月, 騰訊音樂宣佈與元象大模型建立戰略合作 ,共同推出lyraXVERSE加速大模型、全面升級其音樂助手“AI小琴”,未來還將持續探索AI與3D前沿技術。(一橙)