聚焦WAIC丨AI大模型時代 算力集羣賽跑
21世紀經濟報道記者倪雨晴 上海報道
AI大潮下,今年的世界人工智能大會格外受到關注。大模型、人形機器人羣雄並起的同時,算力產業也在迭代升級。
會上,昇騰、摩爾線程、壁仞科技、燧原、天數智芯、浪潮、新華三等算力廠商悉數到場。從各家展臺看,相比於單體硬件,目前廠商更聚焦集羣的一體化方案和實際運營效率。
整體而言,國產算力正在崛起。摩爾線程創始人兼CEO張建中接受21世紀經濟報道記者採訪時談道:“幾年前對於客戶來說,國產只是備份,現在很多國產已經成爲首選了,因爲要保證長期供應、本地服務。”
近日,摩爾線程宣佈其AI旗艦產品誇娥(KUAE)智算集羣解決方案實現升級,從當前的千卡級別大幅擴展至萬卡規模。當然,摩爾線程作爲GPU初創公司,也直面英偉達等巨頭的競爭。
談及競爭的挑戰,張建中表示:“難點主要是在市場的推廣、用戶的生態適配和生態發展,肯定需要一個過程。”而能不能建好生態,需要上下游生態產業鏈一起合力發展,包括算力的供應商、建設方、軟件服務等等。
萬卡標配
張建中認爲,當前正處在生成式人工智能的黃金時代,GPU成爲加速新技術浪潮來臨的創新引擎。
自大模型問世出圈以來,GPU的需求量就進一步加大。比如,OpenAI的ChatGPT-4共有1.8萬億參數,一次訓練需要在大約25000個A100上訓練90到100天。
當前,基礎大模型的混戰還在繼續,各家繼續訂購算力資源。同時從趨勢看,大模型對算力提出更高要求。比如Scaling Law將持續奏效,需要單點規模夠大且通用的算力才能快速跟上技術演進;Transformer架構之外,Mamba、RWKV和RetNet等新興架構,同樣需要更高性能計算資源。
因此,在摩爾線程看來,AI模型訓練的主戰場,萬卡已是標配。隨着計算量不斷攀升,大模型訓練亟需超級工廠,即一個“大且通用”的加速計算平臺,以縮短訓練時間,實現模型能力的快速迭代。
而科技巨頭都在通過積極部署千卡乃至超萬卡規模的計算集羣,以確保大模型產品的競爭力。隨着模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡集羣成爲這一輪大模型競賽的入場券。
然而,構建萬卡集羣並非一萬張GPU卡的簡單堆疊,而是一項高度複雜的超級系統工程。它涉及超大規模的組網互聯、高效率的集羣計算、長期穩定性和高可用性等諸多技術難題。
據介紹,摩爾線程誇娥(KUAE)萬卡智算集羣,以全功能GPU爲底座,旨在建設能夠承載萬卡規模、具備萬P級浮點運算能力的國產通用加速計算平臺,專爲萬億參數級別的複雜大模型訓練而設計。
張建中表示:“現在誇娥千卡集羣MFU(算力利用率)有50%多,目標是做到60%,做萬卡集羣的時候,會有很多技術手段去提升MFU,包括軟件、硬件很多方面,目標是達到業內較好水平。”
目前,摩爾線程已經聯合中國移動通信集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司分別就三個萬卡集羣項目進行了戰略簽約。
算力競賽
近十年來,全球的算力市場經歷了不小的變化。一方面,雲計算、AI需求驅動下,算力市場規模不斷攀升;另一方面,數據中心的類型也從通用計算,拓展至更注重AI能力的智能計算,或者說加速計算。
IDC中國研究經理索引此前接受21世紀經濟報道採訪時談道,中國的算力市場正在由高速增長進入到高質量增長的階段。過去十幾年,中國全面進入數字化經濟這個新的階段,對算力產生了大量的需求。
尤其是近兩年生成式AI,爲算力產業帶來了新需求。在新的數據中心建設過程中,智算數據中心層出不窮,GPU則是底層的計算核心。
隨着各地智算中心的增長,業內關注兩方面課題,其一是投資回報率,其二是需求是否會過剩。
談及投資和產出,張建中說道:“目前智算中心投資回報率是5年左右,根據市場的租金、使用率以及用戶願意付的價錢,這是正常的(週期),而且資本願意去看5年回報週期。對於我們研發一顆芯片來說,研發費用(成本)相對美國公司來說更低,大概相當於他們的1/10,我們在國內可以得到更好的回報。”
另一方面,對於智算中心的火熱建設,張建中提到了兩個建議,首先是不應盲目建設,“不可能說連市場客戶都沒有就盲目建設,不是所有人都應該去建算力中心,而是應該由專業的人幹專業的事。”
其次建集羣也有風險,“建完之後好不好用、是不是能夠通用、是不是能穩定運行、有沒有能力去運營,都是需要考慮的事情。所以我們給用戶提供建議的時候,希望使用我們的一攬子的解決方案,採用整體解決方案可以避免風險。”張建中談道。
有產業鏈人士向記者指出,去年很多客戶的業務重心都放在AI訓練上,但今年一些頭部互聯網和大模型公司面臨的主要挑戰是落地應用。這也意味着,除了訓練之外,各個行業的推理的需求也將快速增長。
眼下,算力市場正在經歷變革。未來,隨着生成式AI和智能計算的不斷髮展,算力需求將持續增加。從硬件、軟件、集羣、到智算中心,合理規劃和體系化建設也將愈發重要。