摩爾線程張建中:在AI戰場,萬卡已成最低標配

“在AI主戰場,萬卡是最低標配。”

隨着Scaling Law(規模越大,性能越好) 成爲行業共識法則,國內百模大戰仍在衝擊更大的目標,摩爾線程CEO張建中作出了上述判斷。

而參數量和數據量的不斷增加,意味着對算力的需求也在增加。在此趨勢下,國產廠商都在加緊建設更大規模的AI智能算力數據中心。去年發佈並落地多個千卡(顯卡,即GPU)智算中心集羣后,GPU廠商摩爾線程近期又推出了首個萬卡集羣方案。

當前訓練AI大模型離不開GPU,各公司擁有GPU的數量已經成爲衡量算力規模的基本依據。相比OpenAI、谷歌、Meta等國際巨頭成批採購幾十萬張英偉達顯卡搭建數據中心集羣,國內公司大多數還只能採購幾千張,只有字節等少數頭部廠商擁有上萬張卡規模的算力集羣。

卡的數量直接決定了訓練一個大模型所用的時間。張建中提到,去年國內“百模大戰”開打後,幾乎每個月都有新的模型發佈。而現在,一家AI大模型公司訓練迭代一次大模型的時間已經縮短爲兩週,超過兩週就跟不上同行的速度。

去年英偉達的H100以及後續的高端GPU對華出口遭禁後,國內一度出現嚴重的算力緊缺。張建中告訴界面新聞記者,從國際巨頭計劃採購英偉達顯卡的訂單變化來看,今年市場對算力的需求有增無減,萬卡,甚至超萬卡集羣,是這一輪大模型競賽的入場券。公司的目標是在國內市場“佔位”,努力保證訓練大模型時“有卡可用”。

今年也是行業廣泛熱議的大模型應用落地之年。除傳統的ChatGPT聊天機器人外,像上半年爆火的Sora、國內對標Sora的快手“可靈”,以及更多的AI手機、智能駕駛端側模型等,都在尋找落地場景。這背後都需要更多的算力支持。

在張建中看來,當下“Scaling Law”法則在AI大模型行業依然奏效,即爲了追求更好的性能,規模做大的同時,算力需求也越來越大。

公開信息顯示,2020年左右,OpenAI使用約1萬塊英偉達GPU來訓練GPT-3.5模型,當時的模型參數量只有1750億。到了2023年,OpenAI推出1.8萬億參數的GPT-4時,市場調研機構 SemiAnalysis估測其已經擁有近3萬塊英偉達GPU。

雖然GPT-5遲遲未面世,規模還是一個秘密,但外媒曝光了OpenAI與微軟正在合作的“星際之門”計劃。這是一個包含百萬張GPU的超級數據中心,計劃在2028年建成。

國內的AI算力市場也從去年開始不斷擴容,全國各地掀起了智算中心“基建潮”。北京、上海、深圳、安徽、江蘇五地,目前已公佈未來幾年內智能算力中心建設的具體方案,青島、貴州、南昌等超過30個地方城市正漸次加入。

據行業自媒體“中國IDC圈”不完全統計,到2024年5月下旬,我國共建設有智算中心283座,其中已投產運營的達到89座,超過一半處於開工或在建狀態。

界面新聞此前從多位行業人士處瞭解到,各地建設智算中心正處於“跑馬圈地”的階段。一方面,國內需要建設更多智算中心,將“盤子”做大,從而保證算力供應;另一方面,由於英偉達顯卡遭禁,國產AI芯片的單卡性能與之相比存在較大差距,國產廠商普遍選擇走集羣化、規模化路線,將多個小型單點算力節點通過高速網絡互連技術建成一整個超大規模的算力集羣。也因此,落地的智算中心越建越大。

一家頭部國產服務器廠商在一場活動上提到,去年國內建智算中心都以萬卡爲目標,今年整體需求水漲船高,開始以5萬卡作爲新的目標。眼下能夠滿足AI公司訓練模型的GPU是市場上的硬通貨,基本上是“誰有GPU,誰能建智算中心”。

但在張建中看來,智算中心從千卡到萬卡,不只是簡單的“堆卡”。規模變大的同時,難度也呈指數級倍增——既要實現智算中心擴容,也要兼顧質量。這對廠商而言是一項極其複雜的系統工程。

算力利用率與穩定性是行業衡量智算中心質量的兩項重要指標。目前,摩爾線程的千卡智算中心的算力利用率已達到50%,未來推動萬卡集羣智算中心落地時,目標是達到60%的算力利用率,同時保證99%以上的穩定性。這與國際巨頭已十分接近,但要達到領先仍存在較大挑戰。