被曝搭建GPU萬卡集羣,小米未作迴應 業內:這是新一輪大模型競賽“入場券”,小米自帶利用率
12月26日,據界面新聞等報道,小米正着手搭建自己的GPU萬卡集羣,將對AI大模型大力投入。小米大模型團隊在成立時已有6500張GPU資源。《每日經濟新聞》記者就此事向小米方面求證,截至發稿時未獲迴應。
萬卡集羣是指由一萬張及以上的加速卡(如GPU、TPU或其他專用AI加速芯片)組成的高性能計算系統,用以訓練基礎大模型。建設萬卡集羣是個“百億元”成本的投入,其中單是GPU採購成本就高達幾十億元。
科技大廠正競相投入萬卡集羣的建設。國際上,OpenAI、Meta等科技巨頭,都爭相部署萬卡集羣;在國內,運營商、頭部互聯網大廠、大型AI研發企業等先後入局,一些巨頭甚至已開始邁向“十萬卡集羣”。
如果小米搭建萬卡集羣的消息屬實,獨立電信分析師付亮分析道,小米將大模型視爲 “人車家”戰略的重要支撐,其建設萬卡集羣的方向或與其他企業不同,“別人沒有利用率,小米自帶利用率”。
“萬卡集羣”被視作新一輪大模型競賽“入場券”
搭建萬卡集羣需要耗費巨大的財力。
百度集團執行副總裁、百度智能雲事業羣總裁沈抖今年9月曾介紹,GPU集羣有三個特徵:極致規模、極致“高密”和極致互聯。建一個萬卡集羣,單是GPU的採購成本就高達幾十億元。而建設GPU萬卡集羣需要面臨的風險之一便是故障率,沈抖介紹:“Meta訓練Llama3的時候,用了1.6萬張GPU卡的集羣,平均每3小時就會出一次故障。”
儘管造價高昂,但“萬卡集羣”使得訓練複雜的大模型成爲可能,被業界視作這一輪大模型競賽的“入場券”。
“模型大小和訓練數據量大小成爲決定模型能力的關鍵因素。在同等模型參數和數據集下,集羣訓練時間有望顯著縮短。更大、更先進的集羣能及時對市場趨勢作出反應,快速進行迭代訓練。整體上超萬卡的集羣將有助於壓縮大模型訓練時間,實現模型能力的快速迭代,並及時對市場趨勢作出應對,實現大模型技術上的追趕和領先。”長江證券研報闡釋道。
作爲長於端側的科技公司,小米集團也多次提到將自研大模型與端側融合。
2023年5月,小米集團業績公告顯示,其當年4月正式組建了AI實驗室大模型團隊,AI領域相關人員超1200人,並將不斷挖掘AI相關的用戶場景,發揮自身技術優勢,並以開放的態度與合作伙伴開拓更多機會。
2023年8月,小米集團的公告中顯示,AI是公司長期投入的底層賽道。小米60億參數的自研大模型在同參數量級中排名第一。
2023年11月,小米披露將AI大模型與小米澎湃OS深度融合,爲用戶提供基於端側大模型的各類便利和智能的功能。
根據小米集團財報,今年前三季度,小米集團經調整淨利潤(非國際財務報告準則計量)189.18億元,同比上漲31.7%。在當前經營穩健,盈利能力提升的基礎上,擴大對算力基礎的投入,也成爲可選項。
部分萬卡集羣已經投產、端側擁抱AI已是共識
目前,多家頭部企業正競相投入萬卡集羣的建設。
運營商是我國算力基礎設施建設的中堅力量。中國移動呼和浩特、哈爾濱兩大萬卡級別智算中心已先後投產運行。中國電信上海、北京兩個萬卡集羣已經投產。
在國內,百度等公司已在討論如何構建十萬卡集羣。今年9月,沈抖就在百度智雲大會上說道:“很快就會有更多的10萬卡集羣出現。”
海外頭部AI大廠的步調更爲激進,據報道。OpenAI正在設計能夠將1000萬塊GPU連在一起的計算模型,Meta到今年年底將擁有35萬張H100。
國內的端側大廠,鮮少大舉投入建設萬卡集羣,但端側擁抱AI已是共識。就在不久前,理想汽車創始人李想接受採訪時還提出,理想汽車不再僅僅是一家汽車製造企業,而是一家AI企業。
端側AI在今年以來呈現爆發式創新的趨勢。
以手機爲例,AI的能力在未來的競爭中舉足輕重。今年10月,在被問及如何看待AI時代的智能手機競爭時,vivo副總裁、AI全球研究院院長周圍表示,AI會提供給傳統的手機廠商更多自主研發的空間,這意味着更多個性化機會正在出現。未來人工智能會成爲各個廠商手機產品體驗差異的分水嶺。
家電行業也掀起AI大模型的競賽。美的集團、海爾智家等頭部家電企業紛紛推出AI大模型,在大模型的加持下,AI電視、AI洗烘套裝、AI廚電、AI掃地機、AI淨水器、AI家庭機器人等接連被推向市場。
小米集團擁有手機、家電、智駕等諸多終端產品。不過,獨立電信分析師付亮向《每日經濟新聞》記者表示,不要把小米理解爲硬件廠商,小米在生產手機的同時,一直是一個活躍的互聯網平臺。付亮表示,小米認爲大模型是其“人車家”戰略的重要支撐,如果其建設萬卡集羣,方向也與其他企業不同,“別人沒有利用率,小米自帶利用率”。