AI市場明爭暗鬥:微軟“背刺”英偉達,低調研發新網卡

21世紀經濟報道記者楊清清 北京報道微軟再傳新動向。

北京時間2月21日,有媒體報道稱,微軟(MSFT.O)正在研發一款全新網卡,以提升其Maia AI服務器芯片的性能。微軟該項目負責人被曝爲普拉迪普·辛杜(Pradeep Sindhu),後者曾任網絡設備開發商瞻博網絡(Juniper Networks,JNPR.N)的聯合創始人,併成立初創公司Fungible。

據報道,微軟研發的全新網卡類似於英偉達的ConnectX-7,項目研發或將需要超過一年的時間。不過一旦研發成功,該項目將減少OpenAI在微軟服務器上訓練模型所需時間,同時降低成本。

“作爲微軟Azure 雲基礎設施系統方法的一部分,微軟專注於優化堆棧的每一層。”微軟的發言人在一份聲明中表示,“公司經常開發新技術滿足客戶的需求,包括網絡芯片。”

事實上,微軟在自研AI硬件的道路上越走越遠,而這也被外界視爲微軟試圖減少對英偉達(NVDA.O)的依賴。2023年11月,微軟推出雲端AI芯片微軟Azure Maia 100及服務器CPU微軟Azure Cobalt 100。

如今,微軟悄然進行網卡項目研發,背後醞釀着怎樣的心思?

低調進軍網卡?

微軟研發全新網卡的傳聞,引發業界廣泛關注。

所謂網卡,是數據中心的一項重要技術,主要用於提升服務器的流量速度。一位行業人士向21世紀經濟報道記者指出,數據中心服務器集羣需要通過網絡連接並彼此共享信息,從而實現高效協作,而流量從服務器傳輸至數據中心網絡正是需要通過網卡。作爲數據中心的專業構成,網卡能夠傳輸數據並優化傳輸速度。

聚焦到微軟方面,在其數據中心使用英偉達的AI芯片時,由於需要傳輸OpenAI等AI公司所需的大量數據,可能將出現過載現象。因此,對於微軟來說,開發網卡新品有望提升其數據中心服務能力。

據報道,微軟此次研發的全新網卡將對標英偉達的ConnectX-7。英偉達官網介紹稱,ConnectX-7可支持超低時延、400Gb/s 吞吐量和創新的 NVIDIA 網絡計算加速引擎,實現額外加速,爲超級計算機、人工智能和超大規模雲數據中心提供所需的高可擴展性和功能豐富的技術。

其中,有別於傳統的數據共享方式,ConnectX-7通過運用RDMA技術,可繞過CPU從而讓數據檢索速度快速提升。有消息稱,微軟的新網卡不僅將借鑑這一全新技術,還將從性能上進行全面優化。

需要注意的是,微軟在網卡技術上的佈局並非空穴來風。早在2019年,微軟就曾提及DPU(數據處理單元)的重要性,並於2023年收購服務器芯片初創企業Fungible,後者爲專門生產數據處理單元(DPU)的企業。

在收購Fungible的公告中,微軟指出,Fungible是一家可組合基礎設施提供商,旨在通過高效、低功耗的數據處理單元(DPU)加速數據中心的網絡和存儲性能。Fungible的技術有助於實現高性能、可擴展、分解、橫向擴展的數據中心基礎設施,並具有可靠性和安全性。

“微軟的收購舉措有望進一步加強其在數據中心基礎設施方面的能力。通過收購Fungible獲得的專業技術積累,也有望在全新網卡項目研發中發揮作用。”前述行業人士向21世紀經濟報道記者指出。

值得一提的是,Fungible的創始人正是如今微軟網卡業務傳聞中的負責人普拉迪普·辛杜。因此,微軟的網卡研發項目很可能指向DPU,後者被視爲繼CPU和GPU之後的“第三顆主力芯片”。

事實上,在當前數據增幅大量提升的背景下,以DPU爲代表的異構計算市場正在受到更多的關注。根據賽迪顧問數據,2020年全球DPU產業市場規模達30.5億美元,預計到2025年全球DPU產業市場規模將超過245.3億美元,期間CAGR高達51.73%。

“伴隨着5G、雲網融合時代的到來,以及虛擬交換等技術的引入,基於服務器的網絡數據平面複雜性急劇增加。海量的數據搬運工作被CPU承擔,導致網絡接口帶寬急劇增加,CPU資源負載過大,大大影響了CPU將計算能力釋放到應用程序中,”民生證券研究團隊指出,“爲了提高主機CPU的處理性能,Smart NIC(智能網卡)將部分CPU的網絡功能(如IP 分片、TCP 分段等)轉移到網卡硬件中,起到了加速運算的目的,其可視爲DPU的前身。”

擺脫英偉達依賴

目前,AI芯片市場的“霸主”無疑是英偉達。在生成式AI大火的背景下,主導AI芯片的英偉達也賺得盆滿鉢滿。

英偉達所推出H100,被公認爲是訓練大語言模型最需要的GPU。與此同時,英偉達通常將ConnectX-7網卡與其GPU捆綁銷售。其中的一個例子,便是將H100與ConnectX-7相結合推出的融合加速器“H100 CNX”,該款產品可爲I/O密集型應用提供強勁性能。

作爲生成式AI的重要角力者,微軟通過向OpenAI注入數十億美元的巨資,將後者的技術融入到自身的各類產品中。甚至,將OpenAI技術加以進行內部產品整合,已經成爲微軟發力AI的一大戰略。例如,OpenAI新近發佈Sora模型後,微軟方面亦透露,會將該模型融入Copilot產品中。

不過,大模型的訓練瓶頸終歸落在算力上,不願被英偉達“掣肘”的微軟,也開始動作不斷。2023年11月,微軟推出雲端AI芯片微軟Azure Maia 100及服務器CPU微軟Azure Cobalt 100,前者能夠運行大語言模型並支持AI計算,亦被業界視爲微軟打響拋棄英偉達芯片依賴的“首槍”。

如今,微軟的網卡項目,則再度顯現了這個巨頭在AI基礎設施領域自給自足的決心。“該項目有望重塑微軟與英偉達之間的競爭格局,從而對整個AI行業產生影響。一旦項目研發成功,微軟也將構建一個更強大並更具競爭力的Azure平臺。”有行業分析人士向21世紀經濟報道記者指出。

不過,也有芯片行業從業人士向21世紀經濟報道記者直言稱,DPU開發難度很高,結構複雜,而且不太好落地,有的大芯片DPU單價可能達到十幾萬。

“AI巨頭佈局DPU的原因是他們有規模龐大的服務器集羣,定製DPU可以有效地降本增效,覆蓋芯片開發成本。”該人士表示。同時他判斷,微軟該項目大概率爲專用產品,未必會對芯片市場整體有大幅影響。