英偉達加大杯B200芯片:摩爾定律失效,多卡互聯稱王

圖片來源:視覺中國

北京時間3月19日凌晨,英偉達GTC(GPU 技術大會)上,英偉達首席執行官黃仁勳公佈了 Hopper架構芯片的繼任者——Blackwell架構的B200芯片。目前英偉達Hopper架構的芯片H100 和 GH200 Grace Hopper 超級芯片需求量很大,爲世界上許多最強大的超級計算中心提供算力,而B200將提供算力的進一步代際飛躍。

Blackwell架構的B200芯片並不是傳統意義上的單一GPU。相反,它由兩個緊密耦合的芯片組成,儘管根據 Nvidia 的說法,它們確實充當一個統一的 CUDA GPU。這兩個芯片通過 10 TB/s NV-HBI(Nvidia 高帶寬接口)連接進行連接,以確保它們能夠作爲單個完全一致的芯片正常運行。

多卡互聯是B200算力提升的關鍵。將兩個 GPU 與單個 Grace CPU 結合在一起的 GB200 可以爲大語言模型的推理工作提供 30 倍的性能,同時還可能大幅提高效率。英偉達稱,與 H100 相比,B200可將生成式AI的算力成本和能耗降低多達 25 倍。

英偉達AI芯片性能本身在算力上的提升主要靠數據精度,從FP64、FP32、FP16、FP8到如今B200芯片的FP4,FP4最大理論計算量爲 20 petaflops(數據精度單位)。FP4是 FP8性能的兩倍,FP4的好處是提升了帶寬,通過爲每個神經元使用 4 位而不是 8 位,使計算、帶寬和模型大小加倍。如果將B200換算成FP8與H100進行同類比較,那麼 B200理論上僅比 H100提供多 2.5 倍的計算量,B200的算力提升很大一部分來自於兩個芯片互聯。

CPU通用處理器時代的摩爾定律(集成電路上可容納的晶體管數目,約每隔18個月便會增加一倍)已經進入暮年。臺積電在3nm製程上的突破,並未給芯片性能帶來突破代際的提升。2023年9月,蘋果A17 Pro問世,使用了臺積電生產的首個3nm製程芯片,但CPU性能只有10%的提升。且先進製程芯片研發耗資巨大,據遠川研究所報道,2023年臺積電的晶圓代工價格與兩年前相比大約上漲了16%(先進製程)到34%(成熟製程)。

除了蘋果之外,臺積電的另一大芯片客戶便是英偉達——英偉達的硬通貨AI芯片H100就採用了臺積電N4(5nm)工藝,使用了臺積電的CoWoS先進封裝產能。

摩爾定律失效,黃仁勳的黃氏定律指出,GPU的效能每兩年將增加一倍以上,"創新不僅僅是芯片,而是整個堆疊"。

英偉達繼續朝着多卡互聯進發。既然3nm芯片提升有限,英偉達的B200選擇把2片4nm芯片並排擺放,通過超高速片上互聯,組成一個2000多億晶體管的超大芯片。在英偉達GTC上,黃仁勳對於芯片本身性能一筆帶過,重點都在DGX系統上。

在多卡互聯方面,英偉達的NVLink和NVSwitch技術是其護城河。NVLINK 是一種點對點的高速互連技術,可以將多個 GPU 直接連接起來,形成一個高性能計算集羣或深度學習系統此外,NVLink引入了統一內存的概念,支持連接的 GPU 之間的內存池,這對於需要大型數據集的任務來說是一個至關重要的功能。

而NVSwitch 是一種高速交換機技術,可以將多個 GPU 和 CPU 直接連接起來,形成一個高性能計算系統。

在NVLink Switch支持下,英偉達"大力出奇跡"地將72塊B200連接在一起,最終成爲"新一代計算單元"GB200 NVL72。一個像這樣的"計算單元"機櫃,FP8精度的訓練算力就高達720PFlops,直逼H100時代一個DGX SuperPod超級計算機集羣(1000 PFlops)。

英偉達透露,這一全新的芯片將在2024年晚些時間上市。目前,亞馬遜、戴爾、谷歌、Meta、微軟、OpenAI、特斯拉都已經計劃使用Blackwell GPU。

"打包批發賣卡"的方式也符合大模型公司的用卡需求。將多個GPU互聯"打包"成數據中心,更符合大模型公司和雲服務商的購買形式。英偉達2023財年財報顯示,英偉達的數據中心業務有40%的收入來自超大規模數據中心與雲服務商。

截至美東時間3月18日美股收盤,英偉達股價884.550美元,總市值2.21萬億美元。