☰

AMD的翻身仗

今年6月，AMD發佈了一款專門針對AI需求的最新款芯片：Instinct MI300。

MI300將CPU、GPU和內存封裝在了一起，晶體管數量高達1460億個，接近英偉達H100的兩倍。其搭載的HBM（高帶寬內存）密度也達到了H100的2.4倍。也就是說，MI300在理論上可以運行比H100更大的AI模型。

受益於AI訓練的增長，GPU需求肉眼可見的從遊戲市場向高性能計算領域傾斜，就連剛開啓GPU產品線的英特爾，也迫不及待的PPT首發了面向高性能計算場景的Falcon Shores架構芯片。

伴隨英偉達一路衝向萬億美元市值，資本市場對GPU行業老二的期待值也達到了頂峰。今年以來，AMD股價累計上漲已經超過90%。

英特爾的Falcon Shores，預計2024年推出

然而MI300發佈會結束，AMD股價下跌3.6%，反倒是英偉達上漲3.9%。資本市場表達好惡，向來是這麼冷酷無情。

原因可能在於，AMD沒有在發佈會中透露這款芯片的客戶，這也是市場對英偉達以外的AI芯片最大的擔心。

長期以來，AMD在GPU市場一直被英偉達按在地上反覆摩擦，Instinct產品線其實已經迭代了好幾年，但相比英偉達的連戰連捷，AMD在高性能計算領域的存在感一直比較稀薄。

AI訓練打開的市場空間，一度被市場視爲AMD與英偉達拉進距離的機會，但事情似乎沒那麼簡單。

離不開CPU，但離得開英特爾

雖說在AI訓練上，更擅長大規模並行計算的GPU承擔了大部分計算工作，而整個系統仍需要CPU進行調度和統籌。也就是說，儘管GPU的需求量大幅度增加，但CPU仍是必需品。

作爲一家同時擁有CPU和GPU設計能力的芯片公司，AMD被看好也不意外。更何況過去幾年，AMD在CPU市場連戰連捷。

AMD現任CEO蘇姿豐在2014年接手，時值推土機架構性能孱弱，讓英特爾心安理得的擠牙膏。而在賣掉Imageon後，AMD和拒絕爲蘋果設計iPhone芯片的英特爾一起，完美錯過了智能手機的浪潮，公司一片風雨飄搖。

面臨多條戰線的失血，蘇姿豐只能將有限的資源集中在覈心的CPU業務上，從蘋果請回了架構大師吉姆·凱勒，開始Zen架構處理器的研發。

2017年，Zen架構處理器橫空出世，把擠牙膏上癮的英特爾打了個措手不及。2019年，Zen處理器更換爲臺積電7nm工藝，此時英特爾10nm工藝姍姍來遲。

雖然英特爾還佔據着大部分市場份額，但AMD的反攻速度實在太快，尤其是在服務器市場，幾乎是從0殺到了接近20%的市佔率。

2023年Q1，AMD的x86處理器市場份額達到了34.6%這一歷史峰值[2]，這也是AMD市值超過英特爾的重要背景。

今年5月，全球超級計算機Top500強公佈：前500強中，使用AMD CPU進行驅動的超算達到121臺，使用英特爾CPU的超算則從2016年的454臺下降至360臺，雖然看着不少，但其中很多是英特爾10年前的家底——至強（Xeon）處理器[3]。

但同一時期，AMD與英偉達差距也越來越大。

難以逾越的CUDA

英偉達不僅是一流的硬件公司，更是一流的軟件公司。

雖然在理論性能上，MI300的一些參數甚至領先於英偉達，但市場對英偉達對手們最大的擔心往往在於，就算硬件性能可以跟英偉達比肩，但是軟件解決方案仍難以與英偉達的CUDA對抗。

2006年，英偉達推出了CUDA平臺，讓開發者能夠給予GPU進行編程和開發，最終形成了一個龐大穩固的生態。在推出CUDA之前，全球能用GPU進行編程的不足100人，目前CUDA的使用者超過400萬。

每一個成功的硬件公司背後，往往都有一個更強大的軟件團隊，蘋果和英偉達都是如此。即便是光刻機制造商ASML也不例外，他們的官方網站上有這樣一段話：

您可能將ASML視爲一家硬件公司，但實際上我們擁有世界上最大、最具開創性的軟件社區之一。如果沒有我們開發的軟件，我們的客戶就不可能製造出10納米或更小的尺寸的芯片。

想要芯片真正在具體場景的滿足各種需求，就需要開發者對硬件進行編程以實現各種功能。如果說硬件編程的過程相當於進行各種複雜計算，那麼CUDA就是提供給使用者的一部計算器。

無論對英偉達的刀法多麼懷恨在心，都不能否認黃仁勳對通用計算和人工智能的超前押注。

AMD顯然深知軟件和生態的重要性，但對標CUDA的ROCm在2016年推出時，就已經比英偉達晚了十年。

直到2023年4月，ROCm都僅支持Linux平臺；而CUDA自問世以來，就提供Windows和Linux兩個版本，後期還爲蘋果用戶增設Mac OS版本。

相比英偉達不遺餘力的推廣和洗腦，AMD在生態建設上也顯得投入不足，據說早年英偉達對項目的GPU試用申請幾乎是有求必應，動不動就去高校實驗室發顯卡。深度學習大神傑夫·辛頓帶着學生訓練AlexNet模型，就用了三塊GTX 580。

另外，AMD的軟件能力也令人不安——AMD在今年6月發佈了一份EPYC 7002 “Rome”服務器芯片指南，承認由於時鐘倒計時器存在 BUG，導致第二代EPYC芯片運行1044天后，會出現內核卡死。如果有服務器使用這款芯片，需要每隔2.93年重新啓動一次。

原因也不難理解，直到推出ROCm的2016年，AMD甚至還沒擺脫虧損。在這期間，AMD只能把有限的資源都聚焦在CPU的研發上，無法爲GPU部門投入太多資源，更不要說ROCm的軟件團隊了。

而當AMD在CPU市場收復失地，希望依靠AI捲土重來時，英偉達已經慢慢補齊了短板。

英偉達的反攻

2020年9月，英偉達宣佈準備以400億美元的價格準備收購移動CPU架構商Arm，其背後意圖人盡皆知：一方面是整合移動端資源，另一方面則是入局CPU。

正如前文所說，儘管AI時代需要更多的GPU，但CPU仍不可或缺。當CPU與GPU共同在服務器中的工作時，實際場景更像是一個大學生（CPU）帶領一羣小學生（GPU）組隊完成各種任務。這個時候，配合就顯得尤爲重要。

因此，英偉達之所以自己做CPU，並非完全因爲英特爾或AMD，而是從自身產品需求出發，使CPU和GPU緊密耦合，以發揮最大性能。比如CPU和GPU中，需要用到儘可能相似技術的一致內存，以保證數據之間的無縫共享[8]。

雖然收購基本沒有成功的可能性，但英偉達依然按部就班的招兵買馬。2021年4月，黃仁勳在自家廚房裡宣佈，英偉達即將推出首款5nm製程工藝CPU Grace，基於Arm架構，面向超大型 AI 模型的和高性能計算。

緊接着就是具體工作的有序展開：英偉達首先選定了根據地以色列，那裡有全球第三多的納斯達克上市公司（僅次於美國和中國）；然後對外招聘600名硬件工程師、軟件工程師和芯片設計師，搭建CPU研發團隊[7]。

最後，英偉達挖來了英特爾在以色列的CPU架構專家Rafi Marom，後者曾參與10nm製程的Tiger Lake和Alder lake芯片開發工作。

在2022年3月的GTC大會上，英偉達對外宣佈Grace CPU性能：擁有144個Arm內核和1TB/s的內存帶寬，性能較當前最先進的DGX A100搭載的雙CPU相比高1.5倍以上。

不過，原本預計在今年上半年可以開始供貨的Grace芯片，目前已推遲至下半年。

APU

InstinctMI300本質上是一顆“APU”，這是AMD早在2009年提出的一個概念——將CPU和GPU集成在一起，使得二者高速互聯，實現1+1>2的效果。

在2006年收購了GPU公司ATI後，AMD成爲了當時唯一同時擁有CPU和GPU設計能力的芯片公司，而且在兩個市場都是行業老二——但壞消息是，市場主流玩家也就兩個。

在這種局面下，AMD希望藉助APU打開市場局面。2011年，第一代APU推出後，AMD持續宣傳APU是“x86架構三十年來的最大革命”，並向投資者強調，這款產品存在着“強勁且被壓抑”的需求。

市場最初也對APU概念充滿期待，結果2012年Q3財報出爐，AMD收入下滑25%，順便減記了1億美元的庫存——APU需求量並不高，芯片根本賣不出去[1]。緊接着，公司股價跌到1.86美元的歷史性低點，蘇姿豐臨危受命，開始掌舵風雨飄搖中的AMD。

APU的優勢在於，由於CPU和GPU集成在了一起，數據傳輸效率得到了大幅度提高。蘋果的M1 Ultra也採用了類似的“把幾個小芯片拼成一塊大芯片”的思路，換來了更強的數據吞吐能力。

但在2009年，APU的理念顯得過於超前。

一方面，APU涉及芯片的先進封裝技術，在當時既不成熟，成本也難以控制。另一方面，APU在需求高度多元化的消費市場很難行得通。

比如10種型號的CPU和GPU，理論上有100種組合方案，這就導致做10種方案無法滿足市場需求，做100種方案難以收回生產成本。

因此在很長一段時間裡，APU只能在PS4遊戲機這類高度標準化的產品上才能找到市場。但深度學習的大爆發改變了這一點。

相比遊戲和渲染，AI訓練對算力和數據吞吐效率的需求成百上千倍的增加，目前針對AI市場推出的芯片產品，除了算力的堆砌，往往都採用3D堆疊和先進封裝等方式，增加數據傳輸的效率，這與APU的優勢不謀而合。

英特爾尚未正式發佈的Falcon Shores，同樣採用了將CPU、GPU、內存封裝在一起的思路，只不過英特爾將其稱爲“XPU”。

但目前來看，最接近這個目標的反而是英偉達的Grace Hopper芯片。

英偉達的Grace Hopper將CPU和GPU集成在了一起

尾聲

在2009年APU的概念被提出時，AMD正經歷公司歷史上的最低谷，APU多少有些畢功一役的憋大招成分。

但也正是因爲處於低谷，導致AMD無法拿出足夠的資金與技術支持，讓APU的革命性理念真正落地，最終只變成了簡單的CPU+GPU的組合。

從商業角度看，最適合在2009年搞點革命性產品的反而是富可敵國的英特爾，但英特爾當時在幹什麼呢——心安理得的擠牙膏，同時拒絕爲iPhone設計芯片。

這似乎是高科技公司常常會出現的狀況——在鼎盛年代忽視新的技術浪潮，在低谷期如夢方醒倉促憋大招。

事實上，英特爾還嘗試過“聯A抗N”——2017年，英特爾宣佈將在自家CPU上集成AMD的GPU，合作推出新的芯片。

結果沒過多久，英特爾就挖走了AMD的核心技術負責人之一：圖形主管Raja Koduri，爲英特爾開發高端獨立GPU。

參考資料

[1] AMD: $30 Million Settlement Ends Llano Lawsuit，tom's Hardware

[2] AMD and Intel CPU Market Share Report: Recovery on the Horizon (Updated)，tom's Hardware

[3] AMD Now Powers 121 of the World's Fastest Supercomputers，tom's Hardware

[4] A Closer Look at Intel’s Coral Supercomputers Coming to Argonne，inside HPC

[5] Argonne’s 44-Petaflops ‘Polaris’ Supercomputer Will Be Testbed for Aurora, Exascale Era，HPC wire

[6] Top500: No Exascale, Fugaku Still Reigns, Polaris Debuts at #12，HPC wire

[7] 英偉達在以色列組芯片團隊，發力CPU，半導體行業觀察

[8] 它們需要基於這兩種設備中儘可能相似技術的一致內存，智能計算芯世界

編輯：李墨天

視覺設計：疏睿

責任編輯：李墨天

研究支持：何律衡

AMD的翻身仗

相關資訊