論文登計算機體系結構頂會,芯片架構成爲邊緣AI最佳並行計算選擇

機器之心發佈

機器之心編輯部

AI 大模型的爆發帶動了 GPU 的強勁需求,從雲端到邊緣滲透的 AI 應用也將帶動邊緣 AI 服務器及加速處理器的需求。通過對比 GPGPU、FPGA、NPU 和 ASIC,可重構計算架構 CGRA 成爲最適合邊緣 AI 的並行計算架構。由芯動力提出的可重構並行處理器(RPP)是比傳統 CGRA 更適合大規模並行處理的計算架構,這不但通過試驗評測得到證實,而且也通過 ISCA 會議得到國際學術權威的認可。基於 RPP 架構的 R8 芯片及後續更高性能的迭代芯片將是邊緣 AI 服務器和 AI PC 的理想 AI 加速處理器選擇。

目錄

一、什麼是邊緣 AI?

二、邊緣 AI 服務器市場趨勢

三、適合邊緣 AI 的理想計算架構

四、RPP 架構詳解

五、RPP 處理器 R8 能效對比

六、RPP 處理器到國際學術權威認可

七、結語

一、什麼是邊緣 AI?

邊緣 AI(AI Edge)是人工智能 (AI) 與邊緣計算交叉的先進技術,這一概念源於 AI 從雲端向邊緣下沉的分佈式計算範式轉變。邊緣 AI 的核心是將 AI 算法直接嵌入到產生大量數據的本地環境中,例如智能手機、物聯網設備或本地服務器,通過位於網絡 “邊緣”(即更靠近數據源)的設備和系統進行實時數據處理和分析。

相對於傳統的數據中心或雲計算平臺的 AI 訓練或推理,邊緣 AI 的主要優勢在於 “就地處理”,大大減少了數據傳輸和處理的延遲,這在智能監控、自動駕駛、實時醫療診斷或工業自動化控制等應用場景中尤其重要。

實現邊緣 AI 計算的設備和系統主要包括:

本文主要討論邊緣 AI 服務器及其市場發展趨勢、對 AI 加速處理器的要求,以及適合邊緣 AI 應用的並行計算架構和處理器實現。

二、邊緣 AI 服務器市場趨勢

AI 服務器是指專爲人工智能應用而設計的高性能計算機設備,能夠支持大規模數據處理、模型訓練、推理計算等複雜任務。AI 服務器通常配備高性能的處理器、高速內存、大容量高速存儲系統,以及高效的散熱系統,以滿足 AI 算法對計算資源的極高需求。按不同的分類標準,AI 服務器可以大致分爲訓練服務器、推理服務器、GPU 服務器、FPGA 服務器、CPU 服務器、雲端 AI 服務器,以及邊緣 AI 服務器等。

據 Gartner 預測,從現在到 2027 年,AI 服務器市場規模將保持高速增長,年複合增長率高達 30%。該機構發佈的《2024 年第一季度全球服務器市場報告》顯示,今年 Q1 全球服務器市場銷售額爲 407.5 億美元,同比增長 59.9%;出貨量爲 282.0 萬臺,同比增長 5.9%。在衆多 AI 服務器供應商中,浪潮信息蟬聯全球第二,中國第一,其服務器出貨量在全球市場佔比 11.3%,同比增長 50.4%,在 TOP5 廠商中增速第一。

另據中商產業研究院發佈的《2024-2029 年中國服務器行業需求預測及發展趨勢前瞻報告》,2022 年末,國內市場總規模超過 420 億元,同比增長約 20%;2023 年約爲 490 億元,市場增速逐步放緩;預計 2024 年市場規模將達 560 億元。從出貨量來看,2022 年中國 AI 服務器市場出貨量約 28.4 萬臺,同比增長約 25.66%;2023 年約爲 35.4 萬臺,預計 2024 年將達到 42.1 萬臺。

在 AI 大模型發展早期,AI 服務器需求以模型訓練爲主,因而訓練型服務器佔據市場主導地位。目前,AI 服務器市場中 57.33%爲訓練型服務器,推理型服務器佔比達 42.67%。然而,隨着生成式 AI 應用往邊緣端滲透,預計未來推理型服務器將逐漸成爲市場主流,邊緣 AI 服務器從出貨量上將超過雲端訓練和推理服務器。

IDC 最新發布的《中國半年度邊緣計算市場(2023 全年)跟蹤》報告數據顯示,2023 年中國邊緣計算服務器市場繼續保持穩步上升,同比增長 29.1%。IDC 預測,到 2028 年,中國邊緣計算服務器市場規模將達到 132 億美元。

作爲邊緣計算的重要組成部分,2023 年定製邊緣服務器規模已達 2.4 億美元,相較 2022 年增長 16.8%。從廠商銷售額角度來看,邊緣定製服務器市場中佔比較大的廠商分別是浪潮信息、聯想、華爲、新華三。隨着邊緣計算應用的多樣化發展,新興服務器廠商在車路協同、邊緣 AI 和智能終端等業務場景和應用市場將有較大突破,使得邊緣服務器市場呈現出多樣化格局。

三、適合邊緣 AI 的理想計算架構

PC 時代由 WINTEL(微軟 Windows + 英特爾 CPU)聯盟主導、智能手機時代由 Android+Arm 聯盟主導,AI 時代將由哪個聯盟主導呢?一個新的聯盟正初露端倪,那就是由英偉達和臺積電組成的 NT 聯盟(Nvidia+TSMC)。據華爾街投資專家預測,2024 年 NT 聯盟總營收預計將達到 2000 億美元,總淨利潤 1000 億美元,總市值有望突破 5 萬億美元。由雲端 AI 訓練和 AI 大模型應用驅動的英偉達 GPU 和臺積電 AI 芯片製造業務將成爲今年最大的贏家。

儘管英偉達在雲端 AI 訓練和推理市場佔據了絕對主導地位,但在邊緣 AI 應用場景中英偉達的 GPGPU 卻不是最佳選擇,因爲其計算架構固有的高功耗和高成本問題限制了其在更爲廣泛而分散的邊緣 AI 應用中的作用。計算機架構領域的學者專家都在尋求能夠替代 GPGPU 的高能效並行技術架構,基於特定域專用架構(DSA)的 ASIC 設計是一種可行的關鍵思路,比如谷歌的張量處理單元 (TPU) ,這種專爲加速機器學習工作負載而設計的處理器採用脈動陣列架構,可高效執行乘法和累加運算,主要面向數據中心應用。另外一個思路是以三星爲代表的神經處理單元 (NPU) ,它專爲移動場景而設計,具有節能的內積引擎,可利用輸入特徵圖稀疏性來優化深度學習推理的性能。

雖然 TPU 和 NPU 都能夠提供部分替代 GPGPU 的高性能和節能解決方案,但它們的專用設計屬性限制了其多功能性和廣泛的適用性。總部位於美國加州且在臺灣和大陸都有研發中心的邊緣 AI 芯片初創公司耐能(Kneron)提出了可重構 NPU 的方案,使得 NPU 芯片有 ASIC 高性能而又不犧牲數據密集型算法的可編程性。憑藉獨特創新的架構和優異的性能,耐能團隊獲得 IEEE CAS 2021 年 Darlington 最佳論文獎。耐能第 4 代可重構 NPU 可以支持同時運行 CNN 和 Transformer 網絡,既可做機器視覺,也可運行語義分析。與僅面向特定應用的普通 AI 模型不同,耐能的可重構人工神經網絡(RANN)技術更加靈活,可滿足不同應用需求並適應各種計算體系架構。據該公司宣稱,其邊緣 GPT AI 芯片 KL830 可應用於 AI PC、USB 加速棒和邊緣服務器,當與 GPU 配合使用時,NPU 可將設備能耗降低 30%。

可重構硬件是另一種可提供高性能和節能計算的解決方案,現場可編程門陣列 (FPGA) 是可重構硬件計算的代表,其特點是細粒度可重構性。FPGA 利用具有可編程互連的可配置邏輯塊來實現自定義計算內核。這種定製的計算能力使得基於 FPGA 的加速器能夠部署在金融計算、深度學習和科學仿真等廣泛的大規模計算應用中。然而,FPGA 提供的位級可重構性會帶來明顯的面積和功率額外開銷,而且沒有規模成本效益,這極大地限制了其在需要低功耗和小尺寸的應用場景中的適用性。

粗粒度可重構架構 (CGRA) 代表另一類可重構硬件。與 FPGA 相比,CGRA 提供粗粒度的可重構性,例如字級可重構功能單元。由於 CGRA 內部的 ALU 模塊已經構建完成,且其互聯也要比 FPGA 更簡單、規模更小,因此其延時和性能要顯著好於在門級上進行互連形成組合計算邏輯的 FPGA。CGRA 更適合 word-wise 類型 (32bit 爲單位) 的可重構計算,而且可以緩解 FPGA 存在的時序、面積和功率開銷問題,是未來邊緣 AI 的理想高性能並行計算架構。

下面我們大致梳理一下 CGRA 的發展歷程:

國際計算機學術界和高科技產業界已形成共識,基於 CGRA 架構的可重構計算芯片具備廣泛的通用計算能力,可以應用於各種邊緣 AI 計算場景,是解決通用高算力和低功耗需求的必由之路。

四、RPP 處理器架構詳解

RPP 和 CGRA 都是屬於粗粒度的可重構陣列,都可以達到類似 ASIC 的面積密度和功率效率,而且都是可以用軟件編程的。但是,RPP 在可重構類型和編程模型方面跟 CGRA 還是不同的,具體表現爲:

1. RPP 是準靜態可重構陣列,而傳統 CGRA 一般用於動態可重構陣列。靜態可重構整列是指每個指令在處理單元(PE)的執行不隨時間變化,數據流也是不變的。對於編譯器來講,靜態的可重構陣列不需要對指令在時間上進行安排,這樣就可以讓 RPP 構造更加簡單,指令的分配速度很低。因此,RPP 很容易實現一個大型的陣列,譬如 32x32 的陣列。RPP 比傳統 CGRA 更加適用於大規模並行計算。

2. RPP 使用的是多線程 SIMT 編程模型,而 CGRA 通常使用的是單線程語言編程。RPP 可以兼容 CUDA 語言,更加適合並行計算。CUDA 語言要求編程人員從一開始就考慮數據的並行度,把並行算法用 CUDA 語言表現出來;編譯器則不需要分析並行計算度,編譯器就非常簡單;CUDA 語言是 SIMT 類型,只用於數據並行的計算,而且並行度在一個程序裡保持不變。CGRA 則通常使用 C 語言 + 獨立的編譯器,雖然理論上可以覆蓋任意的計算類型,但是編譯器非常複雜,很難達到較高的編譯效率。

下面圖表對 RPP 及幾個主流的可重構加速架構做了對比。

RPP 架構的優勢可以總結爲以下四點:

芯動力基於 RPP 架構提出了 RPP 硬件設計框圖,並通過 R8 芯片真實的展現出這種並行計算架構的優越性。這種硬件設計實現主要由一個環形可重構處理器(Circular Reconfigurable Processor)、一個內存單元和一個序列器組成,見下圖。

環形可重構處理器包括 NPU 處理單元 (PE) 和一個墊片內存。每個 PE 都配備了一個內存端口,以方便對內存單元進行數據訪問。內存端口設計有模式控制器、地址計算單元和多個多路複用器,以支持不同的數據訪問模式和共享內存模式。爲了實現靈活的處理器內通信,每個 PE 都集成了一個開關盒 (SB) 和一個互連開關盒 (ICSB),以實現高效的數據轉發。這些 PE 按線性順序連接,墊片內存充當第一個和最後一個 PU 之間的橋樑,從而形成環形拓撲。

環形可重構處理器內的數據處理從第一個 PE 開始,並以流水線方式遍歷 PE,中間計算結果按順序輸出到後續 PE。墊片內存緩存最後一個 PE 的輸出並將它們重新循環到第一個 PE,從而最大限度地提高數據局部性並消除內存單元的內存流量。PE 中的關鍵計算組件是處理引擎。在每個 PE 中,都有多個算術邏輯單元 (ALU),其中每個 ALU 都與數據寄存器和地址寄存器耦合。這些數據寄存器聚合在一起形成一個數據緩衝區,便於在每個 PE 內快速訪問數據。

此外,線性交換網絡和墊片存儲器的組合實現了靈活的數據流控制和高效的數據重用,同時消除了傳統基於網格的 CGRA 設計中複雜的網絡路由。結合對內存單元的靈活高效數據訪問,RPP 可以優化數據流處理,最小化內存流量,從而最大限度地提高資源利用效率。

RPP 處理器採用 SIMT 編程模型來爲靈活多線程管道啓用流式數據流處理。

爲了確保與現有 GPGPU 軟件生態系統的兼容性,芯動力的 RPP 處理器採用了擁有廣泛用戶羣的 CUDA。CUDA 代碼由基於 LLVM 的前端解析,爲 RPP 後端生成 PTX 代碼。RPP 編譯器將 CUDA 內核解釋爲數據流圖並將它們映射到虛擬數據路徑(VDP)。然後根據硬件約束將 VDP 分解爲多個物理數據路徑(PDP),每個 PDP 的配置由序列器在運行時生成。

RPP 的軟件堆棧可以支持廣泛的大規模並行應用,包括機器學習、視頻 / 圖像處理和信號處理等。對於機器學習應用,該堆棧與不同的主流框架兼容,例如 PyTorch、ONNX、Caffe 和 TensorFlow。此外,用戶可以靈活地使用 CUDA 定義他們的自定義程序。這些高級應用程序由 RPP 框架處理,該框架包含一個編譯器和不同領域特定的庫。在軟件堆棧的底部,採用 RPP 運行時環境和 RPP 驅動程序來確保使用工具鏈編譯的程序可以在底層硬件上無縫執行。

五、RPP 處理器 R8 能效對比

基於以上 RPP 處理器硬件設計和完整軟件堆棧實現的 RPP-R8 芯片在計算性能和能效上表現如何呢?

R8 芯片的性能參數如下表所示:

針對邊緣計算場景,芯動力將 RPP-R8 芯片與兩款英偉達邊緣 GPU 進行了比較:Jetson Nano 和 Jetson Xavier AGX。Jetson Nano 的芯片尺寸與 RPP 相似,可在物理面積限制內提供相關比較;選擇 Jetson Xavier AGX 是基於其與 RPP-R8 相當的理論吞吐量。芯動力在 ResNet-50 推理上評估了這三個 AI 加速平臺,其中 Jetson Nano 的吞吐量來自基準測試論文,而 Xavier AGX 的性能數據來自英偉達官方網站。

如上表所示,RPP-R8 的實測運行吞吐量分別是 Jetson Nano 和 Jetson Xavier AGX 的 41.3 倍和 2.3 倍。要知道,Jetson Xavier AGX 的芯片尺寸幾乎是 R8 的三倍,工藝也更先進(12 nm vs. 14 nm),但其性能低於 R8。在能效方面,R8 的能效分別是 Jetson Nano 和 Jetson Xavier AGX 的 27.5 倍和 4.6 倍。這些結果表明,在面積和功率預算有限的邊緣 AI 場景中,RPP-R8 的表現明顯優於 Jetson Nano 和 Jetson Xavier AGX。

深度學習推理是一種廣受認可的大規模並行工作負載,也是 RPP-R8 硬件的關鍵應用。鑑於 Yolo 系列模型與 ResNet-50 等分類模型相比表現出更高的計算複雜度,芯動力選擇英偉達 Jeston Nano Orin 作爲 GPU 平臺,其峰值吞吐量比 Jetson AGX Xavier 更高,爲 40 TOPS。由於 CPU 通常不是爲高性能深度學習推理而構建的,因此選擇 Jetson Xavier Nx 作爲比較低端的 GPU 平臺,具有 21 TOPS 的峰值吞吐量。評估批處理大小爲 1、2 和 4 的工作負載,反映了真實的邊緣場景。上圖顯示了三個平臺的吞吐量性能比較,RPP-R8 在 Yolo-v5m 和 Yolo-v7 tiny 上展示了更高的吞吐量。在批量大小爲 1 的情況下,RPP-R8 的吞吐量大約比 Jeston Nano Orin 高 1.5× ∼2.5 倍,比 Jeston Xavier Nx 高 2.6× ∼4.3 倍。

評估與測試結果表明,RPP 在延遲、吞吐量和能效方面優於傳統的 GPU、CPU 和 DSP 等架構。RPP 處理器的性能提升歸功於其獨特的硬件特性,主要包括:1) 循環數據流處理:中間結果流經 PE 之間的流水線寄存器和 FIFO,顯著減少了數據移動和到遠程內存存儲的內存流量;與 GPU 和 CPU 中的數據處理相比,這種模式效率更高。2) 分層內存系統:RPP 通過其分層內存系統最大化數據局部性。RPP-R8 芯片面積的很大一部分(約 39.9%)專用於片上存儲器。這種設計選擇提供了廣泛的內存容量,增強了數據重用並減少了頻繁訪問外部存儲器的需求。3) 矢量化和多線程管道:RPP 的硬件架構和編程模型可實現有效的矢量化和多線程管道。這種設計充分利用了 RPP 進行並行處理的全部計算潛力,確保其資源得到最大程度的利用,從而提高性能。

除了在能耗、延遲和吞吐量方面的優勢外,RPP 還因其小面積而脫穎而出。只有 119 平方毫米的芯片面積消耗使得 RPP-R8 成爲面積受限的邊緣計算的理想平臺。RPP 的另一個特點是其高可編程性,由全面的端到端軟件堆棧支持,可顯著提高部署效率。與 CUDA 的兼容性使用戶能夠利用熟悉的 CUDA 生態系統,從而縮短學習曲線並促進更容易的採用。支持即時編程和圖形編程模式,爲用戶提供了高度的靈活性,滿足各種計算需求。包括 OpenRT 和 RPP-BLAS 在內的不同庫支持也促進了各種場景中的高性能和高效部署。全棧解決方案,包括硬件架構和軟件支持,使 RPP 在各種邊緣計算硬件中脫穎而出。

六、RPP 架構得到國際學術權威認可

由芯動力攜手英國帝國理工、劍橋大學、清華大學和中山大學等頂尖學府的計算機架構團隊共同撰寫的論文《Circular Reconfigurable Parallel Processor for Edge Computing》(RPP 芯片架構)已成功被第 51 屆計算機體系結構國際研討會(ISCA 2024)的 Industry Track 收錄。芯動力創始人兼 CEO 李原博士與帝國理工博士畢業生 Hongxiang Fan(現在英國劍橋的三星 AI 中心做研究科學家)受邀在阿根廷布宜諾斯艾利斯舉行的 ISCA 2024 會議上發表演講,與 Intel 和 AMD 等國際知名企業的專家同臺交流。

本屆 ISCA 共收到來自全球 423 篇高質量論文投稿,經過嚴謹的評審流程,僅有 83 篇論文脫穎而出,總體接收率低至 19.6%。其中,Industry Track 的錄取難度尤爲突出,接收率僅爲 15.3%。

作爲計算機體系結構領域的頂級學術盛會,ISCA 由 ACM SIGARCH 與 IEEE TCCA 聯合舉辦。自 1973 年創辦以來,一直是推動計算機系統結構領域進步的先鋒力量,其廣泛的影響力和卓越的貢獻使其成爲谷歌、英特爾、英偉達等行業巨頭競相展示前沿研究成果的高端平臺。ISCA 與 MICRO、HPCA、ASPLOS 並稱爲四大頂級會議,而 ISCA 更是其中的佼佼者,論文錄取率常年保持在 18% 左右。多年來,衆多在 ISCA 上發表的研究成果已成爲推動半導體和計算機行業發展的關鍵動力。

本次入選的可重構並行處理器(RPP)論文爲邊緣計算領域注入了強勁動力。實驗結果充分證實,作爲一款並行計算的硬件平臺,RPP 的性能全面超越當前市場上的 GPU,特別是在對延遲、功耗和體積有着極高要求的應用場景中表現尤爲出色。

六、結語

ChatGPT 引爆了 AI 大模型,從而帶動了 GPU 和 AI 加速器的巨大需求。AI 應用的發展趨勢將從雲端 AI 訓練和推理逐漸往邊緣和端側 AI 滲透,爲各種 AI 應用提供軟硬件支持的 AI 服務器也同樣遵循從數據中心到邊緣計算的分佈式擴展趨勢。傳統 GPGPU 在邊緣 AI 應用場景中開始暴露出明顯的架構缺陷,其高成本、高功耗和高延遲問題迫使業界專家尋求更爲高能效的並行計算架構。

在對比 CPU、GPU、ASIC、FPGA 和 NPU 等不同計算架構後,我們發現可重構計算架構 CGRA 是比較適合邊緣 AI 應用的,尤其是芯動力提出的可重構並行處理器(RPP)。通過與英偉達同類 GPU 對比分析,基於 RPP 架構的 R8 芯片在延遲、功耗、面積成本、通用性和快速部署方面都表現出色,我們認爲這是目前最理想的邊緣 AI 並行計算架構。

在今年 7 月份阿根廷舉行的 ISCA2024 學術會議上,關於 RPP 處理器架構的論文得到國際學術權威認可。隨着邊緣 AI 的發展,AI 服務器和 AI PC 將迎來快速增長的黃金時期,而支持這類邊緣 AI 設備的 AI 加速器也將同步增長。由珠海芯動力科技提出的 RPP 處理器芯片也將得到業界認可,成爲邊緣 AI 應用場景中最爲理想的 AI 加速處理器。