算力新星LPU帶火SRAM 業內人士如何看存算芯片未來?
《科創板日報》2月27日訊(記者 郭輝)日前Groq公司的LPU芯片產品橫空出世,其在特定場景下的推理速度較英偉達GPU提高10倍,成本卻只有其1/10,激起資本市場對相關技術的關注。
LPU最大的產品設計特點是,存儲方案摒棄了此前資本市場關注並大熱的HBM,而是選用了SRAM,也讓SRAM高存取速度、高可靠性等方面的優勢在聚光燈下被放大。
SRAM的全稱爲靜態隨機存取存儲器 (Static Random-Access Memory, SRAM) ,是隨機存取存儲器的一種。作爲一種較爲成熟的存儲技術,SRAM早於上一世紀便作爲獨立存儲芯片存在,後逐步以IP核形式集成於SoC芯片中,近年則由於存算一體方案興起,SRAM作爲存儲介質的一項選擇被越來越多關注。因此對科技圈——尤其是在學術領域來說,SRAM技術應用及其沿承,並不是新鮮事物。
此次Groq公司爆火,基於SRAM的算力芯片究竟能否滿足市場的需求和想象?LPU的本質是什麼?Groq公司LPU產品所面向的場景和用戶羣,能支撐起一種新的商業模式嗎?對於這些問題,《科創板日報》記者對話了億鑄科技資深器件專家Ray,嘗試從技術本身出發,探討商業可能性和市場機會。
億鑄科技是國內一家新興的存算一體芯片企業,該公司成立於2020年,創始人熊大鵬爲美國德州大學奧斯汀分校博士、前知名AI芯片公司Wave Computing中國區總經理。
在公司創辦之初,億鑄科技核心成員曾探討過多種不同的存儲介質,就包括SRAM在內。但確定要做大算力推理芯片之後,他們綜合評估後最終選擇了ReRAM。ReRAM(阻變存儲器)近幾年被學界及產業界認爲是當下最具前景的新型非易失性存儲介質之一。
億鑄科技資深器件專家Ray告訴《科創板日報》記者,存儲介質的選擇很大程度需要考慮具體應用場景。但在商業環境下,只考慮性能不考慮成本也是不現實的。SRAM高帶寬的特性,以及讀寫速度、耐久度方面的優勢明顯,可以依靠先進製程提升性能並滿足特定需求,但在大算力、低功耗、高精度的AI推理計算場景,ReRAM等新型存儲介質或許纔是更優解。
存算芯片產業實例:SRAM存儲介質爲何落選?
▍《科創板日報》:近幾年業內對SRAM這一傳統存儲介質前沿的討論集中在存算一體芯片領域,從技術角度來講,基於SRAM做存算一體芯片的優劣勢分別是什麼?
▍億鑄科技Ray:在學術領域,SRAM憑藉其高成熟度和高存取速度成爲存算一體領域裡的熱門研究對象;在市場應用方面,SRAM作爲傳統存儲介質適合IP化,SRAM存算一體在中小算力、端側、對待機功耗無要求的場景,例如:可穿戴設備、邊緣計算、無人車等市場具有一定的應用價值。
但SRAM也因其單元面積大、靜態功耗高、易失性、對PVT變化敏感、存儲密度低、密度提升潛能較低、成本高等特點,在應用於一些大算力、大容量、高密度集成的大型神經網絡計算場景時會受到較多限制。
▍《科創板日報》:億鑄在選擇主要的技術路線時,沒有選擇SRAM方案,而是選擇基於RRAM做存算一體AI算力芯片,是怎麼考慮的?
▍億鑄科技Ray:在成立之初我們探討過很多種不同的存儲器件來實現存算一體,不同存儲介質的選擇和應用場景息息相關,我們首先確定要做的是AI大算力推理芯片,於是就要從算力潛能、精度、計算效率等角度對不同器件進行評估,結果顯示RRAM是最合適做AI大算力推理方向的存算一體芯片。
沒有選擇SRAM是因爲其應用於大型神經網絡計算面臨着兩大挑戰:
首先是漏電流。
當SRAM應用於存算一體架構,由於SRAM即使待機也會產生靜態漏電功耗,因此,大量的SRAM封裝在一起,實現巨量的並行計算(讀取操作)要解決巨大的電流電壓波動問題和功耗問題。所以對企業來說,實現SRAM大容量和高並行度讀取(高算力)的設計和工程落地有着較高的工藝和設計門檻,會導致設計和工程成本極高,也成爲基於SRAM的存算一體技術商用路上較難跨越的阻礙。
在未來的車載和數據中心的應用場景中,SRAM的高功耗,和器件特性對溫度比較敏感等特性,還可能導致用電量高和運行不穩定。
其次是密度。
SRAM基本單元是由6個Transistor組成的鎖存結構,密度相對來說較低。存儲單元在做存算的時候,需要更多Transistor進行控制,比如使用8T、10T或更多Transistor的架構,導致了面積大、單位密度受限。
同時,SRAM算力的提升主要靠工藝製程的升級,器件本身在密度上難以實現大規模突破。
相比之下,ReRAM的微縮性有着天然的優勢,不主要靠CMOS製造工藝的升級就可以實現每代密度翻倍。
在未來,大型神經網絡參數動輒幾個GB,大模型如GPT3.5參數就達到了175B,SRAM難以容納如此大的參數,所以很難跟上AI模型規模的發展節奏。相比之下,基於ReRAM的存算一體芯片可以輕易做到高密度,而億鑄科技的方案還能夠實現多芯片互聯,從芯片系統角度進一步提升密度和算力。
另外,基於ReRAM的全數字化存算一體技術,無需ADC/DAC模數和數模信號轉換器,不會受到信噪比的影響,精度可以達到32bit甚至更高,既不會產生精度損失,也不會面臨模擬計算帶來的諸如IR-DROP等問題,非常適合實現大算力、高精度、高能效比的存算一體AI芯片。
評價存儲介質的好壞離不開應用場景
▍《科創板日報》:SRAM有沒有可能因爲類似LPU的產品而迎來爆發?產業界怎麼看SRAM進一步發展的前景?
▍億鑄科技Ray:評價存儲介質的好壞離不開應用場景,根據應用場景需要的不同,需要找到合適的器件去支撐,沒有一種器件是可以滿足所有場景的需要的,而應用需要的不同,也給了不同的存儲器件出現、發展、持續演進的機會。
同樣的存儲介質,應用在存儲和存算兩個方向上,所帶來的評價是不同的。目前的LPU產品,比如Groq的LPU,其利用SRAM高帶寬的特性,通過集成230MB的SRAM來替代DRAM,但其中的SRAM本質上還是發揮存儲功能。
在“存儲”這個領域上,SRAM的優勢主要在於讀寫速度和耐久度,但其仍然存在密度低,成本高等問題。而“存算”器件要求更大的算力潛能、更高的算力精度、更快的算力效率,面對大模型帶動的AI加速計算大算力場景,RRAM更適合作爲存儲介質去實現存算一體AI大算力芯片。
▍《科創板日報》:從現有Groq公司釋放的LPU產品信息來看,使用的是存算一體的方案嗎?
▍億鑄科技Ray:Groq公司的LPU使用的是一種近存計算的方案。此前谷歌的TPU也是採用近存計算技術,把存儲芯片分成小塊,放在計算芯片的附近,雖然可以提升數據搬運的速度,但本質上還是馮諾依曼架構,並沒有從根源上解決“存儲牆”的問題。
▍《科創板日報》:有業內分析稱,Groq之所以選擇SRAM,在於LPU只需負責推理,而不處理訓練。對此您的理解是什麼?
▍億鑄科技Ray:Groq選擇SRAM的原因有很多種可能,首先是SRAM讀寫速度要顯著快於英偉達採用的DRAM。
在推理階段,用戶是實時交互的,數據也是實時的,採用高速存儲介質更爲合適。英偉達GPGPU目前主要是應用於訓練,訓練必然有大量數據,且對實時要求沒那麼高。那用成本更低的DRAM也是合適的。從這一角度來講,選擇SRAM做AI推理計算比選擇DRAM延時更低,計算效率更高。
但這不意味着SRAM就是大算力AI推理計算的最優解。因爲即使針對推理應用,面對很多大模型,SRAM較低的容量也可能使得LPU捉襟見肘。
在大算力、低功耗、高精度的AI推理計算場景中,對比來看,有比SRAM更優的存儲介質選擇,比如ReRAM的好處就在於,功耗低、面積小、讀寫速度快,且密度極大,可以做到SRAM密度的幾十上百倍,並且不依賴CMOS工藝的升級就可以實現每代密度和容量翻倍。
“Groq的成功國內可能很難複製”
▍《科創板日報》:此次Groq公司LPU產品爆火,對半導體產業有何啓示?暫時拋開性價比談算力,靠產品高投入、高定價去滿足特定需求,這種思路有沒有可能成爲一種新的商業模式?
▍億鑄科技Ray:在商業環境下,只考慮性能不考慮成本是不現實的。
在面對未來的智能經濟這一議題,不少業內人士紛紛提出了“急需降低算力成本”這一訴求,這也是當前發展AI產業最強烈和剛性的需求。
在未來,如果要讓AI等同於水、電……成爲所有人的生產生活不可或缺的重要生產要素,它的算力成本就需要降低到能支持產業進一步升級並具備能被廣泛使用的普適性。如果說大模型的任務是讓AI“夠聰明”的話,那麼算力的任務就是讓AI“夠便宜”,兩者應共同發展直到AI作爲一個全新的生產要素在更大範圍內參與生產和生活,真正惠及千行百業。
另外,滿足特定需求的AI計算芯片可以統稱爲ASIC芯片,這一賽道上谷歌已經研究多年,其最大的缺陷在於通用性。正如一些專家分析的,從技術和性能上來看,Groq目前還不能撼動英偉達的地位。因爲英偉達的GPU產品是通用的,而Groq的產品形態是ASIC,它不是通用產品,而是一個定製產品。
簡單點來說,任何一個人工智能算法都可以使用英偉達的H200,但只有Mixtral和Llama 2才能使用Groq的LPU。大模型公司想要使用Groq的產品,還需要先確定需求和指定規格,再進行功能驗證,最後生產出來的產品才能使用。
這就帶來了實際使用中的價格問題。Lepton AI的賈揚清做了一個詳細的計算,發現如果運行三年的話,Groq的硬件採購成本是 1144 萬美元,運營成本是76.2萬美元或更高。8卡H100的硬件採購成本是30萬美元,運營成本是7.2萬美元或略低。
而對於國內的AI計算芯片來說,還需要克服先進製程依賴的問題,這也使得我們很難複製Groq的成功。
▍《科創板日報》:SRAM本身是比較成熟的技術,那麼現階段對SRAM技術和方案的討論,在您看來在哪些領域或解決什麼樣的問題纔是真正有價值的?
▍億鑄科技Ray:基於大容量SRAM的LPU芯片的爆火體現了對於算力越來越大的需求,因爲其相比於GPU,推理速度大幅提升。而在今後的發展過程中,前面提到的算力成本的降低將成爲非常重要的問題,並且在保持高算力的情況下,提升能效比也應當是亟須進一步解決的問題。這也爲基於ReRAM等其他新型高密度非易失性存儲器,通過存內計算的方式進行高算力、低功耗的計算,提供了很好的機會。