AI落地千行百業,存儲痛點凸顯,浪潮信息如何助力AI向實?
智東西作者 陳駿達編輯 漠影
AI時代,存儲不僅是數據的棲息之地,更是AI模型訓練、落地過程中的堅實底座。
在AI開啓的存儲行業新週期中,衆多廠商已將帶寬等性能指標卷至新的高度。然而,這種追求似乎將AI這一複雜應用場景簡單地“存儲化”了。
實際上,AI對存儲的需求遠不止於性能這一維度本身,更需要讓存儲“AI化”,關注整體存儲解決方案與AI應用場景的契合度。這一點,也是全球唯一的AI/ML存儲基準測試——MLPerf所關注的本質。
MLPerf存儲基準測試面向AI/ML用戶的痛點,即存儲和計算的平衡及兩者的有效利用。然而測試中存儲架構的多樣與存算節點的非標準化,導致性能數據本身的參考價值有所下降。
在性能數據之外,有無另一指標可以更爲準確地反映存儲系統在AI場景的表現呢?MLPerf存儲基準測試要求加速器利用率需達到90%或70%,在這一區間內考覈節點所能支持的最大加速卡數,測試其能否儘可能跑滿每個客戶端的理論帶寬,以實現最佳存儲性能。
在MLPerf存儲基準測試中,由於理論帶寬是統一的,因此所有廠商的解決方案均可歸一化到網絡利用率這一指標上,進行相對客觀的評估。網絡利用率的提高意味着成本的降低,算力潛能的更充分釋放,存儲與AI應用場景的契合度也越高。
今年9月,新一輪MLPerf存儲基準測試成績發佈,其中,中國企業浪潮信息的分佈式存儲平臺AS13000G7,在圖像分割模型3D-UNet和天文學模型CosmoFlow共計8項測試中斬獲5項最佳成績。這一平臺在網絡利用率上展現出20%左右的優勢,斷層領先。
值得一提的是,本次MLPerf存儲基準測試已升級至1.0版本,這一升級提出了哪些新的要求,浪潮信息又是如何憑藉其技術積澱與整體解決方案,獲得新版測試中的多項最佳成績的呢?
一、MLPerf測試迎升級,存儲助力AI算天文分圖像
2018年,圖靈獎得主大衛·帕特森(David Patterson)聯合斯坦福、哈佛等頂尖學術機構和谷歌、百度等AI行業頭部企業,共同發起了MLCommons協會,同年推出首款測試套件MLPerf,目前,該測試是影響力最廣的國際AI性能基準評測之一。
▲圖靈獎得主大衛·帕特森(圖源:ACM)
MLPerf系列測試套件得到學界和產業界的廣泛認可。其中,MLPerf存儲基準測試是專門用於AI複雜負載下存儲系統性能的測試套件,最大程度地模擬了AI任務的真實負載,數據訪問的pipeline、架構、軟件棧均與實際訓練程序無異,已成爲AI/ML模型開發者選擇存儲解決方案的權威參考依據。
▲浪潮信息是MLCommons的創始成員之一(圖源:MLCommons官網)
本次MLPerf存儲基準測試1.0版本測試吸引了全球13家領先存儲廠商和研究機構的參與,測試內容也迎來重大升級,迴應了當下複雜AI應用場景對存儲提出的新需求。
一方面,存儲系統的帶寬峰值處理能力迎來新的挑戰,測試特別關注了在高性能GPU達到一定使用率的情況下,存儲系統能爲AI集羣提供的整體帶寬和單個節點的帶寬。
另一方面,測試還強化了對分佈式訓練的考察,特別關注每個存儲節點能夠支持的GPU數量,以此來衡量用戶在AI存儲方面的投資效益。
在本次測試中,浪潮信息使用3臺AS13000G7平臺搭建分佈式存儲集羣,並配備ICFS自研分佈式文件系統,參與了3D-UNet和CosmoFlow兩個單項的測試。
作爲圖像分割領域最具影響力的AI模型,3D-UNet模型的測試中使用了海量的圖像類非結構化數據,要求存儲平臺具備高帶寬、低時延的特點,才能保證GPU的高效利用。CosmoFlow宇宙學分析模型參數量僅有10萬-20萬,如此之小的模型對時延提出了更高的要求。二者都是典型的數據密集型應用。
在3D-UNet多客戶端2評測任務中,浪潮信息的存儲平臺服務於10個客戶端264個加速器,集羣聚合帶寬達到360GB/s,單個存儲節點的帶寬高達120GB/s。
在宇宙學分析CosmoFlow單客戶端2和多客戶端2評測任務中,浪潮信息的存儲平臺分別提供了18 GB/s和52 GB/s的帶寬最佳成績。
二、契合AI使用場景,兼顧性能、效率、韌性
浪潮信息多項最佳成績的背後,是其面向AI時代,提升存儲平臺性能、效率和韌性的努力。
性能層面,浪潮自研分佈式軟件棧中的全新數控分離架構解決了分佈式存儲數據流在節點間流轉的轉發問題,減少東西向(節點間)數據轉發量80%。這一性能的提升能幫助客戶節省大量的存儲成本,系統性價比也相應改善。
效率層面,浪潮信息通過多協議數據融合技術,解決了AI應用場景使用多種數據接入協議造成的存儲效率問題,最高可節省50%的數據存儲空間。
韌性層面,爲滿足AI業務對持續性的要求,浪潮信息的可靠性主動管理技術、AIOps系統故障預測算法和勒索軟件檢測技術,有效預防了設備故障和數據安全問題的出現。相關技術對硬盤故障的預測準確率達到98%,對勒索軟件的檢測漏報率僅有0.029%。
如何將技術整合落地,將技術指標轉化爲實際效果,最終形成完整且適配AI場景的解決方案,則是真正造福AI行業客戶的關鍵。
浪潮信息與AI場景緊密契合,憑藉其產品場景化定製能力與成熟的AI場景解決方案能力,打造出了真正貼合AI需求的存儲產品,爲AI場景構建堅實的數據支撐平臺。
以本次測試中3D-UNet加速器H多客戶端下的測試結果爲例,浪潮信息的多路併發透傳技術有效減少了I/O操作中頻繁的上下文切換,降低單次I/O時延50%。本次測試的3D-UNet場景中,3節點存儲支撐了1430個高併發讀線程,計算節點網絡利用率達到了72%。
網絡利用率的提高有效降低了網絡資源的浪費。在客戶端配置雙網卡情況下,部分參賽解決方案僅有50%的網絡利用率,意味着整套方案實質上浪費了近乎一整張網卡資源,大大增加了總體成本。
若在大模型訓練的萬卡集羣下,低網絡利用率造成的網卡資源的浪費可能高達數千萬級別,更不必說設備擴容所引發的算力利用率下降、連接線增加、運維複雜度提升等連鎖成本效應。
對於本就成本高昂的AI基礎設施而言,任何可以削減的開支都顯得尤爲關鍵。浪潮信息存儲解決方案在網絡利用率上的明顯優勢,證明了相關方案對AI場景的高度適配。
在實踐中,浪潮信息的存儲解決方案已經在互聯網企業大模型訓練推理場景、大型AI算力中心與某國家重點實驗室中落地。
例如,在大模型場景訓練中,浪潮信息通過增加全閃存儲幫助客戶實現效率提升,將斷電續訓時間降低到分鐘級別。新增20臺全閃存儲提升的效率,相當於新增了10多臺GPU服務器,從投資角度上來看,每100萬存儲投資相當於300萬的GPU服務器投資。
而針對大模型推理場景中多文件協議特點,浪潮信息的融合存儲方案讓客戶節省了協議轉化的時間,使得數據彙集準備時間節省30%,存儲空間也大幅節省。
結語:生成式AI步入下半場,存儲成AI向實關鍵
據工信部測算,到2035年,中國生成式AI的市場規模將突破30萬億元,製造業、醫療健康、電信行業和零售業對生成式AI技術的採用率迎來較快增長。
2024年,生成式AI正以前所未有的速度走入千行百業。AI行業已經由百模大戰時期的“卷模型”,轉變爲“卷場景、卷應用”,或將迎來下半場的角逐。
在AI向實發展的進程中,數據是連接物理世界與數字世界的重要橋樑,而存儲作爲數據的載體,持續在AI落地的實踐中發揮關鍵作用。