輝達AI晶片H200 創MLPerf的Llama 2基準測試紀錄
輝達(NVIDIA)身爲當前的AI霸主,28日宣佈該公司在業界標準測試中提供了世界上最快的生成式AI推論平臺。
在最新的MLPerf基準測試中,NVIDIA TensorRT-LLM這個可加速和簡化大型語言模型複雜推論工作的軟體,將GPT-J LLM上的NVIDIA Hopper架構GPU效能較六個月前提高近3倍。
在輝達H200 Tensor核心GPU上運行的TensorRT-LLM,在MLPerf 迄今爲止最大規模的生成式AI測試中,提供最快的運行推論效能。
新的基準測試使用Llama 2的最大版本,Llama 2是最先進的大型語言模型,包含700億個參數。該模型比9月基準測試中首次使用的GPT-J大型語言模型大10倍以上。
記憶體增強型H200 GPU在MLPerf首次亮相時,使用TensorRT-LLM每秒產生高達31,000個詞元,創下MLPerf的Llama 2基準測試紀錄。
輝達指出,現在已提供 H200 GPU供客戶測試,並將於第2季出貨。H200 GPU很快將由近20家系統制造商和雲端服務供應商提供。H200 GPU包含141GB高頻寬記憶體HBM3e,與H100 GPU相比,記憶體增加76%,運行速度提高43%。
輝達表示,Hopper GPU 在最新一輪MLPerf產業基準測試中,橫掃了所有AI推論測試。MLPerf的測試透明且客觀,因此使用者可以依靠結果做出明智的購買決定。而輝達的合作伙伴參與 MLPerf ,是因爲他們知道這對客戶評估AI系統和服務來說是一個很有價值的工具。
這次在NVIDIA AI平臺上提交結果的合作伙伴,包括華碩(2357)、思科、戴爾、富士通、技嘉(2376)、Google、慧與科技、聯想、微軟Azure、甲骨文、雲達科技、美超微、VMware和緯穎(6669)。