中科院計算所與阿里雲發佈高通量以太網協議
AI技術爆發性增長引發算力需求,算法優化、硬件升級、系統架構等多維度都需要深度創新,以滿足日益增長的計算密集型任務處理需求。
9月24日,在全國高性能計算學術年會上,由中國科學院計算技術研究所、阿里雲等超40家機構組建的高通量以太網聯盟(ETH+ Consortium)對外發布高通量以太網ETH+協議1.0版本,基於ETH+協議的網絡協議IP、開源網卡等硬件和系統也首次公開。
智算網絡的底層基礎是網絡協議,以高通量以太網爲核心的新一代開放智算網絡加速從實驗室走向產業化應用,爲大模型時代提供網絡基礎。
在大模型時代,單純依賴單卡性能提升已不足以應對訓練和推理過程中迅猛增長的算力需求,網絡對系統的重要性日益凸顯,資金投入和市場需求迅速增長,產業生態競爭也更加激烈。在此背景下,中國科學院計算技術研究所和阿里雲於去年7月聯合發起成立智算網絡生態組織“高通量以太網聯盟”,希望基於開源開放的技術理念構建我國智算網絡生態。高通量以太網聯盟成員還包括北京大學、平頭哥、盛科、騰訊、字節跳動、中興、新華三、雲合智網、壁仞等40餘家機構和企業。
高通量以太網聯盟共同主席、阿里雲研發副總裁、基礎設施網絡負責人蔡德忠表示,聯盟集結了產學研用各方力量,旨在基於開放以太網生態,面向智算網絡研發及制定統一的技術標準和底座。聯盟將促進國內芯片公司間的合作與交流,推動技術創新和成果轉化。高通量以太網ETH+協議優化了幀格式,有效載荷比提升74%,數據傳輸效率提高。通過深度支持鏈路層和物理層的重傳技術,ETH+以太網的語義可靠性得到提升。基於RDMA在網計算技術,集合通信性能提升30%以上。目前已有多家芯片公司基於ETH+協議實現相關產品的研發和落地,預計明年初將有一批基於國產網絡芯片的集羣面世。