天雲融創軟件:提升計算性能的秘密——容器與裸金屬混合調度管理

(原標題:天雲融創軟件:提升計算性能的秘密——容器與裸金屬混合調度管理)

AI算力運營現狀

今天,如果隨便打開一個提供AI算力運營的平臺,基本上都是基於容器雲,即Kubernetes架構的。這種架構有許多優越性,對於平臺開發者來說門檻低,可以藉助於國外開源社區的代碼、知識和方案,只需在上面構建用戶界面和運營功能,即可提供簡單的算力運營功能。

客戶需求多樣化

隨着客戶羣體範圍不斷拓展,既有需要藉助外部推理服務和應用使用AI的用戶,也有擁有自己AI團隊、用自有數據訓練大模型的大型企業。許多用戶利用天雲融創軟件的SkyForm算力調度平臺管理GPU算例進行應用開發,需要連接本地IDE與算力池中的資源;生物信息行業不僅需要GPU資源運行如AlphaFold這樣的AI應用,還需要CPU資源進行基因分析。算力的多樣性可以大大提高資源利用率,降低算力運營者的成本。

容器集羣方案的侷限性

由於大部分AI用戶習慣使用容器的方式進行模型訓練和推理,天雲融創軟件起初也像其他算力運營平臺一樣,重點支持單個和多個容器組合的應用。然而,隨着客戶羣體的擴大和應用形態及算力需求的多樣化,我們發現現有的容器集羣方案存在許多侷限性:

1.模型訓練中調整依賴組件:每次都需重新制作鏡像,對於需要頻繁調整庫和方法的開發人員來說,調試周期長,效率低。

2.多機訓練鏡像瓶頸:多機訓練時,從鏡像庫下拉鏡像效率低,啓動時間長,鏡像倉庫容易成爲瓶頸。

3.GPU故障處理複雜:在大規模GPU集羣中,故障處理複雜,需自動判斷和處理故障GPU,並重新調度任務。

4.複雜任務調度能力不足:AI和大數據任務需要高併發、低延遲的調度能力,Kubernetes缺乏複雜任務調度能力。

5.存算分離架構延遲:Kubernetes的存算分離架構增加了數據訪問延遲,影響計算效率,特別是在AI和大數據場景下。

6.本地IDE開發限制:許多開發者希望使用本地IDE(如VSCode),通過SSH遠程連接算力池開發模型和應用,現有方案需要提供複雜的網絡轉發功能。

天雲融創軟件的解決方案

基於上述問題,天雲融創軟件開發了同時支持裸金屬(HPC)和容器應用的SkyForm算力調度系統。這一系統不僅能調度多容器應用,還能同時調度和運行裸金屬HPC應用。

在裸金屬上使用Conda建立個人的用戶空間,既能達到與容器類似的固化軟件組件和庫的功能,還能避免下拉容器鏡像的動作,將大型分佈式模型的啓動時間從幾十分鐘縮短到十幾分鍾。

天雲融創軟件的SkyForm調度器每15秒鐘監視一次GPU的健康狀況,自動處理故障GPU,重新調度任務,實現模型的斷點續訓或推理的自動恢復。

通過我們產品自帶的4層和7層網絡協議轉發,用戶可以動態申請GPU資源,然後使用自己桌面上的VSCode,安裝遠程連接插件,通過SSH與分配的容器資源聯通,實現遠程開發功能。

最後

天雲融創軟件的SkyForm算力調度管理平臺已經在國內多家智算/超算中心、多個行業領域部署應用,爲AI訓練和推理提供安全可靠的算力服務。我們堅持裸金屬和容器混合算力調度和管理,以滿足多樣化的客戶需求,提高算力資源利用率,降低運營成本。