百度百舸AI計算平臺4.0發佈:模型訓練有效時長達99.5%

9月25日消息,在2024百度雲智大會上,百度智能雲宣佈將百舸AI異構計算平臺全面升級至4.0版本。升級後的百舸,圍繞落地大模型全旅程的算力需求,在集羣創建、開發實驗、模型訓練、模型推理四大方面,爲企業提供“多、快、穩、省”的AI基礎設施。

爲了解決算力資源短缺的問題,百舸4.0對“多芯混訓”能力進行了重點升級,實現了在萬卡規模集羣上95%的多芯混合訓練效能,達到業務最領先水平。

在集羣部署環節,升級後的百舸能夠實現工具層面的秒級部署,將萬卡集羣運行準備時間從數週最快縮減至1小時,極大地提升部署效率,縮短業務上線週期。

針對大模型訓練過程中故障頻發的問題,百舸4.0全面升級了故障檢測手段和自動容錯機制,可以有效降低故障發生頻次,大幅減少集羣故障處置時間,在萬卡集羣上實現了超過99.5%的有效訓練時長。

在模型推理上,最重要的是速度和成本。現在長文本推理逐漸成爲主流,百舸4.0整體上做了推理速度和成本優化,長文本推理效率提升了1倍以上。(定西)

本文來自本站科技報道,更多資訊和深度內容,關注我們。