英偉達“超神”的背後:AI廠商迫切地在MoE模型上尋求算力新解法

在過去的一年多時間內,英偉達破天荒地完成了市值的“三級跳”。

一年前,英偉達的市值並尚不足1萬億美元,位居谷歌母公司Alphabet、亞馬遜、蘋果和微軟等科技巨頭之後。

時至今日,英偉達市值突破3萬億美元,超越蘋果,僅次於微軟。

這樣的成就歸功於英偉達在AI芯片領域的顯著優勢。隨着生成式AI進入規模化爆發階段,算力需求愈發膨脹,由此英偉達的AI芯片便成了市場的“香餑餑”。

然而,市場對算力的需求遠超大衆的想象,英偉達的高端芯片也是一卡難求,在這個節點上AI行業不得不在其他層面上尋求破局算力荒的新解法。

如今,在算法架構上,MoE混合專家模型憑藉其在算力效率上的顯著優勢持續走紅,成爲越來越多AI廠商共同探索的新方向。

那麼,MoE模型的走紅,是否真的能爲AI行業破解算力荒?

MoE模型劍指算力效率:優化算法,壓榨性能

區別於稠密(Dense)模型,MoE模型採用採用稀疏激活機制,在處理任務的過程中往往可以根據不同的任務需求,只需要激活一部分專家網絡即可,而非激活全部參數,從而很好地提高了計算效率,更高效地利用計算資源。

比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在總參數量爲143億的情況下,每次推理只激活27億參數。類似的,DeepSeek-MoE 16B的總參數量爲164億,但每次推理只激活約28億的參數等等。

以上這種設計,就有效平衡了模型的性能與計算資源的使用效率。

因此,儘管MoE模型通常擁有更多的參數,但由於其稀疏性,訓練開銷可以顯著降低。又比如,在實踐中,使用Qwen1.5-MoE-A2.7B相比於Qwen1.5-7B,訓練成本顯著降低了75%。

再以浪潮信息的源2.0-M32開源MoE模型來說,我們發現,源2.0-M32在2顆CPU,80GB內存的單臺服務器上即可部署高性能推理服務,而Llama3-70B則需要在4顆80G顯存的GPU服務器上才能完成部署和運行。

通過這樣的對比,就可以發現,憑藉MoE模型在算力效率上的顯著優勢便能在AI基礎設施層面減少投入,緩解對高端GPU芯片的過度依賴。根據推算性能測試,如今源2.0-M32的單Token推理算力需求是Llama3-70B的1/19。

之所以能達到這樣的效果,是因爲MoE模型通過將模型劃分爲多個小型的專家網絡,而這種劃分允許模型在保持性能的同時,減少所需的存儲空間和內存帶寬。由於在訓練過程中模型大小的減少,MoE模型需要的計算資源也隨之減少,這意味着相比於同等性能的密集模型,MoE可以以更低的硬件成本和更短的訓練時間完成訓練。

可以說,MoE模型本質上是一種高效的Scaling技術,在允許參數規模拓展的過程中也爲算力投入提供了一個較好的解決方案,讓大模型在保證規模和精度的同時具備了加速落地的可能。

更少的算力是否意味着性能打折?

儘管MoE模型可以用較少的算力去進行訓練,但這並不意味着其性能會大打折扣。

在實踐中,MoE模型通過細粒度專家的設計、非從頭訓練的初始化方法和帶有共享及路由專家的路由機制等技術創新,使模型在保持較小參數量的同時,能夠激活並利用更加精細的計算資源。這也就使得MoE模型在保持高性能的同時,有效降低了計算資源消耗。

簡單對比一下MoE模型和Dense模型的計算性能,源2.0-M32在支持BF16精度的2顆CPU服務器上,約20小時就能完成1萬條樣本的全量微調。而在同樣的CPU服務器上,Llama3-70B完成全量微調則是需要約16天的時間。

由此來說,MoE模型在計算性能上並沒有因爲算力的問題而大打折扣,反而還提升了不少。同樣的算力支持,MoE模型可以產出更智能的應用和實現更高效的性能。

這樣的結果涉及MoE模型多種算法的創新和優化。MoE模型通過引入專家網絡(Expert Networks)和門控機制(Gating Mechanism)實現了模型的稀疏化和模塊化,但是模型的性能問題依舊還沒有得到很好的解決和優化。

隨後,行業繼續從不同的角度對MoE模型的性能提升進行探索。其中,QLoRA微調技術是針對預訓練模型的,通過對專家網絡的參數進行低秩分解,將高維參數矩陣分解爲低秩矩陣的乘積。然後對這些低秩矩陣和量化參數進行微調,而不是整個專家網絡參數,進一步提升模型的性能。

同時,微軟又提出了一個端到端的MoE訓練和推理解決方案DeepSpeed-MoE,其通過深度優化MoE在並行訓練中的通信,減少通信開銷,並實現高效的模型並行。此外,DeepSpeed-MoE還提出了基於微調的專家排序機制,可以根據訓練過程中專家的損失動態調整輸入樣本到專家的分配,提升效果。

總的來說,針對MoE模型的性能問題,業內一直在致力於創新和探索新的算法和技術來進行提升和優化。目前,MoE所展現出了巨大的性能潛力,並不輸Dense模型。

現階段,算力吃緊是不爭的事實,日趨激烈的算力需求促使了英偉達的“超神”故事。但是,AI大模型廠商們也並非坐以待斃,針對算法架構層面的創新和優化持續涌現,MoE模型的走紅正預示着AI行業進入了算法+基礎設施兩手抓的階段。

可以預見的是,MoE模型的持續迭代在解決AI算力荒的同時也在跨越式地提升AI模型的性能,把人工智能帶入一個全新的發展階段。胡適曾提到一種經典的戰略思想:大膽假設,小心求證。

從某種程度來說,MoE模型的走紅,恰恰是這一戰略思路的呈現。AI行業對算力、性能等問題的探討,在假設和求證中,MoE模型爲人工智能找到了一條更爲清晰的發展之路。