中金:大模型迭代持續推動計算量擴張 算力需求“奇點”可能到來

智通財經APP獲悉,中金髮布研究報告稱,未來Sora及類似大模型的迭代會持續推動計算量的擴張,算力需求“奇點”可能到來。但因當下單位算力成本依然較高,大模型構建者也在考慮一系列算法優化來節約計算量。該行認爲,新時代下算力需求規模增長毋庸置疑,但同時降本也是客戶的呼籲。該行相信“以價換量”模式會推動算力芯片市場規模再創新高,並支撐人類尋找到“世界模型”。

中金觀點如下:

訓練側來看,Sora的算力成本理論計算值約爲GPT-4的10倍。

根據該行測算,若Sora基於現實世界所貢獻視頻的一定比例訓練,且輸入數據考慮特定比例的時間壓縮、圖像分辨率不壓縮,Sora的訓練算力成本理論計算值可能達到約10倍GPT-4的水平,其主要原因源自於長token的問題,參數所貢獻的計算量並不高(僅30B)。細化來看,若1920*1080分辨率視頻僅進行幀率壓縮,1min視頻所轉化到潛在空間內的patch可能高達百萬級別(即1M token),長token導致的計算量大幅度上升是transformer架構模型難以避免的問題。雖然該行的理論推導得出Sora訓練成本高於GPT-4的結論,但實際來看,因單位算力成本高,該行認爲Open AI可能結合一些節省訓練成本來獲得高質量模型(如結合高質量大規模的數據標記、或結合低分辨率長視頻+高分辨率短視頻訓練的方式),算力消耗的實際值可能會低於該行的理論計算值,這是當下大模型企業所努力的方向。

推理側來看,Sora的算力成本理論計算值高達約GPT-4的2000倍。

由於擴散類模型去噪過程需要多步迭代、視頻一致性問題需長token的一次性輸出,以大語言類模型處理2k tokens,與文生視頻模型生成1min視頻做對比來看,該行得到Sora的推理算力成本的理論計算值可能會是GPT-4的2000倍,該行認爲這需要算力性能更強的芯片來支撐;同時,當前主流GPU單機8卡推理可能面臨算力不足的問題,文生視頻模型在推理端需更大規模的AI芯片集羣支持推理,有望帶來光模塊、交換機等設備需求。

積極關注可能節約算力的技術方向。

Transformer對於長文本的自注意力機制的計算量會隨着上下文長度的增加呈平方級增長是既定事實,但該行近期也看到,如Mamba採用了可擴展性更強的狀態空間模型(SSM)主幹替代了傳統架構中的注意力機制,可以使用更少的算力,生成高分辨率圖像。

風險提示:大模型技術發展不及預期;Transformer主流技術路線發生變化,理論計算可能與實際存在差異。