螞蟻推AI技術 大模型訓練提高33%GPU顯存 推理提速2倍

螞蟻集團在整改工作之外,持續AI大模型領域深耕,目前推出「GMLake」與「Lookahead推理加速框架」,協助解決大模型訓練中遇到的難題。新華社

螞蟻集團在整改之外,在AI大模型領域上仍邁開技術自研步伐。近期新浪科技報導,螞蟻集團推出技術框架「GMLake」,該框架能夠解決大模型訓練中的顯存問題,最多提高33%的GPU可用顯存;同時近期螞蟻也開源新算法「Lookahead推理加速框架」,降低推理耗時。

和訊網報導,在ChatGPT浪潮下,生成式大模型正引領當前AI發展。而爲了訓練得到高效大模型,需要強大和昂貴的基礎算力支撐。目前制約高效訓練的因素中,除了算力,顯存容量也非常關鍵,即「內存牆」問題。

一段時間以來,業界已有很多優化工作,包括模型、框架層的改造,甚至犧牲模型精度。目前業界廣泛使用的訓練框架如PyTorch存在顯存管理效率不高,顯存資源碎片化的現象,而當業界使用優化手段後,碎片化問題反而更突出。

因此螞蟻集團和上海交通大學合作GMLake技術研究。該框架採用虛擬、物理兩層指針,將碎片化的顯存靈活地拼接起來,從而實現了聚零爲整。

值得一提的是,GMLake對典型大模型如GPT、GLM、Vicuna等進行了詳細評測,最高擴大了約33%的可用顯存,即在80GB的A100 GPU上節省約25GB的顯存,訓練吞吐提高最多4倍。

據瞭解,GMLake目前已在PyTorch框架上完成集成,對上層模型代碼和框架代碼完全透明,換言之模型不需要修改任何代碼便能使用。

此外,螞蟻集團還開源一套新算法「Lookahead推理加速框架」,能幫助大模型在推理時,提速2至6倍,效果無損,即插即用,該算法已在螞蟻大量場景進行了落地,大幅降低推理耗時。

據IT時報指出,原來詞元(token)生成過程,就像早期中文輸入法,只能一個字一個字「敲」出來,如採用螞蟻加速算法後,token生成就像聯想輸入法,有些整句可直接「蹦」出來。

螞蟻集團首席技術官何徵宇近日通過科創板日報表示,大模型真正歷史性的突破是幫助行業生產力提升,而且有可能讓人類社會生產力劇增。「我們做大模型技術的最終目標還是會面向產業,也包括金融產業、醫療產業等專業服務場景,幫助他們去做產業升級。」而螞蟻集團發言人在去年11月表示,在獲得大陸官方批准後,集團AI大模型百靈大模型多款產品將向公衆開放。