黃鐵軍:大模型時代,AI生態何以“根深葉茂”

6月1日,在2022智源大會“人工智能新基建”專題論壇上,北京智源人工智能研究院院長、北京大學教授黃鐵軍發表了題爲《大模型時代的人工智能基礎設施》的專題報告。

報告中,黃院長介紹了大模型在人工智能生態中的重要地位,指出基礎模型是未來人工智能生態之[腰桿],向下帶動基礎軟硬件樹大根深,向上支撐智能應用枝繁葉茂;此外,他還介紹了智源研究院建設「九鼎」智算平臺的初衷和意義,暢想了人工智能時代信息產業的商業模式。

以下是黃鐵軍院長演講內容的精華整理:

大模型時代到來

衆所周知,當前人工智能發展有三條主要技術路線:

深度學習方法與大數據訓練相結合,實現信息智能

以強化學習爲核心,構建環境模型,實現具身智能

解析模擬生物神經系統結構和機理,實現類腦智能

以上實現智能的三種範式都有一個共同需求,即算力。人工智能不是一套公式,是基於算力不斷訓練和迭代的結果,訓練是人工智能發展不可或缺的支撐。

在過去,絕大部分人工智能企業和研究機構都遵循算法、算力和數據三位一體的研究範式:以一定的算力和數據爲基礎,使用開源算法框架訓練智能模型。如今這種情況發生根本性變化,一個顯著的特徵是:模型訓練算力增長脫離摩爾定律,可以稱之爲人工智能時代“模型定律”。

半導體芯片領域有一條著名的「摩爾定律」延續了 50 餘年:在價格不變的情況下,集成電路上可容納的元器件的數目,約每隔 18-24 個月翻一番,性能也將提升一倍。從某種意義上說,「摩爾定律」就是信息產業的心跳節奏。

在過去十年中,這一節奏陡然加快,人工智能模型訓練需要的算力 1 年翻了 10 番,而摩爾定律是2年翻一番。人工智能發展急速向前拉動算力高速增長,如今興起的大模型浪潮,就是帶動算力發展的主力軍。

在去年的智源大會上,智源研究院發佈了當時全球規模最大、性能最強的智能模型「悟道2.0」,這項工作由 100 餘位科學家歷經 8 個多月共同打造。在此之後,國內外更多大模型相關成果如雨後春筍般破土而出。

包括OpenAI、Google、微軟、英偉達、百度、華爲、阿里巴巴等企業巨頭,清華、北大、UC Berkeley 等海內外院校,韓國、以色列等國家都推出了「大模型」。“大煉大模型”儼然已成爲當前人工智能發展的主旋律。

但問題也隨之而來:耗費巨大算力的大模型難道就會這樣野蠻生長下去?沒有任何產業只追求“性能”,而不考慮成本和可用性。我們認爲同質化訓練大模型不可能長久,大模型不在多,也不可能多,當務之急是構建一個“大模型生態”,這纔是未來大模型運營服務和智能應用的強大基座。

大模型:人工智能生態之「腰桿」

大模型是人工智能領域發展的重要方向,人工智能之爭最終是生態之爭。人工智能生態的構建涉及「基礎軟硬件」、「基礎模型」和「創新應用」三個層次。基礎軟硬件,也就是智能模型的底層芯片、算法和系統,是「根基」;創新應用建立在基礎模型之上,以不同模型的疊加,滿足多樣化的應用場景。

換言之,基礎模型向下可以帶動基礎軟硬件發展,向上可以支撐智能應用枝繁葉茂,是人工智能生態的「腰桿」。只有腰桿硬了,人工智能發展才能根深葉茂:

以基礎模型爲橋樑,帶動人工智能基礎算法、雲邊端芯片和開源開放平臺研發,構建自主可控的基礎軟硬件技術體系和匯融算力及數據資源的國家智算體系。同時,打造人工智能基礎模型開源技術體系,助力產出規模和性能國際領先的模型,支撐國家安全、工農生產、社會治理、人民健康等應用創新和國際擴展。

大模型訓練消耗巨大算力,造成巨大碳排放,不是健康可持續的長久之計。昨天科技部李萌副部長在致辭中強調:要減少同質化重複性的模型訓練。那麼如何實現?我認爲應該靜下心來關注模型背後的技術創新,比如算法體系是否先進,模型訓練高不高效,而不是紛紛推出名稱繁多但內核類似的各種大模型。總的來說,大模型時代,我們要抓住的核心是技術突破,不是再多個大模型的問題。

“科技創新2030”新一代人工智能重大科技項目專家組特別重視大模型發展,在科技部指導下提出大模型(或稱基礎模型)研究開發和應用生態建設工作應該分兩個層次:

1. 創建公共數據集、工程測試等事務性、支撐性的工作。制定評估標準和計量指標,構建智能模型訓練評估數據集、技術評估體系和評測基準與工具、技術集成驗證和開源開放平臺。

2. 關鍵技術研究。全國範圍內的產、學、研機構開放性競爭,提出更智能、更可信、更高效的算法,開放競爭,開源迭代,形成既競爭又合作的基礎模型創新體系和健康的生態。

由此產生的算法體系、訓練技術和示範模型以開源開放方式提供給國內外應用。

大模型試驗場:「九鼎」智算平臺

昨天大會開幕式上,智源研究院總工程師林詠華髮布了大型智算服務平臺「九鼎」。該平臺的核心目標之一是支撐通用智能大模型訓練,助力AI for Science等前沿探索方向,爲未來十年人工智能發展提供新型計算範式。

九鼎平臺今年算力規模達到1000P,提供400Gbps高速互連能力的高性能環境,能夠支持各種算法的驗證和測試,拉動國產芯片的協同發展和持續優化。

在構建「九鼎」智算平臺的過程中,智源研究院與華爲、崑崙芯科技、海光信息、天數微芯、燧原科技等芯片企業,北京大學、清華大學、中科院計算所等科研團隊共建「AI 芯片生態實驗室」,通過大模型訓練場景拉動芯片產業發展,共鑄人工智能堅實的算力基礎。

人工智能時代的商業模式

大模型將帶來什麼樣的一個技術和產業形態?這是一個非常重要的問題。自18世紀以來,每一次技術革命都伴隨着新的基礎設施建設和完善。在第三次工業革命中,信息產業經歷了「計算時代」、「網絡時代」,正在步入「智能時代」。

以前「計算時代」的主要商業模式是賣產品;「網絡時代」的主要商業模式是賣服務。現在,我們需要思考「智能時代」的商業模式是什麼,算力、數據、算法如何在國家發展中更好地發揮作用?

我認爲,在智能時代,人工智能的商業模式一定是“雲化”,以雲的形式隨時隨地向用戶輸送智力服務。從這個角度來講,未來大模型,或者超大模型會出現多少個?我大膽地猜想,長期來看,全球範圍內不會超過 3 個,2個可能性大,只有1個的情況幾乎不可能。

我這樣猜測,主要理由是真正部署的智能大模型必須具備「高智能性」、「高實時性」和「全知全能」的特性,可以像獲取水、電、信息服務一樣便捷。具體從應用、數據、算力、算法方面而言,它應具備以下特點:

應用層面:以數字化形式提供智能服務;

數據層面:能夠獲取全量數據,實時無差別面向全球提供服務;

算力層面:協同使用多個算力中心資源,24*7連續訓練;

算法層面:以Linux模式建構大模型開源算法體系。

這是一個比電信運營商還要巨大的智力運營商,一般高校、科研機構和企業根本沒有能力協調這些數據資源、調度這些算力進行全天候訓練。此外,上述智能運營服務背後的技術有賴於全世界範圍內的研究人員共同協作,構建大模型開源算法體系。

大模型發展追求最大數據、最強算力和最優質的開源算法,以訓練出智商最高的超大模型,爲全世界儘可能多的用戶服務。從「大煉模型」走向「共煉大模型」,基於統一的運營框架彙集資源,提供更好的智能服務將成爲主要趨勢。

那麼誰可以勝任這項工作?

在美國,可能性最大的是谷歌。谷歌通過搜索引擎、移動互聯網、安卓系統收集了海量數據,擁有廣大的移動端用戶,其核心技術和專利儲備也足夠充分。其次是OpenAI+微軟,人工智能新銳和傳統信息產業巨頭聯手,將大模型技術與巨頭的雲服務結合,也有望成爲美國的大模型運營商。

在中國,百度可以對標前者,華爲可以對標後者,但也都有侷限性。更大的可能是籌劃國家級人工智能服務運營商,並以此拉動人工智能全局發展,就像電信運營商拉動了華爲等企業發展一樣。從計算機到互聯網,再到移動互聯網,我們沒抓住生態,所以總是補短板,在智能時代,我們迫切需要抓住時代發展的新機遇,統籌數據,調度算力,組織起開源開放的算法體系,支撐國家級智能運營服務,發展國際智能服務。

總結

「大煉模型」時代已成爲歷史,國家對「碳排放」的要求也不允許同質化的「大煉大模型」。未來大模型不是一個產品,而是智能運營,要像供應水、電、氣、信息一樣提供源源不斷的智力,回頭看看電網、電信、互聯網和移動互聯網發展,就知道我們應該幹什麼了,人工智能的核心是生態建設和運營,這纔是人工智能發展長久之計。

新一代人工智能「大模型」旗艦項目已經在技術上做了準備,佈局算法的競爭合作、可信可靠的數據匯聚、成立中立機構進行模型的評估、測試、集成、驗證、示範,結合新基建構築算力互聯和調度系統。

面向 2030 的目標,我們應該思考中國的大模型技術和產業生態如何佈局,希望中國未來引領大模型技術的開源開放,支撐國家級的智力運營,通過開源開放的智能生態,服務國家發展,服務全球發展。