智源研究院王仲遠:國產大模型已達“可用”水平,仍需向“好用”努力

本報記者 曲忠芳 北京報道

“過去這一年,各家公司都訓練了大量的模型,尤其是大語言模型。企業已經在做的事情,智源研究院就不會再去重複地做。”在近日舉行的2024北京智源大會期間,北京智源人工智能研究院(以下簡稱“智源研究院”)院長王仲遠在接受《中國經營報》記者採訪時表示,作爲一家非營利性的科研機構,“智源要做的是攻克大模型的核心關鍵痛點,解決行業前沿的技術難題”。

智源研究院成立於2018年11月,是由北京市科委和海淀區政府共同推動創立的新型研發機構。今年2月1日,王仲遠接任黃鐵軍成爲智源研究院第二任院長。本次大會上,智源研究院公佈了一系列最新成果,涵蓋大語言模型、多模態大模型、具身智能大模型及生物計算大模型的智源大模型“全家桶”面市,此外還推出了大模型全棧開源技術底座FlagOpen2.0,目的在於打造“大模型時代的Linux”。

王仲遠認爲,國產大模型快速發展,目前已達到了一個“可用的水平”,而要達到“非常好用的水平”,依然還要繼續努力。與此同時,針對大模型目前面臨的算力緊張、近期的降價潮、通用人工智能(AGI)的演進路徑,以及前沿技術的產業成果轉化等業界關注的熱點問題,王仲遠在採訪中也給出了智源研究院的觀察與探索。

探索AGI的終極演進路線

火熱的大模型技術是否通往AGI的終極路線呢?

王仲遠指出,現階段語言大模型的發展,已經具備了通用人工智能非常核心的理解和推理能力,並且形成了一條以語言大模型爲核心、對齊和映射其他模態的技術路線,從而讓模型具備了初步的多模態理解和生成能力。“但這並不是讓AI感知理解物理世界的終極技術路線,應該採取統一模型的範式,實現多模態的輸入和輸出,讓模型具備原生的多模態擴展能力,向世界模型演進。未來大模型將以數字智能體的形態與智能硬件融合,以具身智能的形態從數字世界進入物理世界,同時大模型技術可爲科學研究提供新的範式,加速人類對微觀物理世界規律的探索與研究突破,不斷趨近AGI的終極目標。”王仲遠如是說道。

智源研究院對於AGI演進路線的觀點與判斷,決定了智源研究院的重點科研方向。王仲遠介紹,爲了實現多模態、統一、端到端的下一代大模型,智源研究院推出了Emu3原生多模態世界模型。與行業普遍採用的DiT架構不同,Emu3採用的是智源自研的多模態自迴歸技術路徑,在圖像、視頻、文字上聯合訓練,使模型具備原生多模態能力,實現了圖像、視頻、文字的統一輸入和輸出。Emu3從模型訓練開始就是爲統一的多模態生成和理解而設計的,目前具備生成高質量圖片和視頻、續寫視頻、理解物理世界等多模態能力。簡單來說,Emu3既統一了視頻、圖像、文字,也統一了生成和理解。據瞭解,目前Emu3還處在持續訓練階段,經安全評估之後未來將逐步開源。

王仲遠坦言,智源要做技術原始的技術創新,就要尊重科學規劃,同時也要接受失敗的可能性。目前探索自迴歸多模態技術最大的一個挑戰是算力,智源研究院需要更多算力和資金支持,預計下半年能有更多的多模態進展公佈,同時,王仲遠呼籲國內給予類似的原生創新以更多包容。

對於當下大模型訓練算力消耗高的問題,智源研究院和中國電信人工智能研究院聯合研發並推出了首個萬億級語言模型Tele-FLM-1T。該模型主打“低碳生長”,即以業界普通訓練方案9%的算力資源——基於112臺A800服務器,用4個月完成了3個模型總計2.3T tokens(token是大模型文本處理的最小單位)的訓練,實現了算力性能的高效和穩定。

記者在採訪中注意到,王仲遠數次提及智源研究院作爲一家非營利性科研機構的屬性,當被提問如何將前沿研究成果轉化爲實際生產力時,王仲遠給出了“生態”一詞。“人工智能技術絕不是一個象牙塔裡純研究的問題,而是需要跟產業界緊密合作的。”他總結道,第一,智源大會能夠連接中國與全球的AI研究者,將行業頂尖的人才聚攏起來共同探討中國的人工智能發展,爲中國的大模型技術及產業發展作貢獻。第二,產業孵化是重要工作,自成立以來智源研究院先後孵化了十幾家創業公司,其中不少已成爲業界耳熟能詳的企業。同時,在前沿技術研究中會跟上下游企業、科研院校或機構開展廣泛的合作。智源研究院秉持開放合作的理念,構建起研究成果與產業發展緊密結合的生態。

大模型從“可用”向“好用”邁進

回顧近年來國產大模型的發展,王仲遠指出,國產大模型在過去一年裡取得長足的進步,去年時還在追逐GPT-3.5,而到今年國產大模型的平均水平已超過了GPT-3.5,正在無限地逼近GPT-4,甚至在中文語境之下某些能力超過後者。當然,GPT-4本身也在不斷地迭代升級。國產大模型仍處在一個追趕的階段,大模型在科技圈裡非常火熱,而普通用戶感受可能並不明顯,很重要的原因在於大模型的能力不夠,國內市場在場景、應用方面的優勢還未發揮出來,因此國產大模型未來依然要朝着“非常好用的水平”去努力前進。

當提及前不久國產大模型的降價潮時,王仲遠表示,成本降低對於開發者使用接入大模型做更多的應用嘗試是有一定價值的,但另一方面也要避免劣幣驅逐良幣,整個大模型的迭代升級仍是需要巨大資金投入的,智源研究院樂見的是中國大模型的良好產業生態形成和健康可持續發展。

記者注意到,幾家主流的國產大模型企業在智源大會上就近期行業降價潮、價格戰一事也作出了正面迴應。智譜AI公司CEO張鵬表示,商業最終要回歸到用戶價值、生產力價值,虧本做買賣不是正常的商業邏輯。在很長一段時間裡,智譜AI的價格保持着行業極低的水平,這是因爲技術能做到將成本空間釋放出來,惠及用戶,推動大模型的普及。旗下擁有Kimi大模型的月之暗面CEO楊植麟持類似觀點,稱當AI能夠做的事情在某個時間點超過人做的事情,就會產生新的商業模式。百川智能CEO王小川則認爲,價格戰作爲市場行爲至少帶來了兩個積極的後果:一是更多用戶、更多企業能夠用上大模型,使得大模型迅速普及;二是在沒有價格戰的時候,國內可能會有多達成百上千個大模型在進行,造成社會資源的浪費,當市場形成分層,很多企業明確自己作爲大模型使用方——而非供給方的定位,能夠促進產業的有序發展。

國產大模型的競爭持續升溫,何時纔會出現真正“殺手級”的應用產品?王仲遠強調:“每一項新技術的出現,到C端出現所謂的爆款應用,是有一定週期的,需要天時地利人和。”他分析道,在2023年之前,人工智能只能針對特定場景、特定任務去訓練特定模型,達到特定的效果,這被業界稱爲“弱人工智能時代”。而在2023年之後,將逐步進入通用人工智能時代,其最大的特點就是泛化性、通用性、跨領域的特性,幾乎可以影響所有行業。目前大模型作爲提高文本處理效率的工具,已顯現出效果,而在文生圖、文生視頻方面雖然處於早期的階段,但已經能夠產出很多有創意的素材。未來隨着技術優化、成本降低,大模型能真正解決用戶需求的痛點,C端的爆款應用將會出現。

(編輯:吳清 審覈:李正豪 校對:顏京寧)