“百模大戰”進階 大灣區如何打贏AI追逐賽的下半場

2023年初,ChatGPT掀起大模型熱潮,國內互聯網廠商也紛紛下場“手捏模型”,“百模大戰”風起雲涌。

但到了2024下半年,狂熱開始慢慢褪去,科技界、學界到投資界進入冷靜階段——反思生成式AI如何落地、商業化,大模型的能力邊界和迭代方向。

“從國內的整體發展看,到今年7月底,中央網信辦批准的大模型大概有200個,其中只有三分之一是通用大模型,三分之二是行業大模型。我預測未來通用大模型的數量和佔比會越來越小,行業大模型會越來越多。”香港科技大學校董會主席、美國國家工程院外籍院士、英國皇家工程院外籍院士沈向洋在2024大灣區科學論壇上說道。

簡言之,通用大模型會逐漸往行業方向收斂,這意味着人工智能和產業的結合會越來越緊密,對實體經濟的賦能也會愈加顯著。在民營經濟活躍的粵港澳大灣區,可以如何挖掘人工智能的新一輪機遇?

11月16—18日,2024大灣區科學論壇在廣州南沙舉行,包括諾貝爾獎得主、國家最高科學技術獎獲得者、菲爾茲獎獲得者在內的百餘位頂尖科學家齊聚於此,對人工智能等前沿科技話題展開熱烈討論。

資料圖片

從通用到行業模型

業界普遍把大模型訓練形容爲“煉丹”——在Transformer架構基礎上,堆百億、千億級別的參數,達到一定閾值後,模型的語言理解、推理、生成能力出現一個明顯躍升,也就是常說的“涌現”。

但這個過程需要耗費大量算力,燒錢自然不在話下。據國盛證券估計,GPT-3訓練一次的成本約爲140萬美元。OpenAI的財務數據顯示,到2029年都恐難實現盈利,到2026年虧損可能達140億美元,當中大部分的花費要投入到模型訓練中。

不止OpenAI,燒錢基本是大模型公司的常態,因而如何實現盈利、完成商業轉化,成爲橫亙在這些公司面前的現實問題。而對業界來說,也要回答大模型除了用於對話、還能拿來幹嘛的問題。

“中國訓練大模型的速度很快,最後國內會剩下幾家企業具備萬卡算力,來做真正底層的基座大模型。一旦有這樣的通用大模型後,實際上更有意思的是行業大模型。”沈向洋指出,未來在醫療、金融等垂直賽道,有千張顯卡就可以做行業大模型。每個企業肯定也要做自己的大模型,在行業大模型、通用大模型基礎上加上自己的數據,幾百張卡就可以做一個企業大模型,對內提高效率,對外可以提高產品的可用性。

Gartner的問卷調查發現,70%的公司正在投資於生成性AI研究,並將其納入其業務戰略。

今年以來,谷歌、微軟和Meta都在開發自己的專有定製模型,爲客戶提供個性化的服務。通過特定領域的預訓練、模型對齊、監督微調,來應用於特定行業。

加拿大工程院院士、歐洲科學院院士、香港科技大學計算機科學與工程系講座教授郭嵩向21世紀經濟報道記者表示,學術界在做0-1的科學發現,不一定能直接產出經濟效益。這些年,自己團隊通過聯合實驗室的方法和大型企業建立了密切聯繫,也和醫學院、大型醫院建立了合作,對醫療醫學建立了更深刻的理解。在這個基礎上,才能做出精準的垂類大模型,不久前團隊剛發佈了四個醫療的大模型,引起了不小反響。這是一種長期的方法,就是把AI的技術、科學計算的公式融入行業,和特定領域的知識融會貫通,這樣或許能夠產生真正有效的大模型。

大模型正在“向下紮根”,這無疑是產業生態活躍的大灣區優勢所在。

中國科學院院士、深圳大學校長毛軍發認爲,珠三角最重要的優勢就是民營經濟非常活躍,創新創業的氛圍應該說是全中國乃至全世界最好的地區之一。人工智能技術產業化無非就是兩種模式,一種是AI+X,另外一種是X+AI,X就是產業應用,而且毛軍發認爲X+AI可能更重要,應該由各行各業的企業、企業家對人工智能提出需求,並尋找到相關應用落地。

應用層正是大灣區人工智能的主要發力領域。就以廣州爲例,豐富的應用場景已經吸引了一大批人工智能企業,涌現出雲從科技、文遠知行、極飛科技等明星企業,它們在自動駕駛、智能農業等不同領域走出差異化發展之路。

關注“賣鏟子的人”

業界常言,人工智能的發展有三要素——數據、算力、算法。算法決定模型的準確性和效率,數據是養料,決定內容輸出的質量,算力則是鏟子,是訓練大模型的基礎。

沈向洋提及了一組數據,從2019年到現在,每一年出來的最新大模型所需要的算力和前一年相比,剛開始是以每年翻六七倍的規模在增長,最近幾年穩定下來,大概以每年翻四倍的增速在增長。可以想象,算力需求一年翻幾倍,十年下來這個數字會非常誇張。因爲大模型對應大量參數,需要的數據量也在增加,訓練模型的算力需求也會激增。所以在整個AI浪潮中,最大的贏家是英偉達。

“這幾年我經常講一句話,叫‘講卡傷感情,沒卡沒感情’,算力是人工智能發展的門檻。”沈向洋點出。

過去兩年,英偉達市值翻了10倍,一度登頂全球市值之王,足見算力在人工智能江湖裡的地位。

但業界也知道,依賴單一一個“賣鏟子”的人是有風險的,因爲它可以壟斷供貨、操縱價格。

人工智能與數字經濟廣東省實驗室(深圳)協理副主任黃哲學表示,我們面臨的一大挑戰是,英偉達限制GPU出口,以前有卡可以建大規模集羣,現在不一定建得了。要解決這個問題,還是得走自力更生的道路,立足於國產算力。所以我們鵬城雲腦,從II到III都是由華爲供應自主芯片的。

同時,解決國產算力問題最主要的還是生態問題。黃哲學進一步指出,我們現在用的很多大模型、開源軟件都是從國外來的,大部分是基於英偉達的。自主創新之後,因爲芯片改變了,底層的一些算法就不一樣了,所以我們要開發類似英偉達CUDA的系統,可以適配國外的軟件,同時也可以自主研發自己的創新應用,這樣來解決算力的問題。

着眼大灣區,深圳正大力建設國家超算深圳中心、鵬城雲腦、騰訊雲等算力基礎設施。此前IDC發佈的《全球計算力指數評估報告》顯示,中國的算力產業規模和多樣性目前正持續高速增長,2018年至2022年,深圳的算力規模位居全國前三。

去年5月,鵬城實驗室首次對外發布了中國算力網計劃。這次大灣區科學論壇上,中國工程院院士、鵬城實驗室主任高文介紹,作爲國家重大科技基礎設施,鵬城雲腦Ⅱ已在IO500全球總榜單中連續8次奪得魁首,建設中的鵬城雲腦Ⅲ建成後,算力規模將達到16000P,相當於832萬臺家用電腦算力之和。

“大模型並非無所不能”

今年6月,牛津大學發佈研究報告《Theory is all you need》,標題上和大模型的開山之作《Attention Is All You Need》相呼應,但牛津的報告則抨擊了大模型爲代表的AI侷限性問題。該報告指出,人類認知的本質是“理論驅動”的,人類不僅能夠通過現有數據得出合理推論,更能基於假設、直覺以及跨領域的聯想,提出具有前瞻性的創新想法。但大模型的本質更接近於對已有知識的模仿,而非對新知識的原創性探索。

沈向洋也認爲,大模型雖然做出來了,但是不可解釋,也不穩定,就出很多的問題。人們認爲智能有限,似乎大模型出來之後,智能就出來了。但同時,很多人也在懷疑,現在這樣的一套體系是不是真的可以走很遠。去年,自己也在香港科技大學組織了一批科學家去探討,“涌現”背後的數學原理到底是什麼,試圖打開大模型的“黑盒”。

清華大學教授李宗鵬也向21世紀經濟報道記者表示,大模型出來後,很多人以爲它可以用來做很多事情,顛覆整個經濟形態,但是實際上大模型並非無所不能。就說AI幻覺這個點,從數學的角度看,這是大模型永遠擺脫不了的問題,因爲自然語言處理是基於概率生成和輸出內容的,從這一點看,就沒辦法確保百分百準確。所以AI可以做藝術、文本創作,但是在做需要特別精確的事情時,肯定會存在侷限性。

現階段,大模型依然在沿着規模法則(scaling law)在發展,也就是堆疊的參數、投喂的數據越多,模型就越強大。但質疑的聲音不時出現,即使互聯網的數據浩如煙海,但遲早會有用完的一天,而且靠堆參數訓練模型,這樣的方法會越來越不經濟。規模法則還是一條可行的路嗎?

在郭嵩看來,從目前來看,頂級的科技公司還是非常堅信規模法則,相信隨着參數、數據有指數級的增長,涌現的能力也會有顯著增強,也就是說投入和產出大致還是成比例的。至於未來要如何去顛覆、下一個規律是什麼,就要有待科學界和業界去探索了。但可以關注的是,李飛飛教授提出來的空間智能,她認爲這是AI的下一個方向。簡單而言就是,現在的大模型還停留在語言層面,但語言是離散的,也難以形成對物理世界的真正理解,所以結合對空間、時間等深層尺度的理解,才能往通用人工智能(AGI)更近一步。