大模型尚處“前牛頓時代”?打開“黑盒”先要馴服數據

摘要:數據是大模型知識的來源,大模型是世界知識的編碼器。

數據如同大模型的細胞,是其生命力的來源。當大模型已經邁入分級時代,從通用大模型細分到行業大模型,再精確到企業大模型,人們對於數據的挖掘與應用是否跟上了大模型進化的速度呢?或許不然。

“整個大模型還處在前牛頓時代,我們只知其然,不知其所以然。”9月5日外灘大會舉辦“從DATA for AI到AI for DATA”論壇,復旦大學教授、上海市數據科學重點實驗室主任肖仰華在會上提出,人們目前對於數據的使用方式是非常粗放且效率低下的,“好比當年的鍊金術”。

論壇現場。

數據使用上的痛點是這場論壇嘉賓討論的焦點。從目前大模型訓練情況來看,數據面臨的問題主要在數量和質量兩方面。

最爲直觀的,是數據的數量。“任一模態的數據集包含多達數億至數百億個小文件。”中國工程院院士、清華大學教授鄭緯民說,訓練大模型所需的海量數據,對存儲提出了巨大的挑戰。以元數據管理爲例,存儲100億的小文件需要管理7TB元數據。海量的數據同時也增加了時間與成本的消耗。在模型訓練前,爲了獲得高質量的數據樣本,需要對數據先進行預處理。據谷歌數據中心統計,大模型的訓練中,高達30%的時間用在了數據的預處理。鄭緯民說:“數據預處理開銷正成爲大模型訓練的瓶頸之一。”

數據使用的另一掣肘是質量,這一點在中文內容上尤爲突出。北京智源人工智能研究院副院長兼總工程師林詠華分享了幾個數據。首先是國際數據集中的中文內容佔比很少,以數據集Common Crawl爲例,其中的中文數據僅佔約4.8%,並且83%來源於海外中文網站。“這就導致了這些數據集訓練的大模型始終是‘英文思維’,其內容的安全性、文化價值觀難以保證。”林詠華說,中文內容同時還面臨數據孤島問題,全球互聯網網頁語言佔比變化顯示,中文網頁佔比有所下降,從2013年佔比4.5%下降到2024年的1.3%。

“數據質量決定了模型的性能、成本、安全性。”林詠華說,因此包括北京智源人工智能研究院在內的多家機構正在推動數據的開源,“我們始終認爲,需要一定量的高質量數據完全開源出來,去供給高校、科研團隊、開發者去使用,才能不斷擴充大模型,爲大模型行業提供堅實的數據支撐。

肖仰華則認爲,理解大模型的數據,是打開大模型“黑盒”,提升大模型可信的重要方式。“現在的大模型還經常會有幻覺,這個問題如果不解決,大模型無法真正走向千行百業。”肖仰華認爲,這一過程需要小模型、智能圖譜進行協同,但不管是大模型、小模型還是知識圖譜,它的源頭都是數據,所以數據在整個大模型技術體系中處於一個核心的基礎地位。

“數據是大模型知識的來源,大模型是世界知識的編碼器。”肖仰華說,一旦越過數據使用的難關,大模型將走向更深的應用,“屆時大模型將真正邁入科學時代。”