《經濟學人》文章預警AI數據迎來枯竭  訓練數據困境如何破局

21世紀經濟報道記者 王俊 實習生 劉欣 北京報道

大模型時代,得數據者得天下。高質量訓練數據是大模型的原材料,也是大模型技術突破的關鍵。大模型的訓練數據會不會耗盡?一直是業內關注的焦點。

近期,經濟學人雜誌發佈了一篇題爲《AI 公司很快將耗盡大部分互聯網數據》(AI firms will soon exhaust most of the internet's data)的文章,引發了全球對AI行業數據資源可持續性的擔憂。文章援引研究公司Epoch AI的預測,他們預測互聯網上可用的人類文本數據將在四年後,即2028年耗盡。

訓練數據匱乏似乎已經成爲AI行業的一個夢魘,如何有效、持續供給高質量數據,成爲行業發展的必答題。

獲得高質量數據成本和難度逐漸增加

訓練數據是構建和優化 AI 模型的基石,數據是大模型成長的基礎和驅動力,大模型依賴着數據進行學習和優化。

零一萬物聯合創始人黃文灝曾在北京智源大會上表示,在自己加入零一萬物的前三個月,團隊幾乎沒有進行模型訓練,大部分時間都用來做數據處理的相關工作。“在數據足夠ready(準備充分)的情況下,我們發現模型基本一次就能訓練出來,而且在同等參數的情況下會比其他有效訓練的效果更好。”

“數據質量和數據量將是下一階段大模型能力涌現關鍵中的關鍵。”中信智庫專家委員會主任、中信建投證券研究所所長武超在2023世界人工智能大會(WAIC)上分享了一個測算,“未來一個模型的好壞,20%由算法決定,80%由數據質量決定。接下來高質量的數據將是提升模型性能的關鍵。”

尤其是高質量的訓練語料,對於提升模型準確度的作用可能比單純增加模型參數更爲顯著。通過不斷增加高質量的訓練數據,可以在不大幅增加推理成本的情況下,提高模型的性能和質量。

足夠多的高質量數據是訓練出性能優越AI模型的關鍵,但當前卻面臨着“高質量數據告急”的情況,大模型訓練數據的問題亟待解決。依據Epoch AI的預測,訓練數據的數量問題已經不容忽視。

此外,據報道,目前我國仍有大量專業領域的信息數據處於相對封閉的狀態,只能在機構內部的數據庫和圖書館查看,數據缺失使大模型存在一定的領域盲區,開發潛力不足。

尤其是要落地垂直場景的大模型,必須搭配高質量的行業數據,但目前行業數據存在碎片化、分割化的問題。

合成數據成爲“新物種”受關注

爲了應對大模型訓練數據的問題,合成數據成爲業內解困的新思路。

相比於從現實世界中採集或測量的真實數據,合成數據顧名思義是人工合成的“假”數據。由於能夠反映原始數據的屬性,合成數據可以作爲原始數據的替代品來訓練、測試和驗證AI模型。

但人工合成並不意味着完全憑空捏造。現階段,大部分合成數據的“根”仍然是真實數據。

經濟學人的該篇文章中,介紹了ImageNet的創建和LLM的自我監督訓練,強調了數據質量和數量的平衡,隨着互聯網高質量數據的枯竭,AI領域面臨“數據牆”,需要通過提高數據質量、使用合成數據和後期訓練等方法來解決。

近年來,隨着人工智能技術一次次取得突破性發展,真實數據的採集、獲取難度也水漲船高,已難以填飽AI訓練的龐大“胃口”,合成數據常常作爲真實數據的“平替”而存在。

儘管現階段在預訓練佔比不高,但不少業內人士認爲其未來發展潛力巨大,可作爲一個“新物種”密切關注。目前合成數據多應用於提升對齊階段的數據獲取效率,增強模型安全和可靠性。

去年人工智能初創公司Cohere首席執行官Aiden Gomez就透露,由於Reddit、推特等公司的數據採集要價太高,微軟、OpenAI和Cohere等公司,已使用合成數據來訓練AI模型。Gomez表示,合成數據可以適用於很多訓練場景,只是目前尚未全面推廣。

英國金融行爲監管局(Financial Conduct Authority,FCA)也積極跟進合成數據作爲一項隱私保護技術在金融行業的應用前景。

我國也開始鼓勵和引導合成數據產業的發展。2023年3月初,中國證監會科技監管局局長姚前曾在《中國金融》雜誌撰文稱,建議重點發展基於AIGC技術的合成數據產業。以更高效率、更低成本、更高質量爲數據要素市場“增量擴容”,助力打造面向人工智能未來發展的數據優勢。

在北京發佈的“北京市通用人工智能產業創新夥伴計劃”,提到謀劃建設國家級數據訓練基地,也提出了支持發展基於AIGC技術的合成數據新產業。

“國家隊”入場解數據供給之困

除卻合成數據的辦法,公共數據的進一步開放共享也被視爲一條行之有效的路徑。

高質量的公共數據將極大賦能生成式人工智能。興業證券報告指出,加強公共數據的開放開發,是當前解決數據分散、提升訓練數據質量的重要舉措。

據21記者不完全統計,北京、上海、深圳等地已發佈多份文件,力圖解決AI訓練數據供給之困。比如,去年6月發佈的《深圳市加快推動人工智能高質量發展高水平應用行動方案(2023-2024年)》就提到,要搭建全市公共數據開放運營平臺,建立多模態公共數據集,打造高質量中文語料數據等。

2023年7月13日,國家網信辦聯合國家發展改革委、教育部、科技部、工業和信息化部、公安部、廣電總局聯合公佈《生成式人工智能服務管理暫行辦法》,其中指出要推動生成式人工智能基礎設施和公共訓練數據資源平臺建設;促進算力資源協同共享,提升算力資源利用效能;推動公共數據分類分級有序開放,擴展高質量的公共訓練數據資源。

就在前不久,7月22日在國務院新聞辦公室舉行的“推動高質量發展”系列主題新聞發佈會上,國家數據局數據資源司司長張望也強調要促進公共數據資源的開發使用。