楊強：大模型訓練可用的公域數據將耗盡 2028年是關鍵之年

新京報貝殼財經訊（記者姜樊）“當前，可用於預訓練大模型的公開數據幾乎已經用盡了。人類生成數據的速度遠遠沒有機器能夠消化這些數據的速度快。”12月22日，香港科技大學榮休教授，加拿大皇家學院院士、加拿大工程院院士楊強在中國財富管理50人論壇2024年會“AI浪潮下的金融業應變”主題論壇上表示，預訓練將會終結，新的方向還在探索。

楊強預測，2028年將是關鍵之年。他展示的數據庫存規模與數據消耗規模的曲線圖顯示，兩條曲線將於2028年相交。這意味着2028年可用於大模型訓練的公域數據將用盡。

當公域數據用盡之後，還未用於大模型訓練的私域數據則面臨隱私安全問題。

“人類在使用大模型的時候，會暴露隱私，尤其是在金融業。”楊強指出，在大模型使用過程中，需要用到企業的內部數據，隱私保護成了大模型應用中的關鍵問題。

楊強指出，金融界有很多需求，機構的數據遠遠不夠，需要把不同機構的數據合併起來。但是合併的時候，又有這樣的顧慮，就是隱私安全。

事實上，科學界對大模型發展路徑已有探討。楊強總結道，一是大模型創造的智能體，要建立大量的垂域專家，做到能學習、溝通。二是該智能體要能推理，根據已經學的知識思考未來。三是該智能體有理解能力、有同理心，能理解人類。四是該智能體應該產生自我意識。

“智能體第一個重要能力是推理和組合，能夠使用資源。第二個重要能力是人造數據的產生。”楊強進一步指出，所謂人造數據是指智能機器人等創造出來的數據。人們通過模擬器去訓練模型之後，模型再適配到現實的場景產生數據。這樣所產生的數據，對機構的訓練模型同樣非常有用。

此外，楊強指出，如何讓大模型落地到私域的機構，在本地建立小模型，能夠通過各種新的人工智能技術，包括這裡所說的聯邦學習和遷移學習，把大型通用能力賦予到小模型，能夠讓小模型的專業能力教會大模型是當前需要做的事情。這需要強化大模型的遷移學習能力和聯邦學習能力。有了這些能力，疊加模擬和生成數據的能力，就可以訓練具有智能的機器人。

校對劉軍

楊強：大模型訓練可用的公域數據將耗盡 2028年是關鍵之年

相關資訊