楊強:大模型訓練可用的公域數據將耗盡 2028年是關鍵之年
新京報貝殼財經訊(記者姜樊)“當前,可用於預訓練大模型的公開數據幾乎已經用盡了。人類生成數據的速度遠遠沒有機器能夠消化這些數據的速度快。”12月22日,香港科技大學榮休教授,加拿大皇家學院院士、加拿大工程院院士楊強在中國財富管理50人論壇2024年會“AI浪潮下的金融業應變”主題論壇上表示,預訓練將會終結,新的方向還在探索。
楊強預測,2028年將是關鍵之年。他展示的數據庫存規模與數據消耗規模的曲線圖顯示,兩條曲線將於2028年相交。這意味着2028年可用於大模型訓練的公域數據將用盡。
當公域數據用盡之後,還未用於大模型訓練的私域數據則面臨隱私安全問題。
“人類在使用大模型的時候,會暴露隱私,尤其是在金融業。”楊強指出,在大模型使用過程中,需要用到企業的內部數據,隱私保護成了大模型應用中的關鍵問題。
楊強指出,金融界有很多需求,機構的數據遠遠不夠,需要把不同機構的數據合併起來。但是合併的時候,又有這樣的顧慮,就是隱私安全。
事實上,科學界對大模型發展路徑已有探討。楊強總結道,一是大模型創造的智能體,要建立大量的垂域專家,做到能學習、溝通。二是該智能體要能推理,根據已經學的知識思考未來。三是該智能體有理解能力、有同理心,能理解人類。四是該智能體應該產生自我意識。
“智能體第一個重要能力是推理和組合,能夠使用資源。第二個重要能力是人造數據的產生。”楊強進一步指出,所謂人造數據是指智能機器人等創造出來的數據。人們通過模擬器去訓練模型之後,模型再適配到現實的場景產生數據。這樣所產生的數據,對機構的訓練模型同樣非常有用。
此外,楊強指出,如何讓大模型落地到私域的機構,在本地建立小模型,能夠通過各種新的人工智能技術,包括這裡所說的聯邦學習和遷移學習,把大型通用能力賦予到小模型,能夠讓小模型的專業能力教會大模型是當前需要做的事情。這需要強化大模型的遷移學習能力和聯邦學習能力。有了這些能力,疊加模擬和生成數據的能力,就可以訓練具有智能的機器人。
校對 劉軍