國家區塊鏈中心牽頭共建人工智能語料共享新模式

中國日報7月1日電(記者 趙磊)日前,新華社國家重點實驗室、人民網、中國科學院文獻情報中心、北京廣播電視臺、高等教育出版社、首都圖書館、中央電化教育館出版社、萬方數據、中國知網等語料數據重點單位宣佈,聯合國家區塊鏈技術創新中心,共同成立高價值語料可信安全流通生態體系。運用區塊鏈、隱私計算等前沿信息技術,全國範圍的大模型語料資源將在隱私安全保護和流轉增值激勵中,形成可持續、自生長的數據供給生態,賦能人工智能大模型領域加速高質量發展。

近年來,人工智能技術快速發展,在國民經濟運行關鍵領域發揮日益重要的作用。特別是各類人工智能大模型的應用,爲各行業加速形成新質生產力提供了無限機遇。人工智能大模型的發展,其訓練使用的高價值語料數據是關鍵因素。

當前,高價值語料數據跨單位、跨行業、跨地區分佈,但由於缺乏足夠的隱私安全保障和有效的激勵機制,語料數據擁有者往往“不敢分享”“不願分享”,造成大量高價值語料數據“供給難、流通難、使用難”,已經成爲我國人工智能進一步發展的瓶頸。以區塊鏈、隱私計算爲代表的新一代信息技術,憑藉着可信存證、不可篡改、易確權、充分保護數據隱私安全等優異性能,可以保障語料數據可信安全地流通、使用和管理,一舉破解上述難題。

此次加入生態體系的成員均是國內語料數據領域的核心單位。成員單位將運用我國自主可控、性能領先的區塊鏈軟硬件一體基礎設施,搭建起覆蓋全國的分佈式語料數據互聯互通橋樑,鏈接語料供給方、加工方、需求方,實現全國分佈式語料數據可信接入,跨地域可發現、可訪問,形成高質量語料數據集。同時,成員單位運用區塊鏈智能合約技術,實現語料數據流通全鏈路透明、自動“計量結算”,激勵語料擁有者分享數據;運用創新隱私計算技術,保障大模型高價值語料數據在處理加工和模型訓練過程中無法二次傳播。

此外,生態體系的共建各方還將開展基於區塊鏈與隱私計算的語料數據可信安全流通規範制定,形成高價值語料數據流通與增值的可持續生態,推動我國人工智能領域通用大模型與行業大模型的高質量發展。

來源:中國日報網