財經三人談:“餵養”AI,大數據從哪來

來源:環球時報

編者的話:人工智能(AI)大模型的訓練、進化都離不開數據。外媒近日報道稱,科技公司利用語音識別工具轉錄視頻網站上的視頻,形成對話文本數據來訓練AI,也有公司用社交媒體上具有版權爭議和隱私權爭議的數據來訓練AI——這些“捷徑”是否合法?合規、高質量的AI訓練數據應該從哪裡來?普通人的數據安全如何保障?

合規性、高質量與多樣性的平衡

李志起

隨着AI技術的不斷進步,大模型訓練對高質量數據的需求日益凸顯。如何確保訓練數據的合規與高質量並重?三個原則應遵守。

第一,堅守合規底線,明確數據來源。任何數據的採集和使用都必須遵守法律法規,尊重原創精神和知識產權。合規的數據來源不僅是對創作者權益的保障,也是AI技術健康發展的基石。合規數據首先應該從公開數據集中獲取,這些數據集通常由學術機構、政府組織或大型企業公開發布,如ImageNet等圖像數據集就爲圖像識別技術的發展提供了有力支持。其次,用戶在社交平臺上產生的內容,如文本、圖片等,也是寶貴的訓練資源,但在使用時需確保獲得必要的授權。此外,企業還可以通過與合作伙伴共享數據、購買專業數據服務等方式獲取訓練數據。這些途徑雖然可能需要更多成本投入,但能有效規避法律風險,同時也更有可能獲得高質量的數據資源。

第二,合法獲取信息,保護知識產權。企業首先應建立一套完善的信息獲取流程,通過定期的培訓,提高員工對法律法規的認知和遵守意識,以確保任何信息的採集都應在明確的目的和合法的框架內進行,避免盲目和過度的數據採集。其次,要盡其可能確保隱私保護與數據安全,涉及個人隱私的數據,如用戶的身份信息、聯繫方式等,都需要進行嚴格的匿名化和加密處理。第三,在使用他人的知識產權時,如專利、商標、著作權等,企業應嚴格遵守相關法律法規,確保獲得權利人的明確許可,並按約定支付相應的使用費用。

第三,注重數據質量,提升AI性能。數據質量是訓練AI模型的關鍵因素之一。高質量的數據不僅可以提高模型的準確性,還能增強模型的泛化能力,使其更好地適應各種場景。

此外,AI企業必須注意加強數據標註的準確性,以免影響模型的訓練效果。標註錯誤的數據會導致模型學習到錯誤的信息,從而降低其性能。數據的多樣性和代表性也不應被忽視。可以通過收集不同來源、不同類型的數據來增加數據的多樣性,同時還可以通過數據增強技術來擴充數據集,提高模型的泛化能力。與此同時,數據的時效性和更新頻率也顯得尤爲重要。應定期更新數據集,確保模型的時效性和準確性,適應新的挑戰和需求。(作者是北京市政協經濟委員會副主任,振興國際智庫理事長)

三種方式獲取訓練數據

楊明川

常規的AI訓練數據可以來自組織生產環境中的數據積累、開源數據集和人工標註數據。對於百億、千億參數規模的大模型而言,訓練數據來源廣泛且規模龐大,大模型廠商往往不會詳細透露其訓練數據來源或公開其訓練數據的詳細組成。對於企業而言,合法獲得訓練數據授權的方式主要有三種。

一是收集開源數據集。通常由學術機構、政府組織或企業公開發布,涵蓋各種類型,如圖像、文本、音頻、視頻等。可在此基礎上進行二次處理、清洗加工和人工抽檢標註,形成高質量的訓練數據集;二是充分挖掘自身場景中積累下來的數據。以筆者供職的企業爲例,公司積累了大量專業運維案例、專業報告、日誌和專業問題回覆等數據,可以在保證脫敏和遵守數據許可協議的前提下,用於大模型的繼續訓練和精調;三是來自行業合作伙伴的高質量數據。通常以“合規數據授權+收益分成”的模式,形成合力共建具備行業數據優勢的大模型底座。

需要關注的是,隨着大模型飛速迭代,公共數據正在被快速耗盡。隨之而來的是私有數據合法使用的難題。用戶生成內容,包括公開發表的內容、點贊轉發等記錄數據,對於數據中保持最新信息、拓展知識範圍具有重要意義。但需建立相對健全的機制,在遵守相關法律法規、保證隱私安全、防止濫用的前提下,爲用戶生產內容提供共享或有償交易的可能性。目前面臨的挑戰如下:

首先,高質量數據非常昂貴。伴隨着公開數據的“枯竭”,如何收集和使用更多的高質量數據,並進行加工和標註,依然是一個繞不開的選擇。需要企業投入更多成本,並協同更多專業人士參與精細的標註工作。

其次,大模型訓練週期較長,且外部知識飛速更新。如何解決“知識過期”的問題,需要以檢索增強生成的方式,即在大模型做出迴應之前,通過檢索相關知識,提供參考信息,爲大模型回答的過程補充新知識。

第三,由於數據量龐大且來源多樣,數據中存在自相矛盾、不合規、偏見冒犯等情況的內容將難以全部檢測出來並剔除。會導致訓練得到的模型底座存在輸出帶有偏見、泄露隱私信息的可能性。企業需重視對模型數據的審查和脫敏工作,綜合考慮技術、政策、倫理和法律法規多方因素,持續改善相關流程。(作者是中國電信研究院大數據與人工智能研究所所長)

企業要發展,也應重履責

姚 佳

無數據,不AI。AI大模型的迭代發展離不開大體量優質數據“餵養”。由此,“數據淘金”成爲AI產業高質量發展的必由之路,優質數據也成爲產業競相爭取的稀缺資源。

優質的數據不僅關乎發展,更關乎安全。2023年11月,多國簽署的《布萊奇利宣言》,其中提到AI可能會生成欺騙性內容,可能產生被有意誤用或無意控制等風險。針對上述風險的破解之道同樣來自於數據——我們可以通過獲得“金子”一樣的好數據來訓練大模型等途徑,來進行相關破解或應對。

然而,AI的發展並非是孤立的。儘管在發展生成式AI市場之時,存在過多限制數據使用,導致“市場失敗”的可能性。但從目前看,科技公司爲了更好地訓練大模型,侵害他人隱私和知識產權的風險不容忽視。

舉例來看,美國近年來的幾起訴訟,無論是針對OpenAI、GitHub的集體訴訟,還是針對Stability AI,以及美國萬名作家簽署作家協會信函呼籲AI行業保護作者權益等,這些訴訟和事件均指向利用未經授權使用作品訓練AI產品或者在開源社區中可能侵害他人版權的問題,且至今仍在激烈討論,未能形成定論。

隱私風險也同樣值得關注。比如,科技公司未經用戶允許,就從手機應用程序中收集用戶的音樂偏好、圖像信息、位置信息、財務數據乃至私人對話等,用以進行AI數據訓練。這些行爲都存在侵權風險。

上述案例和爭議,要求相關企業在發展的同時,嚴格遵循現有法律規則。我國於2023年7月頒佈《生成式人工智能服務管理暫行辦法》,其中第7條規定了生成式人工智能服務提供者的訓練數據處理活動要求,即應使用具有合法來源的數據和基礎模型;涉及知識產權的,不得侵害他人依法享有的知識產權;涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形等等內容。

企業作爲AI大模型訓練的主體,需更加註重義務和履責,充分考慮對於已有著作權人和個人信息主體的權利保障與利益平衡。需要關注的是,相關企業義務是全方位、體系化的,包括不侷限於隱私保護義務、個人信息保護等義務、數據安全保障義務、數據質量保障義務等。(作者是中國社會科學院法學研究所教授)