谷歌因違規收集訓練數據領2.5億歐元罰單,數據版權問題再引爭議

據央視新聞3月21日報道,法國市場監管機構日前宣佈,已向美國谷歌公司開出一張2.5億歐元(約合人民幣19.7億元)的罰單,原因是谷歌未經同意使用法國出版商和新聞機構的內容訓練旗下的聊天機器人“巴德”(其升級版名爲“雙子座”),違反了歐盟知識產權的相關法規。谷歌就此成爲了第一家因爲訓練數據而被罰款的人工智能(AI)公司。對此,學者向澎湃新聞(www.thepaper.cn)表示,谷歌遭到處罰,可能會導致今後出現越來越多類似的訴訟。

在AI技術更新迭代非常迅速的前提下,AI公司在獲取訓練大模型的數據時,如何界定獲取語料的合法性?專家認爲,目前數據權益保護問題仍存在模糊地帶,但可以出臺健全市場和管理的方法應對這些問題。

谷歌被首罰成先例,不排除有更多類似訴訟

報道稱,法國監管機構表示,作爲和解條件,谷歌對其違規行爲不作辯解,並將提出有關措施,以修正產品和服務缺陷。谷歌對此迴應稱,希望尋求和解是因爲“該往前走了”。“我們希望專注於更大的、可持續的方法,把用戶和高質量的內容聯繫起來,並與法國出版機構進行建設性合作。但需要注意的是,監管機構沒有充分考慮我們爲解決問題所做的努力,因爲在‘探索新路’的過程中,我們無法預測未來的風向。”

谷歌與法國出版機構之間的紛爭,始於2019年。當時,法新社等多家法國媒體機構曾向監管機構投訴,稱谷歌未經允許,擅自使用這些機構出版的網絡內容。2020年,監管機構要求谷歌與相關出版機構就內容付費進行談判,但因爲談判未果,監管機構於2021年向谷歌開出了5億歐元的罰單。2022年,谷歌與相關媒體出版商達成和解協議。

在此次的聲明中,監管機構稱,谷歌違反了和解協議中的幾項條款,包括與相關出版機構談判、提供透明信息等。監管機構特別提到,谷歌利用媒體平臺和新聞機構的數據,用於訓練2023年推出的“巴德”,但未告知相關出版機構和監管機構。爲此,監管機構表示,“對谷歌的AI服務感到擔憂”。

因爲此次爭端,谷歌成爲首家因爲訓練數據而被罰款的AI公司。在AI更新迭代迅速的前提下,谷歌的案例對於其他AI公司是一個警示,還是今後會有更多類似的訴訟?復旦大學計算機學院教授、復旦大學上海大數據實驗室主任肖仰華向澎湃新聞表示,類似的訴訟可能會越來越多,這些訴訟可以被認爲是AI產業發展過程中的必然問題。“AI發展核心在於數據,所以AI公司非常渴求高質量數據。在收集和使用數據的過程中,這些公司會加大數據收集力度,但會有意無意地侵犯其他主體的數據權益。另一方面,數據權益保護目前仍存在模糊地帶,包括制度供給、實踐案例等。”

從法律的角度看,上海交通大學媒體與傳播學院教授陳堂發認爲,法國監管機構對於谷歌的處罰具有法律依據,這對其他的AI公司應該具有警示功能,處罰行爲表明AI研發及產品使用如果涉及大規模使用他人作品的訓練,無疑存在法律風險。

傳統媒體與AI公司之間的版權之爭

爲確保獲得使用出版機構內容作爲數據訓練的許可,另一家科技公司OpenAI於2023年與美聯社、德國媒體巨頭Axel Springer等達成有關協議。不過,該公司沒有與《紐約時報》就有關問題達成協議,因此在2023年12月被該報起訴。《紐約時報》稱,OpenAI和科技巨頭微軟“非法複製和使用該報獨特、有價值的作品”,要求兩家公司銷燬任何使用到該報版權材料的聊天機器人模型和訓練數據。《紐約時報》表示曾與兩家公司接洽,提出對他們使用其版權內容的擔憂,並希望探索“友好的解決方案”,比如提出圍繞生成式AI產品的商業協議等,但當時的談判未得出解決方案。

《紐約時報》就此成爲第一家就版權問題起訴AI公司的美國媒體。起訴內容顯示,大量由該報刊發的文章被用作訓練聊天機器人的數據,且有分析認爲,這些聊天機器人正在與傳統新聞出版平臺競爭,同樣希望成爲“可靠的消息源”。此外,《紐約時報》還在訴訟中引用一些案例,表明一些在該報網站上需要付費訂閱閱讀的文章,ChatGPT等聊天機器人可以免費向用戶提供。

目前的多項爭端,多由《紐約時報》、法新社等媒體機構提起。肖仰華分析稱,由於目前媒體界呈現出新媒體挑戰傳統媒體的局面,再加上生成式AI會侵犯傳統出版機構的利益,因此傳統媒體在這個問題上更敏感。

對於這項訴訟,OpenAI曾多次迴應稱“感到驚訝”,“因爲雙方本處於非常積極和富有成效的談判中”。OpenAI方面表示,旗下的聊天機器人ChatGPT“不會成爲代替訂閱《紐約時報》的選項”,稱“包括《紐約時報》在內的單一數據源,對大模型的預期學習並不重要,因爲大模型是從人類知識的巨大集合中學習”。

OpenAI首席執行官奧特曼還在今年1月的達沃斯經濟論壇上表示:“AI不需要從《紐約時報》等出版商那裡獲取大量訓練數據。”2月,OpenAI直言,稱《紐約時報》爲獲取證據使用“欺騙性提示”,甚至“僱人黑入了OpenAI的系統”,但未明確指出所謂“黑客”的身份,以及該報可能違反的反黑客法。OpenAI此舉,遭到《紐約時報》反駁,稱OpenAI沒有否認“在法定訴訟時效期內,未經許可地複製了該報作品”。

社交平臺或成監管真空地帶

相較於出版物有版權作爲制約,AI公司使用社交平臺數據訓練模型,更容易走進灰色地帶。2023年,特斯拉公司首席執行官馬斯克表示,其擁有的社交平臺“X”(原推特)會使用收集到的公開數據訓練大模型,但不會涉及用戶的個人隱私數據和私信內容。不過,馬斯克曾公開批評微軟等科技公司,稱這些公司“非法使用‘X’上的數據訓練大模型”,並威脅會就此提起訴訟。

本月早些時候,OpenAI首席技術官穆拉蒂(Mira Murati)接受了《華爾街日報》採訪。對於該公司用何種數據訓練旗下的文生視頻大模型Sora的問題,穆拉蒂表示,“我們使用公開的數據,以及經過許可的數據。”但當被問及其中是否包括臉書、YouTube等社交平臺的數據,穆拉蒂只能簡單地以“我不確定”作爲迴應。

在這種背景下,如何界定AI公司是否合法使用和獲取了社交平臺上的語料?肖仰華認爲,AI公司是否能無所顧忌地使用公開或半公開的數據,是一個處於模糊地帶的問題。“現有法規已經滯後於大模型訓練相關的新型數據權益保護需求。因此有兩個比較關鍵的點,一是健全與完善數據要素市場,二是加強大模型訓練語料的安全合規認證與管理。”

在市場的層面,爲了減少類似糾紛,同時給AI公司獲取語料劃定邊界,陳堂發表示,“途徑之一,就是相對清晰地切割純粹科研或個人學習欣賞使用AI,與商業性使用AI的具體情形。前者的作品使用具有公益屬性可以免於責任,後者的作品使用應當遵從市場法則。”

在總體的AI監管層面,爲彌補漏洞,歐盟和聯合國先後通過有關法案。3月13日,歐洲議會正式投票通過並批准歐盟《人工智能法案》,內容包括嚴格禁止“對人類安全造成不可接受風險的AI系統”,比如有目的地操縱技術、利用人性弱點或根據行爲、社會地位和個人特徵等進行評價的系統等。

3月21日,聯合國大會投票通過了第一個有關AI的決議草案,以確保這項新技術能夠惠及所有國家、尊重人權並且是“安全、可靠和值得信賴的”技術。決議還承認“AI系統的治理是一個不斷髮展的領域”,需要進一步討論可能的治理方法。