OpenAI“偷錄”YouTube視頻訓練AI?一百多名創作者決定集體起訴

21世紀經濟報道記者 肖瀟 實習生 劉欣 北京報道

OpenAI到底有沒有“偷用”谷歌旗下的YouTube視頻訓練AI,這場無止盡的猜疑遊戲可能終於要結束了。

當地時間8月2日,一位YouTube主播代表在美國加利福尼亞州北區地方法院正式遞交了集體訴訟文件,指控OpenAI擅自轉錄了數百萬個YouTube 視頻來訓練大模型,目前有超過100人蔘與該集體訴訟。截至發稿,OpenAI對該集體訴訟沒有發表迴應。

起訴書寫道,創作者們擁有YouTube視頻的所有權,OpenAI的行爲違反了YouTube的平臺條款,並且從創作者們的損失中獲得了不正當利益,要求OpenAI賠償超過500萬美元。

YouTube作爲全球最大視頻網站,早就禁止了抓取視頻,甚至連視頻商業下載、批量下載都有嚴格限制。谷歌發言人Matt Bryant曾公開評論,谷歌的服務條款和 robots.txt文件(一種網頁文件,告訴爬蟲哪些內容不能抓取),明確禁止了未經授權抓取YouTube 內容。谷歌在有明確的法律或技術依據的情況下,會採取“技術和法律措施”來防止此類使用。

儘管有嚴格的警戒線,但不妨礙YouTube作爲數據“金礦”的誘惑力,尤其是在AI訓練數據匱乏的情況下。人工智能研究機構Epoch曾預測,高質量的語言訓練數據集將在2026年耗盡,業內普遍認爲文本、視覺、聽覺等結合的數據集能彌補AI訓練數據匱乏的問題。

過去半年中,OpenAI就一直深陷在“偷用”YouTube視頻的爭議漩渦裡:今年4月,《紐約時報》發文指出,OpenAI在2021年耗盡了所有文本類訓練數據,轉而開發文轉音的大模型Whisper,以此把YouTube的視頻、播客等影像數據轉錄成文字,進而繼續優化大模型。

半個月前,媒體又發現多家AI公司在訓練中都使用了名叫the Pile的開源數據集,其中一個子集叫作“YouTube Subtitles(YouTube字幕)”。該數據集由純文本組成,主要是視頻裡的文字簡介和YouTube自動轉錄的文字字幕,覆蓋了17.35萬個YouTube視頻,超過4.8個頻道。

非營利組織 EleutherAI 是the Pile的創建者,初衷是爲了降低巨頭之外的普通開發者們訓練AI的門檻。但諷刺的是,OpenAI、英偉達、蘋果、Anthropic等巨頭都在自己的研究論文中詳細描述瞭如何使用the Pile的數據訓練AI。

不過,OpenAI 高管始終拒絕正面回答,是否使用 YouTube 視頻來訓練自家的AI 產品——尤其是訓練 Sora。今年年初,OpenAI 首席技術官米拉·穆拉蒂頭一次在採訪中鬆口,表示自己“不確定”到底有沒有用YouTube視頻。

天元律師事務所合夥人李昀鍇在此前跟21記者分析,訓練素材的版權爭議得不到解決,根本難題是技術黑盒。“怎麼才能證明大模型到底有沒有拿你的素材?去做了哪些訓練?”李昀鍇表示,在這種情況下,能讓平臺責任更輕、更穩妥的方案其實就是“閉口不談”,只要平臺不說,創作者就證明不了。對於版權方來說,最大的困難也在於無法舉證。

值得注意的是,本次集體訴訟的起訴書中也沒有具體說明OpenAI是如何獲得和轉錄YouTube視頻的,只提到了《紐約時報》對whisper大模型轉錄YouTube視頻的報道。但一個積極的信號是,更多證據和公司的正面迴應會在之後的法律程序中揭示。這次集體訴訟或許能撕開一個口子,把訓練數據這一暗角擺在檯面上討論。