曝英偉達違規抓取數據訓練AI模型!包括YouTube視頻等,官方迴應了

智東西編譯 黃心如編輯 李水青

智東西8月7日消息,外媒404 Media發佈的報告表明,英偉達自2024年3月開始從YouTube和Netflix等熱門網站和平臺上儘可能地抓取數據來訓練其AI產品,在報告中,一位英偉達發言人郵件迴應404 Media,申明其公司行爲是合法的。

報告指出,英偉達未經許可抓取的內容包括電影和遊戲鏡頭,這些行爲可能讓使用其AI產品和工具的客戶面臨侵權的風險。儘管面臨外界的質疑和擔憂,英偉達近期仍堅稱其數據抓取行爲“完全符合版權法的文字和精神”。

一、被曝違規採集數據,英偉達迴應:行爲合法

與其他AI工具開發商一樣,英偉達需要可以用於訓練的數據供其文本、視頻和音頻生成器“學習”如何創建內容。而數據抓取通常是指在沒有獲得創作者許可的情況下,將現有的視頻、文本和音頻輸入到訓練模型中的做法。

這項技術意味着他們可以未經YouTube和Netflix(以及在這些平臺上擁有媒體賬號的公司)同意就獲取其受版權保護的資料。

美國和歐盟的監管機構仍在評估數據抓取行爲是否違反版權法相應法規。404 Media的報告強調了科技公司在生成AI技術方面對於版權法的鬆懈態度,以及這些選擇可能對娛樂和遊戲等行業造成的影響。

該媒體在披露出的內部消息中,發現了一些公司員工對於這種做法的擔憂。儘管存在這些擔憂,但英偉達告訴404 Media,其抓取指令“完全符合版權法的文字和精神……這種合理使用的保護措施允許我們將作品用於革新性的目的,比如模型訓練。”

遊戲開發商及其母公司是版權持有人,而YouTube是該行業的重要平臺,他們的作品被使用,但他們對此沒有任何話語權。英偉達是一家經常利用這些工作室遊戲和大型平臺來推廣其服務和產品的公司,這樣的無授權數據抓取行爲無疑是一種嚴重的背叛行徑。

二、英偉達內部流程曝光,高層預先設法規避負面

一名接受媒體採訪的員工聲稱,他們和其他人被告知要抓取完整的視頻,以幫助訓練這家科技公司的AI模型,而遊戲視頻尤爲受到工程師們的青睞。獲取上述的視頻素材用於數據庫的創建,其中就涉及了與英偉達的GeForceNow雲服務合作。

在一次使用Slack進行的對話中,高級研究分析師吉姆·範(Jim Fan)指出了該項雲服務有着可以用於捕獲和存儲視頻的流媒體功能。他提到,所有這些“高質量的遊戲視頻”都是“非常有用”的數據。

“我們將與GeForceNow雲服務和相關工程團隊密切合作,設置實時遊戲數據捕獲、擴展渠道並對其進行處理以進行訓練。”他解釋說。

然而,據稱,員工提出的擔憂遇到了項目經理的保證,即抓取數據是一項“行政決策”,不必擔心。至於“公開的法律問題”(例如違反YouTube的服務條款)將在未來得到解決。

在404 Media的報道中,AI研究人員之間的內部文件和Slack對話顯示了英偉達積極避免負面新聞的努力。研究副總裁Ming-Yu Liu強調我們將使用所有可下載的數據進行實驗,鑑於我們不會發表任何內容,所以不會有“負面情緒”。

Ming-Yu Liu寫道:“我們在這裡進行的活動不會在任何層面對外公開”。他和其他員工還一起開發了自己的YouTube數據抓取工具和一個API賬號來幫助完成這一工作。

結語:英偉達AI引爭議, 實爲AI發展與法律博弈

在監管機構定義生成AI領域中侵犯版權的明確邊界之前,英偉達和其他公司可能會繼續在法律灰色地帶運作。正如麻省理工學院的Robert Mahari告訴404的那樣,證明數據抓取違規“在技術上是非常困難的”。

他建議道:“就激勵措施而言,公司最佳的政策是不要告訴人們你訓練了什麼,只要保守秘密,要證明任何事情都會非常困難。”

來源:Game Developer,404 Media