學術論文正被高價出售給大模型訓練,作者卻零收入

·越來越多的學術出版商正將研究論文賣給科技公司用以訓練人工智能(AI)模型,而作者收入爲零。

大語言模型(LLM)因訓練數據問題再次引發爭議。日前,國際著名期刊《自然》(《Nature》)雜誌編輯伊麗莎白·吉普尼(Elizabeth Gibney)發佈一篇題爲《你的論文被用來訓練人工智能模型了嗎?幾乎可以肯定》一文。文中作者表示,當前有越來越多的學術出版商正在將研究論文授權給科技公司,用於訓練人工智能(AI)模型。有學術出版商藉此賺取了2300萬美元,而作者卻收入爲零。這些交易在很多情況下並未徵求作者的意見,引發了部分研究人員的強烈不滿。

“如果你的論文還沒有被用作AI訓練數據,很可能很快就會成爲訓練的一部分。”伊麗莎白·吉普尼在文中指出,當前學術論文作者在面對出版商出售其版權作品時幾乎無權干涉。對於公開發表的文章,也沒有現成機制來確認這些內容是否被用作AI訓練數據。在大語言模型使用中,如何建立更加公平的機制保護創作者的權益,值得學術界和版權界廣泛討論。

大語言模型(LLM)通常依賴從互聯網上抓取的大量數據進行訓練。這些數據包括數十億片段的語言信息(稱爲“標記”),通過分析這些標記之間的模式,模型得以生成流暢的文本。學術論文因其內容豐富、信息密度高,相比大量普通數據更有價值,是AI訓練中的重要數據來源。數據分析師斯特凡·巴克(Stefan Baack)來自全球非營利組織Mozilla基金會,他分析指出,科學論文對大語言模型的訓練有很大幫助,尤其是在科學主題上的推理能力方面。正是由於數據的高價值,各大科技公司紛紛斥巨資購買數據集。

該文指出,今年《金融時報》與OpenAI達成協議,將其內容授權給後者;被稱爲“美國貼吧”的Reddit也與谷歌簽署了類似的交易。這些交易體現出版商試圖通過合法授權避免自己的內容被AI模型無償抓取。

文章透露,上月英國的學術出版商Taylor & Francis與微軟簽署了一項價值1000萬美元的協議,允許微軟訪問其數據以改進AI系統。而在6月,美國出版商Wiley通過向某家公司提供內容用於AI訓練,收入高達2300萬美元。而這些鉅額收入與論文作者沒有任何關係。

當前,研究人員正嘗試用技術手段幫助作者識別其作品是否被用於AI模型訓練。西雅圖華盛頓大學的人工智能研究員露西·盧·王( Lucy Lu Wang) 稱,如果一篇論文已經被用作模型的訓練數據,在模型訓練完成後就無法將這篇論文移除。

不過,即便能證明論文被用於AI訓練,但在法律層面仍然面臨爭議。文中指出,出版商認爲,使用未經授權的受版權保護內容進行訓練是侵權行爲;而另一種法律觀點則認爲,大語言模型並未直接複製內容,而是通過學習來生成新文本。

值得注意的是,並非所有研究者都反對將他們的作品用於AI訓練。斯特凡·巴克表示,他很樂於看到自己的研究成果被用來提高AI的準確性,並且不介意AI“模仿”自己的寫作風格。然而,他也承認,並非所有人都能輕鬆應對這一問題,尤其是那些面臨AI競爭壓力的職業,如藝術家和作家。

事實上,關於使用受版權保護的知識作品來訓練 AI 模型的訴訟案件此前已引起過廣泛關注。

8月14日,《華盛頓郵報》報道,美國多名視覺藝術家和插畫家對AI圖像生成工具的集體訴訟案取得突破進展。他們曾指控Midjourney和Stability AI等初創公司在未經同意的情況下使用作品來訓練AI模型。這起案件在本週取得了關鍵性進展。美國地區法官威廉·奧裡克允許該案的關鍵部分繼續推進,這意味着法庭已經決定某些指控有足夠的法律證據,可以繼續審理下去,接下來隨着法律審理的過程,可能會披露這些公司在開發AI工具時的內部交流情況。