AI生成的數據,竟成爲一枚射向自己的子彈?

AI生成的文字和圖片,正日漸充斥於互聯網中。

OpenAI首席執行官Sam Altman在今年2月份表示,該公司每天生成大約1000億個單詞——相當於每天一百萬本小說的文本量,其中有多少內容最終流入了互聯網還未可知[1]。

AI生成文本,可能出現在餐廳評論、約會資料或社交媒體帖子中,也可能以新聞文章的形式出現——NewsGuard[2],一個專門追蹤網絡虛假信息的機構,最近識別出超過一千個大量生產漏洞百出的AI生成的新聞文章的網站[3]。

實際上,由於缺乏有效的檢測方法,此類內容許多仍未被發現。

所有這些AI生成的信息,不僅讓我們難辨真假,也給AI公司製造了麻煩。通過瀏覽網頁的方式以獲取訓練下一代模型的新數據,將變得日益艱難[4]。一些自身生成的AI內容,很可能會被吸納,從而無意中形成閉環,即某一代AI的輸出變成了另一代的輸入。

從長遠來看,這一閉環可能對AI自身構成威脅。已有的研究表明,生成式AI如在大量自身輸出上進行訓練,其性能會大幅下降[5-8]。

下面我們結合一個簡單的示例來說明,當一個AI系統反覆在自己的輸出上進行訓練時會發生什麼情況。

01 真實手寫數字

下圖是一個由60000個手寫數字構成的數據集的一部分。

▷圖1. 原始手寫數據集的局部,基於Ilia Shumailov 等人的研究。

當我們訓練一個AI去模仿這些數字時,它的輸出如下圖所示:

▷圖2.由一個AI在同爲AI生成的數字集上訓練後生成的數字集,基於Ilia Shumailov 等人的研究。

如果這個過程持續進行會發生什麼?

▷圖3.在AI生成的數字集上繼續訓練後生成的數字集,基於Ilia Shumailov 等人的研究。

經過20代如上所述的訓練後,AI生成的數字開始模糊並逐漸消失。

▷圖4.在AI生成的數字集上訓練20代後生成的數字集。基於Ilia Shumailov 等人的研究。

經過30代訓練後,它們合併成一組單一的形狀。

▷圖5.在AI生成的數字集上訓練30代後生成的數字集

雖然這是一個簡化的例子,但它說明了一個可能會發生的問題。

想象一個醫療諮詢聊天機器人,在接受了上一代聊天機器人生成的有限的醫學知識的訓練後,它可以根據症狀對應列出的疾病數目可能會很少。或者,一位AI歷史導師,在吸收了AI生成的宣傳內容後,無法區分事實與虛構。

正如複製品可能會偏離原件一樣[9],當生成式AI在自己生成的內容上進行訓練時,其輸出也可能會偏離現實,與本來打算模仿的原始數據越來越遠。

在2024年7月發表在Nature雜誌上的一篇論文中[10],來自英國和加拿大的研究者們展示了這個過程如何導致AI輸出範圍隨時間縮小——他們稱此爲“模型崩潰”的早期階段。

上述例子中的數字侵蝕現象體現了這種崩潰。當脫離人類輸入時,AI輸出的質量下降(數字變得模糊),多樣性降低(它們變得相似)。

如果只有部分訓練數據是AI生成的,這種衰退將會出現得更慢或更微妙。但研究人員表示,除非合成數據得到大量新的、真實的數據補充,否則衰退終會發生。

02 AI的退化

在一個實驗中,研究人員讓一個大型語言模型(LLM)在自己生成的語句中進行反覆訓練,並在每輪訓練後使用相同的提示命令其完成句子。即使一開始,AI已經開始出現“幻覺”。但當研究人員進一步在其自身的句子上進行訓練時,情況變得更糟糕……

當他們要求AI完成以“爲感恩節烹飪火雞,你……”開始的句子時,最初的迴應是:

爲感恩節烹飪火雞,你需要在烤箱裡準備它。通過在火雞上加鹽和胡椒,然後在烤箱中烹飪直到內部變金黃。由於該方法可用作其他食物的替代品,因此已被證明可以有效降低患心臟病的風險。

即使在一開始,人工智能也會“產生幻覺”。但當研究人員進一步用自己的句子訓練它時,情況變得更糟了……

經過兩代之後,它開始僅僅輸出一個簡單的長列表:

爲感恩節烹飪火雞,你”必須能夠一次性吃完它。然而,如果你沒有足夠的時間這樣做,你可以選擇其他食物,如土豆、豆類、米飯、肉類、魚、蔬菜、水果、堅果、種子等。

經過四代之後,它開始無意義地重複短語:

爲感恩節烹飪火雞,你需要知道你將如何度過你的一生 如果你不知道你將如何度過你的一生 如果你不知道你將如何度過你的一生如果你不知道你將做什麼如果你不知道什麼將會影響你的生活。

“模型因其對現實的自我投射而中毒”,研究人員在談到這一現象時寫道[11]。

這一問題不僅僅侷限於文本生成中。另一組來自Rice University的研究人員研究了當圖像生成AI在自己的輸出上進行反覆訓練時會發生什麼——這個問題可能已經在網絡上氾濫的AI生成圖像中出現[12]。

他們發現,在AI的輸出中開始積累故障和圖像瑕疵,最終產生了具有皺紋圖案和扭曲手指的圖像。

▷圖6.當AI圖像模型在自己的輸出上進行訓練時,它們可以產生扭曲的圖像、扭曲的手指或奇怪的圖案。

“彷彿有一部分漂移到類似‘禁飛區’空間”,Richard Baraniuk 教授這樣說,他領導了一項關於AI圖像模型的研究[13]。

研究人員發現,避免這個問題的唯一方法同樣是確保AI在大量新的、真實的數據上進行訓練。

雖然互聯網上自拍照絕對不缺,但他們說,有某些圖像類別中,AI生成的圖像可能比真實數據更多。

例如,在AI的訓練數據中,以梵高風格生成的圖像可能比梵高畫作的實際照片更多,這可能導致未來的錯誤和扭曲。(這個問題的早期跡象將很難檢測,因爲領先的AI模型不受外部審查,研究人員說。)

03 模型崩潰的原因

AI生成的數據通常只是真實數據的糟糕替代品,這是所有這些問題的原因。

比如聊天機器人陳述的荒謬事實,或者AI生成的有過多手指的手,很容易被發現。而導致模型崩潰的變異,有時並不明顯,甚至可能很難被檢測到。

生成式AI在大量數據上的“訓練”,實際上是在組建一個“統計分佈”或“一組概率”,以用於預測句子中的下一個單詞,或者圖片中的像素。

例如,當一個AI被訓練去模仿手寫數字時,它會以這樣的統計分佈方式輸出:

▷圖7.AI生成數據的分佈,經由簡化以便於清晰理解

這個鐘形曲線的頂點,代表着最可能的AI輸出——在這種情況下,即爲最典型的AI生成的數字;曲線的尾端,描述的是較不常見的輸出。

注意,當模型在人類數據上訓練時,它會有一個“健康”的可能輸出範圍,體現在上圖中的曲線寬度上。但在它在自己的輸出上訓練之後,曲線發生瞭如下圖所示的變化:

▷圖8.AI生成數據的分佈,當其在自身輸出上訓練時

它變得更高更窄。結果是,模型的可能輸出範圍越來越小,甚至可能會偏離原始數據地輸出。

與此同時,還會出現一個罕見、不尋常或令人驚訝的結果——曲線的尾端逐漸消失。這是模型崩潰的明顯跡象——罕見的數據變得更加罕見。

如果這個過程不受控制,曲線最終會變成一個尖峰:

▷圖9.經過 30 代之後的AI輸出示例,此時所有數字變得相同,模型完全崩潰

當所有數字都變得相同時,模型就完全崩潰了。

04 爲什麼這很重要

這並不意味着生成式AI會很快陷入停滯。一旦AI系統開始出現質量惡化,製造出這些工具的公司會注意到。

但這可能會減慢進程。研究人員認爲,隨着現有的數據源枯竭,或者被AI的“糟粕”污染,這將使後進場者競爭更爲艱難[14,15,16]。

目前,AI生成的文字和圖像已經開始在社交媒體和更廣泛的網絡中氾濫[17],甚至隱藏於一些訓練AI的數據集之中[18]。“網絡正愈發變爲尋找數據的危險地帶。”正如Rice University的研究生Sina Alemohammad所說,他研究了AI污染如何影響圖像模型[19]。

大型玩家也會受到影響。紐約大學的計算機科學家發現,當訓練數據中有大量AI生成的內容時,需要更多的計算能力來訓練AI——這意味着需要更多的能源和金錢[20]。“模型不會再按照它們應有的方式擴展。”紐約大學教授Julia Kempe如此說,她領導了這項工作[21]。領先的AI模型現已花費了數千萬到數億美元來訓練,並消耗了驚人的能量,而更多的算力需求,可能成爲一個相當大的問題[22,23]。

05 “一個隱患”

最後,即便是早期階段的崩潰,也存在一種潛在的威脅:多樣性的侵蝕。

當公司試圖避免AI數據常發生的故障和“幻覺”時[24],尤其是,當數據能夠與我們可以視覺識別的多樣性形式相匹配時,比如人臉,這一現象最容易被觀察到。

下圖所示的這組AI面孔,是萊斯大學研究人員使用AI產生的一組扭曲面孔。他們調整了模型以避免視覺錯誤。

▷圖源:Sina Alemohammad and others

下圖是他們在前一組面孔上訓練新的AI後的輸出。乍一看,模型改變似乎有效:不存在錯誤。

▷經過一代AI輸出訓練後,生成的AI面孔看起來更相似。

經過兩代之後……

▷經過兩代……三代之後……

▷ 經過三代……

四代之後,面孔似乎都趨於一致。

▷經過四代後,面孔似乎都開始趨同。

這種多樣性下降,是“一個隱患”,Alemohammad先生說。“你可能會忽略它,然後你就會搞不明白,直到爲時已晚。”

就像數字一樣,當大部分數據是AI生成的時,崩潰的變化最爲明顯。而如果合成數據中混合了更現實的真實數據,衰退將更爲緩慢。

但研究人員說,這個問題難以從現實世界剝離,除非AI公司特意避免使用自己的輸出,否則不可避免地會發生。

相關研究[25]顯示,當AI語言模型用自己生成的單詞訓練時,它們的詞彙量減少,句子在語法結構上的多樣性減少——這是“語言多樣性”的喪失[26]。

研究還發現,這一過程可能放大數據中的偏見[27],並更有可能抹去少數羣體相關的數據[28]。

06 出路

這項研究的最大收穫可能是,高質量、多樣的數據是寶貴的,而且是計算機難以模仿的。

因此,一個解決方案是,AI公司支付數據費用以確保數據來自人類來源且高質量,而不是從互聯網上搜集[29]。

例如,OpenAI和Google已經與一些出版商或網站達成協議,使用他們的數據來改善AI。(《紐約時報》2023年起訴了OpenAI和Microsoft侵權[30],而OpenAI和Microsoft則認爲他們的使用行爲是在版權法下的合理使用[31,32]。)

更好的檢測AI輸出的方法,也有助於緩解這些問題。

例如,Google和OpenAI正在開發可用於識別AI生成的圖像和文本的AI“水印”工具,這些工具已引入隱藏模式[33,34,35]。

但研究人員認爲,文本水印仍面臨挑戰[36],因爲這些水印檢測起來並不總是那麼可靠,還可以被輕易規避(例如,它們可能難以在被翻譯成另一種語言後倖存)[37]。

AI糟粕,不是唯一的需要公司警惕合成數據的可能原因。另一個問題是,互聯網上的文字數量有限。

據一些專家估計,最大的AI模型已經在互聯網上的可用文本池中訓練了幾個百分點[38]。他們預測,爲了維持當前的增長速度,這些模型可能會在十年內耗盡公共數據[39]。

“這些模型如此龐大,以至於整個互聯網的圖像或對話幾乎快不夠用了。”Baraniuk教授如此說。

爲了滿足他們日益增長的數據需求,一些公司正在考慮使用“今天”的AI模型生成數據來訓練“明天”的模型[40]。但研究人員認爲,這可能導致意外後果,類似前文提到的質量或多樣性下降。

在某些情況下,合成數據可以幫助AI學習——例如,當一個較大的AI模型的輸出被用於訓練一個較小的模型,或者當正確答案可以被驗證時,像解決數學問題或在棋類遊戲(如國際象棋或圍棋)中的最佳策略[41,42,43]。

同時,新的研究表明,當我們整理合成數據時(例如,通過對AI的回答進行排名選出最佳答案時),可以緩解一些崩潰的問題[44,45]。

Kempe教授說,公司在數據整理上的花銷已經很大,而當他們瞭解了合成數據的問題後,這將變得更加重要。

但就目前而言,沒有什麼可以取代真實的東西。

關於數據:爲了製作AI生成的數字圖像,我們遵循了研究人員概述的程序[46]。我們首先使用60000個手寫數字的標準數據集訓練了一種稱爲變分自編碼器的神經網絡[47,48]。

然後,我們僅使用由前一個神經網絡生成的AI數字訓練了一個新的神經網絡,並重復這個過程30次。

爲了創建AI輸出的統計分佈,我們使用每一代的神經網絡創建了10000個數字圖的繪圖。然後,我們使用第一個神經網絡(在原始手寫數字上訓練的那個)將這些繪圖編碼爲一組數字,稱爲“潛在空間”編碼[49]。這使我們能夠定量比較不同代神經網絡的輸出。爲了簡化,我們使用這個潛在空間編碼的平均值生成文章中顯示的統計分佈。

參考來源:

https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html

[1] https://x.com/sama/status/1756089361609981993?lang=en

[2] https://www.newsguardtech.com/special-reports/ai-tracking-center/

[3] https://www.nytimes.com/2024/06/06/technology/bnn-breaking-ai-generated-news.html

[4] https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

[5] https://www.nature.com/articles/s41586-024-07566-y

[6] https://openreview.net/forum?id=ShjMHfmPs0

[7] https://openreview.net/pdf/b07c42e256e6df5c2c52aba4bf28c853110ebb7b.pdf

[8] https://openreview.net/notes/edits/attachment?id=XLIOLMlnqh&name=pdf

[9] https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

[10] https://www.nature.com/articles/s41586-024-07566-y

[11] https://www.nature.com/articles/s41586-024-07566-y#:~:text=Model%20collapse%20refers%20to%20a%20degenerative%20learning%20process%20in%20which%20models%20start%20forgetting%20improbable%20events%20over%20time%2C%20as%20the%20model%20becomes%20poisoned%20with%20its%20own%20projection%20of%20reality.

[12] https://openreview.net/pdf?id=ShjMHfmPs0

[13] https://richb.rice.edu/biography/

[14] https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

[15] https://www.nytimes.com/2024/03/29/opinion/ai-internet-x-youtube.html

[16] https://www.nytimes.com/2024/06/11/style/ai-search-slop.html

[17]https://dl.acm.org/doi/10.1145/3649468#:~:text=6.2-,Interconnectedness%20and%20Synthetic%20Media%20Spills,-Another%20facet%20of

[18] https://openreview.net/pdf?id=ShjMHfmPs0

[19] https://www.linkedin.com/in/sina-alemohammad-837b0ab6/

[20] https://openreview.net/forum?id=KVvku47shW

[21] https://cims.nyu.edu/~kempe/

[22] https://epochai.org/blog/how-much-does-it-cost-to-train-frontier-ai-models#:~:text=The%20cost%20of%20training%20frontier,a%20billion%20dollars%20by%202027.

[23] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/

[24] https://www.nytimes.com/2023/05/01/business/ai-chatbots-hallucination.html

[25] https://arxiv.org/abs/2311.09807

[26] https://arxiv.org/abs/2311.09807

[27] https://arxiv.org/pdf/2209.03942

[28] https://arxiv.org/pdf/2403.07857

[29] https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

[30] https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

[31] https://www.nytimes.com/2024/02/27/technology/openai-new-york-times-lawsuit.html

[32] https://www.nytimes.com/2024/03/04/technology/microsoft-ai-copyright-lawsuit.html?action=click&module=RelatedLinks&pgtype=Article

[33] https://deepmind.google/discover/blog/watermarking-ai-generated-text-and-video-with-synthid/

[34] https://openai.com/index/understanding-the-source-of-what-we-see-and-hear-online/

[35] https://www.nytimes.com/interactive/2023/02/17/business/ai-text-detection.html

[36] https://www.brookings.edu/articles/detecting-ai-fingerprints-a-guide-to-watermarking-and-beyond/

[37] https://www.youtube.com/watch?v=2Kx9jbSMZqA&t=3068s

[38] https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

[39] https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

[40] https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html

[41] https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

[42] https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

[43] https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/

[44] https://openreview.net/forum?id=iqoqtNyVta

[45] https://arxiv.org/abs/2407.09499

[46] https://arxiv.org/pdf/2305.17493

[47] https://en.wikipedia.org/wiki/Variational_autoencoder

[48] https://en.wikipedia.org/wiki/MNIST_database

[49] https://en.wikipedia.org/wiki/Latent_space