蘋果公司稱會採取"負責任"的方式培訓Apple Intelligence模型

蘋果公司發佈了一份技術文件,詳細介紹了其爲Apple Intelligence(Apple Intelligence)開發的模型,未來幾個月內,蘋果將在 iOS、macOS 和 iPadOS 上推出一系列生成式人工智能功能。

在這份文件中,蘋果公司反擊了有關其在訓練某些模型時採用了有道德問題的方法的指責,重申它沒有使用私人用戶數據,而是綜合利用了公開數據和授權數據來開發Apple Intelligence。

"[預]訓練數據集由......我們從出版商處獲得授權的數據、經過策劃的公開或開源數據集以及我們的網絡爬蟲 Applebot 抓取的公開信息組成,"蘋果公司在論文中寫道。"鑑於我們注重保護用戶隱私,我們注意到數據混合物中不包括蘋果用戶的私人數據"。

今年 7 月,Proof News報道稱,蘋果公司使用了一個名爲"The Pile"的數據集(其中包含數十萬個 YouTube 視頻的字幕)來訓練一系列專爲設備處理而設計的模型。許多字幕被捲入 The Pile 的 YouTube 創作者並不知道也不同意這樣做;蘋果後來發表聲明稱,它並不打算使用這些模型爲其產品中的任何人工智能功能提供動力。

這份技術文件揭開了蘋果公司在今年 6 月WWDC 2024大會上首次披露的名爲"蘋果基礎模型(Apple Foundation Models,AFM)"的模型的神秘面紗,文件強調,AFM 模型的訓練數據是以"負責任"的方式獲取的--至少按照蘋果公司的定義是負責任的。

AFM 模型的訓練數據包括公開的網絡數據以及未公開出版商的授權數據。據《紐約時報》報道,蘋果公司在 2023 年底與NBC、Condé Nast 和 IAC 等多家出版商達成了價值至少 5000 萬美元的多年期協議,在出版商的新聞檔案中訓練模型。蘋果的 AFM 模型還在 GitHub 上託管的開源代碼上進行了訓練,特別是 Swift、Python、C、Objective-C、C++、JavaScript、Java 和 Go 代碼。

在未經許可的代碼(即使是開放代碼)上訓練模型是開發人員之間的一個爭議點。一些開發者認爲,一些開源代碼庫沒有獲得許可,或者在使用條款中不允許進行人工智能訓練。但蘋果公司表示,它對代碼進行了"許可過濾",儘量只包含使用限制最少的軟件源,比如那些採用 MIT、ISC 或 Apache 許可的軟件源。

論文稱,爲了提高 AFM 模型的數學技能,蘋果公司特別在訓練集中加入了來自網頁、數學論壇、博客、教程和研討會的數學問題和答案。該公司還利用了"高質量、可公開獲得的"數據集(論文中未提及名稱),這些數據集"擁有允許用於訓練......模型的許可證",並經過過濾以去除敏感信息。

總的來說,AFM 模型的訓練數據集約有 6.3 萬億個詞元(詞元是小塊數據,通常更容易被生成式人工智能模型吸收)。相比之下,這還不到 Meta 用來訓練其旗艦文本生成模型Llama 3.1 405B 的代幣數量(15 萬億)的一半。

蘋果公司收集了更多數據,包括來自人類反饋的數據和合成數據,以微調 AFM 模型,並嘗試減少任何不良行爲,如泵出毒性內容。

該公司表示:"我們創建模型的目的是幫助用戶在他們的蘋果產品上進行日常活動。"

這篇論文中沒有提供什麼證據,也沒有令人震驚的見解--這是精心設計的。由於競爭壓力,同時也因爲披露過多可能會給公司帶來法律糾紛,所以這類論文很少會非常露骨。

一些公司通過搜索公共網絡數據來培訓模型,並聲稱他們的做法受到合理使用原則的保護。但這一問題仍有待商榷,而且訴訟數量也在不斷增加。

蘋果公司在論文中指出,它允許網站管理員阻止其爬蟲搜索他們的數據。但這讓個人創作者陷入困境。舉例來說,如果一個藝術家的作品集存放在一個拒絕阻止蘋果數據抓取的網站上,他該怎麼辦?

法庭之爭將決定人工智能生成模型及其訓練方式的命運。不過目前,蘋果正試圖將自己定位爲一個有道德的企業,同時避免不必要的法律審查。

https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf