Llama 3 發佈,亮點在於 “小” 模型

文丨賀乾明編輯丨黃俊杰

像一個人的學習成長一樣,每個全新的大模型,都需要從大量的文本中學習 “知識”,纔有能力去解決一個個問題。

Google 訓練 70 億參數的 Gemma 開源模型,讓它 “看過” 6 萬億 Token(6 萬億個詞)的文本。微軟投資的 Mistral 訓練 73 億參數模型,“看過” 8 萬億個 Token 的文本。

用如此大規模的數據訓練參數不到 100 億的模型,已經是行業中比較重的方法。按照 DeepMind 研究人員提出的策略,如果考慮性價比,這麼大的模型,看 2000 億 Token 的文本就夠了。不少中國一線創業公司的同等規模大模型只用了 1 萬億~2 萬億個 Token 的文本。

Meta 的 CEO 馬克·扎克伯格(Mark Zuckerberg)不滿足於此,他直接把下一代開源大模型送進了 “縣中”,用更多習題拔高能力。Meta 昨夜推出的 Llama 3 系列大模型,80 億參數模型用了 15 萬億 Token 的訓練數據,比 Google 的多學了一倍還不止,是很多小公司產品的十倍。

根據 Meta 公佈的數據,在 5 個常用大模型能力評估測試集上,它新發布的 80 億參數模型和 700 億參數模型,得分基本都比同級競爭對手高。尤其是 80 億參數的 Llama 3,各項評測得分大幅超過 Google 和 Mistral 開發的同級別模型,數學、編程能力翻倍。Meta 稱它們是目前 “功能最強大的、公開可用的大模型”。

Meta 透露,他們還在訓練 4050 億參數的大模型,初步評測得分達到 GPT-4 水平。這則消息幫 Llama 3 獲得大量關注。英偉達高級研究經理 Jim Fan 說,Meta 讓開源社區得到 GPT-4 級別的大模型會是一個行業分水嶺,將改變許多研究工作和創業公司的經營狀況。

OpenAI 原資深研究科學家安德烈·卡帕蒂(Andrej Karpathy)認爲,80 億參數的 Llama 3 “會非常受歡迎”,效果接近參數更多的 GPT-3.5,而且需要的算力低、反應快,甚至可以在手機、電腦上本地運行,“希望大家繼承這個趨勢,訓練和發佈用更長時間訓練更小的模型。”

打破 Scaling Laws:用超出行業預期的數據和算力訓練模型

2020 年初,OpenAI 提出大模型的 Scaling Laws,認爲在 Transformer 架構中,要提升大模型的效果,需要按照特定比例提高訓練大模型的數據量、模型本身的參數以及算力。

這個規律在 OpenAI 隨後發佈的 GPT-3 中得到驗證,他們調整這幾個元素的配比,以更低的成本訓練出更強的模型。

OpenAI 的接連成功,讓 Scaling Laws 成爲許多研究者訓練大模型的關鍵指引。按照他們發現的規律,其他訓練條件不變,大模型參數每提升 5.3 倍,訓練數據量需要提升約 1.9 倍、算力提升 10 倍,是最有性價比的方案。

2022 年,DeepMind 的研究者發佈論文,認爲這個比例不對,低估了訓練數據量的要求。他們認爲,算力提高 10 倍,模型參數和訓練數據量各提升約 3 倍才更有性價比。DeepMind 的新比例取得更好的效果,成爲從業者訓練大模型的重要參考。

現在,Meta 又進一步提高訓練數據的重要性。根據 Meta 公佈的信息,他們訓練 80 億參數的 Llama 3 時,把訓練數據提到 15 萬億 Token,是 DeepMind 方案估算的 75 倍,發現模型能力達到 700 億參數 Llama 2 的水平,大幅超過競爭對手。

Meta 爲此付出更多算力——用 H100 訓練了 130 萬個小時,算力成本預計超過 100 萬美元。如果用 5000 張 H100 組成的集羣計算,需要不間斷訓練大概 11 天。而在 Meta 只需要 2 天多,因爲它有 2.4 萬張 H100 組成的算力集羣。而且有兩個。

一場小模型競賽正在進行

根據 Meta 的說法,當前版本的 Llama 3 還沒有達到性能極限。“我們一直使用的大語言模型,明顯缺乏訓練。(訓練數據量)可能需要提高 100~1000 倍,甚至更多。” 安德烈·卡帕蒂說。

OpenAI 用 GPT-3.5 和 GPT-4 證明大模型的實力後,許多公司加速追趕的同時,也在研究如何用更低的成本利用大模型。

與傳統的軟件應用不同,大模型不僅開發起來費錢,運行起來(推理)也會消耗大量算力資源。大模型想要處理用戶輸入問題,基本要挨個處理文字中的每個字,處理 100 個字的問題,基本就要運行 100 遍大模型。

英偉達把它當作 GPU 銷量增長的空間,但對於想用大模型改造業務、創造新商業機會的公司,卻是負擔。發佈 Llama 3 時,Meta 宣佈把它整合到旗下每天有數十億人使用的 Instagram、Facebook 等產品中,如果用參數較大的模型,推理成本根本無法承受。

想要降低成本,最直接的方法是訓練參數更小的模型,讓用戶的手機、電腦直接在本地運行,分擔平臺的壓力。

怎麼讓更小的模型有更好的效果,成了大模型公司們的競爭點。過去一年,Google 每次發佈大模型,都會推出參數較小的模型。Anthropic 發佈 Claude 3 系列時也採用類似的做法。不過它們沒有詳細公佈小模型的參數,以及如何讓小模型有更好的能力。

根據 The Information 報道,微軟選擇利用 GPT-4 生成高質量數據,訓練更小的模型,以降低部署大模型應用的成本。

Meta 訓練 Llama 3 的方法截然不同,但最適合它。爲了應對 TikTok 的競爭,Meta 在 2022 年採購了大量 H100,用於訓練更強的內容推薦模型,爲它奠定算力優勢。

爲了訓練 Llama 3,Meta 動用了兩個 2.4 萬張 H100 組成的訓練集羣,今年計劃把 H100 數量推到 35 萬張——每張 30000 美元。大部分互聯網巨頭也只有數萬張 H100,而且不少還會對外出租。

Meta 接下來大概率會沿着相同的方向,繼續做更小的模型。“80 億參數的模型,對於很多場景來說還不夠小。” 扎克伯格接受採訪說,“我很想看到一個 10 億參數,甚至 5 億參數的模型,看我們能用它做些什麼。”

題圖來源:視覺中國