解碼AI|開啓大模型“安卓”時刻,Meta剛剛乾了一件大事
OpenAI的對手越追越緊了。
美國當地時間4月18日,Meta發佈了Llama 3開源大模型,包括Llama 3 8B和Llama 3 70B。Meta同時透露,目前其最大參數模型已超400B(4000億)參數,但還在訓練。據Meta稱,Llama 3是迄今爲止功能最強的開源LLM(大語言模型)。在多項基準測試中,Llama 3 70B超過同行。
隨着Llama 3發佈,開源陣營呈現壯大之勢。對於Llama 3的發佈,大模型生態社區OpenCSG創始人陳冉向記者表示,競爭會越來越激烈,好現象是大家處於良性競爭。不過未來參數越大,消耗越大,“競爭其實就是錢的競爭”。
Llama 3登場
據Meta介紹,Llama 3 8B和70B的推理、代碼生成和指令跟蹤等功能有大幅改進。Meta使用了超15T tokens(文本單位)的數據訓練,訓練數據集比Llama 2大7倍,包含的代碼多4倍。在開發中,Meta開發了一套新的高質量人類評估集,包含1800個提示並涵蓋12個關鍵用例,如徵求建議、頭腦風暴、分類、編碼等。該評估集的結果顯示,Llama 3 70B的表現比Claude Sonnet、Mistral Medium、GPT-3.5、Llama 2更好。
Meta還公佈了兩個新開源模型與競爭對手比較的情況。在MMLU、GPQA等多項五項基準上,指令微調的Llama 3 8B得分都超過谷歌Gemma 7B-1t和法國初創公司Mistral AI的Mistral 7B Instruct,Llama 3 70B則在三項基準中超過谷歌Gemini Pro 1.5和Anthropic的Claude 3 Sonnet。
不過,Llama 3並非完美,其中被指摘最多的是其上下文窗口只有8k,落後於現在業內平均水平。Meta首席人工智能科學家、圖靈獎得主楊立昆(Yann LeCun)在社交媒體發帖同步Llama 3發佈的喜訊,而評論區有不少人都在討論上下文窗口長度只有 8k的信息,“這很令人驚訝,確實限制了實用性”,有熱門評論說道。有人質疑爲什麼Llama 3的上下文窗口與同等模型相比這麼小,是架構的限制,還是在訓練期間決定優先考慮模型的其他方面,這並未得到楊立昆答覆。
外界對Llama 2上下文窗口的關注,背景之一是近兩年大模型上下文窗口的文本長度限制已提升明顯。更長的上下文這意味着大模型能處理更大範圍的文本,更好理解長篇文章或對話,使其在各種應用中更加有用。GPT-3.5上下文窗口文本長度限制爲4k,GPT-4提升到32k,GPT-4 turbo版能接收128k輸入,基本相當於10萬字的小說長度。在國內,零一萬物Yi-34B、上海人工智能實驗室與商湯科技聯合發佈的書⽣·浦語2.0等都支持200k長語境輸入,月之暗面kimi更支持200萬字上下文輸入,阿里通義千問免費開放了1000萬字長文檔處理功能。
對於長上下文窗口的限制,Meta並未直接回應,但在其官方博客裡提到,在接下來的幾個月裡預計將引入新功能、更長的上下文窗口。
對於後續計劃,Meta還透露, Llama 3系列還會有更多產品推出,其最大模型超400B參數,該模型還在訓練中。
目前,Meta還未透露Llama 3超4000億參數版本是否會開源。如果該模型開源,將會超過目前參數量最大的開源模型崑崙萬維天工3.0(4000億參數)和馬斯克旗下初創公司xAI的Grok-1(3140億參數)。
業界對Llama 3發佈頗爲關注。AI寫作助手公司HyperWrite AI CEO Matt Shumer感嘆“我們正在進入一個新世界,GPT-4級別的模型開源而且可以免費訪問”。傳奇研究員、AI開源倡導者吳恩達表示,Llama 3發佈是自己收到過最好的生日禮物。馬斯克也在一條評論Llama 3表現出色的帖文下回復“Not bad(不錯)”。
阿里雲首席智能科學家丁險峰在社交軟件上表示,開源的Llama 3有如安卓,一夜之間打掉所有閉源手機操作系統:PalmOS、Windows mobile、symbian,偉大的時代要來臨了。
英偉達科學家Jim Fan則在社交媒體上表示,即將推出的Llama 3 400+B將意味着開源社區獲得GPT-4級別的模型開放權重訪問,這將是一個分水嶺時刻,將改變許多研究工作和初創公司的發展方式。
Jim Fan提取了Anthropic Claude 3 Opus、Open AI GPT-4 Turbo、谷歌Gemini Ultra 1.0和Gemini Pro 1.5的多項基準得分並與Llama 3 400+B早期Checkpoint(檢查點)的得分相比,發現Llama 3 400+B多項得分高於Gemini Ultra 1.0和Gemini Pro 1.5,低於但已接近GPT-4和Claude 3 Opus。
獵豹移動董事長兼CEO傅盛則表示,Llama 3性能遠超上一代,小參數模型Llama 3 8B的表現比上一代大參數Llama 2 70 B更好,這印證了小參數模型的能力會快速提升,可達到相當高使用水準的說法。Llama 2 70B性能比上一代則有質的提高。預期Llama 3應該代表了開源社區非常高的水準。
也有業界人士使用了Llama 3 8B後表示,原本工具使用穩定性費勁的本地多智能體變得穩定了不少。陳冉則告訴記者,當前國內的開源模型與Llama 3相比或許相差還不小。
OpenAI的對手緊追
OpenAI今年2月發佈Sora,成功“狙擊”谷歌彼時剛發佈的Gemini 1.5並引來更多關注後,似乎難以再壓低競爭對手的熱度了。OpenAI還未拿出更大“殺器”的情況下,競爭對手的產品升級則是肉眼可見。
有OpenAI最強競爭對手之稱的Anthropic今年3月發佈了最新大模型系列Claude 3,其中Claude 3 Opus在本科級別專業知識(MMLU)、研究生級別專家推理(G[QA)、基礎數學(GSM8K)等領域都超過GPT-4。
Anthropic之外,閉源陣營的OpenAI其他競爭對手則在上探參數量。傳言GPT-4參數量上萬億,今年3月,騰訊透露其混元大模型也已達萬億參數規模,近日MiniMax也宣佈推出abab 6.5,包含萬億參數。
谷歌、Meta、xAI所屬的開源或開閉源雙軌並行的陣營也在步步緊逼,參數量越來越大。馬斯克指責OpenAI不開源並陷入雙方論戰後,自己拿出Grok-1。國內也引發一輪開源潮,包括4月初大模型初創企業新旦智能與APUS聯手開發的APUS-xDAN大模型4.0(1360億)參數,以及崑崙萬維近日開源的4000億參數天工3.0。
此次Meta開源的8B和70B參數模型還是小試牛刀,後續或開源的4000億以上參數大模型,可能是開源陣營的更大“殺器”。
關於開閉源之爭近日趨於激烈,也隱隱顯露出包括OpenAI在內的閉源陣營,受到開源陣營的一定衝擊。相關代表性言論包括百度董事長李彥宏近日所稱“大模型開源意義不是很大,有商業模式的閉源模型才能聚集人力和財力”。
支持大模型開源的業界人士則在反擊李彥宏的觀點。4月18日的生成式AI大會上,vivo AI解決方案中心總監謝偉欽表示,作爲產品經理,希望開源社區能逐漸繁榮,出現不同維度的好算法,vivo開源了參數量7B的模型,未來可能還有更大參數的模型開源。
硅基智能CTO林會傑在該會上則表示,開源一定會比閉源好,搜索引擎目前只運行在開源軟件上,開源產品的開發效率好,這是無數開發者已驗證過的事。同時,開源軟件面向更廣泛人羣,代碼質量被更多人看在眼裡,不敢開源反而是對自身模型能力不自信的一種表現,很多閉源模型也是建立在開源模型之上。
傅盛也表示:“國內某大廠認爲閉源大模型與開源社區的距離越來越遠,現實情況正好相反,開源社區公司越來越猛烈。懟算力、懟芯片、只注重參數這條路未必走得通,而且AI不應該是大公司和巨頭之間的遊戲,應該是所有人都能參與的。我們相信,開源社區必將越戰越勇,最終打敗閉源大模型。“
閉源和開源陣營競爭對手步步緊逼的情況下,OpenAI的壓力很可能變得越來越大。新浪微博新技術研發負責人張俊林認爲,大模型巨頭混戰形成了打壓鏈,OpenAI處於鏈條頂端,打壓有潛力追上的對手,第一層對手包括谷歌、Anthropic和Mistral,第二層是Meta,OpenAI有一個技術儲備庫,專等競爭對手發佈新產品時推出。不過,競爭對手正試圖改變被OpenAI打壓的情況,此前Anthropic推出Claude 3便可能打亂OpenAI的產品節奏。
張俊林向第一財經記者表示,OpenAI最新推出的是一個音頻模型Voice Engine,該模型還在小規模測試階段,這可能說明OpenAI手裡已沒太多新東西了,競爭對手已對OpenAI造成比較大壓力。
競爭壓力下,OpenAI或已經在加快下一代GPT產品研發。3月Claude 3系列發佈不久,有網友就發現搜索引擎一度能搜到GPT-4.5 Turbo產品頁面,頁面摘要顯示該模型將在“速度、準確性和可擴展性方面全面超越GPT-4.0 Turbo”,相關頁面很快下架。OpenAI如何應對這些競爭,將是下一步看點。