AI大模型戰火延續:大廠穩住陣地,“六小虎”走到分水嶺|回望2024⑦
2024年,AI大模型的戰火不熄,反而愈演愈烈。
相較於2023年一片混沌的百模大戰,行業在經歷一年洗牌後,開始呈現出更清晰的市場格局。
互聯網大廠們各自建立起了相對成熟的模型能力,在擴張雲業務的基礎上,開始向自己的既有產品體系滲透。不僅是AI原生應用,部分原有應用與AI大模型的適配度也極高,這將是大廠進一步鞏固自己護城河的地方。
而對標OpenAI的中國大模型創業“六小虎”,或艱難或順利地陸續完成了這一年的關鍵融資,獲得繼續留在牌桌上的資格。與此同時,各家對於模型側與應用側的方向選擇顯現差異化,其各自的不同商業化脈絡開始成型。
值得關注的是,其中誰的選擇停留在了大廠射程內,而誰的選擇人跡罕至但異常坎坷。
此外,在端側模型、視頻模型等賽道,仍有其他創業公司展現出了不俗活力,它們都有可能是各自細分領域的核心競爭者。
互聯網大廠:備好基座模型能力,向業務滲透 百度文心一言
作爲最早入局AI大模型的互聯網大廠,百度的模型與產品此前並未得到與之匹配的認可和聲量,它這一年仍在努力自證。
在模型側,目前文心大模型矩陣包括ERNIE 4.0 Turbo等旗艦大模型、ERNIE Speed等輕量模型,以及基於基礎模型生產的系列思考模型和場景模型。根據百度披露的數據,文心大模型日均調用量超15億,相較一年增長約30倍,用戶規模達到4.3億。
在產品側,文心一言App上線一年之際,百度在9月官宣該產品升級爲“文小言”,定位“新搜索”智能助手,希望從富媒體搜索、多模態輸入、記憶、自由訂閱等能力體現出差異化。據官方數據,截至9月,文小言月活躍用戶達到千萬級別,累計調用量超過20億次。
另外,在百度的核心業務場景下,其大模型最爲強調的是知識增強、檢索增強以及智能體等技術。對此,百度還發布了檢索增強的文生圖技術iRAG,以及多智能體在代碼場景裡的應用秒噠和文心快碼。
這一年,百度對於AI大模型應用的戰略抉擇也愈發清晰。
對於看起來極爲火熱的視頻模型領域,李彥宏在一場內部講話中明確表示,不會投入Sora這類投入週期太長且10-20年沒有業務收益的視頻生成模型。
與之相對應的是,李彥宏公開強調了智能體應用方向的價值。他表示,過去24個月AI行業最重要的變化是大模型基本消除了幻覺,“智能體是AI應用的最主流形態,即將迎來它的爆發點”。
阿里通義千問
過去一年,通義千問的核心動作是對標Llama系列,從性能和豐富度上,拉高國內開源模型的整體水平。
9月雲棲大會,阿里雲發佈通義千問新一代開源模型Qwen2.5,其中旗艦模型Qwen2.5-72B性能超越Llama 405B,其餘模型尺寸包括0.5B、1.5B、3B、7B、14B、32B,幾乎覆蓋從端側到工業級全場景。
隨之而來的一系列開源模型還包括語言模型Qwen2.5、視覺語言模型Qwen2-VL-72B、編程模型Qwen2.5-Coder、數學模型Qwen2.5-Math等,累計上架超100個。12月,阿里雲又發佈了開源多模態推理模型QVQ-72B-Preview。
至此,通義千問Qwen被認爲是僅次於Llama的世界級模型羣,在商業考量上,這是爲充分適配各種場景的開發者和中小企業需求。根據官方數據,截至9月中旬,通義千問開源模型累計下載量已突破4000萬,衍生大模型超5萬個。
阿里旗下另一個值得關注的AI業務在於夸克。
定位“AI全能助手”的夸克,在今年發佈了PC端產品,重點升級了AI搜索、AI寫作、AI PPT、AI文件總結等一系列主打效率提升的功能。實際上,夸克的存量用戶與AI應用的用戶畫像高度吻合 ,這款應用如何利用大模型取得增益,也會是阿里AI戰略未來的一個重要看點。
騰訊混元
在一衆大廠大力投入AI大模型的趨勢中,騰訊混元被認爲今年在基座模型和產品應用上有所掉隊,不過其多模態能力仍是亮點。
這一年,它最突出的能力體現在視頻生成領域。12月,騰訊混元大模型宣佈正式上線視頻生成能力,並開源該130億參數量視頻生成大模型,這也是當前最大的視頻開源模型。在衆多測試中,其生成視頻在質感和語義理解等方面有較高水準的表現。
至此,騰訊混元系列模型包含文本大模型,AI繪圖大模型,3D生成大模型以及視頻模型。其他模型進展上,騰訊於9月發佈混元Turbo,於11月開源混元Large和混元3D生成大模型Hunyuan3D-1.0。
基於騰訊自身的業務積累和優勢,多模態大模型或將是其大模型業務的最大看點。
今年7月WAIC上,騰訊集團副總裁蔣傑表示,大模型行業正從最初的單模態向多模態過渡。對於騰訊混元大模型,多模態是一道必答題,混元正在積極部署多模態到全模態的技術,很快將在騰訊元寶App、騰訊內部業務及場景中體驗,同時會通過騰訊雲向外部應用開放。
字節豆包
字節跳動就算曾經對AI大模型重視不夠,在這一年也窮追猛補回來了。
在模型側,目前豆包系列已包含通用模型Pro,音樂模型,文生圖模型,3D生成模型,視頻生成模型PixelDance和Seaweed等等,覆蓋文本、語音、圖片及視頻等多模態能力。近期,字節再度發佈豆包視覺理解模型,加強了模型的視頻識別與理解能力。
這一年,字節還通過降價等方式加速了大模型在應用端的使用。在今年年中的API降價潮中,字節跳動是第一個跟進的大廠,並且力度出奇,直接將大模型從以分計價帶到以釐計價時代。12月,字節又將豆包視覺理解模型價格降至0.003元/千Tokens,比行業平均價格降低85%。
據字節透露,豆包大模型12月日均tokens使用量超過4萬億,較5月發佈時期增長超過33倍。
在模型性能和產品投流的共同支持下,字節豆包App在2024年成爲日活斷層領先的AI應用。據數據分析機構QuestMobile,豆包App今年9月的日活已達760萬,同應用場景的其他產品日活級別均在一百萬級別上下。
在應用側,字節跳動已經打造了自己的AI應用艦隊。除去豆包和即夢兩大頭部產品,字節旗下已有十幾款AI應用,幾乎完全覆蓋AIGC、Agent等所有主流方向。另外,字節還通過Ola耳機切入AI耳機,並已在AI眼鏡等智能硬件品類上蓄勢待發。
六小虎:留在牌桌上,找到活下去的路 智譜AI
在“六小虎”中,智譜AI的To B(面向企業)定位依舊明確。
過去一年,智譜相繼發佈新一代基座大模型GLM-4和GLM-4-Plus,在多模態上推出了視覺模型GLM-4V,視頻生成模型CogVideoX,以及端到端情感語音模型GLM-4-Voice。
在開源水平上,除了GLM-4-9B和CogVideoX兩款主力模型外,智譜共開源ChatGLM等50餘款模型,全球下載量超過3000萬。
進入年末,智譜在Agent戰略上發佈重要成果AutoGLM,以“人類歷史上首次用AI發紅包”引起一陣熱度,並同時推出推出GLM-PC,開啓“無人駕駛”PC的技術探索。
智譜AI今年完成兩輪融資,繼續站穩“六小虎”地位。9月,中關村科學城公司以投前200億估值領投智譜;12月,公司再完成新一輪三十億人民幣融資,新投資方包括多家戰投及國資。
值得關注的是,智譜AI是少見的主動披露商業化收入及增速的大模型創業公司。
智譜AI今年商業化收入增長超過100%,平臺日均Tokens消耗量增長150倍。其C端產品智譜清言App擁有超過2500萬用戶,年化收入(ARR)超千萬。
月之暗面
月之暗面大概是所有創業公司中,在產品層面唯一能夠正面對抗字節跳動的存在。
回頭看,它今年最重要的動作是聚焦Kimi,並把“長文本”這個標籤做到了極致。今年3月,Kimi Chat將上下文輸入限制突破至200萬文字,產品熱度一度致其小程序宕機,甚至在二級市場形成Kimi概念股板塊。
這股熱度一直延續至今。儘管在用戶活躍度層面,Kimi與豆包之間相差一個數量級,但它已經基本與文小言持平,並超越一衆創業公司的同類應用。
不過,在應用層,月之暗面已經暫時收縮了C端(個人用戶端)的出海戰略。月之暗面表示,這是公司主動選擇做減法,將更加聚焦Kimi的開發。
進入年末,儘管身陷創始人風波,但月之暗面仍在Kimi Chat一週年時發佈了新一代數學推理模型,其數學能力對標OpenAI o1系列。
融資層面,去年還不算突出的月之暗面,在2024年完成了自己的站位轉變。今年2月,阿里巴巴入局,公司完成一輪超十億美金融資,以25億美金估值站穩行業第一梯隊。8月,騰訊跟進投資,月之暗面融資規模超過110億元人民幣,以33億美金刷新大模型創業公司估值最高紀錄。
Minimax
Minimax今年的優勢相對明顯,其C端應用已初具矩陣形態,並在出海戰略上頗爲成功。
在國內和海外,海螺AI、星野、Talkie已成爲其認知度較高的產品。根據Sensor Tower的數據,Talkie在美國免費娛樂類應用榜上排名第五,全球月活躍用戶數已達1100萬。此外,根據QuestMobile數據,星野活躍率達到25.7%,月人均使用天數爲7.7天。
這些產品熱度帶來了實在的商業化進展。據英國金融時報,Minimax今年的ARR收入或達7000萬美金。
模型側,Minimax在4月推出萬億參數MoE大語言模型abab6.5,多模態方面,8月推出音樂生成模型與視頻生成模型。並且,Minimax的視頻生成能力頗有後來居上的態勢,在可信度上表現突出,與快手可靈、字節即夢均有可比性。
從基座模型進展來看,採用新一代技術的“abab7”系列文本模型,以及o1類產品,將是Minimax在明年上半年的重大看點。
融資方面,今年3月,MiniMax完成B輪的6億美元融資,投資方爲阿里巴巴,其估值達到25億美元。
百川智能
“六小虎”中,百川智能在AI應用場景層面的戰略選擇最爲明確。
今年5月,百川智能發佈最新一代基座大模型Baichuan 4,並推出成立之後的首款AI助手“百小應”。
Baichuan 4仍是一個數千億參數級別大模型,相較Baichuan 3,其通用能力提升超過10%,數學和代碼能力分別提升14%和9%。“百小應”定位於專業AI助手,功能涉及整理資料、輔助創作、多輪搜索等。
而後,百川智能重點投入醫療大模型,目前已在兒科領域取得一定進展,與兒童醫院合作推出了“一大四小”醫療產品。
王小川強調,醫療應用需要精準和高效的智能支持,因而提升模型智力的上限對於醫療領域尤爲重要。
關於大模型公司可能放棄“預訓練”的傳聞。他明確表示,中國的大模型公司仍需堅持“預訓練”這一戰略,因爲這是國家戰略資源的一部分。與海外通過超級平臺推動預訓練不同,中國的預訓練更多依賴於場景驅動,而醫療正是一個理想的應用場景。
融資方面,百川智能今年完成了A輪融資,總融資金額達50億元,公司表示將以200億元估值開啓B輪融資。
零一萬物
雖然在外界看來,零一萬物的高管團隊在今年發生了動盪,但這家公司目前在模型層和應用層也梳理出了自己的明確方向。
今年上半年和下半年,零一萬物分別發佈千億參數模型Yi-Large,以及最新旗艦模型Yi-Lightning,後者在國際權威盲測榜單LMSYS上排名世界第六。
在應用層,經歷B端和C端產品試水以及海內外業務同時推進後,零一萬物在趨緊年末的節點捋出了更適合自己的清晰打法。
針對國內市場,零一萬物採取ToB戰略,並將其概括爲“Infra+大模型+應用”三位一體戰略,囊括三條業務線分別是,面向電商直播、辦公會議等場景的“如意”數字人解決方案,基於自身AI Infra能力提煉的AI Infr 解決方案,以及原有的Yi API和開放模型訓練平臺。
C端產品上,零一萬物面向海外市場的Pop AI,有望繼續爲其產生穩定現金流,而面向國內市場的AI智能助手“萬知”將維持基礎運營,並在未來伺機尋找其他增長機會。
8月,消息稱零一萬物完成新一輪融資,金額達數億美元,此輪融資參與方包括某國際戰投、東南亞財團等多家機構。
階躍星辰
階躍星辰的低調作風延續了一整年。雖然市場輿論有所看衰行業發展,但這家公司仍然堅定AGI目標與基座模型預訓練。
在模型層,階躍星辰今年率先發布了行業首個萬億參數級別MoE大模型Step-2,並推出了Step-1V多模態理解⼤模型。
據統計,過去10個月,公司一共發佈了11個自研基座模型,包括千億、萬億參數的語言大模型,圖像、視頻理解大模型,圖像、視頻生成大模型以及不久前發佈的國內首個端到端千億參數語音模型。
商業化方面,階躍星⾠執行的是“超級模型+超級應⽤”戰略,通過⾃研和⽣態合作的模式面向C端市場發佈產品,目前已有AI智能助手躍問、AI開放世界冒泡鴨,以及在⾦融財經、內容創作、智能終端等領域與各企業合作完成的AI應用。
接近年末,階躍星辰成爲2024年最後一家傳出融資消息的“六小虎”。
12月這輪融資後,其總融資金額達數億美元,新一輪核心投資方包括上海國有資本投資有限公司及其旗下基金,戰略和財務投資人包括騰訊投資、五源資本、啓明創投等,但仍未透露估值信息。
牌桌上還有這些玩家 面壁智能
作爲端側大模型玩家的代表,面壁智能的行業站位突出且明確。
2月,面壁智能開始推出端側大模型小鋼炮MiniCPM系列,並於9月發佈4B版本MiniCPM 3.0 文本模型,在自然語言理解、知識、代碼、數學等能力上可達到GPT-3.5水平。
多模態方面,面壁智能8月發佈8B版本MiniCPM-V 2.6多模態模型,首次將超清OCR識圖、實時視頻理解等能力集成到端側。
據統計,面壁小鋼炮MiniCPM系列累計下載量400萬。
當前,智能硬件成爲AI大模型最重要的落地場景之一,這爲端側模型供應商構成一定商業化想象空間。對此,面壁智能正在與華爲、聯發科技、聯想、英特爾、長城汽車、易來智能等企業協作,業務覆蓋AI Phone、AI PC、智能座艙、智能家居與具身機器人等領域。
12月,面壁智能完成新一輪數億元融資。
對標Sora的創業公司們:生數科技、愛詩科技
AI視頻生成是這一輪大模型創業中格外火熱的一條賽道,在這裡競爭的不止有互聯網大廠和“六小虎”。
生數科技在商業化層面瞄準了影視、文化、泛娛樂等領域。今年4月,公司推出長視頻大模型Vidu,以一鍵生成32s視頻,同時支持4D、音視頻融合生成等特性產生了一定熱度。11月,Vidu 1.5版本上線,進一步攻克視頻模型多主體一致性難題。
愛詩科技是另一個重要代表,創始人王長虎曾擔任字節跳動的視覺技術負責人。
今年2月,愛詩科技核心產品PixVerse上線,產品增速一度迅猛,4月其視頻生成總量超越1000萬。11月,PixVerse毒液變身特效在抖音走紅。截至目前,PixVerse全球用戶數超1200萬,月活躍用戶數近600萬。
12月,愛詩科技宣佈完成A2至A4輪融資,總金額近3億元人民幣。