大模型賦能智能座艙,中國軍團迎接新挑戰

“AI座艙,過去五年爆發式增長,現在問題很快出現了。這個領域產品系列發展的這麼快,其它體系跟不上,智能座艙進入了’無人區’,國外沒有國內發展快。”

清華大學智能綠色車輛與交通全國重點實驗室教授曹東璞,在剛舉辦的全球智能汽車產業大會(GIV 2024)表示,疫情前,國內座艙產品基本落後國外一到兩代,從去年開始,已經基本領先國外一到兩代。

國內座艙的爆發式發展,AI大模型是主要推動力之一。“頭部座艙企業已經遇到瓶頸了,如果沒有大模型,座艙業務估計要一步步萎縮,很難有質的飛躍。”

今年開始,大模型加持的智能座艙,“多模態”成了一個熱話題。隨着技術的持續迭代和發展,大模型正在從單一模態向多模態演進,多模態大模型,有希望成爲未來人機交互的超級入口。

諮詢公司Gartner 預測,建立在多模態大模型上的生成式AI應用,將從2023年的1%,激增至2027年的40%,充滿了想象空間。

目前,智能汽車是原生多模態大模型的絕佳落地場景,GPT-4o和商湯絕影的日日新最新版本,已經能感知外部環境、人的情緒以及其他非語音信號,多模態實時交互的方式,也釋放了車企商業落地的更多想象空間。

在商湯看來,多模態大模型的座艙落地,突破了空間的限制,實現艙內用戶與更廣闊的物理和數字世界的聯接,助推智能汽車向超級智能體進化,本質上,是一個生態的集成。

火山引擎汽車行業總經理楊立偉也表達了類似觀點,大模型天生就跨終端,能夠生態打通,將來大模型在座艙最大的價值,就是幫助座艙集成好生態,再打通各個終端,有足夠的想象空間。

中國軍團,硬剛GPT-4o

何爲“多模態”?

無論是文本、語音、圖像還是視頻,都是我們表達和傳遞信息、同時也是感知信息的方式。而每一種信息的來源或者形式,都可以稱之爲“模態”(Modality)。

人類通過視覺、聽覺、觸覺等感官來接收和理解外部信息,也可以通過文字、語音、圖像、視頻等模態來表達、傳遞和交流信息。更廣義來說,兩種不同的語言,比如中文和英文,也是兩種不同的模態。

圖像、語音、視頻等單一模態訓練,能在特定的專業領域表現亮眼、取得很多成就,包括圍棋領域的AlphaGo、蛋白質結構預測的AlphaFold,但這些單一模態模型仍舊存在一些侷限性。

首先,單一模態的數據所傳遞的信息往往不夠全面、完整,難以充分反映真實世界的複雜性和多樣性。例如,一段文本可能沒有描述清楚一個場景的所有細節,而僅僅依靠一張圖像也無法展現出一個物體的功能和作用。

其次,單一模態的模型往往是孤立和封閉的,不能有效與其他模態的數據和模型進行交互和融合。例如,一個只依靠文本生成的模型可能無法根據圖像的內容來生成合適的描述。

隨着OpenAI的GPT-4V和商湯“日日新5.5”的多模態大模型發佈,AI公司開始在技術框架層將語言模型、視覺模型、聲音模型等進行融合。這些模型首先獨立訓練,然後將各模型在跨模態數據上繼續訓練,最終實現多模態的對齊,通過顯式或隱式的管道模式進行連接實現場景。

那麼,何爲原生多模態?

具體來看,原生多模態就是指從訓練階段開始,模型就利用大量不同模態的數據進行預訓練,技術上實現緊密的耦合,不僅可以在輸入和輸出端實現多模態,而且還具備強大的多模態推理能力以及跨模態遷移能力。

它和之前的多模態模型最核心的區別,在於模型訓練過程中,是否同時處理所有模態的數據,還是分別針對不同目標進行優化,是不同模態之間的相互串聯、橋接與轉化。

前兩月,商湯絕影率先實現原生多模態大模型的車端部署,官宣了搭載在200 TOPS+平臺上的8B模型(即80億參數)車端部署方案。相較於有幾秒鐘延遲的雲上部署方案,商湯絕影車載端側8B多模態模型可實現首包延遲可低至300毫秒以內,推理速度40Tokens/秒。

商湯將多模態大模型業務分爲三層——

最下面是模型層,包括車端側和雲端的模型。車端側的模型可根據需求部署2.1B、8B等規模的模型,用於進行端側的多模態大模型推理。在雲端,則可以部署更大規模的模型,如20B甚至100B以上的模型。

中間是引擎層,主要有兩個產品。

第一個是座艙大腦,感知座艙內的情況,如識別人類的穿着、性別、行爲以及觀察座艙內的其它細節特徵,對車內環境進行意圖推理;第二個是全時駕駛輔助,它利用多模態大模型的能力感知車外場景,作爲行駛策略的輔助。

最上面是業務層,包括語音助手、ADAS系統、手機運用以及娛樂功能等,和下面的模型層、產品引擎層進行融合。

大模型“上車”的新功課

神州數碼汽車業務集團CTO劉黎告訴《汽車公社/C次元》,人類數字化歷史上出現過兩個超級生態,第一個是微軟和英特爾的PC生態,第二個是蘋果和安卓的手機生態,目前業界正期待第三個超級生態的到來——

英偉達主導的CUDA有其影響力,但還沒有像前兩個超級生態那樣,出現殺手級的應用。智能車具有大量的傳感器,遠多於手機,還是移動的隱私空間,極有可能成爲下一個超級生態的突破口。

不過,很多車企的座艙設計,只是把手機的卡片式交互移植到了車上,屏幕比較大,堆積了音樂、導航等,本質上還是卡片式交互。想要從根本上解決交互屬性,多模態是一個切入點,可以最大程度發揮智能座艙的自有優勢。

科大訊飛智能汽車事業部智能座艙業務總經理呂思南看來,多模態大模型加速“上車”,座艙深入融合越來越多,算法的需求也越來越強,對於算力也有極大的壓力。

在芯片選擇方面,頂端的是高通、聯發科以及英特爾等廠商,但隨着國產替代日漸強勢,芯片選型越來越多樣化,怎麼才能更優、更好地使用算力,是一個挑戰。

呂思南分析說,集中化跨模態的全鏈路數據打通,包括服務接口的標準化等方面,是需要座艙域進一步努力的,包括芯算融合,硬件的抽象化和標準化。

挑戰主要有兩方面。

一是,車端應用大模型,目前常見的承載算力的單元是SOC,SOC供應商提供不同的算力單元,非常考驗AI能力和汽車融合的深度。如果融合不好,則需要更強的算力,成本會更高。

二是,現有的算力會導致整個系統更卡頓,以及多域融合時,互相的打通、分配產生很多困難。此外,OTA迭代、更新也會面臨很大的問題,這些都是當前亟需解決的。

另一方面,是實際需求的取捨。

最近一兩年,座艙大模型如火如荼,但從最終呈現的產品體驗來看,很多座艙應用成了消費者眼中的“雞肋”。在智駕領域,端到端等新趨勢可以提高性能和技術的天花板,但座艙大模型孵化的諸多新應用,卻遭遇了“食之無肉、棄之有味”的尷尬。

火山引擎座艙大模型負責人張航強調,最近幾年,座艙內的用戶需求沒有太大變化,它的本質是跟車的交互。所以,智能座艙當前的重心,不該急於產品創新,而是迴歸原點,改變車內場景的交互效率。

百度智艙業務部總經理李濤也表達了類似的觀點,如果一個功能頻繁被用戶使用,一方面說明該功能非常實用,用戶對它產生了依賴;但另一方面,也體現了整體車輛設計的智能化程度比較低,無法理解用戶當前所需。

“根據帕累託定律,整體軟件應用也符合八二原則。這意味着,80%甚至更高比例的應用不會被使用,這樣一來,不只應用端產生浪費,主機廠也需要大量投入,無形中造成了整個社會的浪費。”