“端到端”是自動駕駛的曙光嗎
撰文/ 錢亞光
編輯/ 黃大路
設計/ 師 超
7月23日,馬斯克在Q2財報會議上表示,FSD V12.5(或 12.6)將在年底正式登陸中國,他進一步補充稱,等到這些版本早期推送之後,將提交給上述國家的監管部門審覈。
隨着AI大模型入場,自動駕駛涌現出許多新的技術,智駕行業技術路徑從CNN、RNN、GAN、再到Transformer大模型,去年行業主流方案還是輕高精地圖城區智駕,今年大家的目標都瞄到了“端到端”。
2024年3月,特斯拉開始在北美地區大範圍推送FSD v12。這套端到端智駕系統表現優秀,讓從業者和用戶前所未有地感受到技術帶來的體驗提升,也使之成爲端到端自動駕駛這一技術路線快速形成大範圍共識的最重要的推動力。
“端到端”模型將感知、規劃與控制三大模塊整合在一起,消除了模塊間的界限,簡化了系統架構,提高了運行效率。整合後的模型能夠更快地處理數據,提高系統的響應速度。同時也減少了對激光雷達和高精地圖的依賴,降低了成本。
小鵬汽車董事長何小鵬認爲,端到端大模型將讓自動輔助駕駛過渡到完全自動駕駛的時間大幅縮短,2025年,小鵬汽車就能在中國實現類L4智駕體驗。
輕舟智航CEO於騫認爲,端到端的技術使得智能駕駛技術的演進方向有一個比較明確的趨勢,逐漸把非機器學習的部分擠得越來越小,整個系統是一個模型,實現完全的基於機器學習的方式,完全通過數據驅動來實現智能駕駛能力。
毫末智行CEO顧維灝表示:“AI大模型是自動駕駛真正實現的唯一路徑,端到端會是未來很重要的技術方向。端到端不僅僅是模型端的優化,也需要數據的供給與算力的支持。”
英偉達汽車事業部副總裁吳新宙認爲,端到端是自動駕駛的最終一步,接下來幾年端到端模型和原有模型會在自動駕駛中相輔相成,端到端模型提供更擬人且靈活的處理,而原來的模型和方法則可以保證安全性。
端到端不一定是靠近智駕終局的最終解,但目前來看是最優解,它能夠處理傳統路徑難以解決的極端案例,並且代表了一種減少人工編碼依賴,更高效的思路。基於這個路徑,或許自動駕駛能夠通往更高階段。
現在,包括學界、車企、智駕供應商在內,所有參與者都在向這個方向奔去。
什麼是端到端
“端到端”是深度學習中的概念,英文爲“End-to-End(E2E)”,指的是一個AI模型,只要輸入原始數據就可以輸出最終結果。應用到自動駕駛領域,意味着只需要一個模型,就能把攝像頭、毫米波雷達、激光雷達等傳感器收集到的感知信息,轉換成車輛方向盤的轉動角度、加速踏板的踩踏深度以及制動的力度等具體操作指令,讓汽車實現自動行駛。
目前,端到端實現路徑尚未統一,對於端到端的定義可以區分爲廣義與狹義。廣義的定義,強調端到端是信息無損傳遞,不因人爲定義接口產生信息損耗,可以實現數據驅動的整體優化。而狹義的定義,則是端到端只強調從傳感器輸入到規劃、控制輸出的單一神經網絡模型。
因此,我們也能看到各家端到端的汽車企業或智駕供應商,從輸入到輸出的實現形式都有着一定的差異化,主流方案有以下三種:
一是感知認知模型化,將大模型拆分爲感知與認知(預測決策規劃)兩個階段,串聯二者做訓練;二是模塊化端到端,將智駕的所有模型串聯在一起,用高端的方式統一訓練;三是單一神經網絡,也就是狹義的端到端,用一整個囊括輸入到輸出端的大模型,直接進行訓練。
辰韜資本聯合多家機構發佈的2024年度《端到端自動駕駛行業研究報告》認爲,端到端的核心定義標準應爲:感知信息無損傳遞,可以實現自動駕駛系統的全局優化。
基於以上定義標準,並結合自動駕駛系統中AI 的應用,該報告將自動駕駛技術架構分爲四個階段,分別是感知端到端、決策規劃模型化、模塊化端到端以及One Model端到端,其中,後兩個階段符合前述端到端的定義標準。
也就是說,從感知端模型上車,再進行規劃模型化,最後串聯起來做端到端訓練,是一種相對平滑的過渡形式。
優勢和挑戰
端到端自動駕駛通過將傳感器收集到的全面信息作爲輸入,在單一網絡中直接生成車輛的控制指令或運動規劃。這種設計使得整個系統針對最終目標進行優化,而非僅僅針對某個獨立的子任務,從而實現自動駕駛性能的全局最優化。
相比傳統的“感知-決策-控制”智駕系統,由於中間沒有規則介入,端到端把原本感知、預測、規劃等多個模型組合的架構,變成了“感知決策一體化”的單模型架構,在信息傳遞、推理計算、模型迭代上更有優勢,可以擁有更強大的通用障礙物理解能力、超視距導航能力、道路結構理解能力,以及更擬人的路徑規劃能力。
由於端到端架構由數據驅動的模塊所構建,人爲維護的模塊比例相應會降低,系統維護因而更簡單;且端到端架構通過一個模型實現多種模型的功能,研發人員只需要針對單一模型進行整體訓練、調整優化,即可實現性能上的提升,因此可以更好地集中資源,提升迭代速度;端到端系統不僅能夠顯著提升計算效率,更因其數據驅動的特性而擁有更高的性能上限和更低的維護成本。
儘管有巨大潛力,但端到端自動駕駛在實現量產落地與普及方面仍面臨諸多挑戰,比如構建所需的強大算力、獲取用於模型訓練的高質量海量數據,以及尚未解決的“不透明性”和“解釋性不足”等制約產品性能提升和安全保障的關鍵問題,需要行業各方共同努力,隨着技術的進步而逐步克服攜手解決。
端到端的挑戰主要有以下幾個方面:
首先,如何控制成本。端到端作爲一個新技術路徑,大算力、大數據、大算法的高需求,構建了玩家的高門檻,需要廠商不斷提升GPU的採購規模,這意味着端到端模型的訓練成本非常高昂。考慮到新事物的試錯成本,在算法架構上,如何平衡效率與成本也是一大挑戰。
其次,解決弱解釋性問題。端到端智駕相當於類人駕駛,想落地還存在黑盒子的不可解釋性問題,尤其面對國內複雜的城市路況,安全性難以得到完全保障。自動駕駛的“失效成本”很高,強調安全底線,需要設置額外的完全邊界做冗餘。
一些企業有一些解決方案,比如理想推出了一套雙系統方案對端到端兜底;Nullmax則在多模態端到端大模型上,加上一個仿生的安全類腦,以兩級仲裁保障安全。
第三,優質大規模數據的獲取和處理。大模型需要大數據,本質上來講,端到端自動駕駛是海量駕駛視頻片段的學習(壓縮與昇華)都需要極大規模的高質量數據,而數據的採集、清洗、篩選都是難點。
第四,實現大模型的標準化驗證。端到端方案的落地,要經歷成熟的驗證方式,而直接實車驗證顯然成本過於高昂,而基於數據回灌的開環測試與端到端智駕驗證需要的可交互性並不匹配。基於模擬器實現模型的閉環測試驗證,成爲了當下驗證的可行路徑。
端到端的實踐
進入2024年,小鵬、蔚來、理想、零一、極越、華爲、Momenta、商湯科技、元戎啓行、Nullmax等企業也積極跟進,紛紛推出了面向量產的端到端自動駕駛解決方案和車型。這些方案不僅在技術層面上展現了強大的競爭力,更在卓越的實際道路表現中證明了其有效性。
小鵬汽車
5 月 20 日,小鵬汽車宣佈端到端大模型上車,其由神經網絡 XNet (側重於感知和語義) ,規控大模型 XPlanner 和大語言模型 XBrain (側重於整個大場景的認知) 三部分組成。
XNet可模擬人類感知,使自動駕駛系統感知範圍提升2倍,XPlanner可使機器的駕駛策略不斷擬人化,做到前後頓挫減少50%、違停卡死減少40%、安全接管減少60%。XBrain則能讓自動駕駛系統擁有與人類大腦一樣的理解學習能力,能認識待轉區、潮汐車道、特殊車道、路牌文字等。
據瞭解,一個無限接近人類司機的自動駕駛系統約需要10億行代碼,以人力編寫規則,幾乎是不可能完成的任務。而改用端到端模型後,小鵬的智駕系統將能實現幾乎無上限的規則。
小鵬計劃讓其端到端智能駕駛大模型實現“每2天迭代一次”的快速更新週期。按照這一規劃,預計在未來18個月內,小鵬的XNGP系統的能力將實現30倍的提升(接管率指標)。
蔚來汽車
自2023 年下半年開始,蔚來單獨設立了一個大模型部,由原感知部門和規控部門下的模型部合併而來,專門負責端到端的模型研發,計劃於2024 年上半年上線基於端到端的主動安全功能。
蔚來智能駕駛研發副總裁任少卿表示,自動駕駛的大模型需要拆解成若干個層級,第一步是模型化,行業基本已經完成了感知的模型化,但是規控的模型化方面頭部公司也沒有完全做好,第二步是端到端,去掉不同模塊間人爲定義的接口,第三步是大模型。
現在,蔚來智駕的核心業務,分爲“雲”(大模型部) 和“車”(部署架構與方案部) 兩塊,取消原來按照功能 (感知、地圖、數據、規控等) 模塊劃分的方式。“雲”負責創造出更好的基礎模型,去支持未來“車”端的迭代。
理想汽車
7月5日,理想汽車在2024智能駕駛夏季發佈會上首次公開了其端到端自動駕駛技術架構。
該架構主要由端到端模型、VLM視覺語言模型、世界模型三部分共同構成。端到端“One Model”結構,輸入端是傳感器信息,輸出端是行駛軌跡。
理想研發團隊受諾貝爾獎得主丹尼爾·卡尼曼的“快慢系統理論”啓發,針對端到端方案,提出了快思考與慢思考。
快系統,即系統1,善於處理簡單任務,更像人類基於經驗和習慣形成的直覺,足以應對駕駛車輛時95%的常規場景。系統1由端到端模型實現快速響應,端到端模型接收傳感器輸入,並直接輸出行駛軌跡用於控制車輛。
慢系統,即系統2,則是人類通過更深入的理解與學習,形成的邏輯推理、複雜分析和計算能力,在駕駛車輛時用於解決複雜甚至未知的交通場景,佔日常駕駛的約5%。系統2由VLM視覺語言模型實現,其接收傳感器輸入後,經過邏輯思考,輸出決策信息給到系統1。
雙系統構成的自動駕駛能力還將在雲端利用世界模型進行訓練和驗證。
極越汽車
4月25日北京車展上,極越官宣,將於2026年量產上車英偉達1000TFLOPS高性能計算平臺THOR。“滿足未來全場景端到端的智駕需求,爲用戶帶來安全、先進的智能移動出行體驗。”
從結構來看,極越的智駕模型爲主幹網絡+多任務頭的結構,但其主幹模型相較於專家型,更偏向於高通用性的基礎網絡(foundation model),多頭任務模型也被集中爲通用性更高。這將有助於其在未來向端到端的進化。
面向終局的端到端(數據輸入端-執行指令輸出端)方案中,極越或將採用感知和決策兩個大模型,通過數據對骨幹網絡進行聯合優化的模式來演進。
百度自動駕駛技術負責人/百度IDG技術委員會主席王亮表示,可能5年甚至更長時間,(完整端到端)的大模型才能運用到車端。
零一汽車
2024年5月16日,零一汽車首次披露了其端到端自動駕駛系統的進展,也因此而成爲商用車領域第一家公開投入端到端技術的公司。
其基於大模型的純視覺端到端自動駕駛系統,使用攝像頭和導航信息作爲輸入,經過多模態大語言模型的解碼產生規控信號和邏輯推理信息,將系統複雜度降低 90%。通過自我學習和自我調整,該系統具備強大的場景泛化能力,且大幅降低了自動駕駛系統的部署成本。
零一汽車認爲,由於商用車自動駕駛的應用場景比乘用車更加可控,公司計劃在2024年底實現端到端自動駕駛的部署上車;在2025年開始測試One Model的端到端系統,在商用車與乘用車平臺上同時實現量產;2026年開始在部分應用場景開始穩定運營,並實現常態無人化。
除主機廠,向主機廠提供智能駕駛方案的供應商,也是關注端到端模型的代表力量。
華爲
4月24日,華爲在智能汽車解決方案發佈會上,發佈了以智能駕駛爲核心的全新智能汽車解決方案品牌——乾崑,及其新一代智能駕駛解決方案ADS 3.0。ADS 3.0實現了決策規劃的模型化,爲端到端架構的持續演進奠定了基礎。
ADS 3.0實現預決策和規劃一張網,感知部分採用GOD(General Object Detection,通用障礙物識別)大感知網絡,決策規劃部分採用PDP(Prediction-Decision-Planning, 預測決策規控)網絡,從而實現了簡單“識別障礙物”到深度“理解駕駛場景”的跨越式進步,行駛軌跡更類人,通行效率更高,複雜路口通過率>96%,全面提升了智能駕駛的安全性與駕乘體驗。
元戎啓行
在北京車展上,元戎啓行對外展示了即將量產的高階智駕平臺 DeepRoute IO 以及基於 DeepRoute IO 的端到端解決方案。
元戎啓行CEO周光表示:“DeepRoute IO平臺不依賴高精度地圖,應用端到端模型,具有極佳的綜合性能以及更強的長尾場景處理能力。目前,IO平臺已在城市線級不同的多個城市進行泛化測試,這些等級不同的城市人口均超千萬,道路情況極具代表性。IO平臺推向消費者市場後,所到之處都能開,任何場景都好開。同時,IO平臺充分考慮用戶駕駛習慣,能理解真實世界,猶如人類司機。
商湯絕影
在北京車展上,商湯科技推出了適用於實車部署、面向量產的真正端到端自動駕駛解決方案UniAD。
商湯絕影從一開始採用的就是將感知、決策、規劃等模塊都整合到一個全棧Transformer端到端模型中,實現感知決策一體化的“一段式”方案。也就是由傳感器輸入,直接輸出行爲的軌跡。
UniAD將感知、決策、規劃等關鍵模塊整合到一個全棧的Transformer端到端模型中,通過聯合訓練保留了各個模塊的特性,實現了感知與決策的一體化。該系統僅憑攝像頭的視覺感知,無需高精地圖,UniAD通過數據學習和驅動就能夠應對城區的複雜環境。
雖然UniAD提升了智駕系統的駕駛能力,但純粹的端到端自動駕駛模型不是自動駕駛的最終答案。依託多模態大模型,商湯絕影已進一步研發出新一代自動駕駛大模型DriveAGI,適用場景更寬、性能更高、門檻更低,體驗上做到可感知、可交互、可信賴。
地平線
早在2016年,地平線便率先提出了自動駕駛端到端的演進理念,並在2017年開始訓練端到端系統。2022年,地平線又提出了智能駕駛感知端到端算法Sparse4D。2023年,由地平線學者一作的業界首個公開發表的端到端智能駕駛大模型UniAD,提出了業界首個感知決策一體化的智能駕駛通用模型UniAD 框架。
2024年5月,地平線發佈了SuperDrive全場景智能駕駛解決方案,使用了動態、靜態、Occupancy三網合一的感知端到端架構。同時地平線也設計開發了基於數據驅動的交互博弈,不再是基於規則的決策網絡。
SuperDrive通過聚焦擬人化體驗突破,憑藉動態、靜態、OCC(Occupancy佔用網絡)三網合一的端到端感知架構,數據驅動的交互式博弈算法,在任何道路環境下都能兼顧場景通過率、通行效率和行爲擬人,在擁堵匯流、路口交互動態Driveline、禮讓騎行人、擁堵換道、城市環島通行等城區複雜場景下,實現“優雅從容”的擬人化智能駕駛體驗。
百度
5月15日,百度發佈了全球首個面向自動駕駛的端到端大模型Apollo ADFM(Autonomous Driving Foundation Model)。從2021年開始,百度Apollo將系統中的多個小模型任務逐步整合,擴大模型規模,探索自動駕駛大模型技術,並徹底相應升級了整體研發範式,通過持續地積累形成技術突破。
百度Apollo以感知大模型和規劃大模型爲基礎,進一步實現了端到端的自動駕駛大模型,通過對中間結果做隱式傳遞,實現了端到端的聯合訓練。整體的數據訓練評測都更爲簡化,進一步減少了信息損失。該方案已經告別了科研探索階段,能夠滿足非常高的安全標準,亦可解決L4無人駕駛的問題。
Momenta
6 月 28 日,廣汽豐田宣佈與 Momenta 聯合推出端到端全場景智駕方案,支持城市及高速場景智駕,支持智能泊車,且不依賴高精地圖。在此次推出的方案中,Momenta還搭載了國內首個量產交付的端到端智駕大模型,融合了感知和規劃,讓智駕產品的連續性更好,性能進步的上限也更高。
Momenta CEO曹旭東表示,端到端分了兩個支路。一個支路是端到端的大模型,類比於人類的長期記憶。另外一個支路分成了兩階段,DDOD加上DDLD相當於是感知的部分,DLP是Deep Learning的planning,是認知的部分。這個支路相當於是人類的短期記憶。
Nullmax
7月16日,Nullmax正式推出新一代自動駕駛技術Nullmax Intelligence(簡稱“NI”)。新技術由一個多模態的端到端大模型,加上一個安全類腦組成,着重於打造全場景的自動駕駛應用,是一套純視覺、真無圖的自動駕駛解決方案。
爲了解決純視覺端到端自動駕駛系統存在黑盒、解釋性差等難題,NI在視覺基礎上,增加了對聲音、文本、手勢等信息的輸入支持,通過多模態的端到端模型進行任務的推理,並構建了基於類腦神經網絡的安全類腦,由系統整體輸出可視化結果、場景描述和駕駛行爲。
這種架構設計,使得NI可以像人類一樣,根據接收的圖像、聲音、文字等各種信息進行思考,同時也具有“趨利避害”的生物本能。
除此之外,NI並不依賴激光雷達、雙目相機、大算力以及各類地圖,這讓其成本可以控制在小几千元範圍內,更加適合普及應用。據悉,基於NI,Nullmax計劃2025年實現全場景智駕應用的落地。
毫末智行
毫末自2022年起就開始探索端到端解決方案,走出了一條毫末自己的自動駕駛技術探索之路。
毫末DriveGPT大模型正是按照3.0時代的技術框架要求進行升級。在通用感知能力提升上,DriveGPT通過引入多模態大模型,實現文、圖、視頻多模態信息的整合,獲得識別萬物的能力;同時,通過與NeRF技術整合,DriveGPT實現更強的4D空間重建能力,獲得對三維空間和時序的全面建模能力;在通用認知能力提升上,DriveGPT藉助大語言模型,將世界知識引入到駕駛策略,從而做出更好的駕駛決策優化。
小馬智行
2023年8月,小馬智行將感知、預測、規控三大傳統模塊打通,統一成端到端自動駕駛模型。小馬智行端到端自動駕駛模型既可作爲L4 車輛的冗餘系統,也可作爲L2 車輛的解決方案。
小馬智行端到端自動駕駛模型具有四大特點:一是多維度的數據來源,包括L4 自動駕駛車輛行駛數據,L2 量產車中人類駕駛員數據,V2X 路段攝像頭數據以用日常生活中的數據等;二是全面的數據處理工具,小馬智行擁有一套完整的數據評估體系,包含前期高質量數據挖掘清洗,測試使用的大規模仿真系統等;三是模型具有可解釋性,可結合駕駛意圖、應用場景融入規則性指令;四是模型自動駕駛更加安全,其自動駕駛測試里程超3500 萬公里,安全性比人類司機高10 倍。
結語
《端到端自動駕駛行業研究報告》認爲,國內自動駕駛公司的模塊化端到端方案上車量產時間可能會在2025年,而One Model端到端系統中性預期落地時間會晚於模塊化端到端1-2年時間,從2026年至2027年開始上車量產。
但總的來說,端到端的自動駕駛路線仍處於發展初期,除了特斯拉之外,還未有其他廠商能夠實現端到端自動駕駛的量產。各個廠商所採用的技術路線尚未經過市場的充分驗證,行業內也缺乏可供借鑑的成功實踐案例。