“車位到車位”,正在成爲端到端的試金石
“以後的汽車,沒有高階智駕,就沒有競爭力。”近段時間,有不少行業專家向蓋世汽車表達了相似的觀點。
從自動泊車到全自動駕駛,從簡單的輔助系統到復雜的決策算法,智能駕駛已經成爲衡量一款新車是否先進、是否具有吸引力的重要標准之一。對於各大車企而言,加大在智能駕駛領域的研發投入已成爲必然趨勢。
隨着又一屆廣州車展的召开,汽車產業的最新技術和趨勢再一次在這裏匯聚,各大車企競相展示創新成果,高階智能駕駛技術的競爭愈發激烈,端到端和車位到車位等關鍵詞也站在了新一輪技術競爭的C位。。
其中,理想汽車展示了其最新的智能駕駛技術——端到端+VLM雙系統方案。與此同時,理想汽車正式發布了其車位到車位智駕功能。
借助廣州車展引發的廣泛關注,理想汽車近日舉辦了端到端智駕體驗日活動。爲了更深入地了解這一技術的實際應用效果,蓋世汽車通過在真實城市道路的實際體驗,對理想“端到端+VLM”加持下的車位到車位功能的真實能力,做了一次實地測試。
圖源:理想汽車“車位到車位”功能實測
在體驗過程中,我們選擇了一段包含多種路況的路线,包括城市狹窄、擁堵路段、環島、高速公路以及園區內部道路等。就實際操作而言,用戶只需在車載系統中輸入目的地車位信息,車輛便能夠自動規劃路线並引導前往。在到達目的地後,車輛也能夠自動識別並泊入指定的車位。
具體來看,在上車選定導航路线之後,點擊“一鍵智駕”或者跟語音激活,車位到車位的過程就能直接啓動。此後車輛,順利駛出車位、地庫、狹窄的小區道路,遇到閘機車輛也會自動停下,等繳費擡杆之後繼續行駛,無需接管。
理想汽車透露,無論是露天停車場、園區內,還是多層的地庫、立體停車場,其車位到車位功能都可以支持。
行駛到公共道路上後,智駕系統也可以應對環島、掉頭和各種施工場景,復雜的博弈和交通燈情況下,通行也較爲順暢。
蓋世汽車體驗實錄這背後的技術支撐是理想基於端到端+VLM雙系統的智能駕駛方案,簡單來看,端到端不依賴規則式邏輯,具備更擬人化的駕駛方式,VLM則具備理解物理世界復雜的交通環境和中文語義的能力,賦予了智駕車輛更強大的通行能力。
對於U型掉頭功能,理想汽車方面告訴蓋世汽車,端到端基於人類司機數據,在不同的掉頭場景中(有無中央隔離帶,寬窄車道等)都可以輸出一條合理軌跡,不再強依賴於導航信息和前後車道的拓撲連接關系。此外端到端具備更強的側向感知能力(看得遠+看得准),在掉頭過程中,可以更准確識別和預測對向直行車輛的行駛軌跡並做出避讓。
蓋世汽車體驗實錄更值得注意的是理想汽車全國高速收費站ETC通行能力,其旨在打通城市與高速駕駛場景。據理想汽車介紹,該功能不限範圍、無需學習過程,全國用戶都能用。
蓋世汽車體驗實錄理想汽車方面指出:“通過端到端+VLM 架構,除了讓系統开得像人以外,還能理解真實世界復雜的語義信息,在實現ETC自主通行這個場景中,也是由VLM識別收費站及ETC通道位置,引導端到端系統向ETC通道行駛並通過閘機。”
此外還有路邊起步、環島通行等功能 ,盡管當天天氣狀況不佳,道路環境更加復雜,在整個行駛過程中,理想汽車的智能駕駛系統仍然表現出了較高的穩定性和准確性,最終順利泊入預設車位。
蓋世汽車體驗實錄目前,理想基於端到端+VLM的車位到車位功能,已經开啓了萬人團和全國門店的試駕車的推送,並將於11月底隨OTA 6.5版本車機系統向AD Max用戶進行推送。
快慢雙系統
在過去一年中,理想汽車的智能駕駛技術經歷了快速發展,從全場景NOA能力的實現,到無圖NOA的推出,再到端到端與VLM技術的結合,共完成了三代技術的迭代。這一過程中,理想汽車在智能駕駛領域的地位和角色發生了轉變。
理想汽車之所以能有如此表現,關鍵在於其創新策略——採用端到端與VLM相結合的雙系統架構方案。
據理想汽車介紹,基於丹尼爾·卡尼曼(Daniel Kahneman)在《思考,快與慢》中提出的人類兩套思維系統理論,理想汽車將端到端系統(相當於系統1)與視覺語言模型(VLM,相當於系統2)融合應用於自動駕駛技術方案中,旨在賦予車端模型更高的性能上限和發展潛力。
其中,系統1,即端到端模型,是一種直覺式、快速反應的機制,它直接從傳感器輸入(如攝像頭和激光雷達數據)映射到行駛軌跡輸出,無需中間過程,是One Model一體化的模型。
這種設計確保了信息的高效傳遞、推理的高效計算以及模型的快速迭代能力。
系統1端到端模型的輸入包括攝像頭和激光雷達,通過爲英偉達Orin-X專門優化的卷積神經網絡(CNN)主幹網絡提取和融合多傳感器的特徵,並投影到BEV空間。
爲提升模型的表徵能力,理想專門設計了記憶模塊,不僅有時間維度的記憶,還有空間維度的記憶。除了攝像頭和激光雷達,理想還在模型的輸入中加入了車輛狀態信息和導航信息。最終經過Transformer的編碼後,與BEV特徵共同解碼出動態障礙物、道路結構、通用礙物,並規劃出行車軌跡。
系統2,則是由一個22億參數的視覺語言大模型(VLM)實現,它的輸出給到系統1綜合形成最終的駕駛決策。
理想方面表示,VLM整體的算法架構由一個統一的Transformel模型組成,將提示詞(Prompt)文本進行Tokenizer編碼,然後將前視120度和30度相機的圖像以及導航地圖信息進行視覺信息編碼,通過圖文對齊模塊進行模態對齊,統一交給Transformer模型進行自回歸推理。
除此之外,理想還運用雲端世界模型對系統1和系統2進行能力的訓練和考試,從而使這套系統能夠快速迭代。
理想將視覺語言模型成功部署在車端芯片,意圖使自動駕駛能像人類一樣深刻理解物理世界的復雜交通環境和中文語義,並且輔助端到端,解決安全、導航、法規和舒適等方面的自動駕駛業內難題。
端到端+VLM架構已經得到越來越多車企和智駕供應商的青睞,不過其在自動駕駛領域的應用也面臨諸多挑战,並非誰都玩得轉。
目前,端到端模型和VLM都需要大量的高質量數據進行訓練。然而,獲取並標注這些數據既耗時又昂貴,且需要確保數據的多樣性和代表性,以覆蓋各種駕駛場景和環境條件。此外,數據處理和存儲也是一大挑战,需要高效的算法和硬件支持。端到端+VLM模型的復雜性,不僅增加了研發成本,還對車載計算平台的算力提出了更高要求。
作爲參考,理想汽車的智能駕駛累計裏程已達26.7億公裏,訓練算力目前已達6.83EFLOPS,並且在年底將超過10EFLOPS。基於超26億公裏智駕裏程的打磨驗證、不斷增長的訓練算力以及世界模型在雲端的提前部署,理想汽車端到端+VLM智能駕駛系統得以實現快速迭代。
第一梯隊的智駕競爭
端到端已經成爲企業智駕能力的一道分水嶺,正在從技術路线之爭進入了落地體驗之爭,而從頭部智駕企業的動態來看,這場落地體驗之爭,其核心應用之一就是車位到車位。
理想汽車智能駕駛技術規劃負責人文治宇在接受蓋世汽車採訪時表示:回顧過去兩年時間內,大家的關注點是去實現各個智駕使用場景的功能實現,比如高速NOA、城市NOA等。
“但當我們嘗試把它們串聯起來的時候,也會發現之前的一些思路能夠解決部分斷點,但解決的方式不夠“優雅”或者說面向全國所有的泛化場景,解決效率不夠高。”
這也是理想和行業對端到端、“車位到車位”更加關注的原因之一。
“車位到車位”功能要求自動駕駛系統能夠從指定的起始車位自動行駛到目標車位,並在此過程中處理各種復雜的交通情況和障礙物。這一功能的實現對於現有的智駕系統來說是一個巨大的挑战,因爲它需要系統具備高度的環境感知、決策規劃和執行控制能力。
端到端技術在車位到車位的應用中發揮了重要作用。通過端到端技術,車輛可以在沒有預先設定路线的情況下,通過實時感知周圍環境和障礙物,自主判斷和規劃行駛軌跡,從而實現自動泊車和進出車位的功能。這種技術使得車輛在停車場內的操作更加擬人化,能夠更好地適應復雜的環境變化。
此屆廣州車展上,多家車企展示了基於端到端的車位到車位功能。
其中小鵬汽車宣布基於小鵬圖靈AI智駕體系,成爲行業首家用一套智駕軟件實現“車位到車位”的企業。小鵬的方案以一套軟件邏輯,打通地庫、閘機、城區道路等場景,未來將在AI天璣5.5.0上全量推送。
小米汽車也在廣州車展上展示了其“車位到車位”的智駕能力,按照小米規劃,從11月16日起,小米的車位到車位智駕功能會开啓定向內測邀請,從 12 月底,則會开啓开啓先鋒版推送。
小米汽車方面介紹,後續推送的“車位到車位”智駕功能,其路线建立過程是完全在後台自動創建地圖和路徑。比如通勤路线,只要上下班來回,人駕各一次通過停車場,不需要額外任何的引導操作,即可在後台幫用戶建好停車場地圖。
還有極氪同樣發布其D2D車位到車位領航輔助功能,預計在2025年1月左右分批推送。
“車位到車位”功能正在成爲評估端到端性能的關鍵指標之一,某種程度上,車位到車位已經成爲車企智駕能力的一塊試金石。
近段時間,有不少車企宣布進入智駕第一梯隊,這一隊伍現在變得越來越擁擠,玩家們也各有自己的拿手好戲,小鵬雲端大模型、蔚來NWM世界模型、理想端到端+VLM的雙系統方案等。在新一輪以端到端爲核心的智駕競爭中,距離行業格局穩定,距離尚遠。
(本文來自於蓋世汽車Gasgoo)
標題:“車位到車位”,正在成爲端到端的試金石
地址:https://www.utechfun.com/post/448514.html