最近,一直採用激光雷達和高精地圖實現 L4 的自動駕駛公司 Waymo 的一個內部研究團隊,發布了一篇關於利用端到端多模態自動駕駛模型實現自動駕駛的新論文。
它採用類似於 ChatGPT 的大語言模型 Gemini LLM 作爲算法核心,算法所有的輸入和輸出表示爲普通文本,具有非常強大的通用性和泛化性,算法還具有可解釋性。
引起了自動駕駛行業的轟動。所以,本文將初步總結和介紹Waymo 的端到端多模態自動駕駛模型EMMA相關信息:
目前智能駕駛行業算法的四種算法方案。
“端到端多模態自動駕駛模型”(EMMA)是怎么做的?
當前 EMMA 類方案有什么局限性?
對當前智能駕駛乃至汽車行業產生什么影響?
希望能給大家帶來一些智能駕駛和汽車發展的信息和思路。
目前智能駕駛行業算法的四種算法方案:
模塊化自動駕駛算法
模塊化的高階智能駕駛系統採用,感知 、地圖、預測和規劃等不同的模塊或者組件來實現。
這種設計便於單個模塊或組件的調試和優化,但由於模塊間的錯誤積累和模塊間的通信有限,它在可擴展性方面面臨挑战。特別需要指出的是,這些模塊通常是基於目標場景預先定義的,所以,這些基於規則設計的模塊間接口(例如感知和行爲模塊之間的接口)可能難以適應新環境。
這種方案在現在的智能駕駛應用,能夠實現針對性場景下高性能,高性價比,我們之前文章《被逼牆角的Mobileye,祭出 CAIS 大旗,挑战端到端大模型智能駕駛》中介紹的Mobileye是這方面的強者代表。端到端自動駕駛算法
特斯拉FSD V12,首先發起在智能駕駛方面採用端到端的自動駕駛算法,直接從傳感器數據學習生成駕駛行爲。該方法消除了模塊之間信號接口的需求,並允許從原始傳感器輸入聯合優化駕駛目標。這種端到端算法是專門針對駕駛這種特定的任務,它需要收集大量的道路駕駛數據來訓練全新的模型。
這也就是當前特斯拉以及國內一衆智能駕駛公司的方法,數據,算力爲王,大家都在賣力重復造自己的輪子,希望有朝一日自己輪子能夠成爲米其林或者馬牌輪胎,獨步天下。但是,長尾理論一直存在,大家一直在 push 尋找這個長尾到底有多長。端到端自動駕駛算法+LVM圖像語言模型。我們之前文章《智能駕駛技術演進與未來挑战:從目標物識別到大模型上車》分享了將現有智能駕駛系統的能力與多模特語言模型進行整合和增強的案例,它就是借用大語言模型對世界理解的能力去解讀道路圖片信息來增強端到端算法能力,彌補長尾。
業內理想汽車最新的自動駕駛就是採用此類方案E2E大模型+LVM圖像語言模型。端到端多模態自動駕駛大模型本文介紹的 Waymo 端到端多模態自動駕駛模型EMMA是另外一種方法,當然它目前只是學術論文,沒有進行工程化。它採用多模態大型語言模型爲自動駕駛中的人工智能提供了一個有前景的新範式,採用專門針對駕駛調整過的通用基礎大語言模型,作爲智能駕駛算法的核心算法或者組件。大語言模型在兩個關鍵領域表現出色,所以採用它不需要重新訓練一個模型:他們是基於人類在互聯網上積累的文字信息訓練而成,所以可以理解爲三體中的“智子”他把人類豐富的“世界知識”全部折疊進入它算法內,它的知識量遠遠超過我們常見駕駛日志中所包含的內容。它們通過鏈式思維推理等技術展示了卓越的推理能力 ,這些能力在專用駕駛系統中並不具備。
其實目前業內已經有兩三家开始靠近這個方案,例如我們之前文章《探祕美國加州自動駕駛路試:豪橫競逐、勤奮探索與技術挑战》提到的採用Open AI大模型的 Ghost (今年已經倒閉)和 Wayve,但他們應該是部分採用這個思維。“端到端多模態自動駕駛模型”(EMMA)是怎么做的?“端到端多模態自動駕駛模型”(EMMA)是以谷歌的大語言模型 Gemini 框架爲算法核心構建。Gemini 是一個基於文本的 LLM,類似於 Open AI的 ChatGPT,它使用大量通用文本語料庫進行訓練,從而獲得世界和人類自然語言的知識。同時該算法針對大量有關道路和駕駛的文本以及許多其他通用知識進行訓練和微調。此外,還添加了基於駕駛視頻的“端到端”訓練。EMMA的關鍵創新在於能夠同時處理視覺輸入(如攝像頭圖像)和非視覺輸入(如基於文本的駕駛指令和歷史上下文)。
通過將駕駛任務重新表述爲視覺問答(VQA)問題,這樣,EMMA能夠利用Gemini原有模型中編碼的大量知識,同時賦予其處理各種駕駛任務的能力。以下是論文中討論的幾個關鍵要素:多模態輸入:EMMA接受攝像頭圖像(視覺數據)以及導航等文本輸入,駕駛指令和歷史上下文,使其能夠理解並應對涉及視覺和非視覺信息的復雜駕駛場景。視覺問答VQA方法:將駕駛任務重新表述爲視覺問答問題,允許EMMA在文本指令的上下文中解讀視覺數據。這有助於模型更好地理解駕駛中的動態和多樣化的情況。使用任務特定提示進行微調:EMMA通過使用駕駛日志和任務特定的提示進行微調,從而使其能夠生成各種駕駛輸出,如運動規劃的未來軌跡、感知目標、道路圖元素和場景語義等。EMMA概述圖:
它的三個輸入:
導航指令,類似於人類使用導航一樣,系統接收來自於導航的high level高層次文本指令,例如前方100m左轉,前方路口右轉等等類似指令。自車的歷史狀態,表示爲不同時間戳下的鳥瞰視圖(BEV)空間中的一組路標坐標。所有的路標坐標都表示爲普通文本,不使用專門的標記。方便擴展爲包含更高階的自車狀態,如速度和加速度。攝像頭視頻感知。通過攝像頭感知三維世界、識別周圍的物體、道路圖以及交通狀況。Waymo 團隊將EMMA構建爲一個通用模型,能夠通過訓練混合處理多個駕駛任務。Waymo 團隊使用視覺-語言框架將所有的輸入和輸出表示爲普通文本,從而提供了將許多其他駕駛任務融入系統的靈活性。對原有大語言模型採用指令微調(instruction-tuning),將感知任務組織爲三個主要類別:空間推理、道路圖估計和場景理解。
空間推理是理解、推理並得出關於物體及其在空間中的關系的能力。這使得自動駕駛系統能夠解釋並與其周圍環境互動,從而實現安全導航。Waymo 團隊巧妙的將空間推理結果的7維框((x, y, z)是車輛坐標系中的中心位置,l, w, h是邊界框的長、寬和高,θ是航向角)轉換爲文本表示。道路圖估計側重於識別關鍵的道路元素,以確保安全駕駛,包括語義元素(如車道標线、標志)和物理屬性(如車道曲率)。這些道路元素集合構成了道路圖。場景理解任務測試模型對整個場景上下文的理解,這對於駕駛尤爲重要。
例如,由於施工、緊急情況或其他事件,道路可能暫時被堵塞。及時檢測這些堵塞並安全繞行對於確保自動駕駛車輛的順暢和安全運行至關重要;然而,場景中的多個线索必須結合起來才能確定是否存在堵塞。所有的輸入和輸出都是文本信息,EMMA通過使用駕駛日志和任務特定的提示進行微調,從而使微調的 LLM 語言大模型能夠生成各種駕駛輸出運動規劃和駕駛控制信號。
這樣的算法實現了三個優點:自監督:唯一需要監督的是自車未來的位置,不需要專門的人工標籤。僅使用攝像頭:唯一的傳感器輸入是周圍視角攝像頭。無需高清地圖:除了來自導航系統(如Google Maps類似於我們用的高德和百度地圖)的高層次導航信息外,不需要高清地圖。其實端到端大模型,最大的問題是可解釋性,EMMA引入了鏈式思維提示(Chain-of-Thought Prompting),它可以增強多模態大型語言模型(MLLMs)的推理能力,並提高其可解釋性。在EMMA中,Waymo團隊通過要求模型在預測最終的未來軌跡路標Otrajectory 時闡明其決策理由(Orationale),將鏈式思維推理融入端到端規劃軌跡生成中。Waymo 團隊將駕駛推理結構化爲四種粗到細的信息類型:R1 - 場景描述:廣泛描述駕駛場景,包括天氣、時間、交通狀況和道路條件。
例如:“天氣晴朗,白天。道路是四車道的未分隔街道,中間有行人道,街道兩邊停着車。”R2 - 關鍵物體:指那些可能影響自車駕駛行爲的路面上的其他代理物體,我們要求模型識別其精確的3D/BEV坐標。例如:“行人位於[9.01, 3.22],車輛位於[11.58, 0.35]。”R3 - 關鍵物體的行爲描述:描述已識別關鍵物體的當前狀態和意圖。例如:“行人目前站在人行道上,朝向道路,可能准備過馬路。車輛目前在我前方,朝相同方向行駛,未來軌跡表明它將繼續直行。”R4 - 元駕駛決策:包括12類高層次駕駛決策,總結基於前述觀察的駕駛計劃。例如:“我應該保持當前的低速。”Waymo 團隊強調,駕駛推理文本是通過自動化工具生成的,而沒有任何額外的人工標籤,從而確保了數據生成流程的可擴展性。
當前 EMMA 有什么局限性這么好的東西,那么直接上車了?Waymo 團隊指出其當前模型每次只能處理有限數量的圖像幀(最多4幀),搞自動駕駛的朋友肯定知道,當前牽扯安全的場景,甚至可能需要更多幀圖片來確定場景。同時這限制了其捕捉駕駛任務所需的長期依賴關系的能力。有效的自動駕駛不僅需要實時決策,還需要在較長的時間範圍內進行推理,能夠預測並應對不斷變化的場景。所以,此類算法還需要解決長時間記憶問題。
另外,目前,哪裏有能跑如此多參數的大模型車載算力芯片,我們之前文章《高通的下一代智能汽車芯片 - 驍龍 Cockpit Elite 和 Ride Elite》介紹過高通下一代智能汽車芯片,最大能跑數十億個參數的大型語言模型;最近小鵬AI日表示其新一代Turing芯片也最高可運行300億 參數大模型,還不知道何時能上車。而現在的大語言模型參數量都是千億級別。
除此之外,隨着算力的增大,整個計算系統從緩存到帶寬再到熱管理都需要跟上,這都需要當前車載算力平台能夠跟上。
同時,另外一個要命的問題是實時性,大模型用作ChatGPT對話,或者Midjourny畫圖延遲幾秒完全沒問題,不會影響到生命安全,但是對於汽車來講毫秒必爭,都是事關安全。總的來講,當前大語言模型,需要通過蒸餾,來縮小參數,保證一定的准確性來實現。所以這個方法必須要優化模型,或者將其蒸餾成適合實時部署的更緊湊版本,同時確保不犧牲性能和安全。此外,當前這個模型可以直接預測駕駛信號,而無需依賴中間輸出(如物體檢測或道路圖估計)。這種方法在實時驗證和後期分析時帶來了挑战。盡管Waymo 團隊已經證明,模型可以生成如物體和道路圖預測這樣的可解釋輸出,並且駕駛決策可以通過思維鏈推理來解釋,但這些輸出與實際駕駛信號之間並不總是能夠完全一致,也就是說這個可解釋性目前有時候也會出錯。
最後,當前的模型主要依賴於預訓練的多模態大語言模型(MLLMs),這些模型通常不包括LiDAR或雷達輸入,汽車冗余多傳感器方案部署是個大問題。所以此類大模型上車,需要解決工程問題有:強大算力的芯片,支持本地高達百億,千億參數的LLM大模型。蒸餾優化後縮小參數可以部署上車的大模型,適合實時部署,同時確保不犧牲性能和安全,這個有點和小鵬汽車的雲端大模型,車端小模型理論相吻合。
支持長記憶的LLM大模型,並降低延遲。泛化並融合好例如激光雷達和雷達。
解決好此類的工程問題,才爲上車工程化鋪好了路。對當前智能駕駛乃至汽車行業產生什么影響?首先,Waymo 發布的端到端多模態自動駕駛模型 EMMA 給智能駕駛時代又添加了一顆定心丸,當前基於AI的人工智能,端到端方案理論上能夠實現自動駕駛,接下來就是工程化落地。它一定能夠幫助人類實現自動駕駛,而且還不會太遠。另外,通用人工智能會成爲智能駕駛的發動機,智能汽車的劃分,可以通過模型參數和算力來實現能力的分級,猶如燃油車時代,發動機排量決定車輛的等級和性能。那么對於車企來講,如果需要贏的智能汽車時代,可能需要擴大自己的野心,做一個足夠大的集團覆蓋汽車,機器人等人工智能落地的制造機器集團。可能必須要自研通用人工智能並利用 AI 賦能整個汽車和機器項目,提高汽車機器制造業的附加值。抑或採用通用人工智能打造差異化產品實現競爭。最終或許通用人工智能接管人類的重復性的腦力勞動,猶如現在機械取代人類的體力勞動。
*未經准許嚴禁轉載和摘錄-參考資料:
EMMA: End-to-End Multimodal Modelfor Autonomous Driving - waymo
Could Foundation Models really resolveEnd-to-end Autonomy?Hongyang Li
The Next Frontier in Embodied AI:Autonomous DrivingCUED Guest Lecture – 25 April 2024
introduce autonomous vehicles - 英偉達
GAIA-1: A Generative World Model for Autonomous Driving - wayve
原文標題 : 採用 ChatGPT 類似大模型作爲自動駕駛算法核心的 - Waymo 的端到端多模態算法 EMMA
標題:採用 ChatGPT 類似大模型作爲自動駕駛算法核心的 - Waymo 的端到端多模態算法 EMMA
地址:https://www.utechfun.com/post/442734.html