太卷了,智能駕駛在國內的落地發展太迅速了,從體驗功能端,大家开城大战打完了之後就進入點到點的落地战,點到點弄完了之後肯定Robotaxi大战;而在硬核的軟件技術端,端到端大模型战在華爲這個月宣布急攻端到端大模型的信息下,已經算是進入焦灼狀態。
那么端到端大模型之後呢?
或許最近不少苗頭已經透露 VLM (vision language model 具《智能駕駛技術演進與未來挑战:從目標物識別到大模型上車》體可以點擊之前文章了解)之後的VLA (vision language action)會是2025年國內的自動駕駛行業全面宣傳和競爭的重點,各家會开卷端到端大模型 2.0。
VLA其實不但可以應用於自動駕駛,它其實是自動駕駛車輛的大類 - 智能機器人,具身智能的基礎,那么也可以理解爲什么現在人行機器人產業。具身智能會火起來了,其實機器人比汽車更容易,機器人出問題可能不會有生命危險,但汽車出問題是會有生命危險,甚至公共安全的生命危險。
本文整理 VLA 相關論文以及其在汽車行業發展和應用信息,希望能大家一些科普和前瞻信息。
什么是 VLA 模型?
VLA 有哪些優點?
實驗室裏面的 VLA 有哪些進展?
落地應用 VLA 有哪些挑战?
目前有哪些車企在布局?VLA會是自動駕駛最終的歸宿嗎?
什么是 VLA 模型
首先,我們先回顧視覺語言模型 (VLM), 它是一種機器學習模型,可以處理視覺信息和自然語言。它們將一張或多張圖像作爲輸入,並生成一系列標記,這些標記通常表示自然語言文本。
VLM 的奇妙之處是在人類智慧結晶互聯網上的圖像和文本數據上進行訓練的,VLM 類似於三體中的智子,吸收了人類語言文字的智慧,能看懂和推理圖片內容。
而 VLA 模型,就是在 VLM 基礎上利用機器人或者汽車運動軌跡數據,進一步訓練這些現有的 VLM,以輸出可用於機器人或者汽車控制的文本編碼動作。
這些經過進一步訓練的 VLM 被稱爲視覺-語言-動作 (VLA) 模型。通過結合視覺和語言處理,VLA 模型可以解釋復雜的指令並在物理世界中執行動作。
上面Google Deepmind RT-2的圖片,非常好的圖像化解釋VLA,VLA(RT-2) = VLM + 機器運動數據(RT-1)。
VLA 有哪些優點首先,VLA是一個端到端大模型,所以大模型該有的優點,他都有。另外,從視覺到執行,類似可推理性,可解釋性都有非常大的優勢,這個可以查看之前文章了解《採用 ChatGPT 類似大模型作爲自動駕駛算法核心的 - Waymo 的端到端多模態算法 EMMA》。其次,它具有通用型,未來所有“智能機器設備”都可以統一採用這套大模型算法,通過微調可以實現,不管是汽車,飛行設備,乃至任何智能機器人都可以通用。
所以這就是爲什么可以看到現在的新勢力,上天下地,機器人都搞的原因,他們明白通用AI可以加任何機械設備從而變成人工智能設備,實現phycial AI(也有人叫具身智能,我更愿意叫他phycial AI)而不是僅僅現在的digital AI。VLA這些通用系的模型在數據量、計算資源和模型復雜度的邊界上表現出持續的性能提升,因爲有了自然文字語言的人類智慧爲底座,所以可以極大的減少重復的數據,計算資源,同時降低模型復雜度。
實驗室裏面的 VLA 有哪些進展當前AI的催生,基本都來自於著名學術機構高校和知名公司的創新實驗。2023年7月28日,谷歌DeepMind推出了全球首個用於控制機器人的視覺語言動作(VLA)模型 RT-2 也就是上文解釋 VLA 借用的那個圖片。RT-2 以 Google 的 VLM PaLI-X 和 PALM-E 爲基礎,這些模型使用 DeepMinds 在开發 RT-1 模型期間收集的機器人軌跡數據進行微調。該模型經過微調,通過將機器人動作表示爲文本標記來輸出機器人動作。這種獨特的方法使模型能夠從自然語言響應和機器人動作中學習,從而使其能夠執行各種任務。
RT-2 模型的令人印象深刻的泛化能力。該模型在新的物體、背景和環境中表現出顯著改善的性能。它可以解釋機器人訓練數據中不存在的命令,並根據用戶命令執行基本的推理。推理能力是底層語言模型採用思路鏈推理能力的結果。該模型推理能力的例子包括弄清楚要拿起哪個物體用作臨時錘子(一塊石頭),或者哪種飲料最適合疲憊的人(能量飲料)。這種程度的泛化是機器人控制領域的一大進步。RT-2目前不是开源的,也就是大家無法基於他去創新和修改,但他的出現激勵了當前智能機器人行業的發展,給了大家信心。
另一個比較知名的是 OpenVLA 模型,它是由來自斯坦福大學、加州大學伯克利分校、谷歌 Deepmind 和豐田研究院的研究人員組成的團隊發起。他是一種基於 LLM/VLM 構建的視覺/語言動作模型,用於具身機器人和行爲學習(此基礎模型是使用 Llama-7B、DINOv2 和 SigLIP 的 Prismatic VLM)。OpenVLA 模型不是使用圖像字幕或視覺問答,而是根據用於控制機器人的攝像頭圖像和自然語言指令生成動作標記。動作標記是從文本標記器詞匯表中保留的離散標記 ID,這些標記映射到連續值,並根據每個機器人的運動範圍進行歸一化。
通過微調預訓練的Prismatic-7B VLM 來訓練 OpenVLA 。模型由三個關鍵元素組成:融合視覺編碼器一般也叫ViT(Vision transformer),由 SigLIP 和 DinoV2 主幹組成,其中DinoV2主要是爲了增加對於空間的理解,將圖像輸入映射到多個“圖像塊嵌入”,可以簡單理解將視覺編碼成語言。投影儀MLP Projector,這個組件可以獲取視覺編碼器的輸出嵌入並將其映射到大型語言模型的輸入空間,可以理解爲這是個中間人,他能將編碼的語言和大語言模型對接上。Llama 2 7B作爲語言模型的主幹,根據對接上的信息,預測標記化的輸出動作。這些標記被解碼爲可直接在機器人上執行的連續輸出動作。
OpenVLA 是开源的,目前不少公司應該都基於他在進行研究,來找VLA應用和商業落地的方法。以上兩個爲影響比較大的,除了上面 VLA 還有不少其他的例如 Umass的3D-VLA,美的集團的Tiny-VLA等等。落地應用 VLA 有哪些挑战VLA 那么好,是不是立馬可以在生活和商用中用起來?其實上面RT-2/Open VLA基本上和大模型一樣都是上Billions十億的參數。
模型大,需要邊緣算力大,就拿Open VLA 的7B 的參數模型來看,推理過程中速度很慢,需要對大量機器人數據進行大量預訓練,這使得實際部署變得困難。所以,實時運行大型 VLA 模型的計算成本很高,需要進行更多研究來優化其推理速度。此外,目前可用於微調的开源 VLM 模型有限。未來的研究應側重於开發實現更高頻率控制的技術,並使更多 VLM 模型可用於訓練 VLA 模型。
Phycical AI 需要與人類世界互動,那么實時高頻精准的運動是必須的,機器人可能要求的響應可以低,但一般可用的都需要達到以 30-50 Hz 運行的執行;而汽車智能汽車的電控底盤一般的執行響應都達到100Hz。所以,這裏還有很長的路要走。最後,其實 VLA 應用的難點還有匹配語言描述和駕駛行爲或者機器人動作的訓練。
目前VLA 模型應用於自動駕駛的一個主要障礙是缺乏能夠有效結合視覺數據與語言描述和駕駛行爲的大規模數據集。現有數據集往往在規模和全面注釋方面存在不足,尤其是對於語言,這通常需要費力的人工操作。這限制了能夠處理現實世界駕駛復雜性的穩健 VLA 模型的开發和評估。所以這些都是目前 VLA 工程落地,需要攻克的問題。目前有哪些車企在布局?目前准確來講,應用VLA的應該屈指可數,甚至沒有,但大批車企以及自動駕駛企業布局中。
我們之前文章《採用 ChatGPT 類似大模型作爲自動駕駛算法核心的 - Waymo 的端到端多模態算法 EMMA》中講到的EMMA,就是Waymo內部團隊在創新和測試探索的 VLA。國外的創業公司Wayve,他的主要投資方是微軟和軟銀,走的是提供L4軟件算法的路线,目前測試車隊已經從歐洲擴展到北美,與Uber達成合作協議,未來可能進入Uber平台。他在开始就站位採用通用人工智能來解決自動駕駛,所以可以看到之前就採用LLM,之後採用VLM,目前有消息其正在採用類似於VLA的模型。
國內,元戎啓行在上個月宣布下一步計劃使用VLA,計劃在英偉達Thor芯片上進行开發,不過Thor推遲到明年年中量產,高性能Thor估計年底,所以估計中國的VLA大概率在明年中旬聲量巨大,一起卷。
另外,就是理想,這個我們之前文章《智能駕駛技術演進與未來挑战:從目標物識別到大模型上車》中講過理想在上半年就开始推進VLM,現在其車上智駕已經採用VLM,那么接下來肯定是朝着VLA進發。
小鵬,目前沒有信息,但是看小鵬科技產品的布局,從機器人,汽車到飛行基本上也賭的是人工智能,如果不走通用人工智能的方向,那么顯然战略失誤,所以估計在研發中或者布局中。
華爲,比較特殊,有自己的閉環和中國特色發展,其200TOPs的MDC顯然在規則化,小模型的算法方面做的是一流,車輛運動控制遙遙領先,但最近估計也是感覺端到端是未來,這個月的動態顯示其急攻一段式端到端,那么估計其應用VLA也不會很長。
至於,蔚來汽車昨天搞了NIO Day發布了一大堆東西,由於沒有邀請我,我得說說蔚來的問題了,开玩笑,蔚來一直是我喜愛而且認爲有格局和格調的品牌,但蔚來有點不像新勢力了,他反過頭來在追隨傳統汽車的末日黃昏,蔚來在硬件端是在准備,但是在智能駕駛軟件端,目前缺少相關信息。VLA 會是自動駕駛最終的歸宿嗎很難說,不過,自動駕駛採用AI的大方向是既定的,但是AI的發展太迅猛了,從採用CNN識別物體到Transformer BEV 構建時空關系應用大概也就是幾年,但從端到端大模型演化到採用通用人工智能的VLM卻是一年之內。那么對應的從文字LLM 到視覺的VLM再到未來是不是空間Spatial 人工智能的大力發展?AI 還是一個快速發展的小孩,都有可能!
*未經准許嚴禁轉載和摘錄-參考資料:
2024_Kira_ECCV_FOCUS.pdf -
Google deepmind RT-2 .pdf - Anthony Brohan, Noah Brown等
OPEN VLA .pdf - Moo Jin Kim∗,1 Karl Pertsch∗等
2024-IB-Introduction-Embodied-AI-Wayve.pdf
原文標題 : 2025年,自動駕駛即將开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)
標題:2025年,自動駕駛即將开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)
地址:https://www.utechfun.com/post/458430.html