要問現在哪個行業最火,那一定是AI了。3月25日極越在北京舉辦了AI Day 2024,正式發布V1.4.0更新,此次OTA升級200余項功能。在AI Day上,三名來自百度的負責人介紹了百度AI在地圖導航、自動駕駛、人機交互等領域對極越的支持。
自從2022年底OpenAI推出了基於GPT-3大語言模型的聊天機器人ChatGPT,種種AIGC的功能开始影響到各行各業。國內互聯網企業先行一步,百度推出文心一言、阿裏推出通義千問、科大訊飛有星火、騰訊混元、360智腦、華爲盤古、京東言犀、抖音雲雀、清華智譜……琳琅滿目,百“模”大战一觸即發。
本身就處在風口浪尖的車企們也沒有錯過大模型這個熱點,理想推出了MindGPT,蔚來有NOMI GPT,小鵬有XGPT靈犀大模型。你說這些用於語音助手的大模型沒用吧,它讓用戶跟語音助手之間的對話更自然了。但是你要說有用吧,可能嘗鮮玩兩天就沒什么意思了。
那么大模型上車就是個蹭流量的噱頭嗎?
極越CEO夏一平表示,“只有以AI來驅動,才算是真正的智能車”。這個大模型有沒有用,得看你用在哪兒了。
大模型讓地圖快速覆蓋、一天开一城
“過去一年很多客戶都在提自動駕駛全國覆蓋。有些是全國真都覆蓋了,但每個城市就三五十公裏,有的LCC做點加工加個通勤,號稱就幾百城甚至號稱全球。有的吹得很大,有的可能還是期貨”,百度副總裁尚國斌在發布百度車道級導航(LD)地圖時表示,“百度LD地圖目前覆蓋了360城,覆蓋360萬公裏”,目標是年內實現全國覆蓋,讓極越PPA做到有百度車道級導航的地方就能开。
在宣傳上,目前頭部城市領航輔助車企的進度是:余承東宣布問界更新無圖城市NCA,實現有路就能开;小鵬宣布無限xngp,有導航的地方就能用;蔚來NOP覆蓋726城,基本覆蓋全國;理想NOA覆蓋110城,全場景輔助駕駛全國都可用。極越目前則是覆蓋了40萬公裏道路,开了北上廣深杭五城,目標是在今年年內實現PPA全國都可开。希望各位網友可以與我們分享一下你們所在地的使用和覆蓋情況。
在輔助駕駛的技術路线上,高精地圖其實挺尷尬,它非常好用而且有圖更安全但最大的問題就是貴。而且這份貴還不是一次性的,爲了保證地圖足夠新,還要持續不停地高頻率去更新。一個城的成本就要上億,开幾個城可以承受,要覆蓋全國的高精地圖,誰能用得起呢?
百度LD地圖則解決了這個問題。它是通過自動駕駛視覺感知大模型生成的地圖,天然滿足純視覺輔助駕駛所必需的地圖要素、精度要求,同時它擺脫了對高精地圖採集車的依賴,又增加了多個圖層配合百度地圖用戶的參與可以保證地圖道路信息和路況信息的及時更新,在成本和效率上有着質的提升。
據尚國斌介紹,LD地圖僅需1/20的成本,實現了100倍的制圖效率,速度快到可以一天开一城。
大模型讓自動駕駛更老道
用自動駕駛的純視覺實時建圖是極越最新推出的VTA感知基礎大模型所實現的一項能力,這項功能在使用時以每秒10次的頻率在車端運行,开直接生產出道路結構。每一輛極越都可以成爲實時更新百度地圖路況信息的小助手。
VTA是vision takes all的縮寫,從名字可以看出百度AI人對純視覺方案有多么的期待純視覺方案技術關鍵是OCC佔用網絡,它將攝像頭畫面進行語義分割精准識別,在鳥瞰圖的基礎上重建成3D立體的網格世界,完成三維感知和環境建模。激光雷達的方案也只是前端環境可以精確感知,所以蔚小理都曾在技術介紹中提及過准備使用OCC技術用於感知周圍環境。
大模型最擅長的就是語義理解,所以它讀OCC有很大的促進作用。純視覺方案的極越更要依靠OCC來實現體驗上對激光雷達的超越。所以百度針對遠距離高速高架道路、中遠距離復雜城市道路和近距離博弈停車場景分別推出了各自的目標檢測大模型,並給模型取了非常貼切有趣的名字‘狙擊步槍’、‘手槍’和‘匕首’。
准確的三維感知和環境建模是車輛行駛中進行決策的基礎,VTA在提升了目標檢測能力的基礎上加入對時間序列的學習,這讓它擁有更長時間的記憶能力。這就讓它擁有了更強的持續跟蹤能力,對目標的位置和速度有着持續的估計,就避免了遠距離識別一輛車靠近過程中它被遮擋,近距離突然出現後輔助駕駛顯得‘一驚一乍’的情況。
這種時序感知能力配合更長更敏捷的決策樹,就帶來了對其他交通參與者意圖更准確的判斷,是臨時停車還是擁堵排隊。72%的早鳥用戶在訪談中表示感受到避障能力的顯性提升,這也很直觀地反映出百度AI加持下極越PPA的能力升級。
除了直接用於輔助駕駛系統,大模型在开發過程中的其他環節也有很強的加持作用。比如海量數據的標注上,通過7個平均參數數 3 個的億大模型,百度做出了精度最高的數據產线,大模型的數據標注不僅更快而且質量更好。在數據管理上,百度AI也使用文心一言等大模型輔助管理,可以非常方便地用自然語言篩選場景,比如‘夜間連續錐桶’。甚至更進一步,可以通過大模型人工編輯出罕見的 corner case,提升了整個系統的开發效率。
大模型讓斷網時多路語音助手更好用
體現一輛車智能化的地方,除了輔助駕駛就是智能座艙了。智能座艙的語音助手是一個用習慣了就回不去的功能,能動嘴完成的事爲什么要伸手呢。好用的語音助手要做到兩點,快和穩定。
極越的語音助手SIMO從一开始主打的就是全端側,完全運行在本地讓它非常的穩定,由於不需要訪問網絡所以即使在斷網的環境下它都可以擁有700毫秒以內的響應速度。
要做到這一點,即使是8295芯片都是不夠用的。百度將整個語音交互系統運行在NPU上,並解決了自相關建模的內存爆炸和計算爆炸問題,才讓SIMO的離线運行成爲可能。
在多音區的識別方面,百度利用使用多合一技術,將車內外的語音合並成一路,然後通過大模型進行識別。而現有的處理模式是在四個位置產生四路信號進行四路語音識別。相比之下合成一路不僅處理上更高效,資源佔用更少,而且未來更方便適配更多座位的車型。
百度語音正在利用大模型探索車內視覺和語音的融合交互。他們對乘客的嘴脣動作進行採集,然後通過大模型對動作序列提取特徵,然後和語音一起建模,同時通過判斷用戶的位置來提升定向拾音的效果。在一系列的優化下,最終把語音識別在开窗、多人、輕聲或高噪音的復雜場景下的表現,從錯誤率90%一轉成爲正確率90%。
AI不是噱頭,但也不是魔法
百度AI爲極越各項功能的提升起到了很大的作用,從這一點來說,大模型上車當然不是噱頭。但同樣,大模型並不是萬試萬靈的銀彈,它只是一個工具,在選擇對的領域時,才能成爲效率的倍增器。
最近幾年AI的發展過程,是從機器學習到深度學習,深度學習到神經網絡,神經網絡中又找到Transformer架構,在用Transformer架構處理自然語言的過程中,生成式預訓練模型(GPT)最終脫穎而出。所以各種GPT其實最擅長處理的還是自然語言的理解問題,這也是大模型上車最开始用來語音助手回答提問的原因。
百度原生AI的支持就是極越這款汽車機器人與其他智能汽車在底層的能力區別。真正想玩轉大模型,首先需要的就是成千上萬張顯卡的算力,而百度目前爲極越自動駕駛相關提供的整個資源池大概擁有 2.2EFlops(1E是一百萬T)的GPU算力,並且上不封頂。
而且從AI大模型的使用上可以看出,百度AI對於極越的加持是全方位的,在多個環節用大模型加強對自然語言的理解。即便同樣是用於加強語音助手,其他車企可能是做個語音對話的插件來對接上GPT。而百度語音除了在內容上對接了文心一言,在車內視覺採集和語音採集這種底層功能上也利用大模型進行了優化。顯然百度在AI領域的多年技術積累,對AI的理解比普通車企要深入得多。
相信這次AI Day中所展示的百度AI在各個方面對極越汽車的加持,會對其他車企在對AI的使用上有所啓發。相信中國的企業對於好的技術的接受和普及速度,也非常期待中國汽車能利用AI技術加速智能化的進程。
或許在將來不遠的一天,極越真的开啓了汽車機器人時代。
標題:汽車的機器人化 從大模型上車开始
地址:https://www.utechfun.com/post/351277.html