技術演進的腳步已經超越了消費者的認知速度,國內智駕的一汪池水已然是波濤洶湧。
從今年年初开始,習慣於造詞的汽車行業炒熱了一個新詞——“端到端”,並且以前所未有的頻率反復在消費者的耳朵裏磨繭。造詞是企業的事,但解釋都交給了銷售。
從各大品牌的培訓話術中,幾乎所有的銷售都把“端到端”智駕用AI一言以蔽之。“我們最新的智駕系統用了AI技術,是目前最強的。”
馬斯克曾介紹端到端End-to-End Deep Learning(端到端深度學習)的能力,稱之爲“圖像端輸入,控制端輸出”。以此爲基礎,特斯拉在美國推出了自動駕駛系統 FSD v12.3 的版本,廣受好評。
這個好評不僅僅來自於美國用戶,更來自於在國內汽車新勢力的大佬們。
小鵬汽車何小鵬表示,去美國測試了特斯拉FSD,很絲滑。
小米公司副董事長林斌表示,去美國測試了特斯拉FSD,很絲滑。
華爲終端BG董事長余承東說,派團隊去美國測試了特斯拉FSD,發現華爲智駕遙遙領先。
無論嘴上態度如何,在特斯拉之後,所有車企都开始大手筆投入,將未來自動駕駛的方向瞄准“端到端”。
辰韜資本聯合三方發布的《端到端自動駕駛行業研究報告》,30余位自動駕駛行業一线受訪專家中,90%表示自己所供職的公司已投入研發端到端技術,大部分技術公司都認爲難以承受錯過這一次技術革命的後果。
這也算是在一定範圍內形成了一個共識,原本混亂的智駕專有名詞包括NOA、NGP、NCA、NOP……等等逐漸變得統一起來。
從哪一端到哪一端?
事實上,端到端並不是一個全新的概念。在人工智能領域,它是一種普遍使用的方法。比如在各種AI翻譯、語音轉文字應用中,基本都使用端到端:原始數據被送進一張神經網絡中,經過一系列運算後,直接給出最終結果。
落地到智駕領域裏,也是如此,汽車上的雷達以及各類傳感器在感知到路面信息和,通過決策並直接做出反映,體現到汽車智駕的動作上,包括方向盤轉角、油門踏板开度等。
這與之前的幾乎所有的智能輔助駕駛系統依賴於事先定義好的規則判斷形成巨大對比。
在端到端出現之前,智駕系統需要先通過傳感器識別車道、行人、車輛、標志等關鍵資訊,再由工程師編寫數十萬行C++ 程式碼,應對紅燈停、綠燈行等各種場景,任何一個行爲都有相對應的規則、條件判斷的方程式,但這種做法終究難以涵蓋復雜多變的真實路況。
而端到端則是通過AI的不斷學習運算直接做出反應,中間的邏輯幾乎全部省略。
因爲涉及到AI涉及到大模型以及深度學習等相關專業領域,端到端天然自帶一些復雜地前沿科技屬性,就像很多人知道ChatGPT但依舊不懂大模型是怎么回事一樣。類比一下,ChatGPT,它就是一個典型的端到端模型,輸入文字語句,直接就能得到回答。
到目前爲止,沒有哪一家企業試圖用最通俗的語言向消費者傳遞過關於端到端最基本的認識,甚至直接用門到門、出發一端至終點一端這樣的概念將其具像化——讓車輛自動把你從A端帶到B端。
前文中關於端到端的釋義也是終極版本,與現在市面上絕大多數的宣傳的端到端智駕都還有較大差距。
極越CEO夏一平表示,“端到端這件事情很難一蹴而就,首先我不認爲現在市場上有任何一家是百分百的端到端,這個世界上現在沒有人是完全的端到端。我覺得無論是端到端也好,無圖也好,都是營銷的噱頭,對老百姓來說,我覺得還是體驗好最重要。”
從自動駕駛架構演進的角度,端到端也可以分爲幾個階段或者說幾種技術路线。在最初級的“感知端到端”中,整個自動駕駛架構被拆分成了感知和預測決策規劃兩個主要模塊,其中,感知模塊已經通過基於多傳輸器融合的BEV (Bird Eye View,鳥瞰圖視角融合 ) 技術實現了模塊級別的 “ 端到端 ”。通過引入 transformer 神經網絡模型,對於識別結果精度及穩定性相對之前都有比較大的提升。但在最終的規劃決策模塊中仍然以規則基礎爲主。
第二階段才是端到端決策,把預測到決策到規劃的功能模塊已經被集成到同一個神經網絡當中。
單一模型端到端才算是終極版本。在這個背景下,就不再有感知、決策規劃等功能的明確劃分。從原始信號輸入到最終規劃軌跡的輸出直接採用同一個深度學習模型。是真正意義上的端到端。
國內最近一些企業則聲稱自己是端到端感知,或者端到端決策,只是各種細枝末節的“端到端”,這只能算作是純數據驅動的感知和純數據驅動的決策規劃階段。
換句話說,做得好點的還只是前兩個模塊的融合,根本做不到輸出控制(執行)的結果。
小馬智行CTO樓天城就表示,“端到端並不是一個特別大的模型,比如理想汽車的端到端方案其實在一個orin-x上就能跑通,其中還牽扯到大量的規則。”
相比於模塊化方案,單一模型的端到端方案雖然在訓練以及調試上更爲復雜,但在理論上,其最終效果具有更高的天花板。
被“神化”的端到端
在鋪天蓋地的“端到端”轟炸中,一場關於廣義與狹義的技術分野就此鋪开。
端到端相關企業本分爲兩派,一邊是以探索研究前沿科技的技術人員以及學者爲主的“技術原教旨主義派”,他們認爲,市場上很多公司所宣傳的端到端並不是真正意義上的端到端。
同濟大學汽車學院教授朱西產就曾直言,“車企宣傳端到端更多是爲了流量,實際上國內車企具備做“端到端”的技術實力的沒幾個,但是嘴上不能輸,打仗呢,一躺下就再也起不來了。”
一邊是以急於落地項目的車企供應商爲主的“實用主義派”。他們則表示,只要基本原理符合,並且產品性能提升,端到端的准確內涵並不重要。
圖森未來CTO王乃巖在今年上半年就就發文呼籲,業界要避免陷入狹義端到端的誤區,因爲這對智駕量產不利。
畢竟,只要定語加得多,哪款車都可以是最暢銷車型;同樣的只要定義範圍足夠小,任何企業都能掌握某個板塊的端到端。
2017年6月,馬斯克從OpenAI挖走了一個斯洛伐克籍的研究員。這個人叫Andrej Karpathy,後來成爲特斯拉的AI總監。
再後來,Andrej Karpathy在特斯拉直接帶領團隊重寫了自動駕駛算法,並开發出BEV純視覺感知技術,也就是目前炙手可熱的端到端,讓特斯拉自動駕駛進入新階段。由此也影響了國內一大批企業的技術路徑。
看到未來的特斯拉不惜重寫了自動駕駛算法,並對訓練深度神經網絡的基礎設施進行了重構。但這並不代表此時此刻的端到端或者說特斯拉的端到端,就是智駕領域的最優解。
問界汽車智駕學院張奇在一場公开課上就向BC表示,“端到端也並非萬能,其自身的‘黑盒’特性決定了無法簡單通過明確的、可解釋的規則約束系統的安全邊界,存在安全性挑战。”
爲了具象化,張奇舉了幾個簡單的例子,以國內目前效果比較好的豆包大模式爲例,在某些特定問題上,大模型也會答非所問胡說八道。
“AI的底層算法是計算事物關聯性的統計學邏輯,推導的因果鏈可能有違常識,甚至提供一個錯誤的並且不可預知的答案。這在業內被稱爲幻覺(hallucination)傾向。”
聊天可以胡說八道,但在智駕領域,任何一次錯誤的輸出,導致的結果都可能是致命的。
另一方面,端到端無法復現復雜的、偶發的極端事件,考驗可解釋性和泛用性能力,把上限提高的同時拉低了下限,即所謂的“蹺蹺板效應”。所以在端到端之外,幾乎所有車企都會採取規則兜底的方式。
以問界爲例,會有本能安全網絡守住紅线,小鵬也同樣有用到XNPG的一些系列規則基礎兜底。
不管是端到端無法窮盡所有的極端場景,還是在短期內學會選擇和辨別,並穩定地輸出最優解,就目前來看還不太現實,至少是有風險存在。
對此,知行科技創始人兼CEO宋陽表示:“端到端方案具有‘上限高,但下限低’的特點。通俗來說就是,做得好可以達到很好的效果,做得不好比傳統方案更差。”
山雨欲來風滿樓
從最早的有賴於高精地圖的智駕到後來的無圖智駕,再到現如今的多種形式的端到端,技術演進的腳步已經超越了消費者的認知速度,更是將國內智駕的一汪池水攪得波濤洶湧。
首當其衝的就是配套智駕業務的圖商,在邁向無圖智駕乃至端到端的過程中,地圖供應商是最先被拋棄的一方,曾經被認爲是高階智駕不可或缺的高精地圖正在被邊緣。
伴隨車企端到端發展的“去圖化”的行動,四維圖新CEO程鵬在公开場合炮轟,“部分車企之所以強調‘無圖’技術路线,主要是因爲無地圖資質、無知識產權、無安全敬畏。”
有些車企高管層明確表示,如果鮮度無法保證,強行在城市使用高精地圖,只會徒增成本不增效果,且無法保證准確性。但在程鵬看來,近些年,大家都在喊無圖,事實上每一家車企,每一家自動駕駛解決方案商,也依然都在用着高精度地圖。
盡管嘴上不愿意妥協,但身體上依舊很誠實。圖商們也在快速反應調整中,比方過去,高精地圖全部裝在車機端,但現在變成配備在訓練端:汽車智駕的开發模式形成了雲端+車端的开發閉環,模型在雲端進行訓練和驗證,隨後部署到車端,完成應用和數據收集回傳。
四維圖新、高德、百度都相繼推出了自己的輕量化地圖產品,相比高精地圖的釐米級精度,輕地圖一般是米級精度,但可實現更高的更新鮮度。
相比起圖商的轉型,智駕從業人員或許才是技術進步中最苦的一群人,如果說時代的一粒灰是個人的一座山,那端到端對於他們而言更像是時代的一座山。
某AI芯片公司的自動駕駛總監就曾對媒體表示,整體端到端的更改,等於重新做。曾經一大批炙手可熱的智駕工程師面臨着不重新學習就走人的殘酷現實。
此前,在各品牌城市 NOA 的开城過程中,會遇到大量的極端場景,需要一定程度數量的規控程序員和測試工程師處理。在切換至端到端架構後,“ 高質量數據 ” 和 “ 頂尖 AI 人才 ” 可能成爲更加重要的資源要素。
曾經動輒一千多人的研發團隊如今只需要兩三百人足以。2023年,蔚來的智駕人數超過1000規模,在今年的NIO IN上面對媒體的提問,李斌也正面回應到,智駕不需要其他領域還是大量需要的,公司內部會進行分流。
理想1300人的智駕團隊在今年四月份也啓動了一波大範圍的裁員,甚至一度裁到大動脈後緊急返聘。
小鵬P7+產品團隊也向BC表示,智駕這邊從去年年底开始也走了不少人,不學習就要淘汰。甚至特斯拉之前 planning control(規劃控制)的負責人也在今年早些時候離職。
端到端團隊需要的人數變少,但人才門檻要求變得更高了。大模型本身要求團隊有很強的深度學習背景,搭建方案階段,更需要很強的infra(基礎架構)人才,對感知、規劃控制每個模塊都有深刻認知,了解不同芯片算力平台的支持力度、不同AI推理框架等。
畢竟,這之前從事寫規則的規控程序員們大多沒有深度學習的AI背景,在奔湧的時代浪潮下不被裹挾向前就只能拍向岸邊。
盡管在全行業來看,傳統做規則算法的工程師,目前還沒有遭遇到大規模的裁員事件,但可以遇見的是,十字路口就在眼前。
注:圖片部分來源網絡,如有侵權,聯系刪除
原文標題 : 智駕終局還是營銷亂局?
標題:智駕終局還是營銷亂局?
地址:https://www.utechfun.com/post/444306.html