爆火的Sora將給自動駕駛帶來怎樣的改變？

2024-02-29 18:40:04 編輯： robot

導讀本文來源：智車科技近日，OpenAI宣布推出生成式人工智能模型Sora，外界普遍認爲，這是AI視頻生成的全新裏程碑時刻。僅需只言片語，Sora就可以給你輸出一段最長60秒的視頻，並且能夠全程保持高...

本文來源：智車科技

近日，OpenAI宣布推出生成式人工智能模型Sora，外界普遍認爲，這是AI視頻生成的全新裏程碑時刻。僅需只言片語，Sora就可以給你輸出一段最長60秒的視頻，並且能夠全程保持高度的流暢性與穩定性，實現了對Runway、Stable Video、Pika等生成式AI的超越。值得一提的是，Sora還能夠根據靜態圖像擴展成一段視頻或補充缺失的動態幀。

真賦能也好，蹭熱度也罷，一時間整個行業都在圍着AI轉，也在开始認真思考，更先進的AI技術能夠爲他們帶來什么不一樣的應用場景。站在汽車行業的角度，Sora等更超前的大模型是否能助力智能駕駛的真正落地，其中最先從大模型獲益的當屬感知模塊，本文想從大模型助力感知的表達來一探Sora將帶給智駕領域的革命。

感知表示的多樣性

感知的表達形式是多種多樣的，在現如今的主流自動駕駛框架中，感知物體的表達形式往往分爲以下幾類：

一是通過bounding box的形式來表示。對於常規物體例如交通流中的車輛，行人，自行車等等，Box的表達已經完全可以勝任，且具備高度抽象和簡潔的優勢。但當我們談論到高級別自動駕駛，我們需要關心的是一切不可碰撞物體，其包含了柵欄、非剛體車、異形/未知類別物體、遺落的木頭塊等，Box並不能總適應這樣的物體，尤其在狹窄路段，box的表示往往會過於保守，導致車輛行爲笨拙。

那么如果用polygon的形式是否就可以呢？相較於box，polygon的表達可以幾乎不丟信息地完成障礙物的形狀表達，同時兼備了抽象和簡潔的性質，但與此同時由於其是在連續空間中的表達，對算力的要求非常高，因此較難以落地。

那么是否可以結合一下離散空間與連續空間的表達形式，對兩方都有一定的妥協呢？Tesla的Occupancy Network便給出了一個很好的結合樣例。基於Grid的表示，能從本質上解決目前感知完備性的問題，從激進的角度，甚至可能代替掉Box的表示。而這一形式的推出，也立即成爲了各家自動駕駛企業的效仿對象，不僅在論文刷榜中取得了優異的成績，也在實車落地上取得了迄今爲止最好的表現。但與此同時我們不禁想問，Occupancy Grid已然是最好的感知表達形式了嗎？難道這個討論了十幾年的問題已經有了最終答案，沒有再改進的空間了嗎？

下遊規控的易用性

我們知道，感知想要完備地從各個傳感器的輸入中，提取出想要的物體，並將其進行語義上的融合是一項非常困難的任務，也在困擾着諸多的業界從業人員。其中非常大的一項挑战便是，在信息的處理傳遞過程中，肯定會存在信息的損失。而這種信息的損失最終也會造成下遊決策規控的出錯。而要想解決這一問題，最好的方式便是以規控的目標作爲代價函數，來優化感知的輸出形式。

一直以來，模塊化處理復雜問題的最大劣勢便是信息的丟失問題，而端到端想要解決的便是徹底消除此間丟失的信息。通常，模塊化系統被稱爲中間範式，並被構建爲離散組件的管道，連接傳感器輸入和運動輸出。模塊化系統的核心過程包括感知、定位、建圖、規劃和車輛控制。模塊化流水线首先將原始傳感器數據輸入到感知模塊，用於障礙物檢測，並通過定位模塊進行定位。隨後進行規劃和預測，以確定車輛的最佳和安全行程。最後控制器生成安全操縱的命令。

另一方面，直接感知或端到端驅動直接從傳感器輸入輸出自車運動。它優化了駕駛管道，繞過了與感知和規劃相關的子任務，允許像人類一樣不斷學習感知和行動。端到端駕駛基於傳感器輸入輸出自車運動，這種運動可以是各種形式的。然而，最突出的是相機、LiDAR、導航命令、和車輛動力學，如速度。這種感知信息被用作主幹模型的輸入，主幹模型負責生成控制信號。自車運動可以包含不同類型的運動，如加速、轉彎、轉向和蹬踏。此外，許多模型還輸出附加信息，例如安全機動的成本圖、可解釋的輸出或其他輔助輸出。但整個系統過於龐大，並缺少一個整體的優化目標，使得端到端無法真正落地產生效果。隨着UniAD的提出，以planning的目標作爲整個系統的優化導向，並分模塊對各個子系統進行打分，給從業者們一個新的思考方向。

Sora助力端到端落地

OpenAI表示，Sora在訓練當中表現出了與其它模型不同的湧現能力，通過湧現學習到了物品的時間與空間的相關性，以及與周圍世界互動的能力等。簡單來說，Sora不單止是擁有感知世界運行法則的能力，它還可以判斷不同事物之間的關系，擁有發散思考的技能。智能汽車當中的智能駕駛能力也是訓練AI模型得出的結果。當前汽車智能駕駛分爲感知、定位、決策、規劃、控制幾個模塊，每個部分緊密配合，最終實現精確的智能駕駛。智能駕駛的不同模塊，目前都需要單獨訓練，訓練量龐大，研發人員要通過不斷地“喂數據”優化迭代，所帶來的沉沒成本自然巨大。

人在駕駛汽車的時候，很多判斷都是基於對這個世界的理解，比如對方的速度、會否發生碰撞、碰撞的嚴重性如何。這就是當前智能駕駛與真人司機之間的區別。

但Sora對世界的感知和交互能力，並不是單純的數據堆疊就能實現的。想要提高自動駕駛的研發和運行效率，人爲優化迭代是必須，更重要的還是要讓AI具備自主發散，縮短迭代周期，將交互能力賦能到現有的智駕模型當中，更接近人類的駕駛體驗或許就此誕生。

但與此同時，端到端的落地也伴隨着相當多的挑战。首先是神經網絡的可解釋性問題。可以想象，如果自動駕駛的車輛調試時出現安全問題，工程師們在排查問題時可不能說一句：“需要多採集點數據，問題便可能得到解決”就能夠應付的。事關性命安全問題，需要的是像汽車行業幾百年累積的經驗一般，要保障每輛車的安全性，這裏容不得概率與可能性作祟。

其次便是用戶的接受程度。在自動駕駛的過程中，用戶肯定希望能看到這輛車的行爲，好對行進狀況有個心理預期。而傳統的分模塊方案，感知的表達可以通過各種各樣的形式可視化出來，但端到端卻不具備這樣的能力，其更像是一個黑盒。在這種情況下，銷售如何向用戶保證這套系統的安全都是沒有說服力的，用戶的接受程度將會成爲落地上真正困難的一環。

在過去的幾年裏，由於與傳統的模塊化自動駕駛相比，端到端自動駕駛的設計簡單，人們對它產生了濃厚的興趣。在端到端駕駛研究呈指數級增長的推動下，越來越多的感知表達形式被提出，人們也希望在端到端的框架下，實現一種更加完備的感知表示方案，在保障規控接收到足夠信息的同時，也減輕感知對於算力的依賴負擔。而Sora的爆火相信也會給智駕行業指明一條全新的道路。