AIGC 施展“物理魔法”,3D視覺突破“精度極限”

2023-08-21 18:40:04    編輯: robot
導讀 文|姚悅,編|王一粟 “沒有藝術,全是物理!物理讓你快樂,不是嗎?” 近日,在世界計算機圖形會議 SIGGRAPH 2023 上,英偉達創始人、CEO 黃仁勳宣布,將生成式AI與仿真模擬平台Omni...

文|姚悅,編|王一粟

“沒有藝術,全是物理!物理讓你快樂,不是嗎?”

近日,在世界計算機圖形會議 SIGGRAPH 2023 上,英偉達創始人、CEO 黃仁勳宣布,將生成式AI與仿真模擬平台Omniverse結合的時候,如同他宣布“AIGC是iPhone時刻”一樣興奮。

不同於大語言模型只能應用在圖文,有了基於物理規律的仿真模擬平台,生成式AI就可以直接用到現實世界。

除了黃仁勳,美國斯坦福大學李飛飛團隊,近期也將大模型接入機器人,不僅使得機器人能夠與環境有效交互,還能夠在無需額外數據和訓練的情況下完成各種任務。

“基於物理世界模擬的生成式AI,是生成式AI 2.0”,跨維智能創始人、華南理工大學教授賈奎對光錐智能表示,與具身智能的結合,生成式AI 將發揮出更確定性的作用。

而隨着通用能力的增強,AI也有望打破商業化的“魔咒”。

01 當生成式AI學會物理

將生成式AI與物理世界結合,並不容易,這裏面涉及的技術鏈條非常長。

首先,需要對物理世界基本規律的掌握,才能將真實世界建模到仿真模擬平台。

仿真模擬平台,不僅可以仿真物理場景,還可以模擬真實世界中物體之間相互作用、運動和變形。

而生成式AI的加入,會讓仿真模擬平台擁有“預演”能力。

“人類從小就知道的物理常識,AI卻不知道。”黃仁勳表示,“生成式AI和仿真模擬平台結合,就是要讓AI的未來能夠在物理上扎根。”

黃仁勳進一步解釋,讓AI在虛擬世界中學習如何感知環境,並通過強化學習來理解物理行爲的影響和後果,讓AI實現特定目標。

這就需要用生成式 AI,預測物理世界中的千萬種、甚至上億種可能性,形成有價值的合成數據。

比如機械臂需要通過3D視覺的“眼睛”才能精准抓取,但如何排除環境變化的幹擾,認出待抓取的物體(比如工廠裏的零部件)?

通過仿真模擬平台掌握了“光线對場景目標的反射、折射影響”等物理規律,生成式 AI就能預測模擬出一個瓶子,在不同場景光照下,周身不同的反光程度;同一光照下,金屬、塑料、木制品等不同材質物體表面呈現的狀態;一堆釘子,所有可能出現的散落狀態……

再次,需要將所有數據,都在仿真模擬平台中用AI都跑一遍。

這一步,就是在訓練3D視覺大模型。區別於大語言模型,3D視覺大模型對於理解和推理視覺場景的組成特性至關重要,需要處理對象之間的復雜關系、位置、以及現實環境中的變化等。

最後,再連接上機械臂等具身智能的硬件,才能讓其學會智能化操作。

可以看到,生成式AI與物理世界結合的整個技術鏈條,不僅涉及物理學、圖形學、計算機視覺、機器人多學科交叉,還包括數字孿生、幾何深度學習、運動學解算、混合智能、智能硬件等多維前沿技術。

相應的,整個產業的鏈條也比較復雜,需要從數據到模型,再從模型到部署。

在這些環節中,有一個節點和此前AI的路徑非常不同,那就是“合成數據生成”。

用基於物理規律的生成式AI合成的數據,去訓練大模型,將給實體產業帶來跨越式的革命。

02 不用一張真實圖片,訓練3D視覺大模型

爲什么不直接用真實數據訓練大模型?

目前,行業內多數基於3D視覺的機械臂,其控制系統的算法訓練所使用的就是真實數據。因爲商業隱私等問題,這些真實數據很難在通用數據中獲取,基本都是企業自行採集。

然而,自採真實數據,首先在“效率和成本”這兩個運營的關鍵指標上,性價比就非常低。

這是因爲,終端應用場景碎片化,數據根本不能通用。採集真實數據,企業就需要一個一個行業,一個一個工廠,一個一個場景的“地毯式”採集。而且,採集回來的數據也不能直接用,還需要進行一系列處理。

這個過程中,甚至產生了“人工智能悖論”。

“採集真實數據,AI技術的成本構成中,半數以上都是數據成本,而對數據的採集、清洗、標注、增強等處理過程,往往是大量人力堆積的結果。”有分析人士就曾指出,人工智能的本質是代替人工的智能。“諷刺的是,這樣的AI具備顯著的勞動密集型產業特徵。”

如果用合成數據呢?

“用五六年、上千個案例積累的真實數據,通過合成數據,幾天幾周就能完成。”賈奎告訴光錐智能,相比於人工採集與標注數據,合成數據的成本能夠實現幾個數量級的降低。

最關鍵的還是,在訓練效果上,合成數據能夠更優於真實數據。

由於本身就是基於物理規律合成,合成數據天生自帶絕對精確的標注,這就意味着,AI學習起來效率非常高。

另外,合成數據的“全面性”是真實數據難以比擬的。“生成式AI 2.0可以創造無數個世界,而且可以讓這個世界快速演進。”賈奎表示。

而落地到3D視覺行業,機械臂就猶如有了“上帝之手”,可以掌控一切過去未來。

“當然,這不能是物理世界的規律之外的。”賈奎強調。

“目前,我們不使用一張真實圖片,就可以完成機械臂復雜場景作業的3D視覺模型訓練。”賈奎告訴光錐智能,完全使用合成數據訓練的模型引導機械臂的柔性操作,可以實現現場99.9%以上的穩定抓取。

也正是因爲此,合成數據,被稱爲大模型的“數據永動機”。

當前,除了3D視覺領域,許多領域也都因通用數據缺乏和噪點多等問題,开始嘗試使用合成數據。但也有對合成數據抱有強烈質疑的觀點,稱如果沒有經過精心調試,在訓練時大量使用,會引發模型崩潰,造成不可逆的缺陷。

從技術演進的角度,合成數據不會是大模型的唯一解。

但賈奎指出,“沒有找到更好的辦法之前,合成數據就是目前能夠解決實際問題的最好辦法。如果還採用人力堆砌的真實數據,在包括3D視覺在內的很多領域,AGI(通用人工智能)永遠不可能實現。”

03 打破AI的商業化“魔咒”

在機器視覺領域,對合成數據的需求更加旺盛,生成式AI 2.0能夠釋放的價值也就會更大。

作爲機器視覺非常重要的感知手段,3D視覺對於合成數據的需求就十分迫切。

“在一堆相似的零件裏‘找不同’,物體換一個材質、顏色,都需要去調整參數。”一位3D視覺從業人士表示,不同領域的需求不同,使得落地場景過於碎片化,只能做完一個項目再重新定制另一個項目。

這就意味着,企業很難通過着力解決一個或幾個項目需求,就能形成標准化產品。也就無法進而通過快速復制,打入並拓展市場,追求利潤規模。

邊際成本難以降低,會將一家技術公司,變成項目公司,最終拖垮。

“魔鬼”藏在細節中。

傳統3D視覺感知有多脆弱?賈奎向光錐智能描述,“機械臂在抓取過程中,如果有人路過產生光线變化,任務就可能失敗。”

這是由硬件3D相機的成像原理造成的,3D相機成像容易受環境、物體形狀、材質、顏色、散射介質等影響,而且這一問題短時間內難以解決。

“解決一個問題可能是一百步,但最後一步付出的努力可能跟前面99步加起來是一樣的。”商湯科技聯合創始人楊帆曾表示,企業大部分的精力都需要用來應對小部分長尾問題。

但現在,“通用性能力很強的生成式AI 2.0,能夠解決長尾問題,對於產品標准化至關重要。”賈奎表示。

相較於行業傳統定制化开發的模式,企業基於生成式AI 2.0,就可以利用通用大模型,實現產品模塊化开發,做到开箱即用地部署,進而實現同行業直接拓展,不同行業也能有效復用。3D視覺行業的商業化難題也就迎刃而解。

與此同時,數據、开發、部署、硬件、行業拓展,每一個環節的成本也都實現驟降。

而在生成式AI 2.0的催化下,3D視覺一旦爆發,也就意味着,在機械臂、機器人、無人駕駛、元宇宙等等高度依賴3D視覺技術的垂直場景,都將加速喫到AI的紅利。

不少數據已經印證了這一點,像數據標注、合成數據、工業機器人、機器視覺等領域,全球市場規模都在高速增長,尤其是合成數據的年復合增長率甚至都超過了30%。

這背後,實際上是生成式AI 2.0的战略價值,已經受到了科技和衆多制造業巨頭的高度重視。

從西門子、福特等老牌制造企業,到英偉達、特斯拉、谷歌等一衆科技巨頭,再到Waabi等明星初創公司,都开始紛紛在工業、機器人、無人駕駛、醫療、零售等諸多領域,探索生成式AI 2.0更大的可能。

與此同時,資本的熱情也被極大地調動起來。據不完全統計,近年來,國外合成數據的相關融資,累計已接近8億美元。

在國內,合成數據相關企業也同樣引起了資本的注意。2022年6月,跨維智能宣布完成Pre-A輪融資,融資金額數千萬元,成立不到一年時間累計融資近億元;今年7月,光輪智能也宣布完成天使+輪融資,融資金額累計數千萬元。

可以說,從會作詩到學物理,生成式AI 2.0正在开啓一個產業數字化的宏大未來。

歡迎關注光錐智能,獲取更多科技前沿知識!

       原文標題 : AIGC 施展“物理魔法”,3D視覺突破“精度極限”



標題:AIGC 施展“物理魔法”,3D視覺突破“精度極限”

地址:https://www.utechfun.com/post/252090.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡