資料來源:voxposer.github.io等
作者:Alex
物聯網智庫 整理發布
導讀
近期,由知名美籍華裔人工智能學者李飛飛帶隊的項目組,發布了一項最新的“具身智能”成果——VoxPoser。
你的童年裏是否也有一段關於機器人的記憶——來自於阿諾德·施瓦辛格飾演的T-800終結者。
1984年,這部由好萊塢鬼才導演詹姆斯·卡梅隆執導的科幻電影《終結者》上映即獲得無數影迷追捧,原因無他,除了一衆影星的傾情演繹之外,導演天馬行空的想象着實讓當時的人爲之着迷。
如今距離電影上映已過去將近40年時間,而電影中具有獨立行動能力的機器人也被科學家們真真實實地搬進了現實當中。
就在近期,由知名美籍華裔人工智能學者李飛飛帶隊的項目組,發布了一項最新的“具身智能”成果——VoxPoser。
該項目主要研究目標是——在給定开放式指令集和對象集的情況下,爲各種操作任務合成機器人軌跡,即密集的六個自由度末端執行器航點序列。
該項目通過從大語言模型和視覺-語言模型中提取機會和約束,構建3D值地圖,可以讓機器人在零樣本學習的情況下,理解指令,分解任務,規劃路徑,並最終實現操作任務。
值得一提的是,在該方法下進行機器人操控時,是不需要做數據投喂和預訓練的。
目前,關於該項成果的項目主頁和相關論文都已經上线,對應的代碼也即將推出。
關於VoxPoser
關於VoxPoser這項成果,可以說又是人工智能領域和機器人領域融合的一個新的裏程碑。
它正在讓抽象的AI通過機器人變得具象化,未來,或許你期望的就不再是童年的那個“T-800終結者”玩具,而可能是真正的具備具身智能的機器人。
具體來說,VoxPoser的原理解釋起來還是相對簡單的。
就是使用者給定執行具體需求的自然語言指令,以及環境信息(通過相機採集的RGB-D的圖像)。
然後,LLM(Large Language Model,大語言模型)將根據以上信息生成與VLM(Visual Language Model,視覺-語言模型)交互的代碼。
基於這一系列操作,系統會自動生成相應的供機器人進行空間感知的“3D Value Map”(3D值圖)。它會“告訴”機器人自己在哪裏、目標在哪裏。
之後進入下一個階段,將生成的3D值圖用作機器人運動規劃的目標函數,便能夠合成最終要進行的操作軌跡了。
這一成果的最大亮點在於——整個機器人訓練過程是不需要進行任何額外的數據投喂和預訓練的。換而言之,目前機器人訓練所需要進行的預定義訓練、大規模數據缺失等問題,在這裏統統不存在。
正是因爲具備上述能力,機器人只要符合相關流程,也基本能夠完成任何給定任務。
基於此,項目團隊按照該方法進行了大量的實驗,通過下達日常操作任務,比如,“把毛巾掛在架子上”、“把最上面的抽屜關上”、“把面包片從面包機中取出來,放到木板上”等,對VoxPoser進行驗證。
在實驗過程中,項目團隊還故意了打斷任務執行,展示了該成果在動態擾動下的魯棒性。
由於語言模型輸出在整個任務中保持不變,因此VoPoser可以緩存其輸出,並使用閉環視覺反饋重新評估生成的代碼,從而可以使用MPC快速重新規劃。
比如當對機器人發出“把垃圾紙分類到藍色托盤裏”,可以看到無論怎樣對機器人進行幹擾,包括阻止機器人行動、調整物品擺放,它都可以順利執行任務。
論文指出,無論是在真實領域,還是模擬領域,VoPoser的實驗結果要顯著優於基於基线任務。
在真實領域,VoPoser表現的會更加靈活、更加穩健,尤其在外部幹擾的情況下。
另外,模擬領域中,VoPoser在兩個類別(總共13個任務)上的表現也更好。
VoPoser在零樣本下的學習能力和出錯情況也更優。
另外,論文闡述了VoPoser所湧現的四個新能力:
估算物理屬性:給定兩個未知質量的方塊,機器人被要求使用現有工具進行物理實驗,確定哪個方塊更重。
常識性行爲推理:在擺桌子的任務中,用戶可以指定行爲偏好,比如“我是左撇子”,這要求機器人在任務環境中理解其含義。
細粒度語言校正:對於需要高精度的任務,比如“用蓋子蓋住茶壺”,用戶可以給機器人提供精確的指令,比如“你離目標有1釐米的偏差”。
多步驟視覺操作:在任務“精確地將抽屜打开一半”的情況下,由於物體模型不可用,信息不足,機器人可以根據視覺反饋提出多步驟的操縱策略。首先完全打开抽屜並記錄把手的位移,然後將其關閉到中間位置以滿足要求。
機器人开啓AI的下一個浪潮
VoPoser的誕生並非偶然。去年年中,李飛飛曾在一篇文章中指出,計算機視覺未來發展的幾個重要方向,其中最重要的一個就是具身智能。
所謂具身智能,就是Embodied Intelligence,簡稱EI,圖靈於1950年在論文《Computing Machinery and Intelligence》中第一次提出這一概念。具身智能可以讓機器像人一樣能和環境交互感知,自主規劃、決策、行動,並具備執行能力,也被認爲是AI的終極形態。
李飛飛直言,具身智能將會成爲AI領域的下一個“北極星問題”之一。而在不久前的ITF World 2023半導體大會上,英偉達首席執行官黃仁勳也表達了類似的觀點,稱“AI的下一個浪潮將是具身智能”。
無獨有偶,對於具身智能引發的AI與機器人融合所形成的巨大想象空間,李飛飛也並不是唯一的“追光者”。
因ChatGPT有“老樹逢春”感覺的微軟也沒闲着,他們此前也發布了一篇論文,探索大模型與機器人的結合。
論文提到,將把ChatGPT的功能擴展到機器人領域,從而可以讓使用者用自然語言去控制如機械臂、無人機、家庭輔助機器人等“智能體”。
除了微軟之外,在今年年初,谷歌盡管在ChatGPT上栽了跟頭,但在具身智能領域卻並未遲疑。比起論文來,谷歌反倒直接“甩”出了一個參數達5620億的具身多模態語言模型——PaLM-E,其最亮眼的能力就是可以讓機器人具備“聽懂人話”的能力。
據了解,PaLM-E-562B集成了參數量540B的PaLM和參數量22B的視覺 Transformer(ViT),是目前已知的最大的視覺-語言模型。
而在國內,剛剛過去的“2023世界人工智能大會上”(WAIC),智能機器人簡直成了除AIGC之外的另一大亮點。會上,數百家國內外企業集結,各家智能機器人同台競技。
比如智能機器人企業達闥,全方位展示了具身智能服務機器人解決方案。據了解,達闥此次亮相的多台機器人,全部接入和升級了達闥最新發布的RobotGPT、海睿AGI和海睿OS 5.1。
其中,達闥人形機器人小姜下一代Cloud Ginger 2.0全身採用了新一代智能柔性關節SCA2.0和多種傳感器,同時具備視覺和激光定位導航能力,可以包攬迎賓接待、商務導覽、衝泡咖啡、物品遞送、節目表演、教育科研、陪護照看等多種任務。
另據市場消息,達闥機器人已獲超10億人民幣C輪融資。此前,達闥機器人完成5輪融資,赴美上市失敗後有消息稱其今年將赴港上市。
雲深處科技則在本屆大會上亮相了四足機器人絕影Lite3和工業級絕影X20多傳感融合版。尤其值得一提的是,絕影X20面向工業垂類賽道,具備AI智能識別和自主任務規劃功能,可以爲電力、建築等專業行業提供解決方案。
而除了機器人本賽道的玩家“樂此不疲”的追逐具身智能的風口之外,還有越來越多的“跨界選手”加入其中。
互聯網科技企業代表:網易、字節跳動、京東、美團等巨頭均沒闲着,紛紛投資成立了專業機器人業務公司。
據公开消息顯示,6月28日,杭州網易軒之轅智能科技有限公司、網易牽波智能科技(杭州)有限公司同時成立,經營範圍包括了智能機器人的研發和人工智能應用軟件的开發。而需要指出的是,事實上早在2017年,網易就成立了網易伏羲,並且網易伏羲具身智能工程機器人也在本屆WAIC上驚豔亮相。
緊隨網易的是字節跳動,7月4日,該公司傳出也將要造機器人。並且消息透露,其機器人團隊目前已經集合50人,年底將擴充至百人以上。成立後,字節機器人團隊將隸屬於字節AI Lab,由現任總監李航領導。
京東雖然暫時沒有關於新的機器人公司成立的消息爆出,但據6月初的消息顯示,京東集團旗下全平台雲計算綜合服務提供商京東雲計算有限公司也進行了工商變更, 經營範圍新增了智能機器人研發、電池零配件生產等。
傳統行業玩家中,碧桂園、中國石化等躬親入局。其中,碧桂園較早就入局機器人賽道,而中國石化銷售股份有限公司聯合航天雲機(北京)科技有限公司則在今年初成立的易嘉油智能機器人有限公司,主要做服務消費機器人制造、服務消費機器人銷售、智能機器人的研發等。
寫在最後
作爲從科幻電影中走進現實的一個典型應用,人們對於機器人的向往絕不是說說而已。
值得一提的是,受到WAIC影響,機器人賽道的持續火爆引起了資本領域的極大興趣,期間機器人相關板塊備受關注,企業股票也是順勢上漲。
另據中國電子學會在《中國機器人產業發展報告(2022年)》中的預測,到2024年,全球機器人市場規模將有望突破650億美元。
真金白銀的投入,往往說明了問題——隨着AI大模型和機器人的深度融合,更智能、更聰明的機器人勢必將成爲新一輪的創新風口。
參考資料:
1.https://voxposer.github.io/
2.https://voxposer.github.io/voxposer.pdf
3.https://www.youtube.com/watch?v=Yvn4eR05A3M
4.https://mp.weixin.qq.com/s/eaZtaYMJYe0oCLq1h0fPiw
5.https://mp.weixin.qq.com/s/XleXS_5shzZNiOSxUFZfgQ
6.https://mp.weixin.qq.com/s/s0YEUCHlix-AVQAU_gtlZA
7.https://www.thepaper.cn/newsDetail_forward_18791323
8.https://www.zhihu.com/question/540675571
原文標題 : 機器人賽道有多火?有人剛融10億,字節美團布局,還有AI科學家曬成果
標題:機器人賽道有多火?
地址:https://www.utechfun.com/post/237091.html