Google 旗下 DeepMind 新發表 RT-2(Robotic Transformer 2),它是一種與眾不同的視覺-語言-行動(vision-language-action,VLA)模型,從網路和機器人的資料進行學習,並將這些知識轉化為控制機器人的通用指令。
RT-2 教導機器人辨識視覺和語言,解釋指令並推斷哪些物件最符合要求。過去訓練機器人需要很長的時間,研究人員必須單獨規劃研究方向,如今藉助 RT-2 等 VLA 模型的強大功能,機器人可在取得大量資料組後,推斷下一步該做什麼。
DeepMind 在一篇表示,新模型以網路和機器人資料進行訓練,也利用自家 Bard 等大型語言模型的研究進展,與機器人自身數據相互結合,例如決定需要移動哪個機器手臂關節等,甚至能夠理解英語以外的其他語言指令。
DeepMind 舉例,RT-2 可讓機器人在沒有經過特定訓練的情況下辨識並扔掉垃圾,以 AI 試圖理解垃圾是什麼以及通常如何處理垃圾,來引導行動。
DeepMind 研究人員在像是廚房的測試環境利用機械手臂測試 RT-2,《紐約時報》看完機械手臂的現場測試指出,一名研究人員下達「撿起絕種動物」的指令,機器手臂順利從 3 個小物中撿起 1 隻恐龍。不過,機器手臂也會把汽水口味辨識錯誤,把水果誤認成白色,可見 RT-2 目前應用還不夠完美。
Google 涉足更智慧的機器人應用是從去年開始,當時宣布在機器人上使用 PaLM 模型,建立全新 機器人,將大型語言模型和機器人技術整合在一起。
RT-2 未來持續發展和測試下,Google 的機器人透過大型語言模型在運作上更聰明,不需要複雜的指令將能完成任務,彷彿讓人們距離皮克斯電影《瓦力》(WALL-E)描述的未來世界更近一步。
(首圖來源:)
延伸閱讀:
標題:Google 發表新模型 RT-2,我們離機器人瓦力的世界又近一步
地址:https://www.utechfun.com/post/244055.html