#英偉達CEO帶火“具身智能”# 華爾街見聞見智研究認爲:具身智能帶來的AI價值遠比人形機器人更大。具身智能最大的特質就是能夠以主人公的視角去自主感知物理世界,用擬人化的思維路徑去學習,從而做出人類期待的行爲反饋,而不是被動的等待數據投喂。在人類的五大感官中視覺獲取的信息佔比超過80%,並且讓機器理解人類語言也是非常重要的,所以機器視覺和多模態大模型正是开啓機器自我感知學習的兩把鑰匙。
具身智能是什么?
具身智能簡單來說就是AI的大腦加上軀體。它能夠跟我們生活的環境進行交互,從而展現出智能行爲。
而具身智能爲什么被看的iPhone時刻?
原來的人工智能可以看作第三人稱的智能,也就是投喂數據給機器,讓它學習什么它就學習什么。而現在具身智創造了一種機器自主學習的新方式,能夠以第一人稱的視角來感知和學習物理世界,並像人類一樣理解和感知事物的能力,才能在此基礎上進行相同思維的發展,最後表現出人類期待的行爲方式。
Windows爲何能統治操作系統,iPhone爲何創造智能手機時代,最重要的原因就是他們創造了最簡單、最直觀的人機交互窗口。
發展人工智能的意義在於能夠讓機器造福人類,協助處理事務,提高生產力;更進一步則是讓AI進行創造,推動科學研究的進展。而這一切的前提是:要讓機器理解人類社會,要做到這一點,需要的就是具身智能。
見智研究認爲:讓AI擬人化的進行感知和理解世界方式,視覺和聽覺是非常重要的。看見並理解物理世界中存在的事物,並且能夠聽懂人類的語言這背後需要的是機器視覺技術和多模態大模型。在具身智能領域的快速發展下,這兩大領域的技術創新和需求也會與日俱增。
具身智能比人形機器人更有價值
具身智能相當於AI的大腦,而這個大腦的載體可以是任何形式。可以是一個機械臂,一只機器狗,更或者是一輛小汽車。
而反觀人形機器人,當下爲何被看做是一個不太聰明的鋼鐵巨人,核心還是因爲缺少AI大腦+不太靈活的軀體。
就像馬斯克所表示的,雖然未來有一天人人可能會擁有一個人形機器人,但是目前展現的Optimus人形機器人產品也就只能執行重復性的簡單勞動。
見智研究認爲:我們真正需要的人形機器人目前還缺少具身智能特質。馬斯克也表示:未來會將特斯拉的視覺技術用於人形機器人的研發中。而對於具身智能和人形機器人所能夠創造的價值,也非常明了了。具身智能的應用場景沒有局限性,所以市場空間更廣闊。
關注具身智能的硬實力
具身智能的硬實力包括:機器視覺和多模態大模型。
機器視覺是AI的感知工具,亦爲數據生產的手段。在人類的五大感官中視覺獲取的信息佔比超過 80%。
機器視覺的端口是攝像頭,作爲看懂世界的“眼睛”;機器視覺的大腦是算法,承擔分析功能。
見智研究認爲:相比於單純迭代硬件的參數指標,算法和架構的升級對於AI來說更重要。因爲攝像頭的發展目前已經可以實現對物體的數據採集,無論是清晰度還是色彩度都已經卷到了夠用的程度。
值得關注的是,多模態大模型在機器領域的應用。無論是視覺圖像信號還是人類語言的聲音信號,最後都要轉化爲機器能夠理解的語言,從而實現人機交互的目的。
從現階段應用來看,目前最好的是谷歌的PaLM-E大模型(參數5620億),可以將視覺和語言同時集成到機器人的控制中。這種大模型最大程度的解決了需要人工對數據進行預處理和注視的繁瑣流程,極大提高了機器理解的效率。通過將PaLM-E大模型集成到控制中,能夠直接通過攝像頭的數據實現對機器執行命令,並且具備一定程度的抗幹擾能力。
本文作者可以追加內容哦 !
標題:英偉達CEO帶火“具身智能”AI價值遠比機器人更大
地址:https://www.utechfun.com/post/215472.html