OpenAI、微軟押注,大模型應用的盡頭是AI Agent ?|對話面壁智能

2023-11-16 18:41:01    編輯: robot
導讀   文|郝    鑫 編|劉雨琦 你見過Agent們“吵架”么?“這個產品需要具備XX需求,爲什么沒有?”,“你提出的需求完全不合理,技術上達不到!”,現場頓時亂作一團,越來越多的“員工”也被卷進了...

 

文|郝    鑫

編|劉雨琦

你見過Agent們“吵架”么?“這個產品需要具備XX需求,爲什么沒有?”,“你提出的需求完全不合理,技術上達不到!”,現場頓時亂作一團,越來越多的“員工”也被卷進了這場大亂鬥中。激烈的爭吵聲越過了屏幕外,面壁智能的測試人員通過後台日志,發現Agents正在上演一場“職場大戲”。這家完全由AI Agents組成的軟件开發公司,是面壁智能基於其創新研發的开源框架ChatDev开發的SaaS產品,產品經理和技術开發的Agents們“繼承”了現實中的角色,在數字世界中也“Battle”了起來。大模型之後,應用層到底駛向何方一直是創業公司討論的核心話題,在最近,這個問題似乎有了答案。OpenAI再次成爲了“行業模版”,通過GPTs打造Agent功能一經开放,一天內就湧現了2萬多個GPTs。而早就發現Agent確定性機會的面壁智能,也終於不用再煞費苦心地給投資人解釋,究竟何爲Agent,以及爲什么Agent潛力巨大。目前,在行業內關於AI Agent達成一定共識的,主要是來自OpenAI的一篇博文。在裏面對AI Agent的定義爲:大語言模型作爲大腦,Agent有感知、規劃、記憶、和使用工具的能力,能自動化實現用戶復雜目標,這也奠定了AI Agent的基本框架。

(AI Agent的基本框架)雖然AI Agent的概念早已有之,今年年初也冒出了一些曇花一現的構想,但因爲底層大模型技術能力的不成熟、不完善,所以直到現在才得以爆發。從結果來看,AI Agent發展分爲兩個階段,一個是以OpenAI的GPTs爲代表的單體智能,發展到後期,則進入了像面壁智能打造的ChatDev這種多智能體協作的群體智能階段。幾乎與國外“斯坦福小鎮”同期,面壁智能直接進入了群體智能的第二階段。

(斯坦福小鎮示意圖)

(面壁智能ChatDev群體智能交流鏈示意圖)

“我們從一开始就從群體智能开始切入,發布了ChatDev多智能體協作开發框架 ”,面壁智能產品負責人告訴光錐智能。據了解,面壁智能的核心科研成員來自於今年大模型創業浪潮中的“半壁江山”——清華大學NLP實驗室,聯合創始人劉知遠是清華大學計算機系長聘副教授、智源青年科學家,其聯合創始人、CEO也是知乎的CTO李大海。那么,選擇了一條比OpenAI還難走的路,在大模型時代,作爲國內最早一批深入AI Agent的公司,面壁智能如何思考AI Agent技術,對AI Agent未來發展又有怎樣的判斷?帶着重重疑惑,光錐智能對話面壁智能,尋找關於AI Agent的答案。核心觀點如下:1、AI Agent就是下個時代大模型賦能整個應用場景的一種新模態。2、現階段,AI Agent呈現出的更多是一種“擬人化”的形式。它可被定義爲“分身”、“員工”和任意“個體”。3、Copilot和Agent不是同一個概念,Agent實現的是全自動化的決策、運行和反饋。4、用Agent开發軟件,能夠把幾萬元的开發成本降至幾十元,甚至幾元。5、大模型是Agent的“輸血泵”,賦能Agent原子化能力,決定其幹得好不好。

以下爲對話實錄:

光錐智能:面壁一詞來源於《三體》中的面壁計劃,面壁智能是一家什么樣的公司?與其他大模型公司相比,面壁智能有什么特殊的地方?

面壁智能:面壁智能是一家集學術研究、技術开源和產品商業化爲一體的公司。

整體上分爲三個部分:首先是清華NLP實驗室,與我們共同進行底層前沿的科研探索;其次是开源社區OpenBMB,我們會把一些前沿的一些技術、科研成果开放給更多的开發者和行業;另外就是面壁智能,基於所有的科研沉澱和开源框架,進行應用研發和整體商業化落地,由此形成了以面壁智能爲樞紐的產學研聯動“一體兩翼”的架構。

具體到面壁智能這家公司,公司的愿景和理念是“智周萬物”(Internet of Agents),即讓 AI Agents連接萬物,實現從“萬物互聯”到“萬物智聯”。以前有互聯網,後面有物聯網,面壁智能認爲在當前這個時代,大模型以及以大模型孵化的AI能力,是下一個時代新的拐點,期望把我們在大模型、AI方面的基礎能力賦能到方方面面,從而讓整個行業、社會有一個新的提升。

光錐智能:爲什么一开始就選擇了AI Agent這個方向?有哪些契機和思考?面壁智能:大模型想要落地到具體場景,AI Agent是重要路徑,它代表的是比“裸”模型更擬人的使用體驗。我們判斷未來會是Agent的世界,萬物都是Agent。比如電飯鍋可以是Agent,放入食材後,我們跟它說要熬粥,它就會根據熬粥的邏輯,去設定相應的加熱方式。冰箱也會是Agent,如果它的冷卻劑漏了,它會跟我們對話,說自己需要維修了,或者它已經打完了維修電話,通知維修師傅上門時間;或者提醒我們上周蔬菜买多了,要趕緊喫掉,否則菜就壞了。

基於此,我們對於未來世界才有了“智周萬物”的設想以及面壁智能的定位:一家基於大模型驅動Agent技術的公司,技術研發方向從模型基座到Agent技術,再到最終的應用。光錐智能:在行業內,對AI Agent的定義都還沒達成共識,面壁智能如何定義AI Agent?面壁智能:現階段,AI Agent呈現出的更多是一種“擬人化”的形式。它可被定義爲“分身”,也可以被定義成某個“員工”,也可以被定義成組織中的一個“個體”,甚至到高階階段,也可以連接“物體”。

如果單獨的物體也不是最後的形態,那它的定義應該是一個完完全全新的東西。我們認爲在一個理想技術路线下,AI Agent至少應該具備以下幾個能力:第一是,應該具備超級高的智商,無論是學習使用工具、規劃,還是記憶、知識儲備,其實都是智商的一部分;第二是,應該具備超級高的情商,需要其能夠針對不同的場景和不同需求的用戶有較強的自然對話能力和理解能力;第三是自省和成長迭代能力;第四多模態能力,能夠模擬人的聽、說、看、想,具備跟整個自然世界交流的能力;第五是價值觀對齊能力,AI Agent也需要像人一樣受到社會價值觀和道德取向的約束;第六是可被定義的能力,根據人的需求和設定,隨時變化出一個特定的形態。

光錐智能:很多人分不清Copilot與Agent,或者將二者粗略的畫等號,您怎么看?如果有差異,差異在哪?面壁智能:這還是兩個不同理念的東西。假如說未來你可以去基於Agent搭建一個數字公司,對這個數字公司而言,95%的情況下可以自己運轉,但過程中他會反問你,公司的核心目標是什么?期望達到的銷售額是多少?你在公司的投入有多少?在實際運行過程中,遇到難以決策的問題也會尋求你的幫助,你需要把知識、經驗、需求、預期等喂給它,在交互過程中實現自動化的公司經營;這跟基於人設定的邏輯,輔助處理問題的邏輯完全不一樣。

類似ChatDev這種群體智能自動化創造的產品、就是奔着Agent自動化運轉的思路去做的實踐。光錐智能:您認爲AI Agent的確定性機會在哪?在這個十分不確定的大模型時代,爲什么認爲這條路能行得通?面壁智能:回顧幾次工業革命變遷,背後都是生產力的躍升。從蒸汽機、電力再到如今的人工智能,生產力的變革帶來了整個社會生產關系、生產工具的重塑。

在大模型時代,我們認爲AI Agent就是這樣具有生產力性質的技術,其能力強、效率高的特性決定了,它可以在某種程度上模擬一個人、一個組織、一個公司,大幅提升生產效率和交互方式。雖然現在AI Agent發展仍在早期,但其未來的潛力卻是無窮的,本身的商業化路徑也十分清晰,從單體智能到群體智能,從技術到產品再到商業化,由此才堅定了我們確定AI Agent 方向的決心。

未來可能就是工程師去做構思,理解市場需求,然後將需求拆解交付給AI,讓AI去完成一些低水平的重復勞動、以及部分創造性的工作,解放人的生產力。這有助於未來千行百業都能把AI相關軟件應用起來,進而更好地推行全面數字化和信息化。光錐智能:2023年至今,面壁智能在AI Agent這個方向,做了哪些探索?

有哪些產品和思考?面壁智能:基於AI Agent,我們打造了三個引擎,用以連接大模型和現實環境,它們分別是大模型驅動的AI智能體應用框架XAgent,智能體通用平台AgentVerse和多智能體協作开發框架ChatDev,以上三個引擎也被內部稱爲AI Agent“三駕馬車”。

ToB方向AI Agent可能成爲企業內部的不同工種,重塑企業組織流程,提效的同時,最後實現完全由AI Agent組建、運營起來的公司;ToC方向,AI Agent可能是智能助理等。

<span data-docs-delta="[[20,{"gallery":"https://uploader.shimo.im/f/IlzeyXztnLDNn6du.png!thumbnail"},"29:0|30:0|3:"null"|4:"auto"|crop:""|frame:"none"|ori-height:"null"|ori-width:"null""]]" data-copy-origin="https://shimo.im">

(XAgent數據分析示意圖)

    • XAgent大模型驅動的超強AI智能體應用框架

      通過大模型打造一個像人一樣,具備一個高智商、情商、記憶力的超級智能體,在真實復雜任務的處理能力已全面超越AutoGPT。

    • AgentVerse大模型驅動的智能體通用平台偏向通用化的Agent开發平台,在上面用戶可以自定義構造專屬Agent。

    • ChatDev大模型驅動的多智能體協作开發框架 AI Agent應用的具體开發框架,目前,已經跑出了落地的ChatDev產品,核心功能是允許用戶使用自然語言开發軟件。

光錐智能:能否以剛發布的ChatDev SaaS產品爲例,更清晰地拆解面壁智能產品化的思路?面壁智能:

    • 簡單概括就是,

讓用戶能夠通過一句話的自然語言,去开發一款具體的軟件,

    • 這將大大降低軟件开發的門檻。

    • 在這個軟件公司裏,會有CEO、CTO、开發經理、產品經理、測試專員、監督員等,只要用戶把明確的需求告訴CEO角色的Agent,這個CEO就會基於用戶的需求,組織整個軟件开發流程。最後交付給用戶的包含了軟件產品和整個开發過程中的代碼,並且所有流程都是自動化的。

(ChatDev軟件开發過程)

    • 這裏面留給用戶和开發者可自定義空間非常大,用戶可以針對已开發出的軟件提出新需求,也可以改變整個軟件的开發模式。比如我定義的軟件公司,跟別人默認的軟件公司不一樣,期望多幾個測試,把這款軟件變得更可信一些。那就根據這個具體的需求,多幾次測試,多增加幾個產品經理執行這個想法。

光錐智能:用Agent开發軟件能夠降低多少成本?面壁智能:

    • 如果讓軟件工程師去开發,至少需要幾萬塊錢的人工費,時間兩周起步。

但使用ChatDev开發,價格只需要幾元到幾十元,最快幾分鐘就能跑通一個應用。

    • 目前,一些相對簡單的軟件开發流程已經完全跑通了,一個沒有代碼开發經驗的小白用戶,60%的場景應用都能完全實現。

光錐智能:怎么去訓練一個ChatDev?面壁智能:

    • 可以把這個事情理解成三步。

第一步是預設協作流程。

    • 在一個公司中,每個人都有固定的角色和分工。在群體智能場景中也需要一個預設的協作流程,比如在軟件开發的過程中,就可能涉及產品經理、技術研發人員、測試人員等,每個人需要在其中發揮作用,甚至有時還會出現像人一樣互相battle的情況。

第二步是指導和反饋機制。

    • 流程設計中有指導角色和執行角色,通過2個角色的互動溝通,減少執行幻覺的出現;同時任務完成後會有角色之間的反饋機制,類似現實世界中的跟老板匯報,以此來增強運行的准確性。

第三步是大模型賦予Agent原子化能力。

    • 所有AI Agent的引擎和應用都長在大模型上,光創建工作的協作流程還不夠,每個人還得幹活兒,可以把大模型理解成“輸血泵”,AI Agent一旦有需求,大模型就把其需要的能力輸送給它。

光錐智能:ChatDev產品反過來對底層的大模型能力提出了哪些調整?面壁智能:

    • 這很大程度取決於上層應用,拆解下來看的話,大致需要幾個基本的能力。首先是

復雜規劃

指令遵循的能力

    • ,基於對話分析項目、拆解需求、提出正確的指令的能力。在一個協同的組織裏,有不同的角色發布不同的指令特別是在復雜的生產環境中,指令可能不是簡單的一句話,對於復雜的指令AI Agent能不能夠有一個思維鏈的方法,完成一個個的拆解,並且基於這個拆解去進行實際落地,也是大模型本身要去解決的。其次是

編碼能力

    • ,因爲最後追求的結果是要能在真實環境裏跑通,反饋、測試、修改的前提都要基於完整的代碼流程。

再次是更長token的輸入窗口能力

    • ,以後需要做更復雜的軟件,就需要更復雜的任務理解、Prompt輸入和更復雜的上下文對話能力。最後還有格式化輸出對接的能力,對知識內容的理解能力、精准的生成表達能力等大模型的綜合能力。

光錐智能:如何理解大模型和AI Agent的關系?就AI Agent而言,面壁智能現在發展到了哪個階段?面壁智能:

    • 可以把大語言模型想象成一個哆啦A夢的魔法兜,現實中我需要的是怎么從這個兜裏拿出東西,跟現實世界的真實需求去連接。我們打造的“AI Agent三駕馬車”,有點像是魔法棒,將大模型的能力轉化成實際的應用。在具體應用上:ChatDev已經走過了論文研究、开源產品上线的前兩個階段,現在進入了第三個階段——商業化產品孵化,會面向不同類型的用戶开放使用,以前更多是开發者討論的聲量,現在的產品开始正式面向普通用戶。同時,基於Agent產品面壁智能也在跟一些B端企業合作,嘗試去輔助他們完成一些更復雜的工作。上面提到的“三駕馬車”可以視爲未來誕生超級應用的土壤,現在AI Agent的基建已經逐步搭建起來;對於ChatDev產品中的哪些場景或者軟件應用能夠跑出來,我們也希望在用戶使用過程中再去沉澱下來一些垂直的場景需求,探索更多商業化的空間。

光錐智能:如何看待OpenAI上线的“GPTs”功能?面壁智能:

    • OpenAI开發的GPTs,實際上屬於單體智能,OpenAI开放出來的是基礎Agent的構建能力,如說工具調用、基於知識庫文件記憶能力。而ChatDev進化到了群體智能階段,通過多Agent協同能去實現更復雜、貼近真實需求的應用。

光錐智能:AI Agent的未來應該是怎樣的?面壁智能:

  • 總體上來看,可能是更深層次的智能連接。我們說“智聯網”發展到後面也需要把物理連接納入進去,單體智能再往前發展也會擴展到物的智能、機器人的聯動。從群體智能角度來看,ToC或許是更大的社區化的虛擬組織,每個人的Agent都能通過虛擬數據連接在一起;ToB則是虛擬的組織、企業,不同的企業和員工都能通過智能體納入到網絡當中。發展至最後,整個社會將變成一個巨大的虛實結合的網絡,形成“智聯網”——IoA(Internet of Agent)。通過不同的智能體,提供了更強的生產力,重新塑造整個生產關系,整個社會的產能也會有一個很大的提升。

       原文標題 : OpenAI、微軟押注,大模型應用的盡頭是AI Agent ?|對話面壁智能



標題:OpenAI、微軟押注,大模型應用的盡頭是AI Agent ?|對話面壁智能

地址:https://www.utechfun.com/post/292204.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡