Agent狂飆300天

2024-02-21 18:40:04    編輯: robot
導讀 大模型能力快速發展,Agent形態還在快速演進,整個賽道仍處於早期。從AI的角色扮演走到模型能力專家化,還有多遠? 文|徐鑫 編|任曉漁 大模型的世界不缺熱點。 近日,OpenAI發布的Sora大模...

大模型能力快速發展,Agent形態還在快速演進,整個賽道仍處於早期。從AI的角色扮演走到模型能力專家化,還有多遠?

文|徐鑫

編|任曉漁

大模型的世界不缺熱點。

近日,OpenAI發布的Sora大模型引爆科技圈,大模型能力又一次迎來炸裂更新。而在底層大模型技術快速迭代之外,過去大半年裏行業內的最熱門話題當屬AI Agent。

這也是個分歧和共識並存的領域,引發了從巨頭到創業者和投資圈的共同關注。

分歧在於,到底什么才算Agent,人們的認知不一。比如OpenAI官方推出的GPTS到底算不算Agent,到底是自動化還是輔助式協作,人們看法有差別。另外,中文裏它還有“代理”、“智能體”等不同提法。

而AI巨頭、平台企業和各類創業公司用行動表達了對這一領域的看好,積極布局Agent开發平台、框架或應用。OpenAI無疑是風向標。OpenAI CEO山姆·奧特曼稱,未來各行各業,每個人都可以擁有AI Agent。去年11月OpenAI發布自定義GPT,到今年1月GPT Store正式上线時,據稱該平台已經有了超300萬個GPTs。比爾蓋茨還發長文指出,AI Agent將徹底改變人們使用計算機的方式。

在國內,百度、阿裏、字節、智譜等一衆企業都推出了各類Agent平台,也有不少企業從應用層發力,如360、瀾碼科技、實在智能等從安全、財務、人事等場景探索Agent落地。

Agent爲什么會成爲香餑餑?國內企業目前是如何切入Agent賽道?創業公司和平台企業的優劣勢是什么?Agent距離真正改變生產生活,還有多遠?

01

大佬都愛Agent

2024年被業界視作Agent落地元年。

上個月的2024CES上,被問及2024年AI領域可能有哪些重大突破時,吳恩達回答,大型語言模型到大型視覺模型的轉變,自動化智能體(autonomous agents )的崛起和邊緣智能。

新年伊始,文生視頻大模型Sora的爆火,視覺模型技術已迎來突破,這也讓業界頗爲期待Agent的應用和落地。

實際上過去大半年,Agent在大模型裏的火爆有目共睹。去年下半年時,硅谷科技記者Matt Schlicht統計稱,至少有100個項目在將Agent商業化。據一家投資機構不完全統計,他們觀察到去年下半年有二十多個Agent項目完成融資。

也有人稱,去年年中以後,大模型賽道上創業者和投資人的關注點一下子從模型本身轉移到了Agent上。

而如果追溯當下這波Agent 熱潮,不少人把去年三月底开始刷屏的AutoGPT視作开始。作爲一個开源項目,AutoGPT創造了Github上的星標上漲記錄。它由大語言模型驅動。用戶用自然語言設定目標,AutoGPT能自動將目標分解成子任務,連接互聯網或使用其他工具來實現目標。

與ChatGPT不同,用戶使用AutoGPT時不需要頻繁提問,只需要給AutoGPT設定一個一個AI名稱、描述和目標,它就能自己完成項目。這一項目很快就在GitHub上成爲頂流。

而Agent爆火也離不开AI巨頭OpenAI 的添磚加瓦。

2023年年中,當時還是OpenAI聯合創始人的Andrew Karpathy在一個开發者活動的發言被廣爲傳播。“如果一篇論文提出了某種不同的訓練方法,OpenAI內部會嗤之以鼻,認爲都是我們玩剩下的。但是當新的AI Agent論文出來時,我們會十分認真且興奮地討論”。

Andrew Karpathy還指出,普通人、創業者和極客在構建AI Agents方面相比OpenAI這樣的公司更有優勢。

也是這一時間段,OpenAI 應用研發主管Lilian weng 在一篇博文裏定義了基於LLM構建AI Agents的框架。她指出,Agent=LLM(大型語言模型)+記憶(Memory)+規劃技能(Planning)+工具使用(Tool Use),其中,LLM是智能體的大腦,而記憶、規劃和工具使用能力是關鍵組件。它也成爲大模型時代Agent的經典定義。

到2023年11月,OpenAI DevDay上,OpenAI推出其官方Agent开發框架Assistant API,並宣布將推出GPT Store,Agent熱潮進一步發酵。

同一時間段,比爾蓋茨寫了一篇長文看多Agent領域。他預言五年內,Agent將改變人們使用電腦的方式,顛覆軟件產業。除了OpenAI和各路大佬動向不斷,硅谷還湧現了大量的AI Agent創業項目或產品,比如BabyAGI、MetaGPT、GPT Researcher等。據雲基礎設施服務商E2B的不完全統計和分類,在編程、個人助手、生產力、財務等多個細分場景都有大量的开源和閉源項目。

巨頭微軟也推出了多類Agent 架構,以代碼爲中心的TaskWeaver,還有多Agent 框架 AutoGen。英偉達的研究人員則利用ChatGPT技術制作了一個智能體Voyager,它會自己玩《我的世界》,能完成遊泳、採集植物、獵豬、开採金礦、建造房屋等操作。

除了單智能體類應用,還有多智能體類項目。最知名的多智能體項目當屬斯坦福大學和谷歌合作的斯坦福小鎮(Smallville )开源實驗。在這個實驗中,研究人員創建了一個由25名智能體組成的虛擬小鎮,並讓其中一個策劃一個情人節派對。這些智能體能彼此交流,按照設定做出相應的決策。

02

什么是Agent,爲什么成爲香餑餑?

從大佬到創業公司紛紛看好Agent,首先在於它延展了大模型的能力。

一位人工智能領域資深技術觀察者介紹,當下,Agent的記憶、規劃以及使用工具的能力都是在彌補大模型現在還比較弱的地方。Agent本質是以大模型爲核心,擴展大模型的潛力,目標是成爲強大的通用問題解決方案。

網易數帆CodeWave產品技術負責人就告訴數智前线,其實不用把Agent想得太復雜,它表現出來就像自動化操作,底層還是基於大模型的能力。OpenAI官方定義的它的幾大能力裏,比如使用工具,調用搜索引擎,外接數據或第三方API,實際上增強了大模型的能力。

致遠互聯高級副總裁蔣蜀革則判斷,在企業級場景裏應用中,Agent跟大模型的落地高度關聯的。蔣蜀革認爲,目前業界已經很務實,非常理性看待大模型的能力,光靠大模型落不了地。比如企業的數據、規則、業務上下文都非常重要,當下大語言模型提供不了外部的實時信息,也無法訪問內部數據,這很難支撐企業內場景的應用。“而Agent 能夠感知環境,感知上下文,自己做業務規劃,結合企業的數據、知識、企業的業務系統去走。這個落地的框架是越來越清晰的。”

也有人把大模型比喻成大腦,而Agent的能力則讓它多了四肢。實在智能的算法負責人歐陽認爲,大模型和Agent的最大區別就在於Agent對於工具的使用,Agent是大模型進一步落地的必然選擇,比如在智能客服、文案的生成類任務時,大語言模型本質上還是在意圖理解和對話生成的能力,但在真正的企業應用場景裏,對話類任務只佔日常工作中比較少的一部分。

許多工種需要操作各類業務系統,完成指定業務流程。比如財務要操作財務類軟件,完成報稅報銷和財務稽核工作;而法務要審核很多合同,起草法務文件,這些都要跟大量的業務系統打交道。“在這些場景裏,只有大模型,相當於有一個非常智能的大腦,但是它沒有沒有手腳去真正操作,因此大模型和各類自動化工具,例如RPA(機器人流程自動化)等,就存在一個很好的結合點”,歐陽說。

另外,業界也看中Agent能夠與環境互動的能力,它能理解目標,拆解任務,並且調用工具執行任務。原來一些步驟和流程無法按照一個復雜的任務线來串起來,Agent以大語言模型作爲一切任務的中心,就可以處理復雜的任務了。

瀾碼科技創始人兼CEO周健認爲,傳統的軟件需要人去適應機器,Agent最核心的特點是它能對環境有感知,並且跟環境互動。以RPA爲例,作爲傳統的自動化工具,RPA能實現某些步驟的自動化作業,但這些能被自動化的步驟非常有限。只要該步驟的業務上下文和業務理解的規則上稍微復雜一點,RPA就很難完成。比如金融行業信貸審核流程可能涉及到上百個步驟,RPA能夠去自動化完成的只有幾個。

而大模型實際上提供了極其便利的語言理解能力及推理能力。因爲有了語言理解能力,其實人與機器的互動模式就變得更靈活,機器可以適應人。“能夠被自動化的業務步驟數量大大增加,能形成規模化的生產力。”周健說。

正如比爾蓋茨認爲,Agent未來會變成一個非常普遍的存在,改變人們使用電腦的方式,顛覆軟件行業,也有不少行業人士認爲,Agent正在引發人和機器互動的範式變遷。

一位大廠技術高管認爲,新範式變遷下,總會帶來平台級的機會和新的入口,這其實會給很多創業公司帶來新的機會。這也是從行業巨頭到創業者及投資市場普遍比較興奮的原因。

03

國內企業動作頻頻

範式變遷的潛在機遇也吸引了國內的一大批企業,大廠、AI公司和新興創業團隊都積極布局這一賽道。

根據數據前线不完全統計,目前不同角色進入市場的布局重點不一。

一類是平台模式。手持自研大模型的廠商如阿裏和百度都推出了智能體开發平台。阿裏達摩院的魔搭社區推出ModelScopeGPT,百度的靈境矩陣平台全新升級爲文心大模型智能體平台。對這兩家既有自研大模型,同時有雲計算業務的企業而言,培育和完善Agent的开發者生態符合其定位和需求。

也有一衆企業對標OpenAI的GPT Store,面向更廣泛人群,推出可快速生成Agent的智能體商店,比如昆侖萬維、釘釘、智譜AI、字節等。面向泛C端市場推出智能體商店,看中的自然是Agent的入口屬性和對應用生態的變革。釘釘總裁葉軍在釘釘7.5版本發布會上就斷言,AI Agent已經成爲當下最佳AI應用入口,釘釘的目標是成爲低門檻、高頻和开放的AI助理平台,他還表示,未來三年,要有1000萬個AI助理在釘釘上產生。

頭部雲廠商裏,手握自研大模型的企業還有華爲和騰訊,這兩家企業在Agent領域也有動作。它們的技術研究團隊分別都聯合大學發表了專門的論文,發布了各自的Agent框架。

去年12月,騰訊和德州大學達拉斯分校的研究團隊合作开發的名爲AppAgent的項目,進入公衆視野。該項目希望可以通過自主學習和模仿人類的點擊和滑動手勢,在手機上執行各種任務,有人稱它相當於手機上的智能“按鍵精靈”。而華爲方面,華爲諾亞方舟實驗室與倫敦大學學院(UCL)、牛津大學的團隊在去年12月底發表論文,提出了一種通用框架模型盤古Agent,用於將結構化推理整合到AI Agents中並進行學習。

除了智能體商店和Agent开發框架上的布局,還有大量企業從企業級Agent應用和平台層發力。比如瀾碼科技、實在智能等廠商都希望幫助企業構建企業內的一站式Agent設計、使用和管理平台,同時這些企業也在一些先行場景裏打造標杆Agent應用,形成示範效應。

“如果把大模型視作基礎設施,目前它已經在橫向整合,那么上面的PaaS層其實也會橫向整合,企業內會出現一個Agent中間件的機會。”瀾碼科技的CEO周健認爲。但由於行業仍然處於早期,這類平台當下的重點則在積極探索企業內應用場景,構建標杆應用,進而從應用層向中間件平台建設發力。

周健觀察到,目前企業內Agent應用最容易切入和落地的,是在財務這類數字化程度比較高、有相應的國家標准化規範的場景,因爲有比較明確的企業SOP流程規範或數據沉澱。目前瀾碼科技的企業級AI Agent和輕應用已經在一些企業先行落地應用。同時,瀾碼科技也在人事等不同場景尋找與Agent結合的方式。

也有一些企業和平台在成熟的業務板塊裏引進了基於大模型的Agent能力。比如網易數帆CodeWave就嘗試將低代碼平台和Agent的能力結合,來降低低代碼工程師操作平台的難度。

該平台產品技術負責人介紹,他們的應用場景是利用Agent來完成自然語言輸出邏輯的編寫。這是低代碼裏應用非常高頻,但是非常難操作的一個功能。一般簡單的業務邏輯,可能需要半個小時左右編寫,復雜點的需要耗時半天到一天。目前接入Agent的能力,能自動分析用戶的訴求,並拆解成可執行的任務,完成相關的邏輯編寫。用戶只需確認即可,幾分鐘就能完成此前半天到一天的工作。

無論是平台還是創業團隊,都已經开始啃起了Agent這塊蛋糕。新浪潮下,一位AI行業資深人士認爲,Agent能力的落地,尤其在應用層,大平台和創業團隊可能站在的是同一個起跑线,考驗不同企業對應用層能力的挖掘和場景及需求的洞察。

04

Agent落地缺什么?

“大模型能力還在快速發展,Agent目前是個在發展變化的概念,它的形態還在演進中。”一位ToB領域的資深人士告訴數智前线,整個賽道正處於早期。

有觀點稱,Agent本質是模型能力專家化,但當下它更像是AI的角色扮演,一個同質化基礎大模型,通過一些Prompt加人設,Agent的行動要滿足人設。Zilliz 合夥人兼產品總監郭人通此前在一個論壇上表示,後期Agent要成爲行業專家,才具備核心價值。

那么,Agent如何從高中生升級到大學生及行業專家?業界普遍關注到領域模型或“世界模型”的重要性。

周健告訴數智前线,當下基於大語言模型的能力,Agent有與人互動、驗證虛擬環境的可能性,但是Agent需要不同的領域模型或世界模型,才能完成對各類環境的建模和互動反饋。而這也是各類企業當下的的能力差異點,比如瀾碼科技就擅長業務流程的世界模型構建。

不管是專家知識還是領域模型建設,那些對企業內知識更爲重視,有更好沉澱的組織相對走在前面。近年來,許多企業重視用數據驅動決策,未來企業內建設的各類指標庫與Agent結合,有望提升Agent的智能程度。一些指標平台已經看到了空間,數智前线獲悉比如大數據分析和指標平台kyligence就計劃朝向Agent方向打造產品。

周健認爲,除了那些已有的體系化積累,基於經驗和小數據得來的知識,也是未來Agent落地必不可少的。例如如何評估財務的健康度,什么叫做應收账款比例過高,“高”在不同行業、不同企業定義和意義並不一樣。過去各類組織較少花精力去數字化這部分知識,未來需要補齊。

網易CodeWave低代碼平台技術負責人稱之爲AI友好。他舉例目前CodeWave智能开發平台之所以快速能接入Agent能力,在自然語言邏輯編寫效果不錯,也是因爲它們在代碼語言上做了一些准備和限定。

代碼生成技術此前遇到的很大問題在於,只能生成固定領域或者固定技術棧的代碼,但其實Web开發實踐中,前端後端技術棧非常多。

此前CodeWave智能开發平台構建了一種NASL語言,這種語言比較收斂,抹平了前後端的一些類型的差異,能夠真正實現全棧可視化編寫。去年大模型到來後,他們發現收斂的編程語言更利於AI的學習和訓練以及生成。“這是意外之喜。統一編程語言的設計,對AI是非常友好的”。

大模型能力本身也對Agent的能力和形態產生影響。智譜CEO張鵬此前受訪時就說,Agent的本源仍然是大模型的基礎能力,大腦的智力水平足夠高,才能談理解、推理、規劃和執行這些事。

一位Agent應用开發者告訴數智前线,一些基於GPT-4上能使用的能力,遷移到一些國內大模型上就不可用了,“這非常常見,其實也對Agent的實際落地造成了非常大的困擾。”這需要國內基礎大模型廠商的共同努力。

而除了Agent的各種能力本身,實在智能Agent智能體項目核心算法負責人認爲,安全機制的構建也必不可缺,“不僅需要官方定義的那幾個能力,還需要安全性和多Agent之間的協同,才能在B端更好落地。目前這也是我們花了很大精力做的工作。”

2024年被周健視作Agent的元年。他認爲,經過一年發展,大模型公司也在思考商業化問題,而大模型要落地,需要AI Agent公司來完成,因此,2024應用爲王,行業要用各種各樣的新應用,證明生產力確實是能夠被大模型封裝,走向智能。“某種程度上,整個行業需要一個爆款”。

       原文標題 : Agent狂飆300天



標題:Agent狂飆300天

地址:https://www.utechfun.com/post/334900.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡