撰文|吳坤諺
編輯|王潘
先有理論還是先有應用?
起碼在湧現能力上,是應用爲先。例如大語言模型(LLMs)的湧現能力(emergent ability),以GPT3爲代表的主流大語言模型在參數規模超過10^22級別後,效果突然大幅提升。
這讓大模型的研發在短短數月內進入了一場取決於數據獲取和算力調配的競賽,“技術上有深度但競爭呈紅海”。但就在業內相互比拼參數多少的時候,天貓精靈在嘗試用億級參數做AIGC。
4月,天貓精靈公开了首個接入千問大模型的智能硬件demo,近日又透出了一款研發中的AIGC新型硬件demo——智能隨身眼鏡。目前市場公版暫不清楚升級政策,但從工程體驗來看,具有隨身聊天+語音生成的功能。
據了解,該款智能隨身眼鏡的載體是天貓商城中在售的CZ0001,原先的設備已經搭載了骨傳導結構爲基礎的通話、音頻、防水等功能。在實機體驗中,demo通過原搭載在智能眼鏡中的收發聲單元與測評人流暢交互,形式上也並非一般大模型中展現的一問一答,而是更偏向於溝通的人性化交互。此外,該demo在接收人聲信號後的反應速度較快,在健康、辦公以及遊戲等多樣化的消費場景中都展現出了不錯的反應速度,並未出現卡殼的現象。
智能硬件和軟件一樣,存在與大模型相結合的無數可能,是大模型的又一個具備豐富的落地應用場景的方向。小度开始做手機,天貓精靈做眼鏡,背後是對智能終端發展不同的思路。天貓精靈demo的問世,也意味着大模型進入了軟件應用之外的場景,這無疑標志着AIGC硬件會逐漸走入更加個人化的、隨身的垂直使用場景中。
大模型不應厚B薄C
大模型領域,我們還在朝着OpenAI緊追慢趕,只是在商業化領域,國內玩家的步伐明顯更快。在今年4月到5月間的大模型井噴期,一衆入局者在公布了自家大模型的同時也給出了商業化落地的路徑。
就目前來看,國內大模型主流的商業化路徑有兩種:其一是以通用大模型爲底座,接入如今豐富的移動互聯網應用生態;其二是扎根某個垂類生態,以特定的具體場景中產出的高質量數據作爲大模型的“湧現”能力的養料。只是在目前已公开的多條路徑中,B端場景佔據多數。
這其實並不奇怪,面對湧現能力“大力出奇跡”的特點,大模型訓練往往耗資甚巨,落地的想象也浩如煙海。在重資產投入下,選擇在數據積累更厚、應用更成熟的垂直領域落地,可以快速進入自我造血的良性循環。而且,如果考慮成本回收以及變現問題,付費能力更強的B端自然是首選。
比較典型的是,僅4月期間,多家大模型宣布接入辦公場景,如協同辦公、辦公助手等。但阿裏的野心卻遠不止於此,電商起家的深刻烙印,讓阿裏在大模型的商業化落地中將C端放在了與B端相等的位置上,借助已有的語音交互基礎,早在通用大模型通義千問面世前便以天貓精靈語音助手爲載體,基於演員“鳥鳥”的類GPT應用。
相比於需要“調教”的通用大模型以及偏向B端應用的垂類大模型,接入大模型的天貓精靈demo可以應對更復雜的交互場景,支持基於人類反饋進行強化學習。當人類詢問一個問題(Query)時,天貓精靈demo會首先經過貓耳算法將其轉換爲文本,隨後通過大模型產生個性化的對話回復,最後再到個性化的語音合成給出回答。整個過程還有Multi-Turn對話系統來支持,確保低時延、支持多輪對話以及隨時打斷。
只是在接收並理解人聲信號的時候,天貓精靈demo還是出現了語義理解錯誤的問題。而且實際測試非常日常且生活化,對於復雜問題的處理可能還沒到位。
更值得一提的是,天貓精靈demo所展現出的智能交互水平並非基於參數量在十萬億以上的通義千問大模型,而是基於相對更小、在外界看來是作爲通用大模型“知識蒸餾”的中小模型。
資料顯示,天貓精靈接入的個性化大模型在參數規模上是億級到十億級,通過針對消費場景的不斷微調和強化學習,以低於行業標杆OpenAI研究的湧現參數標准做到了近似千億級大模型的生成水平,在計算資源消耗大幅降低的同時兼顧了清晰的商業模式。
這是國內大模型進一步有效控制大模型成本的“個性化”嘗試。雖然湧現能力原理的面紗還是未能揭开,但天貓精靈demo的出現顯然是大模型訓練路线中的一次有效探索。
至於商業化的落地,天貓精靈demo也是業內難得的面向消費場景的大模型應用。
無論是移動互聯網應用中催生的多元化平台生態,還是區塊鏈應用催生的NFT、數字藏品,面對新生事物,C端用戶往往付費意愿更強。造成這一現象的根本原因在於決策人,B端的決策人往往是企業領導、採購部門,他們並非產品的直接使用者,而且需要考慮成本、預算、適用性等多個維度,而C端的決策者是自己,不僅更容易在大模型的認知焦慮下驅使付費,決策相對非理性,而且成交周期短,更容易進入自我造血的循環。
只是在類GPT應用中,C端用戶由於GPT鎖區而苦於沒有落地產品可以使用和體驗,如今面世的大模型又將商業化重心落腳於B端。至少目前,阿裏的天貓精靈AIGCdemo選擇了人數相對少的路徑,而且落地的想象也足夠豐富。
生活化的“無感”
既然個性化大模型和智能終端的結合是一個豐富、有落地應用場景的方向,爲何卻鮮少有人嘗試?這一問題的答案或許能自元宇宙的前車之鑑中探求。
和元宇宙風口相似,大模型的應用同樣存在不同企業的認知基礎上分化出的不同方向。只是曾經的元宇宙卻無法爲消費者帶來足夠沉浸的體驗,而大模型卻具備這樣的潛力。
以如今大模型基本的NPL文本生成爲例,我們僅需要登錄大模型的入口,輸入問題指令即可快速獲得回答,而元宇宙所追求的沉浸式賽博空間,於消費者而言不僅缺乏硬件設備支持,同時以目前公用網絡帶寬連雲遊戲都難以cover的情況,大量消費者共處在某一個賽博空間中娛樂、生活的愿景只能停留在春秋筆法中,難以落地。
只是目前多數大模型也只是達到了消費場景的初步需求。
在消費場景中,用戶需要和追求的是“無感”的使用體驗,即要求更多具有沉浸感的交互能夠在無意識的情況下自然下發生。通常,“沉浸感”的說法常常出現在遊戲、XR等偏重虛擬現實體驗的領域,而在在大模型需求的多模態交互語境下,沉浸感自然可以進一步解釋爲"無感"的交互方式。”
簡單來說,即使做不到像3A大作一樣呈現光怪陸離的世界以供體驗,也需要像我們日常出行中會無意識地打开天氣APP看看天氣,打开打車軟件叫個車。僅需簡單對比使用體驗便不難看出,目前對C端用戶的“無感”體驗上,大模型玩家們的功力還遠遠不夠。
即使是被業內奉爲標杆的ChatGPT,用戶在付費使用時也需要經歷解鎖設備、打开網頁、輸入對應問題三個環節,期間還需要不斷通過prompt來獲取想要的內容。至於當下越來越多的、搭載在某個應用生態的大模型,則與曾經的元宇宙應用相似。由於不能搶了平台原生應用的“風頭”,往往需要用戶在平台生態中找到入口,相對網頁載體更加麻煩。
換句話說,假設將大模型進入我們日常生活的狀態稱爲 AI 2.0 ,如今的應用體驗充其量是 AI 1.5 。
這樣的儀式化過程就像早期的互聯網,個人計算機只能通過電話线和網絡交換器核心進行連接,並使用modem將電話线傳輸的300HZ到3400HZ的模擬信號波形轉換爲計算機可以處理的信號,因此彼時也將上網戲稱爲“衝浪”。這樣的復雜流程天然與消費場景相悖,即使大模型能憑借優異的工具特性牢牢抓住老板和打工人們,也難以融入我們的日常生活之中。
與之相比,以智能硬件爲入口反而是大模型接入日常消費場景的一記“妙手”。
生活化才是未來
如果將時間回撥至兩年前,那時無論是智能穿戴設備還是大模型,都不會想到今天兩者的結合。
彼時大模型只是在NPL(自然語言處理)、CV(計算機視覺)兩條AI賽道爆發後的科研嘗試,以阿裏爲代表的頭部大廠將參數量卷到10萬億級別時,缺乏明確的商業路徑和巨大的算力投入讓大模型止步於研究階段。而智能穿戴設備同樣也走進平台期,相對普通用戶而言稍顯雞肋的豐富功能與品牌溢價讓增長愈發乏力,入局者不得不將目光放向對健康功能更爲重視的中老年市場。
此外,兩者更大的相同點在於技術存在實際冗余。
由OpenAI測算出的大模型湧現規模是百億級,可2021年,國內的大模型的參數已經卷上10萬億。以天貓精靈demo爲代表的智能眼鏡所需的骨傳導、算法、發聲單元或是其他智能穿戴設備的技術功能也日趨成熟。而更能體現技術冗余的,則是兩者在應用形式上遲遲難以發生變化。
隨着時間的催化,技術上冗余會不斷匯聚,由此也有可能迸發出新的應用形式。
只是業務方向的嘗試多種多樣,當局者迷才是一衆先行者的衆生相。例如令曾在3G時代大力發展視頻通話業務的運營商始料不及的是,該業務會在4G時代進入尋常百姓家。
回到天貓精靈一系列大模型測試之上,我們緣何判斷這將是一條可行路徑?
因爲就目前而言,demo作爲新型應用形式已經達成了使用體驗的躍進。其一是智能穿戴設備所預設的實現用戶信息交互、人體健康監測、健康放松及生活娛樂等功能都可以在語音這一模態的輸出下得以觸達,其二是大模型也能借由消費品載體進入我們的生活。
這條路徑的終點,是人人都能擁有鋼鐵俠的賈維斯(漫威漫畫中的強人工智能)。
阿裏巴巴集團首席執行官張勇在4月的阿裏雲峰會上說的“所有產品都將接入AI大模型”所言非虛。只是根據實測結果,天貓精靈demo距離落地還有一段不小的距離。
在個性化大模型的訓練中採用億級參數,也可能商業化成本管控之下的結果,但這並不妨礙demo作爲行業的一次有效創新。大模型的落地路徑無數,如果大模型確是一次堪比第二次工業革命的浪潮,那么率先亮出“燈泡”以“先聲奪人”,不知這是否是一件好事。
原文標題 : 個性化大模型,將大开眼界
標題:個性化大模型,將大开眼界
地址:https://www.utechfun.com/post/215169.html