【年度專題】2023“含AI量”大幅提升,數字人能否再獲新生

2024-02-19 18:40:19    編輯: robot
導讀 文/VR陀螺 豌豆 2023年畫上句點,回顧這一年,AIGC工具繼續保持爆發式增長的態勢,數字人依舊堅守在各自的崗位,而點燃AI熱度的OpenAI將曾經大衆認爲“只可遠觀不可褻玩”的AI一步帶到普通...

文/VR陀螺 豌豆

2023年畫上句點,回顧這一年,AIGC工具繼續保持爆發式增長的態勢,數字人依舊堅守在各自的崗位,而點燃AI熱度的OpenAI將曾經大衆認爲“只可遠觀不可褻玩”的AI一步帶到普通用戶面前。

2023年底,AI企業更是掏出了年度“殺手鐗”,11月舉辦的OpenAI首屆开發者大會官宣多模態技術能力大幅提升,不僅是GPT-4V,短時間內其他多模態AI大模型陸續取得新的突破:Pika Labs的AI視頻生成工具Pika 1.0,以及谷歌Gemini都向人們展示了多模態大模型的想象力和潛力,似乎能進一步升級數字人的“大腦”功能……

潮起潮落,借着AI的東風如今數字人賽道又小火了一把,更多數字人以新面貌出現,逐步向智能化邁進。在AI的賦能下,數字人甚至可以演戲、進行實時互動直播、吟詩作對、寫詞作曲,例如異人之下數字人演員釐裏、少年李白數字人、AI創作型歌手Anna Indiana、AI VTuber(Neuro-sama)、AI孫燕姿等等。

圖源:網絡

有了AI支持的數字人已成功造勢,但行業生態算不上健康,玩着流量遊戲、把握信息差密碼在風口上割韭菜的大有人在,假設讓數字人獲得高階AI能力,能否就此獲得全方位升級,從根本上改善數字人場景應用難扎根的問題?AI已經是大趨勢,數字人的未來如何落到實處? 

2023年數字人:流量難賺,步伐減慢 

通過塑造IP打造品牌影響力是數字人佔領市場高地的主要战略。

2023年12月,國內數字人IP庫“元力趨勢網”上线,據悉該平台目前已有超過300個數字IP入駐,包括頭部IP星瞳、洛天依、蘇小妹、釐裏、柳夜熙、夏語冰、央視網小C等。

圖源:元力趨勢網

國內數字人的數量和外形質量都有了大幅度提升,也吸引不少傳統企業嘗試在該領域實現數字化升級。數字人的可就業場景豐富,無論是在電商直播間勤懇的打工數字人,還是文旅娛樂的數字代言人,又或是企業宣傳對外的嶄新形象,數字人似乎在To B領域更加喫香。

在金融領域,中國銀行業協會在第七屆中國數字銀行論壇發布《遠程銀行虛擬數字人應用報告》,報告指出,2023年已有11家客服中心與遠程銀行實現了虛擬數字人應用落地,5家銀行正在籌建中。銀行虛擬數字人已廣泛應用於對客服務、風險控制、新媒體運營、內部賦能等領域。

圖源:央視網

在文旅文博方面,有《關於推進實施國家文化數字化战略的意見》的政策性支持,在發展數字化文化消費的大方向下,中國國家博物館的“艾雯雯”、中國文物交流中心的“文夭夭”、數字敦煌文化大使“伽瑤”和少年李白數字人等。數字人正以一種新的面貌向人們講解歷史、演繹經典。

緊盯流量的背後是焦慮情緒的體現,而互聯網流量經濟進入存量時代,平台競爭加劇,紅利增長受限,以資金換流量的營銷方式難度加大。2023年對數字人行業來說,是充滿挑战的一年。

就連當年的現象級數字人柳夜熙,也似乎從美妝博主轉型走上了內容路线,熒幕前的柳夜熙淡化其美妝屬性,通過拍攝短劇強化自身IP。除了柳夜熙以外,早一批喫到紅利的數字人們仍在繼續營業,例如AYAYI、星瞳、希加加等。圖新鮮的熱度一旦過去,這些數字人後續的流量起伏變得更加不穩定。

以直播爲例,曾經一度火爆的電商直播數字人,如今熱度也有所下降,目前仍有品牌方繼續採用智能主播/AI主播來爲直播間撐場。陀螺君注意到,某寶上更多的智能主播已經在向高仿真的外形靠近。

圖源:淘寶直播間

比起之前幾乎一邊倒的3D卡通數字人,現在電商直播間更多的是近似真人的數字人主播,一進直播間若不是注意到右側標記爲“虛擬主播”等字樣,下意識會以爲是真人主播,但她們依然無法完成更高難度的互動:這些數字人主播由AI生成,有更自然的語調但口型不能實時同步,肢體動作不多,大多數情況下是主播單方面解說產品,互動較少,整體流量不高。

直播是數字人應用最廣的舞台之一,而不同直播平台對數字人主播也有不同的態度,大部分電商平台持歡迎態度,支持商家採用可24小時直播的數字人將“人貨場”重新鏈接。另外知識分享類視頻中使用數字人的情況也逐漸變多。

在短視頻平台則有所限制,例如抖音此前發布的《抖音關於人工智能生成內容的平台規範暨行業倡議》指出,數字人直播時必須由真人驅動進行實時互動,不允許完全由AI驅動進行互動。AI數字人主播在抖音的活躍度有所下降。

數字人營銷同樣看重結果、數據和流量。但支撐數字人“內外兼修”的成本頗高,建模、AI、動捕、渲染等,樣樣都是“支出大頭”。隨着前期制作、後期運營成本增加等因素影響,不少企業會選擇低成本的“通用型”數字人方案。最終到用戶面前,在不同平台看到的是大同小異的量產型數字人,操着一口難以親近的“機械音”,用戶自然不买账。

2023年VTuber的直播收入榜單(圖源:Playboard)

另外,海外的數字人直播同樣值得關注,其集中在VTuber這一領域,且主要依賴真人(中之人)驅動。綜合來看VTuber播放數、粉絲數和營收情況,企業勢事務所幾乎由hololive和彩虹社(包括日語系和英語系VTuber)各分天下,除了直播還能通過聯名代言、發布專輯、參加商演、舉辦活動等方式獲得收入。據主播動態數據網站Streams Charts的文章顯示,VTuber是直播行業中增長最快的群體之一:

“2022年期間,所有相關平台的VTuber直播觀看時長達到9.79億小時。2023年,直播觀看人數大幅增長,總觀看時長超過11億小時,較去年增長14.2%。盡管2023年活躍的直播頻道比上一年減少了9% ,但VTuber越來越受歡迎。相比實力強大的企業勢VTuber,個人勢VTuber通常不是最受歡迎的,但在所有VTuber直播頻道中有73.9%是獨立運營的。”

2023年VTuber分布統計(圖源:Streams Charts)

如今數字人產業進入專注於技術沉澱的發展階段。和2022年相比,疫情帶來的影響逐漸淡去,人們的工作生活、娛樂活動重回线下,相應的對部分线上娛樂活動需求下降,以數字人爲主導的虛擬演出等會受到一定影響,盡管IP的影響力不會因此減少,但考慮到運維成本,不少企業的數字人To C業務範圍會有所調整,減緩在該領域的布局進程。相關閱讀:《【年度專題】一年增長近20萬家相關企業,數字人從量變到“應”變》 3D建模、動捕……數字人底層技術快速發展 

全球虛擬數字人產業圖譜 2024版(圖源:陀螺研究院)

數字人正因爲被賦予了人形的數字軀體,人們才對他們有了更多在身份、情感、倫理,甚至是數字生命問題的探討,盡管其存在本身並不屬於現實世界,但所需要的底層技術又與現實世界緊密相連。

數字人並不是我們認知中的“紙片人”,通俗來講,數字人是會動的(包括面部表情變化、軀體運動等),就算是2D形象的數字人也可通過Live2D技術爲其注入生命力。細節見真章,3D建模、動捕等技術的快速發展令數字人的高保真程度更上一層樓。

(一)外在形象更生動逼真

在數字人的“創建”這一環,要塑造具象而立體的人物形象,大多數要經過建模這一步驟,掃描建模、照片建模、編輯、渲染等多道生成工序而成。

火山語音數字員工小燦(圖源:火山語音)

前文提到的Live2D被認爲是介於2D與3D之間的技術,也使用了大量的3D渲染算法,這項技術已頗爲成熟,在插畫、動漫、遊戲、VTuber虛擬主播等領域均有廣泛應用。Live2D Cubism Editor升級後的5.0版本添加了AI輔助功能,可實現半自動生成面部動作,還支持根據音頻實時生成同步的口形動作,讓2D形象的數字人得到了活力。

圖源:Live2D

3D數字人在外形上的打磨更需費時費力。一是可使用傳統軟件手動建模,利用Maya、C4D、Blender等,但對專業知識和經驗有着非常高的要求。二是可通過非接觸式掃描設備進行掃描並創建貼近真人形象的3D模型。

圖源:《Metahuman》

三是可利用相機陣列進行掃描建模,例如優鏈時代的雲陣相機方案,通過架設近百台相機,對場地中間的人進行全方位拍攝,最終合成3D人體模型。四是可利用市面上已有的數字人編輯器平台完成創作,例如來畫科技、相芯科技等企業的數字人生成平台,在給定的基礎3D模型上調整,目前大多數數字人生成平台都有接入AI功能。

圖源:陀螺研究院

多數情況下,靜態的攝影測量方法在人臉建模方面的處理不夠細致,看上去人臉像是平面一般,且五官細節不夠突出,拍照時的光线等因素都會影響建模質量,相比之下,具備高視覺保真的多維動態光場重建技術有望成爲未來趨勢。

多維動態光場建模技術優勢是可以忽略材質,直接掃描三維世界的光线,在重建人物模型時,還可以一次獲得人物的動態數據,以及不同視角下呈現不同光影效果的高質量3D人物模型,但因多維動態光場建模技術成本較高、難以運輸、組裝難度高且尚未出現商業化的通用解決方案等原因,尚未在國內得到普及。從技術發展路徑上看會是未來的重點發展方向。相關閱讀:《陀螺研究院發布<2023全球虛擬數字人產業圖譜>》

(二)動作捕捉更自然流暢

要讓數字人動起來,一是通過真人動作捕捉將運動數據傳輸到數字人身上,主要應用於對實時互動有要求的影視、遊戲、直播領域。二是通過算法驅動,事先採集真人運動、語音等數據,基於深度學習技術訓練人物模型,形成一套新的驅動模型與驅動方式。

兩者最大的差別是,前者交互自然,對真人(中之人)的身體素質有一定要求,而後者不需要真人持續在线,但交互略顯僵硬需要在訓練過程中反復調整。

圖源:《Rec Room》

早期由於技術的限制,爲了遵循虛擬形象設計在VR中的可行性,多數VR社交遊戲的虛擬形象無法得到全身追蹤支持,而目前已有包括《Rec Room》《VRChat》在內的VR遊戲,從官方層面爲玩家提供個性化展示的機會,《Horizon Worlds》也已宣布支持虛擬化身腿部顯示。相關閱讀:《讓虛擬化身的“肢體語言”更真實?全身動捕的IK優化是關鍵》

目前動捕技術已足夠成熟,然而不同的場景對動捕的精度要求不一,專業的動捕演員需要身着特定的動捕服,在特定的場地裏完成動作捕捉。

圖源:Quitasueño Studio

使用專業設備的成本非常高,據悉市面上的一些專業動捕品牌例如OptiTrack、Vicon和Xsens等解決方案大多在幾千美元到幾萬美元不等。一套專業的動捕方案包含設備本身(傳感器、服裝、基站、電腦等),以及定制的軟件,再加上維護成本,對普通人來說難以承受。國內也有不少可提供專業動捕解決方案的企業,例如諾亦騰、度量科技、聚力維度、青瞳視覺等。

一些面向消費端的便攜式動捕方案(圖源:VR陀螺整理)

高性價比的便攜式動捕方案越來越多,slimeVR、Tundra Tracker、AprilTag、Amethyst、HaritoraX、Rebocap等等,爲想在《VRChat》體驗全身動捕的玩家以及有直播動捕需求的用戶提供便利,無論預算限制、動捕效果需求如何,用戶都能選到適合自己的產品。

其中VIVE自定位追蹤器和索尼的mocopi均在2024年面向國內發售,VR陀螺也曾評測過mocopi的產品。相關閱讀:《評測丨一鍵成爲虛擬偶像?索尼mocopi會是新的動捕黑科技嗎?》

陀螺君還注意到,從玩家社區的开源動捕方案到HTC、索尼這些大廠提供的動捕方案,最後的落腳點都會集中在《VRChat》這一遊戲場景上。SteamDB的數據顯示《VRChat》的日活玩家(24小時高峰)大概有2.5萬人,而MMO STARS預估《VRChat》的總玩家數量可能有820萬人左右。

隨着玩家的虛擬角色的可動性和靈活性上升,《VRChat》還與不少企業和團隊展开合作推出了各種活動,包括,虛擬展會、虛擬服裝、虛擬演出、品牌方的官方虛擬商店等等,由HIKKY舉辦的“Virtual Market 2023”夏季展會,總參觀人數超過120萬人次。《VRChat》的背後,或許還有更多數字人與虛擬空間、虛擬資產相關的商業潛力有待發掘。 AI數字人:投石問路,走向多模態 

如今AI的能力越發強大,提供“一站式”功能,包攬數字人的創建到驅動,甚至是內容生成板塊。但在這個領域,其實也能看到不少有趣的應用場景。相關閱讀:《AIGC重塑數字人:落地、變革、永生》

AI創作型歌手Anna Indiana於2023年底出現,最早發布的視頻中,其生成的歌詞講述Anna坐在咖啡館裏,想到小鎮上充滿了破碎的夢想和絕望的尖叫,表示想拆掉這座小鎮。歌詞傳達了她對小鎮的失望和痛苦。不料歌沒有引起網友的共鳴,而是飽受批評。而她展示的內容包括Key、節奏、和弦、旋律、歌詞,以及形象和歌聲全由AI生成,依舊令人感到新奇。

另外,Twitch和YouTube平台相加擁有近70萬粉絲的AI VTuber“Neuro-sama”展示了她的快速反應和學習能力和超強的模仿能力。

“Neuro-sama”關於電車難題的回答(圖源:b站@單推的DD烤肉)

Wiki頁面介紹道:Neuro-sama由程序員暨人工智能开發人員Jack Vedal(在直播間會以烏龜的形象出現)創造,他通過結合AI玩遊戲和計算機生成的虛擬人物之間的交互來構建AI Vtuber。Neuro-sama能夠即時與觀衆交流,該系統使用一個大語言模型(LLM),其對話內容由AI生成。

Neuro-sama能夠模仿人類的語調和對話內容,盡管還存在不少缺陷,Neuro-sama也會作出負面回答,但开發者將其區分爲另一個“evil”人格,合理化了AI的負面應答。但若是作爲聊天助手,她一改常見的冷靜理性的AI語調,證明了一個經過多次調試,親切“擬人”的AI也能夠給人們帶來切實情感共鳴。

生成式AI的流行已經帶火了AI數字人,其以迅雷不及掩耳之勢,襲卷業務助手、直播帶貨、教育培訓、虛擬陪伴等各個領域。另外也能滿足商業用途,通過AI一鍵生成內容,實現企業業務上的降本增效。相關閱讀:《30天攬金5千萬,AI數字人能否成爲普通人的「財富密碼」?》

此前小紅書博主“johnhuu 教英語”發布的一條視頻引起海內外的社交媒體紛紛刷屏轉發。視頻中將泰勒·斯威夫特、特朗普、艾瑪·沃特森和“憨豆先生”的演員羅溫·艾金森的原聲視頻通過AI技術翻譯內容並轉化成與本人聲音相似的普通話,並同步修改口型生成新的視頻。

AI大模型在各行各業得以應用,如今更是將战場延伸到了教育領域中的口語學習板塊。這些AI數字人形象各異,全天候在线,打开聊天窗口就能开始交流。基於對話式AI和LLM大語言模型的能力再結合語音識別和生動的虛擬圖像不僅能提供口語表達反饋,糾正語法錯誤,不同類型的AI數字人還能在不同領域帶來有趣的討論。

圖源:VR陀螺

AI數字人視頻生成工具將生活記錄、課堂記錄、演講片段等視頻轉化成各種語言的版本,實現無語言障礙的流暢觀看,已經能夠滿足人們在日常生活中的使用。相關閱讀:《以假亂真?AI數字人+外語學習功能讓用戶“相見恨晚”》

大語言模型是AI的一塊重要拼圖,AI生文之後,這條賽道又迅速邁向新的一站:AI文生圖、AI文生視頻等等……目前這些AI應用的場景難以大範圍落地,難點在於AI對算力的高要求、多技術整合,以及對訓練數據的把控,但核心還是會回到成本問題,現階段AI數字人仍集中在某個單一垂直領域的應用,若能進一步優化成本,相信未來通過與數字人對話交流,由AI賦能它們生成文字、圖片、視頻也不無可能,交互能力將得到重塑。 結語 

2024年,數字人相關行業是否能再見曙光?

麥肯錫表示,像OpenAI的ChatGPT這樣的深度學習算法在經過企業數據的進一步訓練後,每年可在63個業務用例中創造相當於2.6萬億至4.4萬億美元的價值。AI技術的快速迭代意味着市場競爭之激烈,似乎催促着各行各業的數字人盡快靠上AI。

將不可見的AI與可見的數字人相結合,有望逐步打通產業鏈的“任督二脈”,但其應用最終都會回歸數字人與人類的交流,也離不开最底層的技術支撐,AI令單一的數字人有了“千人千面”的特性,形象、交互能力、行爲動作都在向人類靠近。

圖源:英偉達

英偉達率先發力,於CES 2024上正式推出NVIDIA ACE(Avatar Cloud Engine)微服務技術,可讓遊戲、工具和中間件开發者將先進的生成式AI模型,加入到遊戲和應用的虛擬數字人物裏。據悉,現已开始採用ACE的开發商有Convai,Charisma.AI,Inworld,米哈遊,網易遊戲,掌趣科技,騰訊遊戲,育碧和UneeQ。相關閱讀:《英特爾、迪士尼都關注的Inworld AI,正爲虛擬NPC帶來生命力》

當下數字經濟高速發展,AI技術進一步助推企業數字化轉型,而擁有AIGC能力的數字人正朝着多模態的方向前進,其強大的學習能力、連接龐大的知識庫以及高效的信息提煉能力,將改變人機交互模式。數字人相關技術穩步發展,待成本問題以及應用落地問題得到解決,AI數字人將迎來爆發期。而在爆發前夜,企業唯有把握先機,方能佔據優勢。

       原文標題 : 【年度專題】2023“含AI量”大幅提升,數字人能否再獲新生



標題:【年度專題】2023“含AI量”大幅提升,數字人能否再獲新生

地址:https://www.utechfun.com/post/333970.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡