注入AI的靈魂後,數字人將成爲所有人的“門戶”

2023-06-27 18:40:07    編輯: robot
導讀 PC時代,門戶是一個個網頁;移動互聯網時代,變成了一個個APP、公衆號、短視頻;在AI時代,則是經過大模型強化後的數字人。 自古以來,人類就有着對自我影像的追求和渴望。影像是人類的延伸、記憶,也是人...
PC時代,門戶是一個個網頁;移動互聯網時代,變成了一個個APP、公衆號、短視頻;在AI時代,則是經過大模型強化後的數字人。

自古以來,人類就有着對自我影像的追求和渴望。影像是人類的延伸、記憶,也是人類的表達。

過去的兩百多年裏,人類爲了留住自我的影像,創造了各種手段和工具。從最初的畫像,到後來的攝像機,再到今天的數字人,都是人類爲了留住畫像,解放人類的軀體,而進行一次次技術革新。

盡管數字人從誕生那天起,就一直在試圖模仿和復制真實的人類,但由於時代的局限,以往的數字人,離人們想象中那栩栩如生的形象,總是差了點氣候,

其在商業上的應用,也總是難免被人視作“雞肋”。

然而,AI時代的到來,似乎爲這一曾經“聊勝於無”的技術,注入了新的靈魂。憑借愈發逼真的形象,數字人开始在更多的場景、行業中進行賦能。

01 “前浪”艱難探索

很多人在談到數字人的過去時,往往都會陷入一個誤區,認爲最初的數字人僅僅是個被炒起來的概念,是個像VR那樣,看似潛力無限,實則可有可無的“雞肋”。

實際上,這樣的看法,忽略了一個重要的現實,那就是:

在數字人誕生的早期,不是人們沒有對數字人的需求,而是當時的技術、成本,根本滿足不了這樣的需求。

具體來說,早期的數字人,主要存在着成本高昂、技術標准不統一、形象難以與真人媲美等缺陷。

據國內領先的數字人企業風平智能介紹,在數字人處於2D卡通時代時,雖然也有部分企業,出於營銷時增加新奇感的需要,訂購了一些數字人,但其中99%的數字人,在訂購之後半年就再無人問津。

究其原因,是當時數字人的成本太高,而應用場景卻又太窄了。

試想一下,花費數十萬制作出來的卡通數字人,除了在部分需要增加“新奇感”的應用場景外,還能用在什么地方呢?

你不能指望人們在上課、开會或講座這些嚴肅的場景裏,看着一個卡通形象滔滔不絕吧?

後來,雖然隨着技術的進步,數字人的形象开始逐漸朝着寫實、3D的方向發展,可居高不下的成本,仍然讓許多企業望而卻步。

一般來說,數字人的制作主要包括了數據採集、處理和應用等方面,而根據數據處理的復雜度和效率,以及數據應用的規模和質量的不同,一個3D化的寫實數字人,成本可達到數十萬到百萬元不等。

這還是剔除了後期運營成本的情況下。

以抖音美妝達人“柳夜熙”爲例,其制作企業創壹科技CEO梁子康曾對媒體表示,“柳夜熙”僅制作投入就在百萬元級別,而第一條“柳夜熙”的短視頻成本約幾十萬元。超寫實虛擬人視頻每秒的成本都在萬元區間。

因爲想要讓數字人“動”起來,就需要讓AI驅動數字人的語音表達、 面部表情、動作生成等等,這都是巨大的投入。

而花費了如此巨大的數字人,最後還是只能局限在娛樂、直播、內容IP等領域;

這是因爲,當時的數字人,交互能力還不夠強大和智能,無法理解復雜語境、也無法處理多輪對話,導致用戶的溝通和服務效率很低。

即便有的數字人,可以通過真人的方式驅動,可這類數字人的交互能力,也要受限於真人操作者的水平和風格,這使其很難滿足不同用戶和場景的多元化需求。

因此,只有在娛樂、直播等更加看重“門面”和“顏值”的場景中,數字人才能佔據一席之地。

然而,所有這一切的限制,都隨着當今AI革命的到來,而被紛紛打破了。

02 成本暴降、井噴來臨

2020年,隨着元宇宙概念的火熱,市場對於提高數字人生產效率和提升商業化的訴求日益高漲。同時,5G、AI等新技術更新換代,也讓數字人得到了煥發新生的機會。

其中幾項關鍵的技術,讓數字人極大地提升了與真人的接近度。

例如,人像驅動引擎,可以通過4D掃描、智能綁定等AI技術,實現數字人的脣形驅動、肢體驅動、表情驅動、手勢感知等,同時減少動作捕捉、CG合成的制作流程,大幅降低了成本。

而智能對話引擎,通過自然語言處理技術,爲數字人快速定制對話能力、持續提升對話效果。

這些技術,讓數字人在表現力、智慧度、交互能力上都得到了大幅提升。

也就是在這一階段,包括百度、騰訊在內的國內各大企業,开始在數字人領域八仙過海,各顯神通。

例如,百度推出的曦靈數字人平台,通過自然語言處理、語音識別、計算機視覺等技術的提升,讓數字人在視覺表現力上有了顯著提升。

雖然形象仍然是3D人物,但從五官細節,神態動作等方面,都明顯在朝着更寫實的方向進行發展。

以前需要兩三個月時間做出來的3D數字人,現在可以壓縮到小時級。

同時,通過在线語音交互注意力模型,數字人也終於變得“音畫同步”了,逐字口型准確率達到了98.5%。

而得益於新一代數字更生動的表現力,曦靈平台推出的數字人,也從單一的娛樂領域,擴展到了更多元的行業。例如在2B端擔任數字理財專員、數字客服、虛擬培訓師等角色,或是新聞播報員等。

騰訊在數字人方面,也發布了智能小樣本數智人生產平台。

騰訊方面稱,該平台可實現“自助式”數智人生產制作,只需經過3分鐘真人口播視頻、100句語音素材的訓練,便可在輸入音頻、文本等多模態數據後,實時建模並生成高清人像,在24小時內制作出與真人近似的“數智人”,其使用成本也將被降至千元級別。

可以說是BAT三巨頭中,最早實現真人級數字人的企業。

小樣本“數智人”從直觀上感受是2D視頻,但背後其實是3D人像技術在支撐。通過3D人臉結構的先驗信息引入,使數智人口型、表情更到位,讓小樣本“數智人”形象實現“皺紋級”還原。

除了百度、騰訊這些大廠外,一些默默耕耘於數字人垂直賽道的企業,也憑借日益精湛的技術,打造出了更逼真和生動的數字人。

在數字人領域鑽研已久的風平智能,就是一個這樣的代表。

其獨特的XGen智造系統,和豐富、可定制的知識庫,在低成本高質量生產數字人的同時,還能使每一個數字人都擁有獨一無二的“智能大腦”。從而擴展了其多元化的場景應用能力。

同時,通過深度學習技術建模,風平智能的數字人還能支持129種語種,實現了跨國互動無障礙的交流。其制造的數字人,已應用在了新東方的課堂直播中。

在這一階段,數字人所呈現出的總體趨勢,是制作成本的大幅度下降,以及表現力的突飛猛進。

而這些技術進步,所帶來的直接的後果,就是數字人技術的不斷下沉和趨同。

03 當AI的靈魂注入數字人

從概念提出到場景落地,AIGC加持下的數字人,已經從原先幾十萬、上百萬的制作成本,數個月的制作周期,降低到了現在數千元,十幾個小時的制作門檻。

數字人的應用場景,早已從單一的B端逐漸向C端擴散。而這樣的擴散,必將會重塑人類信息的輸出端口。

縱觀數字時代的每一次變革,人類信息的輸出端口,一直在不停變化。

在傳統的PC時代,這樣的端口是屏幕上的一個個網頁;

到了移動互聯網時代,這樣的端口則變成了一個個APP;

自媒體興起後,這樣的端口又變成了一個個公衆號、短視頻;

而在AIGC時代,經過AI大模型強化後的數字人,則注定會擁有以往各類端口所不具備的知識量和交互能力。

到了那一天,也許人類真的會像比爾蓋茨所說的那樣:“再也不會去使用搜索引擎,不會去生產力網站,也不會再去使用亞馬遜。”

在蓋茨的設想中,這個“AI助理”將有能力理解人類的需求和習慣,同時會幫助人類“讀他們沒有時間讀的書。”

如此一來,AI加持下的數字人,就成爲了人類更終極、更先進的輸出端口。

此外,在每一具數字生成的皮囊下,人們仍能看到不一樣的靈魂。

這也是今天GPT-4等先進的大模型,與數字人進行結合的最大意義。

通過大模型豐富的知識,純熟的語義理解和交互能力,和相應行業、個人不同的需求,每一個數字人,都可以“因地制宜”、“因人制宜”地幻化出各種不同性格、思想和技能,進而真正做到了“千人千面”的效果。

由此可見,在必將到來的AGI時代,真正決定數字人高下的,就是其獨一無二的靈魂。

       原文標題 : 注入AI的靈魂後,數字人將成爲所有人的“門戶”



標題:注入AI的靈魂後,數字人將成爲所有人的“門戶”

地址:https://www.utechfun.com/post/230579.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡