悄然崛起的視頻AI,標志着AI競爭進入了下一階段。
在當下的AI賽道上,AI聊天、繪畫一類的應用,早已枝繁葉茂。
然而,在此類同質化應用扎堆的情況下,一類頗有技術難度,也較少被人提及的方向,正在悄然崛起。
這就是最能調動人感官的視頻AI領域。
根據twitter上的作者Will 郎瀚威統計的圖表,今年8—9月,各大文生圖類AI網站的訪問量均开始呈現下降趨勢。
然而,就在這種情況下,國外知名視頻AI網站HeyGen的訪問量上升了92%,流量躍居各大獨立AI網站之首。
那么,爲何此前一直默默無聞的視頻AI,最近突然異軍突起,蓋過了風頭正盛的文生圖類AI應用?
而在GPT-4V發布,多模態技術不斷取得突破的情況下,這一微妙的變化,又預示着什么?
01 多模態的前奏
從AI發展的大格局上來說,HeyGen的這波流量上升,或許只是多模態高歌猛進背景下的一個插曲。
從谷歌宣布Gemini具有多模態功能的消息,到OpenAI發布GPT-4V,各個AI巨頭,似乎都將下一階段競爭的焦點放在了多模態上。
那爲何多模態成了巨頭眼中關鍵的“突破點”?
原因或許就在於,其具有打破“專業壁壘”的意義。
在多模態尚未取得突破之前,不同模態、領域之間,存在着巨大的鴻溝。
寫文案,做編輯的人,即使再妙筆生花,如果缺乏相應的美術知識,以及各種專業的提示詞,也難以用AI畫出出色的作品。
而一個畫師如果沒有受過專業的寫作訓練,缺乏謀篇布局的思路,也難以憑借AI寫出上乘的文章。
類似的“壁壘”,在視頻剪輯方面,也同樣存在着。
根據知乎上一位視頻剪輯方面的從業者介紹,一個完整的視頻剪輯流程,包括了調色、整理素材、配字幕等一系列工作,要想熟練地進行剪輯,必須掌握PR、Edius、剪映等多種剪輯軟件,同時還需熟悉各種轉場、調色、粒子特效等插件的使用。
如果想讓視頻呈現更豐富的效果,還要掌握b-roll轉場、字幕遮罩、坡度變速等復雜的操作。
此外,素材的搜集和整理,也是剪輯工作中的一大“苦活”,倘若題材較爲冷門,素材就會很不好找。有時盡管遇到了好的素材,也可能由於版權問題難以使用。
正是由於上述原因,視頻剪輯,注定不是一個簡單的、易於掌握的技能。
以國內知名網站B站爲例,據一位B站上百萬粉絲的UP主團隊透露,爲了保證視頻更新的效率、質量,這些账號往往會配備數名較爲熟練的剪輯人員,輪番進行剪輯。
那么,倘若有一種智能化的AI剪輯應用,能根據創作者想表達的思路,自動、高效地完成整個視頻的制作,視頻制作領域,又會發生怎樣的顛覆呢?
實際上,這樣的技術早已出現。
下面這兩張圖片,分別來自兩段不同的視頻片段。
你能分辨出哪個是真人,哪個是AI生成的嗎?
答案是:這兩個視頻都是100%由AI生成的人像視頻。
而它們均出自此前提到的HeyGen之手。
在HeyGen上,用戶只需要用上傳一段2分鐘的小視頻,就能達到和真人一樣的效果,即使是像手勢、面容和口型這種“細微肢體語言”也能調整。
而這類效果的實現,正是當下多模態技術發力的开端。
02 視頻AI之力
上面所有這些視頻都出自HeyGen的Joshua Avatar 2.0,一款AI人像視頻的工具,主打的就是一個超逼真。
而實現這樣真實的視頻效果,步驟也非常簡單,只需完成選形象—寫文本—輸出三個步驟即可。
如果要論HeyGen與其他同類視頻AI應用最大的區別,就是它可以利用現有數據來創造全新和從未有過的內容。
以往的類似應用,例如D-ID,雖然也能讓用戶從照片或者AI形象中生成視頻,但是這樣的技術,更多是基於復制或處理已有的內容的AI技術。
這些技術雖然也可以制作視頻,但是需要用戶提供自己的照片或錄音,或者從D-ID提供的一些固定的AI形象中選擇。這樣就需要用戶花費更多的時間和精力來准備和上傳素材,也限制了用戶的選擇和定制空間。
而相較之下,HeyGen的技術則可以讓用戶從文本中直接生成視頻,並使用多種不同的AI形象和聲音。
目前,HeyGen提供超過100+數字人素材和模板,廣告、電商、新聞等一應俱全,也可以自己編輯PPT生成。
同時,HeyGen還支持300+不同音色和40+語言,以及視頻翻譯功能。用戶可以一鍵將視頻無縫地翻譯成其他語言,這對於跨國和多語言的溝通非常有用。
通過這種定制化的、排列組合的方式,HeyGen可以快速、精簡地制作出各種適用於多種場景的視頻。
而這樣的高自由度,也讓HeyGen使許多不精通視頻剪輯的人,打破了以往“技能邊界”,可以恣意地用視頻表達自己的想法。
除了HeyGen之外,在視頻AI領域,許多正在蓄勢待發的類似應用,也已經在悄然崛起。
例如能直接將腳本轉化成視頻的Pictory.AI就是其中之一。
Pictory 允許用戶僅通過幾次點擊,就能將腳本轉化爲配有逼真的AI語音、匹配的素材和音樂的專業質量視頻。
具體來說,在制作視頻時,用戶可以從Pictory 提供的多種模板中選擇一種,來設置視頻的樣式。
之後,Pictory 會根據用戶輸入的文本和選擇的模板和比例,自動地生成一個故事板。故事板是一個由多個場景組成的視頻序列,每個場景包含了文字、圖片、AI語音和一段音樂。
最後,用戶可以在故事板上預覽視頻的效果,並進行一些編輯和調整。
如此一來,團隊不需要昂貴的攝影師、剪輯師,也能制作出專業的、高質量的視頻。
同樣地,用3D CGI角色替換真人演員的Wonder Studio,也是旨在提高視頻制作效率的AI應用之一。
Wonder Studio 是一個基於網頁的視頻平台,它可以讓用戶輕松地將任意的計算機生成的角色(CGI character)添加到任何場景中,使用AI技術來實現無縫的融合。
用戶只需要拍攝自己想要的場景,並上傳到網站上,Wonder Studio 的AI引擎就會自動分析場景中的演員的表演,包括他們的動作和面部表情,並將這些信息轉換成運動數據,然後用這些數據來驅動用戶選擇的CGI角色。
這樣,用戶就可以完美地用3D CGI角色替換真人演員,無需使用復雜的3D軟件或者昂貴的制作設備,例如動作捕捉服。
03 趨勢及國內現狀
從以上視頻AI的技術特點中,我們至少可以總結出目前視頻AI技術的兩大趨勢:
1、制作流程極大簡化
利用生成式AI技術,人們能夠以自動化、智能化的方式,將文本、圖像、音頻、視頻等多模態數據重新組合,來創造全新和從未有過的內容,在降低成本的同時,也打破了各個模態(或專業)之間的“技術壁壘”。
而這一壁壘的打破,正是生成式AI走向通用化、普及化的關鍵。
2、內容的多樣性和定制性
利用多模態AI的技術,人們能夠處理和關聯多種信息模態,從而在內容創作過程中,更好地表達自己的個性和風格,並適應不同的場合和目的。
這是以往受限於已有素材的單一模態技術難以實現的。
在上述兩大趨勢中,目前國內的視頻AI應用,只勉強做到了“簡化”這一步。
雖然國內目前也有一些與HeyGen類似的AI視頻應用,例如騰訊智影、一幀秒創、萬彩微影等。這些應用也利用了AI技術來簡化視頻創作過程,並提供了文本配音、文章轉視頻、數字人播報等功能。
然而,在具體的生成效果方面,國內應用的視頻清晰度、素材豐富度,以及定制化功能方面,仍與HeyGen等應用有着較大差距。
騰訊智影的數字人視頻,可選素材比較有限
從總體上來說,這類應用仍舊只能在平台提供的素材庫內,選擇有限的元素進行創作,並且在某些類別(如數字人視頻)上,國產應用生成的視頻,也未達到HeyGen視頻那樣流暢、逼真的標准。
如果說,在本輪AI革命中,國內視頻AI技術僅僅止步於“降本”這一環節,從長遠來看,是遠遠不足以徵服智能化時代的觀衆的。
從當下觀衆的態度來看,AI制作的視頻仍處於一種“不受待見”的狀態,很多觀衆仍然覺得,在視頻中使用AI技術,是一種偷懶、不負責,且廉價的制作方式。
究其原因,是因爲當下國內的部分AI技術,仍未突破一種感官上的閾值,仍然讓人明顯覺察到“這不是人做的”。
於是就給人造成了一種“沒有感情”、“粗制濫造”的印象。
更有甚者,甚至將那些使用了AI技術的視頻,打上了“營銷號”的標籤。
面對這樣的環境,任何珍惜自己羽毛的視頻創作者,都不敢輕易使用AI技術了,因爲生怕被人當成“營銷號”,扣上“粗制濫造”的帽子。
生成式AI的進步,確實極大簡化了視頻制作的流程,但在已經到來的智能時代,觀衆們已經不想再看到那些批量的、流水线式的“低劣”視頻了。
而要想摘掉這樣的“低劣”標籤,真正地讓作品具有感情和靈魂,除了一個勁兒地“降本”之外,在個性化、擬真度,以及素材豐富性方面,國產視頻AI還有很長的路要走。
原文標題 : 異軍突起的視頻AI,揭示了什么?
標題:異軍突起的視頻AI,揭示了什么?
地址:https://www.utechfun.com/post/274894.html