文|白 鴿
編|王一粟
“生成的人物一轉身就變成老外,怎么解決呢?”
“沒有辦法,10s中動作大的,人物一致性有問題,只能抽卡,多刷幾個,選擇一個變化不大的。”
在一個以Ruanway學院爲主題的群中,不斷有各種針對AI視頻生成的問題產生,而群內有AI視頻生成使用經驗的,則也在積極分享自己的使用方法論,並解答相關問題。
這樣的AI視頻生成相關的群聊並不在少數,且每個群都相當活躍,大部分用戶對AI視頻生成工具都保持了相當高的興趣,並在各種平台上分享自己基於AI視頻生成工具所創造出的視頻內容。
國內用戶積極對AI視頻生成工具探索和使用的背後,是今年2月份Sora的發布,作爲行業發展風向標,徹底引爆了國內AI視頻大模型生成賽道。
3月字節跳動旗下剪映Dreamina(即夢)开放內測;4月,AI企業生數科技發布號稱首個國產自研視頻生成大模型Vidu;6月,快手可靈AI正式开放內測。
7月,商湯推出最新AI視頻模型 Vimi,阿裏達摩院也發布AI視頻創作平台“尋光”,愛詩科技則發布PixVerse V2,快手可靈宣布基礎模型再次升級,並全面开放內測,而智譜AI也宣布AI生成視頻模型清影(Ying)正式上线智譜清言。
同時,這些AI視頻大模型生成工具大部分都已經向公衆开放使用。7月30日,生數科技的AI視頻大模型Vidu也正式面向全球公衆开放使用。
歷經大半年,國內大模型賽道終於進入Sora時刻。從AI跳舞、火柴人,到5秒~16秒的高質量視頻生成,AI視頻大模型的生成能力整體都邁入了下一個階段。
不過,相比於至今仍未开放的Sora,中國的AI視頻大模型已然开啓加速模式。在技術能力不斷迭代升級的同時,還在持續進行技術應用和商業化落地探索。
事實上,相比於ChatGPT等聊天機器人,AI視頻生成大模型作爲一個具有工具屬性的產品,天然就具備商業化變現能力,現階段开放給公衆使用的AI視頻生成工具也皆採用付費模式。
如智譜清影上线的定價策略是:首發測試期間,所有用戶均可免費使用;付費5元,解鎖一天(24小時)的高速通道權益,付費199元,解鎖一年的付費高速通道權益。
不過,當前AI視頻生成賽道的商業化仍處於非常早期階段。
“說實話,我們也不知道未來商業策略會是什么樣,或什么形式最好,目前所謂的收費策略更多是一種早期嘗試,試試看市場和用戶反饋,後面會及時調整。”智譜AI CEO張鵬如此說道。
AIGC智能創意平台筷子科技創始人兼CEO陳萬鋒也表示:“目前C端用戶基於AI視頻大模型平台开發出的視頻應用指向型不強,這些平台也並不知道C端用戶將會如何使用這些視頻。”
從技術的迭代更新,到探尋技術的應用和商業化變現,國內AI視頻生成賽道玩家們無疑是在加足馬力狂奔。但從當前行業現狀來說,卻也仍存在諸多挑战。
AI視頻軍備競賽,都在“卷”什么
用AI生成視頻,並不是新物種,只不過此前AI視頻生成的時長一直卡在2s-4s,且整體視頻生成效果體驗並不足夠令人驚豔。
Sora一發布,則直接展示了其生成的1分鐘視頻,且其視頻所展示的畫面效果驚人,就算在視頻動態運動情況下,隨着空間的移動和旋轉,視頻中出現的人物和物體也會保持場景一致性移動。
Sora展示的視頻內容
這可以說震驚了整個AI屆。Sora背後的技術架構,也被業界所了解並跟進。
此前AI視頻生成的技術路线主要有2大類:
一類是Diffusion Model(擴散模型技術路线),主要玩家包括Runway、Pika Labs等。
一類是基於Transformer架構的大語言模型生成視頻技術路线。
去年12月底,谷歌發布了基於大語言模型的生成式AI視頻模型VideoPoet,這在當時被視爲生成視頻領域中,擴散模型之外的另外一種解法和出路。
Diffusion Model將一張圖片通過引入噪聲使其變成原始馬賽克,在通過引入“神經網絡”,如基於卷積神經網絡(CNN)的UNet結構,從某個時間點的畫面,減去預測的噪音,得到的就是最原始沒有噪音的畫面,也就是最終生成的畫面。
大語言模型則是通過視頻數據來對大模型進行訓練,使其能夠理解視頻數據中的基本Token詞匯以及所對應的視頻畫面。當用戶給予指令詞之後,其就能夠根據學習到的Token詞匯生成對應的視頻內容。
兩種技術路线都存在各自的優劣勢,單一模型所生成的視頻在時長和畫面效果上,都難以實現根本性突破。Sora則選擇了將擴散模型和Transformer模型結合的技術架構體系-DiT(Diffusion + Transformer )架構。
有業內觀點認爲,Sora是將Diffusion擴散模型中的U-Net架構替換成了Transformer架構。
兩者的結合效果,一個AI從業者形象的解釋爲:擴散模型就像是一個雕塑過程,將石料上不應該存在的部分去掉,創造出雕塑作品。而Transformer通過自注意力機制,理解時間线之間的關聯,則讓這尊雕塑從石座上走了下來。
AIGC創業者洋芋醬AIgen(藝名)也認爲:“視頻是一幀一幀的圖像,採用UNet結構的邏輯是按照生產圖像的方式做視頻,AI每生成一張圖像都是隨機的,所以整個畫面看起來很閃。而用視頻訓練的AI,其產出的畫面就相對穩定,不會狂閃,具有合理的連續的幀。”
因此,Sora發布之後,DiT技術架構也成AI視頻玩家的主流技術架構,並將其視爲通往AGI的關鍵技術。
目前,市面上主流AI視頻工具在生成4秒-10s左右的視頻片段。
生數科技此次Vidu开放文生視頻、圖生視頻兩個功能,提供4s和8s兩種時長選擇,分辨率最高達1080P。在速度上,生成一段4秒片段的實測推理速度只需30秒。
愛詩科技的PixVerse V2,可支持生成單個時長8s的片段,且支持一鍵生成1-5段連續的視頻內容,片段之間也會自動保持主體形象、畫面風格和場景元素的一致性。
智譜AI的智譜清影可生成6秒的視頻,時間只要30秒左右,清晰度可達1440x960(3:2)。
快手可靈生成的視頻時長在5s,但其有將視頻時長延長的功能,可以將視頻時長延長至10s,但在生成視頻的速度上,卻相對較慢,往往需要2-3分鐘時間。
從技術的積累上來看,雖然都在布局DiT架構,但國內AI視頻生成企業還處於追趕階段,AI視頻生成的時長和效果,尚未達到Sora的水平。
張鵬也坦言:“Sora的演示效果不錯,我們還是一個初步的階段性成果,達不到像Sora演示出來那么好、那么長的視頻。我們從來都很坦誠承認與OpenAI、和世界頂級水平之間的差距。”
但國產大模型也在堅持用自己的方式追趕OpenAI,比如“怎么把視頻生成算力成本降下來,響應速度提升上去,我們在追求技術高度的同時,也同步追求技術的可普及性和成本。”張鵬說。
無疑,技術上國內AI視頻大模型賽道玩家還在追趕,但在應用和商業化上卻已然走在前列。
圖生視頻成主流,不穩定、一致性仍是問題
在技術架構升級之後,現如今的AI視頻生成的視頻效果與時長,已經與年初有了本質的區別。
當前,各AI視頻大模型產品主要提供2大核心能力,一個是文生視頻,一個是圖生視頻。兩個核心功能的工作流並不一致,文生視頻可通過一句指令生成一個想要的視頻。
而圖生視頻的工作流更爲復雜,要先用文字指令詞通過Midjourney或Stable Diffusion等工具生成自己想要的圖片,再基於圖片通過AI視頻生成工具生成視頻內容。
於普通的業務愛好者而言,想要體驗AI視頻生成效果,文生視頻功能已經夠用。
但對於想要基於此進行視頻內容商業化交付的從業者而言,“基本上,沒有人用文生視頻。”星賢文化創始人、AI原創玄幻IP《山海奇鏡》制作人陳坤對光錐智能說道。
對此,陳坤解釋到,文生視頻無法保持前後內容的一致性。就單個鏡頭來說,文生視頻可以滿足要求,會很好看,很驚喜,但卻無法保證下一個鏡頭與前一個鏡頭的一致性。畢竟AI技術尚不能通過一段文字描述就能夠讓人物和空間美學保持一致性。
“爲了保持作品風格的一致性或者人物的一致性,必須用圖生視頻控制住畫面裏的內容。”洋芋醬AIgen也如此說道。
去年12月,陳坤帶領團隊利用 PixVerse 制作《山海奇鏡之劈波斬浪》的4K分辨率預告片。
圖片來自:《劈波斬浪》
今年7月13日,陳坤基於快手可靈大模型重新打磨的《山海奇鏡之劈波斬浪》正式上线快手平台,19日單日播放量達到了2026.7萬,上线十天累計播放量達到了5164.9萬,後續榮登德塔文短劇指數榜第一。
在陳坤看來:“半年前,AI影視很難用生動的表演表現復雜敘事,很多的動作場面也需要通過蒙太奇的剪輯來實現,在制作過程中,由於3—4秒的單個鏡頭時長限制(在當時就是這個時長),整個片子的節奏感會受到影響。”
“就AI影視賽道來看,可靈的能力確實很厲害,既有文生視頻,也有圖生視頻,且其畫面中的動作幅度展示都很不錯。”陳坤如此說道,“不過,每家AI視頻生成工具都有自己的特點,比如Runway,它的Gen3鏡頭偏電影感,盡管之前只有文生視頻功能,但很多創作者也很喜歡用。現在它也推出了圖生視頻功能”
作爲一個資深玩家,洋芋醬AIgen也認爲:“目前最好用的是可靈、luma 和Runway。”另一位影視從業者琪琪(化名)則表示,Sora的整體效果應該最好,但其並未开放。
不過,在實際的體驗過程中,雖然現階段相比於半年前在視頻時長和效果上有了質的飛躍,但仍存在畫面人物變形、畫面不穩定以及前後不一致性等問題。
總結下來,從業者在使用AI視頻時,主要有5大痛點:包括人物一致性,場景一致性,人物表演,動作交互,運動幅度等。
“由於大模型技術並不完善,在視頻生成過程中畫面不可避免的產生畸變。”陳坤稱。
對此,行業從業者就會通過不停“抽卡”(讓AI不斷自主隨機生成相關畫面)的方式,最終得到一個相對滿意的效果畫面。
“即便我們用可靈,在一個火神和水神打架的鏡頭上,還‘抽卡’不下100次,但也並未抽到我特別滿意的鏡頭,後來實際用的畫面其實也是帶了一定畸變的。”陳坤說道。
從現階段的技術手段來看,短期內可能無法解決這一問題。張鵬認爲:“最簡單的可控,就是我說什么模型做什么,而想要實現這一可控,強烈依賴於模型能不能夠理解這個內容,而這也是多模態大模型發展的初衷。”
用發展中的技術去解決發展中的問題,將是AI視頻大模型未來發展迭代升級的關鍵。“內容生成,尤其是視頻內容生成,絕大部分情況下還是由‘人用語言描述’的方式來控制。從自然語言到視頻生成,這才是真正的可控,更高層面的可控,這是技術層面的事情。”張鵬如此說道。
現階段AI視頻大模型技術仍處於比較早期階段,並未有任何一家AI視頻生成工具爬到了山頂。而在各家攀登山頂的過程中,生態體系的建設以及商業化變現也成爲關鍵。
黃金賽道的起點
“技術應用到行業的速度,遠慢於技術自身的發展。”陳萬鋒如此說道,“AI技術發展很快,但滲透到產業中,產生價值的速度可能要慢十倍。”
純技術路线發展的角度來看,從單模態,到多模態,最終的目標是達成AGI。但將AI進行產業化落地應用,與技術升級迭代是兩碼事。
現階段,國內衆多大模型公司的技術追趕已經過了一個階段,將會把更多的精力聚焦在落地和應用上,通過與場景的結合,數據的反饋,再推進底層技術迭代升級。
而相比於ChatGPT這種聊天機器工具,AI視頻生成則是大模型技術商業化落地的黃金賽道。
之所以說其是黃金賽道,主要基於兩個方面:
一個是作爲AI視頻生成工具,其天然具有收費優勢。
目前大多數AI視頻生成工具,面向C端用戶採用的是會員體系。以可靈爲例,其目前會員共分爲黃金、鉑金、鑽石三個類別,優惠後三檔月卡的價格分別爲33元、133元和333元,對應分別獲得660、3000 、8000“靈感值”,可生成約66個、300個或800個標准視頻。
面向B端企業級用戶,則可以支持通過調用API的方式進行收費。如智譜AI,其除了會員制收費方式外,還在开放平台开放了API,收入一定的費用。
另外一個方面,AI視頻生成工具讓創作者和消費者之間的界限變得模糊,尤其是快手和抖音平台上,這些視頻博主屬於C端消費者,但其又可以基於AI視頻工具進行視頻創作,變成B端視頻生產方。光錐智能認爲,“大C小B的消費者是很重要的,甚至可能是最重要的,ToB和ToC的界限越來越模糊。”
不過,從商業化生態角度來講,大廠和創企在變現的思路上也並不一致。
像抖音、快手這種已經行業頭部視頻平台,其可以依托自身海量的用戶,通過提供AI視頻生成工具,讓用戶通過這一工具創作相關內容,豐富自己視頻生態體系。
“大廠不需要賣工具,而是通過用戶進行商業化變現。”陳萬鋒如此說道,“C端爲應用付費模式(對創業公司來講)在國內並不現實,未來或許只有巨頭才有機會,因爲其用戶數量龐大。”
與此同時,對於現階段各平台採取的會員制收費方式,陳坤堅定地對光錐智能表示:“我不看好這個會員制,現在即便再便宜,也只對真正能夠商業化閉環的創作者有效。如果不是一個商業化閉環的創作者,後續的付費率和付費意愿都不會很高。”
陳坤對此解釋道,一方面C端收取的會員制費用相對於大廠研發九牛一毛,都不夠大模型訓練一次。另一方面,一旦AI視頻大模型技術達到天花板,這些巨頭一定會進行價格战,目的就是爲了搶奪用戶數量,“大廠最終一定會選擇用戶數量,而不是去賺這些錢。”
因此,於大模型創企來說,如果單純的是賣工具,“在中國只能ToB不能ToC。”陳坤如此說道,“而只有面向企業端,才是能夠商業化變現的唯一方式。”
而企業端愿意爲其付費的原因,則在於其能夠實現視頻的商業化交付,產生營收,能夠支持其對應的成本支出。
比如陳坤通過AI短劇進行商業變現,洋芋醬AIgen則會根據客戶的視頻內容需求,爲客戶制作AI視頻內容,“最高一個月能接8單客戶需求,平均每個月有3-4單。”
而筷子科技,是通過AI視頻的生產工作流和短視頻平台的投放結合,來賺品牌的應用工具及服務的錢。
基於此,不難看出,在AI視頻的商業化中,C端還是巨頭會更成功,創業者的機會則在B端。面向未來,快手視覺生成與互動中心負責人萬鵬飛也表示,隨着大模型技術能力的提升,視頻創作者和消費者的界限逐漸模糊,促進視頻平台生態繁榮。
原文標題 : 爆“卷”的AI視頻,大廠向左,創企向右
標題:爆“卷”的AI視頻,大廠向左,創企向右
地址:https://www.utechfun.com/post/404634.html