國內AI視頻主要玩家落座,進入商業模式PK環節

2024-08-29 18:40:15    編輯: robot
導讀 前言: 經過長達半年的不懈努力,國內在大型人工智能模型領域的發展終於迎來了關鍵時刻。 從人工智能驅動的舞蹈表演、火柴人動畫的創作,到能夠生成時長爲5至16秒的高質量視頻,AI視頻生成技術的整體水平已...

前言:

經過長達半年的不懈努力,國內在大型人工智能模型領域的發展終於迎來了關鍵時刻。

從人工智能驅動的舞蹈表演、火柴人動畫的創作,到能夠生成時長爲5至16秒的高質量視頻,AI視頻生成技術的整體水平已經實現了質的飛躍。

國內AI視頻市場的主要玩家已經基本確立,並且進入了商業模式的PK環節。

作者 | 方文三

圖片來源 |  網 絡 

DiT技術架構已成爲AI視頻領域主流

此前,AI視頻生成的技術路徑主要分爲兩類:一類是擴散模型技術路徑,主要參與者包括Runway、Pika Labs等;

另一類是基於Transformer架構的大語言模型生成視頻的技術路徑。

去年12月底,谷歌發布了基於大語言模型的生成式AI視頻模型VideoPoet,這被視爲在擴散模型之外,爲視頻生成領域提供了另一種解決方案和可能性。

擴散模型通過向圖片中引入噪聲,將其轉變爲原始馬賽克狀態,隨後利用[神經網絡]。

例如基於卷積神經網絡(CNN)的UNet結構,從特定時間點的畫面中減去預測的噪聲,從而得到無噪聲的原始畫面,即最終生成的畫面。

兩種技術路徑各有優劣,單一模型生成的視頻在時長和畫面效果上難以實現根本性的突破。

Sora選擇了一種結合擴散模型和Transformer模型的技術架構體系——DiT(Diffusion+Transformer)架構。

具體而言,Sora將擴散模型中的U-Net架構替換爲Transformer架構。

因此,Sora發布後,DiT技術架構已成爲AI視頻領域玩家的主流技術架構。

數據、算法、算力決定AI視頻成本

數據投入成本高昂。一貫重視版權的Adobe,在模型訓練初期計劃向攝影師、藝術家購买視頻,並根據視頻長度付費,每分鐘費用在2.60美元至7.25美元之間(約合人民幣20至50元/分鐘)。

訓練一個AI大語言模型需要億級數量的參數,而訓練視頻模型所需的數據量更是有過之而無不及。

運營AI視頻應用所需的算力成本同樣巨大。AI視頻無法像橋梁那樣通過邊際效應來計算成本。

每個用戶都需要算力,用戶使用越多,算力需求就越大。

在數據成本和算力成本的雙重壓力下,AI視頻的參與者無法像大模型參與者那樣[慷慨]地直接降價。

如果草率地採取降價策略來[跑馬圈地],AI視頻參與者極有可能面臨資金被算力成本耗盡的風險,同時用戶體驗也可能受到影響,可謂兩頭不討好。

因此,大多數AI視頻參與者總是小心翼翼,選擇在增值功能上下功夫。

一份關於AI應用定價策略的報告指出,只有26%的AI公司採用了Freemium的混合模式,絕大多數(71%)仍然採用傳統的SaaS訂閱定價模式。

智譜清影推出的則是[加速]模式。普通用戶使用清影是無限次免費的,若想縮短排隊等待時間,可以購买加速券,5元可加速一整天。

最具創意的定價模式莫過於月之暗面的Kimi大模型。

自今年三月起,Kimi一直穩居國內AI產品Top5,甚至一度因流量過大而宕機。

爲了平衡用戶體驗和算力需求,Kimi推出了打賞功能。

用戶可以通過支付5.20至399元不等的金額,獲得不同時間長度的[高峰期優先使用]功能。

不難看出,國內AI產品對商業化模式的探索持开放態度。

自身優勢也影響了到產品特點

快手的可靈在人物姿態的自然流暢性方面表現突出,智譜清影和愛詩科技的PixVerse在色彩表現上更爲鮮明。

特別是快手的可靈,依托快手平台海量的視頻數據優勢,能夠迅速生成符合中文語境和審美習慣的視頻,主打對物理世界特性的高強度模擬,並成功解決了衆多AI難以攻克的[喫]的問題。

生數科技的Vidu在動作幅度和運動速度上更爲顯著,而字節跳動的即夢則擅長於動畫風格,能夠精確控制物體運動的速度。

智譜清影和生數科技的Vidu在生成速度上表現尤爲出色,僅需30秒即可完成,而國內外主流產品的生成時間大約爲5分鐘左右。

字節跳動旗下的剪映上线即夢AI,在視頻生成的基礎上創新了故事模式,能夠從提示詞到角色、場景,實現從創意到成品的快速轉化。

此外,阿裏達摩院的AI視頻產品[尋光]和百度的AI視頻模型UniVG雖然仍在內測階段,但從官方發布的信息來看,二者在可控編輯、語義一致性等方面具有很大的潛力。

國內產品生成高品質內容仍需升級

AI視頻生成面臨的挑战包括准確性、一致性和豐富性。實際體驗效果與各公司發布的宣傳片之間存在較大差異。

若AI視頻生成技術想要實現商業應用,仍需克服諸多挑战。

目前,無論是國內還是國際上的AI視頻生成技術,大多數支持480p/720p分辨率的視頻生成,而支持1080p高清視頻的則相對較少。

素材的質量和算力的高低直接影響生成視頻的品質。

然而,即便擁有高質量的素材和強大的算力,並不意味着能夠保證生成的視頻品質。

使用低分辨率素材訓練的模型若試圖生成高分辨率視頻,可能會導致視頻出現崩壞或重復現象,例如出現多手多腳的情況。

這類問題通常可以通過放大、修復和重繪等手段解決,但其效果和細節通常不盡如人意。

在國內,大多數AI視頻生成技術能夠支持2-3秒的視頻,能夠達到5-10秒的則屬於較爲先進的產品。

也有個別產品表現突出,例如即夢技術可以生成長達12秒的視頻。

但與Sora技術相比,後者曾宣稱能夠生成長達60秒的視頻,盡管目前尚未對外开放使用,其具體表現尚無法驗證。

除了視頻長度,生成內容的合理性同樣重要。

理論上,AI可以持續輸出視頻,甚至長達一個小時,但用戶通常需要的不是監控視頻或循環播放的風景畫,而是具有精美畫面和故事性的短片。

即夢技術雖然在視頻長度上有所突破,但生成質量並不理想,例如主角小女孩的形象在後期會出現變形。

Vega AI也存在類似問題;而PixVerse技術生成的畫質較差。

相比之下,Morph技術在內容准確性上表現良好,但視頻時長僅爲2秒。

藝映技術的畫質佳,但在理解文字方面存在不足,導致關鍵元素如兔子丟失,且生成的視頻風格偏向漫畫,缺乏寫實感。

目前,許多宣稱使用AI進行全流程制作的影視短片,實際上採用的是圖像生成視頻或視頻到視頻的技術。

視頻的連貫性至關重要,許多AI視頻工具通過單幀圖片預測後續動作來實現視頻轉換,但預測的准確性目前仍依賴於運氣。

在實現視頻中主角一致性方面,各家技術並非完全依賴數據生成。

然而,目前這些技術仍在探索階段,即便進行了技術疊加,人物一致性問題仍未得到完全解決。

目前生成時長與效果差異不大

目前,市面上主流的AI視頻工具主要生成時長在4秒至10秒左右的視頻片段。

Vidu效果生數科技此次推出的Vidu开放文生視頻、圖生視頻兩項功能,提供了4秒和8秒兩種時長選項,最高支持1080P的分辨率。

在處理速度方面,實測生成一段4秒視頻片段僅需30秒。

愛詩科技的PixVerse V2能夠支持生成單個時長爲8秒的視頻片段,並且具備一鍵生成1至5段連續視頻內容的功能,確保片段間主體形象、畫面風格及場景元素保持一致。

智譜AI的智譜清影能夠制作出時長爲6秒的視頻,制作時間大約爲30秒,清晰度可達到1440x960(3:2)。

快手可靈生成的視頻時長爲5秒,但其具備將視頻時長擴展的功能,可以將視頻時長延長至10秒。

然而,在視頻生成速度上,快手可靈相對較慢,通常需要2至3分鐘的時間。

從技術積累的角度審視,盡管國內人工智能視頻生成企業均在布局DiT架構,但相較於Sora的水平,它們在視頻生成的時長和效果方面仍處於追趕狀態。

國內AI視頻大模型已經开啓了商業探索

相較於聊天機器人工具如ChatGPT,AI視頻生成被視爲大模型技術商業化的黃金賽道。

其成爲黃金賽道的原因主要有兩個方面:首先,AI視頻生成工具本身具有明顯的收費優勢。

目前,多數AI視頻生成工具面向消費者端用戶採用會員制度。

以可靈爲例,其會員分爲黃金、鉑金、鑽石三個等級;

經過優惠後,三檔月卡的價格分別爲33元、133元和333元,分別提供660、3000、8000[靈感值],可生成大約66個、300個或800個標准視頻。

智譜清影推出的定價策略如下:在首發測試期間,所有用戶均可免費體驗;

支付5元,可獲得一天(24小時)的高速通道權益;

支付199元,則可解鎖一年的高速通道權益。然而,AI視頻生成領域的商業化目前仍處於起步階段。

對於企業級用戶,這些工具支持通過調用API接口進行收費。

例如智譜AI,除了會員制收費方式外,還在开放平台上开放API接口,收取一定費用。

另一方面,AI視頻生成工具模糊了創作者與消費者之間的界限,特別是在快手和抖音等平台上,視頻博主既是消費者,也可以利用AI視頻工具進行創作,轉變爲視頻生產方。

這種大C小B的消費者群體極爲重要,甚至可能是最關鍵的,ToB和ToC的界限日益模糊。

然而,從商業生態的角度來看,大型企業和初創企業在變現策略上存在差異。

像抖音、快手這樣的行業領先視頻平台,可以利用其龐大的用戶基礎,通過提供AI視頻生成工具,鼓勵用戶創作相關內容,從而豐富自身的視頻生態體系。

這些大型平台無需直接銷售工具,而是通過用戶實現商業化變現。

對於初創企業而言,直接銷售工具在中國市場並不現實,未來可能只有行業巨頭才有機會,因爲它們擁有龐大的用戶群體。

對於大模型初創企業來說,如果僅限於銷售工具,在中國只能面向ToB,而不能面向ToC。

只有面向企業端,才是實現商業化變現的可行途徑。

企業愿意爲此付費的原因在於,它們能夠通過視頻實現商業交付,產生收益,以支持相應的成本支出。

因此,在AI視頻的商業化過程中,消費者端的成功更多地屬於行業巨頭,而創業者的機遇則在於企業端。

目前,C端用戶利用AI視頻大模型平台开發的視頻應用缺乏明確的指向性,平台本身亦難以預測C端用戶將如何運用這些視頻。

互聯網巨頭很可能將扮演引領者的角色

核心競爭要素在於數據、場景和用戶。數據是訓練高質量模型的關鍵,而場景決定了產品的市場適應性和商業潛力,互聯網巨頭在這三個維度均佔優勢。

目前,移動互聯網月活躍用戶增長放緩,而AIGC APP的月活躍用戶快速增長,2024年6月滲透率提升至5%,並仍有提升空間。

未來的流量分配格局將很大程度由人工智能主導,用戶將天然地流向更好用、更有趣、更低門檻的內容消費平台。

這解釋了爲什么字節跳動、快手高度重視視頻生成項目。字節跳動將剪映定位爲P0級項目,由原CEO張楠帶隊;

快手則將[可靈]定位於战略級項目,由技術大牛萬鵬飛帶隊,獲得程一笑的支持,集全公司數據、算力和資金資源。

另一方面,專業的全流程影視創作平台仍然具有較強的用戶壁壘。

結尾:

根據頭豹研究院提供的數據,2021年中國AI視頻生成行業的市場規模爲800萬元,預計到2026年,市場規模將增長至92.79億元。

根據啓明創投的數據,2023年一級市場中AI投資金額達到了224億美元,超過了前十年投資的累計總和。

衆多行業專家預測,2024年將是AI視頻生成領域的一個重要轉折點,即所謂的[Midjourney時刻]。

部分資料參考:太平洋科技:《價格定得好,國產Sora們躺着跑》,東西文娛:《AI視頻的六月:玩家就位》,定焦:《半年過去,AI視頻卷到哪兒了?》,光錐智能:《爆[卷]的AI視頻,大廠向左,創企向右》,科技新知:《實測4款國產頭部AI視頻大模型》,中信建投證券研究:《國產AI視頻:可用度強性價比高,快手可靈开啓C端付費》,第一新聲:《探祕視頻生成大模型:誰將成爲下一個風口王者?》,億邦動力:《AI視頻爆發!一天10萬條,衝進抖音快手小紅書》,第一財經:《視頻生成混战:在[GPT-3]時代,[大家看不懂的時候要先上]》

       原文標題 : AI芯天下丨深度丨國內AI視頻主要玩家落座,進入商業模式PK環節



標題:國內AI視頻主要玩家落座,進入商業模式PK環節

地址:https://www.utechfun.com/post/415695.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡