來源:鈦媒體國際智庫
水母在天空中飛翔(圖片來源:sora官網)“改變世界的產品”來了。
鈦媒體AGI獲悉,北京時間12月10日凌晨,美國OpenAI公司推出 AI 文生視頻模型Sora的新版本Sora Turbo,稱其比2月預覽的Sora模型更快,可生成最高1080p分辨率、最長20秒視頻,支持用戶輸入文字或上傳圖像,並上线全新UI界面,以便對生成視頻進行修改、創建、擴展、循環、混合,或用文本生成全新的內容。
OpenAI稱,Sora Turbo將免費提供給ChatGPT Plus和Pro用戶,Plus用戶每月最多可以生成50個480p分辨率視頻,每月20美元(約合人民幣145元);Pro訂閱者則最多可生成500個視頻,並支持20秒時長、1080p分辨率,可下載無水印版視頻,對應每月費用200美元(約合1450元)。
作爲OpenAI的重要世界模擬器,你可以看到,上面這組Sora演示畫面能夠實現一致性和動作連貫性,流暢度也比之前Sora預覽版高很多。
OpenAI CEO奧爾特曼(Sam Altman)表示,“視頻對 OpenAI 來說很重要,我想分享三點:首先,我們熱衷於爲創作者打造工具。這種創造文化對我們至關重要,也是我們希望人類利用 AI 的方式之一。在早期測試者中,我們觀察到一種新型的協作創作動態,這不僅有趣,而且顯示了 AI 創意工具的潛在使用模式;第二,我們不希望這個世界只是科技。如果 AI 系統主要通過文本來與人互動,我認爲我們錯過了一些重要的東西。我們希望我們的 AI 能理解並生成視頻,我認爲這將深刻改變我們使用計算機的方式;第三,這對我們的AGI路线圖至關重要。視頻將是一個重要的環境,我們或AI將在這裏學習到很多關於如何實現我們在世界上所需的目標。”
國內對於此次Sora Turbo的發布看法不一。
多位 AI 行業人士向鈦媒體App表示,這是改變下一個 AI 視頻生成領域的新契機。也有 AI 視頻領域技術專家王海(匿名)對鈦媒體App坦言,“此前先機都已經被OpenAI‘清零’,今天對於國產AI視頻生成行業來說可能是一場‘噩夢’。”
事實上,隨着Sora預覽版公布,過去300多天引爆了全球 AI 視頻創業熱潮,國外Runway、Pika、HeyGen都曾聲稱可以超越Sora,字節、快手、阿裏、騰訊等互聯網科技巨頭也紛紛公布 AI 視頻產品,使用者超過百萬;智譜、生數、愛詩科技、智象未來等AI 視頻初創公司則已經开始從產品轉向商業化。AI 短劇導演陳坤曾透露,AI使得的制作周期從通常的3-6個月縮短到了2個月,成本達到傳統制作流程的1/4以下。
生數科技聯合創始人、CEO唐家渝早前向鈦媒體App表示,“整體上來講,我們(中國)追趕Sora肯定比追趕GPT-4容易一些。今年一定能達到Sora目前版本的效果,很難說是三個月還是半年(笑),但這件事我們的信心還是非常足的。”
一場與Sora的中美 AI 視頻生成競爭已經爆發。
生成一個視頻0.75元、市場規模將超180億,
視頻大模型正加速競賽
“爲什么AI視頻生成這種產品,優愛騰(優酷、愛奇藝、騰訊視頻)和B站不做,卻被快手可靈做了出來?”
早前一場私下討論中,有投資人對一位即將做 AI 視頻生成的創業者進行上述質詢。他認爲,這輪 AI 視頻生成的機會已經與傳統互聯網視頻領域有很大不同,優酷、愛奇藝、騰訊視頻都不再做 AI 視頻領域,但影視行業卻看到了發展需求。
2024年2月,OpenAI發布視頻生成模型Sora,首次由 AI 生成了長達1分鐘的多鏡頭長視頻,輸入寥寥數語便能生成效果炸裂視頻,鏡頭感堪比電影,震驚全球。
隨後,全球掀起了一場關於Sora的討論風暴,猶如兩年前的ChatGPT爆火,大量 AI 公司以做“中國版Sora”爲目標,衆多企業、教授、互聯網大廠都下場參與其中。
清華大學計算機科學與技術系博世AI教授、生數科技創始人兼首席科學家朱軍,曾任字節跳動AI Lab總監、愛詩科技創始人王長虎,前京東集團副總裁、加拿大工程院外籍院士、智象未來創始人梅濤,新加坡國立大學校長青年教授、潞晨科技創始人尤洋等人都已進入 AI 視頻這一“紅海”賽道當中創業。
事實上,紅杉資本2023年發布的一篇關於生成式 AI 發展進程的預測報告中表明,在歷經文生文、文生圖的升級迭代後,底層大模型技術迭代放緩,因此,視頻方向將是 AI 領域需要重點關注的方向之一,因爲視頻雜糅了文本、語音、圖像等多維度內容,有更多的想象空間。
所謂生成式 AI 視頻生成,就是通過計算機視覺、機器學習、ViT架構等多種AI技術手段,可實現視頻內容生成過程的自動化。
無論是文生視頻,還是圖生視頻、視頻生視頻,AI 驅動的視頻生成工具的使用不斷增加,將有助於增強視頻制作工作流程,爲影視、遊戲、培訓與教育、營銷與廣告、社交媒體等領域發展提供更多增長空間。
據Fortunebusinessinsights數據,2024年,全球 AI 視頻生成市場規模預計達6.148億美元,預計到2032年,整個市場規模將超過180億元,增至25.629億美元(約合人民幣186.36億元),年復合增長率19.5%,市場前景廣闊。
早在Sora發布之前,2023年1月起,Runway、Genmo、英偉達、Pika等海外公司都迅速公布 AI 視頻生成和多模態技術產品。而隨着Sora爆火,AI+視頻技術和產品正在迅猛升級迭代,諸如電影、廣告、視頻剪輯、視頻流媒體平台、UGC 創作平台、短視頻綜合平台等衆多行業有望受益。
截至目前,國內 AI 視頻生成參與方主要分爲三類:
智譜、生數科技(清華系)、愛詩科技、智象未來HiDream(中科大系)等初創公司和產業鏈上下遊企業;
快手、字節跳動、騰訊、阿裏等擁有短視頻和 AI 技術的互聯網科技龍頭;
TeleAI、智源等央國企搭建的AI研究院和新型研發機構。
在這其中,智譜、生數、愛詩科技、智象未來這些初創公司都已經從技術迭代轉向了商業化變現,而快手、騰訊、阿裏都已逐步爲C端提供服務,像騰訊已表達“不急於商業化”的態度。
商業化層面,AI視頻生成提供To C端、To B端服務兩種。如今,不少AI產品已經开始進軍海外,並且推出了較爲完備的會員付費體系,快速進行商業化變現。
C端層面,快手可靈、字節即夢、智譜清影、生數Vidu都提供每月的付費服務,或者是有一定限額免費生成AI視頻;而B端層面,快手可靈、字節即夢(火山引擎)、生數Vidu、愛詩科技、智象未來等都提供API接口和相關解決方案服務。
以愛詩科技爲例。
愛詩科技銷售負責人王平(化名)告訴鈦媒體App,其主要售賣長達5秒的PixVerse V3和V2.5版本,V2.5版本價格低至每次調用API價格爲0.75元/張,一次生成5張左右,也就是3.75元;V3版本提供2倍的價格,即每次調用API價格爲1.5元/張,也是一次生成5張,也就是7.5元一次,如果有新功能價格則增加一倍。
同時,愛詩科技需要與企業籤訂電子版合作協議,預付費價格包括1.5萬元/3萬元/12萬元幾個檔位,最高可享受8折優惠,如果有新功能價格則增加一倍,當然這也包括一些合同時間限制。
王平強調,愛詩科技這種價格檔位是行業裏面最低的,低於其他競爭對手(生數、可靈)的報價,但性能效果和其他同行差不多。
唐家渝透露,目前生數Vidu To B版本向每位客戶(API)的每月使用費可以從10萬到100萬元,大部分是預付費方式,客戶包括影視、互聯網、營銷廣告等領域;而To C端,Vidu提供免費版和3種收費機制,按月度訂閱,標准版、高級版、尊享版價格依次爲19.99美元、59.99美元、199.99美元(約合人民幣145.22元、435.80元、1452.83元),按年訂閱價格95.99美元起,可去水印和商用,並且擁有更多新功能。
同樣是清華系的智譜AI,公布支持生成6秒時長的 AI 視頻生成產品“清影”,目前也已經公开測試和开源,付費模式層面,如果加速時間,付費5元,解鎖一天(24小時)的高速通道權益;付費199元,解鎖一年的付費高速通道權益。
然而,由於技術尚未足夠成熟,目前市面上的文生視頻模型仍然存在一些缺陷。
例如,生成視頻在畫質、細節、真實感等方面仍與真實視頻存在差距,且用戶對視頻生成過程的控制能力有限,只能通過修改文本提示來間接影響視頻生成效果,而文本與視頻的語義匹配度不足,也會導致生成效果不及用戶預期。
此外,國內 AI 視頻生成產業鏈依然不成熟,面臨算力稀缺、數據需要多輪訓練等情況。而且,AI 視頻成本也很高,整個經濟下行導致市場需求低於預期,很多企業已經把商業化轉向了KA級大客戶和大項目,但這種大型項目回款較難,所以生數、智譜等 AI 企業都在其中尋找“商業化平衡”。
鈦媒體App則了解到,有一家國內 AI 視頻生成公司於去年成立,就已經從企業客戶處獲得4000萬元的收入,今年預計該公司銷售收入將超過1億元,原因是他們盯上了一塊更大的蛋糕:AI 短劇市場。
短劇近年來太火,打开App Store應用商店,榜首基本被短劇應用霸佔。用戶就愛這種幾分鐘的“快餐”,劇情快,看着過癮。市場規模方面,2023年,短劇就已經到了373.9億元,比前年暴增267.65%,這一數字已經頂得上電影票房的七成了,今年預計還要突破500億,直逼電影市場。
有行業人士私下向鈦媒體AGI解釋稱,越南等東南亞市場擁有大量短視頻和短劇市場需求,很多連續劇需要配音翻譯、非事實性視頻輸出,這些都已需要 AI 視頻技術的加持,目前AI短劇單一訂單價格基本在數億元規模。
多位 AI 領域行業人士表示,目前初創企業對於項目的商業“轉化率”要求越來越高,而且對於商業化訴求極爲強烈,有一些 AI 視頻生成企業甚至進入到上遊算力賽道、下遊影視公司賽道進行議價,通過“打包”方式獲得更大的機會點。
AI生成視頻仍無法徹底替代影視行業
“爲什么美國的互聯網大廠,沒有每個人都做一個視頻生成模型,而中國的騰訊、字節卻在做?”最近,一位AI視頻行業人士向鈦媒體App吐槽稱,國內 AI 視頻生成領域也开始“卷”起來了,價格战、輿論战、銷售战都在爆發,但微軟、谷歌、Meta這些美國科技巨頭卻沒有任何視頻模型產品。
很顯然,從算力、算法和數據成本角度考量,中國互聯網巨頭進入 AI 視頻大模型領域,加速商業化,尋找落地場景,已經與美國 AI 視頻領域出現不同的“打法”。
智譜AI CEO張鵬則認爲,AI生成視頻無法徹底替代影視行業,真正進入電影尚需時日。“AI行業對多模態模型的探索還處於初級階段。”
但 AI 視頻“替代”之路正無限接近成爲現實。
12月4日晚,谷歌DeepMind團隊發布大型基礎世界模型Genie 2,聲稱可以生成各種一致的世界,可玩時間長達一分鐘,無論是視頻生成效果,還是表現形式,都超出了普通AI視頻生成的水平。
事實上,相對於OpenAI、Luma AI這些視頻模型、多模態模型平台,谷歌、Meta等巨頭都在瞄准一個 AI 未來的賽道:世界模型,而非多模態技術。而谷歌在今年5月發布的AI視頻模型Veo如今已經开始內測。
此外,作爲AI領域影響力最大的女性華人之一,斯坦福大學教授李飛飛於當地時間12月2日公布了其首個創業項目World Labs的成果——能用單張靜態圖片生成3D世界的AI產品。
在World Labs網站的演示裏,由AI生成的場景均通過瀏覽器實時渲染而成,用戶可以使用箭頭鍵或鍵盤(WASD)鍵移動,然後單擊並拖動鼠標實現交互,從而自由探索場景。World Labs的AI工具配備了可操控的滑塊來調節模擬景深(DoF)與模擬推拉變焦(dolly zoom),當使用者將景深效果調至越強時,背景中的物體便會越發模糊,爲整個視覺體驗增添了更多層次感與真實感。
如今,AI 視頻取代傳統影視制作的潮流已勢不可擋。
今年6月,繼好萊塢編劇在大罷工中要求限制AI撰寫劇本之後,代表好萊塢演員權益的美國演員工會-美國電視和廣播藝人聯合會(SAG-AFTRA)表示,AI 在影視行業確有用武之地,但必須在演員同意並付費的前提下使用,譬如在計算機生成的動作、表情捕捉畫面上,“AI應該是輔助、增強人類,而不是取代人類”。
因此,美國演員工會認爲,應該在影視制作中約束 AI 的使用,以便保護好“人類員工”。就在今年12月,好萊塢級AI視頻《Dream Machine》預告片公布,引發關注。
回到國內,今年12月3日,騰訊混元大模型宣布上线文生視頻(text-to-video)能力,基於130億參數,成爲國內規模最大AI視頻模型,並聲稱模型效果擊敗Runway Gen-3、Luma 1.6等;同日,中國電信公布文生視頻產品。
如今,隨着 Sora Turbo的發展,AI 視頻生成這一新興市場競爭將更爲激烈。
留給“中國版Sora”們趕超的時間真的不多了。
特別聲明:以上文章內容僅代表作者本人觀點,不代表新浪網觀點或立場。如有關於作品內容、版權或其它問題請於作品發表後的30日內與新浪網聯系。標題:太震撼了!美國Sora新版本發布,留給“中國Sora”們的時間不多了|鈦媒體AGI
地址:https://www.utechfun.com/post/453414.html