AI視頻何時才能跑出一個“Midjourney ”?

2024-01-05 18:40:08 編輯： robot

導讀文｜郝鑫編｜劉雨琦 AI視頻一躍成爲“明日之星”，大廠和創業公司們打得熱火朝天。去年12月，Pika的出現仿佛點燃了AI視頻賽道的引线，一個月之內冒出了近十家公司，谷歌、阿裏、字節、...

文｜郝鑫

編｜劉雨琦

AI視頻一躍成爲“明日之星”，大廠和創業公司們打得熱火朝天。

去年12月，Pika的出現仿佛點燃了AI視頻賽道的引线，一個月之內冒出了近十家公司，谷歌、阿裏、字節、騰訊競相下場，不斷將战事推向了高潮。

“AI視頻的Midjourney V5時刻就要到了”，即將迎來成爲生產力的關鍵時刻。

2022年～2023年，文生圖的技術以肉眼可見的速度迭代進化。Midjourney平均3個月一個版本，一路從V1狂奔到了V6，實現了從“面目全非”到“細膩逼真”的裏程碑式的巨變。文生圖技術以月爲單位的進化速度，像一把節奏緊湊的小錘，不停提醒所有AI視頻的公司們，留給他們成長的時間，不多了。

（圖：網友制作的V1-V6的生成效果對比圖，來源X）

如今AI視頻的發展軌跡也正在慢慢向文生圖靠攏，“Midjourney V5”成爲了一個關鍵性的臨界點：一旦突破，用戶將大規模湧入，數據飛輪开始轉動，效果日新月異，一步步推動着文生視頻從“玩具”蛻變爲“生產力”。

從文字到圖片、視頻的發展一脈相承，從文生圖的進化歷程中，也可以找尋到AI視頻的影子。

當AI視頻成爲生產力後，才是產業鏈齒輪开始轉動的开端。只有能用起來，才能誕生目標用戶群體；只有能留存住用戶，產生持續性的付費，才能構建起清晰的商業模式；也只有跑通了商業模式，池子裏的企業才能存活下來，用消費端推動供給端，才能盤活整個AI視頻產業。

“AI視頻行業的生產力”——這恰恰才是現在各路玩家爭奪的價值所在。

夢工廠創始人Jeffrey Katzenberg在近期預測，“生成式AI將使動畫電影的成本，在未來3年內降低90%，該技術將給媒體和娛樂行業帶來徹底的顛覆”。

“未來可能實現以每秒30幀的高分辨率實時生成內容，並且到2030年，可能會實現整個視頻遊戲的生成 ”，Midjourney首席執行官DaVid Holz判斷道。

V5賽點已至，新一輪的排位賽正式打響，何時才能誕生下一個Midjourney？

AI視頻迎來“生產力”時刻

實際上，AI視頻幾乎與文生圖同一時期進入到人們視野中。

2023年初，Midjourney帶火了文生圖，Runway則激起了“人人制作電影大片”的無限遐想。

彼時，看到文生圖領域在效果上大放異彩的Runway創始人曾表示：“希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣爲視頻服務。我們已經看到了圖像生成模型的爆發，我相信2023年將會是視頻之年。”

但顯然這個論斷下得有點過早。2月，RunwayAI視頻編輯Gen-1發布，功能類似於AI版的PS，可通過文字輸入進行視頻的風格轉化和修改；3月，發布文生視頻模型Gen-2，支持文生視頻、文本+圖像生成視頻。

宣傳視頻很酷炫，但具體使用效果卻差強人意，出現了時長短、生成畫面不穩定、指令理解出錯、沒有音頻、動作不連貫和不合理等等種種問題。

Runway打響AI視頻第一槍後，雖未停下腳步，但卻在視頻編輯工具的道路越走越遠，運動筆刷、文字轉語音、視頻合成等功能，只能算“錦上添花”。Gen-2遲遲沒有根本性的突破，也讓AI視頻沉寂了一段時間。

就在大家快要失去對AI視頻耐心的時候，去年12月，Pika、Genmo、Moonvalley、NeverEnds、谷歌VideoPoet、阿裏Animate Anyone、字節Magic Animate，踏着希望之光來了。

在Pika的官方宣傳片中，僅需一句話，就生成了動畫版的馬斯克，不但神形兼備，而且背景和動作都非常合理連貫，面部一致性也驚人得完美。

（圖：Pika 1.0宣傳視頻動圖，源自X）

在其官方展示的第一個視頻中，生成效果幾乎可以達到迪士尼等動畫電影公司的質感。

（圖：Pika 1.0宣傳視頻動圖，源自X）

據使用過Pika 1.0產品的用戶反映，Pika 1.0 支持3種方式生成視頻：文生視頻、圖生視頻、視頻轉視頻。3D和2D效果確實上了一個全新的台階，逼真度、穩定性、光影效果都可以吊打Gen-2。

“Pika 1.0和Gen-2仿佛不是一個時代的產品”，不少網友都在使用後給出了這樣的評價。

Pika們的爆火，要歸根於背後基建技術的成熟。其中最重要的就是AnimateDiff。這是一種基於Stable Diffusion文生圖模型所搭建起來的動畫框架，可讓生成的圖片直接動起來，字節、騰訊、阿裏便是在這個框架的基礎上推出了自己的AI視頻模型。

當然，除了AnimateDiff的廣泛應用，也與大模型多模態的發展，息息相關。

Pika們的出現开啓了AI視頻的新篇章，AI視頻即將迎來“Midjourney V5”時刻。

這裏面有兩層重要的變化，首先體現在生成層面。

V5階段，可達到更好的生成效果，在幾秒的生成時間內能夠達到動作、表情、敘事邏輯的連貫性；更有效的控制方式，對輸入指令的理解、遵從，鏡頭、轉場、風格轉化的控制都有了新的提升；更低的資源消耗，能夠以更短的時間、更少的算力調用，生成更高分辨率和優質的視頻，幾秒的視頻也可以達到幾十秒的效果。

更重要的體現在生產力的突破上。

以Midjourney爲例，在V5階段，成爲了UI設計師的設計工具，遊戲原畫師的助手，跨境電商的商品展示、廣告營銷的素材庫。同樣在這個階段，AI視頻也將有可能生成廣告、短視頻、電影、遊戲，成爲可以替代編導、導演、演員、設計師的生產力工具。

大模型、擴散模型

兩條技術路徑的殊途同歸

AI視頻就像一部電影大片，賣不賣座、叫不叫好，取決於劇本和特效兩個重要元素。其中，劇本對應着AI視頻生成過程中的“邏輯”，特效則對應着“效果”。

爲了實現“邏輯”和“效果”，在AI視頻行業中，分化出了兩條技術路徑擴散模型和大模型。

（圖：光錐智能自制）

AIGC火了以後，擴散模型長期佔據了圖像生成領域的主導位置，這背後要歸功於Stability AI的不斷开源，一方面讓更多的开發者加入到了精進模型的隊伍中，另一方面也一手將擴散模型捧到了文生圖領域的“王位”上。

如今，AI視頻自然也被深深地打上了擴散模型的烙印。大廠和初創公司或多或少都在採訪和論文中提到過擴散模型的思路，Pika一批新崛起的公司取擴散模型之長，打造自身的新模型；英偉達、阿裏、字節、騰訊等公司在其基礎之上，進一步提升模型能力。

在大模型技術路线上，經歷過一次改變。大模型面世的初期，AI視頻的主要思路是用訓練大模型的那套方法，靠大參數、大數據來從頭構建一個文生視頻的模型，比如2022年就問世的CogVideo就是這類代表。

但隨着大模型從單一文本邁向多模態，視頻就像之前文字、圖像生成一樣，成爲了從大模型根上長出來的一項功能。從很早的時候，谷歌、微軟就在嘗試用大模型中Transformer的方法訓練和增強現有的擴散模型，但直到谷歌發布多模態大模型Gemini和VideoPoet視頻大模型後，大模型生視頻這條路才終於看到了曙光。

（谷歌VideoPoet視頻生成效果演示）

兩條技術路徑無好壞，但側重點不同，擴散模型的核心在於“還原呈現”，重效果；而大模型核心在於“接收理解”，重邏輯。

正是基於這樣的特性，導致了走擴散模型路线的AI視頻公司在細節刻畫和生成效果上優勢更強，走多模態大模型路线的公司在連貫性和生成合理性上更好。

Pika聯合創始人兼CTO Chenlin Meng認爲，可以同時發揮兩條路徑的優勢來構建視頻模型，比如GPT一類的大模型可以捕捉上下文，視頻中也需要上下文控制生成每一幀從而達到系統的一致性；同時每一幀仍然是一張圖片，可以用擴散模型來提高生成效果。

Pika的觀點不是個例，行業中越來越呈現出這樣的趨勢。原因在於，雖然現階段，Pika、Runway每一次升級都在效果宣傳上搏足了眼球，但要落地到廣告、電影、營銷等實際場景中，還有很大的距離。

英偉達高級研究科學家兼人工智能代理負責人，Jim Fan認爲，目前所生成的視頻只能被稱作“無意識的、局部的像素移動”，缺乏可以一以貫之的時間、空間、行爲邏輯來控制生成過程。

有一個例子可以很好地理解當前AI視頻發展現狀。在X上，一個名叫Ben Nash的網友，做了一個測試，用同樣的英文提示詞“威爾·史密斯喫意大利面”來測試Runway、Pika的視頻生成效果。結果發現，在兩個視頻中，雖然大致可以呈現出想要呈現的效果，但卻出現了“意大利面倒流”、“面被直接吸入嘴裏”的滑稽場面。

Runway生成效果

Pika生成效果

Jim Fan表示：“到2024年我們將看到具有高分辨率和長時間連貫性的視頻生成。但這將需要更多的‘思考’，即系統2的推理和長期規劃（對應System 1負責無意識的感覺運動控制）”。

近期Runway也在官網宣布了一項新的長期研究項目“通用世界模型”（General Wold Models），其解釋原因稱：“我們相信人工智能的下一個重大進步將來自於理解視覺世界及其動態的系統。”

邏輯、思考、推理，或許將成爲，2024年AI視頻的關鍵詞，兩條技術路线的融合也將成爲常態。

生產力“解救”商業化

而一旦成爲生產力，眼前AI視頻面臨的商業化困境，便迎刃而解。

生產力工具有兩個方向，向上走的專業化路线，和向下包容的大衆路线。但現階段，AI視頻行業多數還是以視頻剪輯工具的形態向用戶开放使用。

“工具即產品”在文生圖和AI視頻賽道十分普遍，大部分公司選擇方法就是，最开始先在Discord上小範圍开放測試，到正式开放使用，再到上线網站。

“工具”意味着專業性高、門檻高、操作復雜、上手困難，這就與易上手、操作便捷、體驗性高的“產品”拉开了差距。

舉一個很典型的例子，你需要花費時間、金錢成本在PR軟件上了解每個工具的功能是什么以及怎么使用這些工具，以達到比較好的視頻制作效果；但你打开抖音發布視頻只需三步，點擊加號-拍攝視頻-發布，下至幼兒園的孩子，上至60多歲的中老年人，都能覆蓋，這就是工具與產品最明顯的差異。

生產力未突破的前夜，工具即產品或許還將存在一段時間，但下一步擺在AI視頻公司面前的問題很明確：是要堅持走專業工具路线，還是要把門檻打下來，做下一個AI視頻版的“抖音”？

在這個問題上，Pika已經率先做出了選擇，其創始人郭文景在採訪時表示：“我們开發的並不是電影制作工具，而是爲日常消費者打造的產品——我們雖然有創造力，但並不是專業人士。”

落實到商業化上，郭文景稱Pika最終可能會推出分層訂閱模式，讓普通的付費用戶也能享用更多的功能，計劃通過這種方式，讓Pika與其他競品分出區別。

生產力能力欠缺的AI視頻工具也無法長期留住用戶，不斷地產生付費，從而形成健康的商業模式。現在的現狀是，用戶出於獵奇，或免費嘗鮮，或抱着試一試的心態訂閱一個月，到期過後，該視頻工具就被拋之腦後。

這對創業公司的打擊是巨大的，沒有持續性的收入，不能自造血，就得依賴融資，哪天融資斷了，公司也就維持不下去了。放眼到整個AI視頻行業來看，如果作爲身在其中的個體都生存不下去，又談何行業未來前景。

如果一個行業只有單一的工具，沒有更多的落地場景，也無法形成完整的生態閉環。就像現在，用戶在AI視頻工具上淺淺地停留一下，然後把大把的流量引向了社交平台。

（圖：源自X）

比如，馬斯克跳舞、蒙娜麗莎跑步等大量搞怪視頻，一度席卷了TikTok；使用Runway、Pika等視頻工具生成的視頻，通過用戶在X、TikTok、油管的分享一炮走紅，獲得了巨大的流量，有人甚至已經靠這種方式完成了流量變現，而作爲工具的提供方，卻只能淪爲社交平台的“嫁衣”。

打通工具和場景的壁壘，作爲參考案例，國內抖音已經开始在嘗試。

剪映的相關AI功能一上线就和抖音實現了聯動，並引發了一波抖音擴圖大賞，“讓你意想不到的AI擴圖”一話題挑战，達到了2億多的播放量，甄嬛打籃球、星黛露秒變星黛驢、皮草美女化身狼人，AI是驚喜還是驚嚇，引發了大量的討論。