2 個月前,OpenAI 發布了全新的文生視頻模型 Sora,瞬間引爆了全球科技圈,也讓馬斯克說出了「人類愿賭服輸」。在那之後,沒有任何一個大模型敢於在文生視頻領域「挑釁」Sora。
現在,事情有了變化。
在 4 月 27 日舉辦的 2024 中關村論壇上,生數科技與清華大學聯合發布了「Vidu」文生視頻模型,全面對標 OpenAI 的 Sora。
Vidu 生成,動圖經過壓縮。圖/生數科技
不僅是在視頻生成分辨率和時長上,最關鍵的根據官方放出的生成視頻,Vidu 已經實現了相當程度的「擬真」——模擬真實世界的物理原理,以及主體的一致性。這是 Vidu 真正對標 Sora 的底氣。
但 Vidu,離 Sora 到底還有多少差距?
對標 Sora,Vidu 還差「一點」
從這次發布可以看出,Vidu 處處都在對標 Sora。同樣是通過提示詞直接生成視頻,同樣支持最高 1080P,雖然 16 秒的生成視頻時長還明顯短於 Sora(最長 60 秒)。
最明顯的還是生成的視頻內容。
比如 Sora 街頭行走這一段,相信會看這篇文章的讀者應該都看過,一度刷爆了各大社交媒體。
Sora 生成,動圖經過壓縮。圖/ OpenAI
Vidu 也同樣生成了類似的視頻內容,开始展示了一男一女一熊走在街頭的畫面,隨後又重點展示了熊人的背景街道。
Vidu 生成,動圖經過壓縮。圖/生數科技
雖然相比 Sora 那段少了很多震撼和細節展示,但不管是皮衣的質感,還是路面的反射和倒影,Vidu 其實都展現了非常有說服力的效果。
更重要的是,背景、人物主體是一致的,並沒有在前後發生大的變形或變化。
類似的表現還出現在其他生成視頻上。
比如开車這一段,鏡頭一直跟隨着汽車前移,但路旁的樹木和汽車主體始終沒有發生變化,並不像很多擴散模型一樣,這一秒和下一秒的主體都可能出現明顯的差異。
Vidu 生成,動圖經過壓縮。圖/生數科技
不過在保真度上,Vidu 還是和 Sora 有比較明顯的差距。相似的提示詞(內容)下,Sora 开車這一段的背景明顯更接近真實世界,用比較通俗的話講,Vidu 有點「油畫」。
Sora 生成,動圖經過壓縮。圖/ OpenAI
但顯然,Vidu 作爲國產大模型,還是更懂中國。
Sora 在之前曾經生成過一段街頭「舞龍」的視頻,而 Vidu 幹脆直接生成了一段「真龍」的視頻,背景是輝煌的宮殿群。
Vidu 生成,動圖經過壓縮。圖/生數科技
如果 Sora 的重點與其說是舞龍,實則更像展現「圍觀群衆」的驚人模擬,那 Vidu 就是真真正正模擬了一條龍。
此外,Vidu 還生成了一段「熊貓在湖邊彈吉他」,除了主體上的擬真,背景部分的草地、湖水都相當程度地「真實」。
Vidu 生成片段截圖,非動圖。圖/生數科技
在人物生成上,Vidu 也有一組畫面充分展示了它的實力,從面部表情、眨眼到擡頭,都非常接近實拍鏡頭。就算比起 Sora 的人物鏡頭,也不遜色多少。
Vidu 生成,動圖經過壓縮。圖/生數科技
另外考慮到要參與視頻內容制作流程,這類文生視頻模型也繞不开「鏡頭調度」的能力,事實是 Vidu 依然展示了相當不錯的水平。
總的來說,雖然有 Sora 珠玉在前,但從目前公布的生成視頻來看,Vidu 依然展示了極高的視頻生成能力,或者說是模擬物理世界的能力。或許在生成復雜畫面、保真度等方面還差 Sora,但有一些鏡頭完全稱得上可用,這已經是一個很大的進步。
當然,Sora 的反方向跑步,Vidu 的「人物」突然長出第三條腿,都說明即便 AI 在視頻生成領域有了跨越性的進步,仍然還有很大的提升空間。
突然出現的第三條腿。圖/生數科技
正如 OpenAI 在 Sora 發布之初承認的,這類模型當前存在一定的局限性,比如無法模擬復雜場景的物理效應,理解某些特定因果關系等。
好飯不怕晚:如何制造 Vidu?
看起來,Vidu 就好像 Sora 一樣橫空出世,以相當驚豔的表現引起刷屏,而且同是基於對 Transformer 與 Diffusion 架構的融合。但很多人並不知道,生數科技聯合創始人兼 CEO 唐家渝上個月就透露過:
「今年內一定能達到 Sora 目前版本的效果。」
不僅如此,這家幾乎可以算是從清華大學人工智能研究所「孵化」出來的初創公司,在 2022 年 9 月就提出了融合 Diffusion 和 Transformer 的 U-ViT 架構,比 OpenAI 提出 DiT 架構(Sora 的底層架構)還要早。
甚至因爲發布時間更早,計算機視覺頂會 CVPR 2023 提前收錄了清華大學的 U-ViT 論文,而以「缺乏創新」爲由拒絕了 OpenAI DiT 論文。
但總的來說,這兩家公司的思路大體一致。
目前市面上大部分視頻生成模型都是基於 Diffusion 架構的擴散模型,比如 Stable Video Diffusion。OpenAI 和生數科技則是引入大語言模型底層的 Transformer 架構,在一定程度上,解決了文生視頻一直以來前後一致性和視頻長度過短的問題。
Vidu 生成,動圖經過壓縮。圖/生數科技
所以在 Sora 和 Vidu 生成的視頻中,你可以說有很多不完美,但在保證主體和背景一致性上,它們都有了實質性的飛躍,幾乎不會看到有人物邊走邊變形的情況,背景不會時刻在變,場景也不會在沒有任何轉場的情況下突變。
不過很多人可能還有一個問題:明明更早提出融合架構,生數科技爲什么更慢?甚至效果還差一些?
事實上不難理解。要知道,生數科技正式成立於 2023 年 3 月,雖然在不久後獲得了阿裏、百度、字節等公司和機構的多輪融資,但最多也就融到數億。相比之下,OpenAI 背靠微軟,在算力、數據、資金、人才等方面都有着更大的優勢。
同時,這也會影響到 Sora 和 Vidu 完全不同的發展路徑。
在接受 WSJ 記者採訪時,OpenAI 首席技術官 Mira Murati 公开表示,Sora 最快將會在今年年內面向公衆推出。考慮到 Sora 生成視頻需要的海量算力,外界估計,可能將有限度地率先开放給 ChatGPT Plus 用戶。
而據唐家渝表示,生數科技目前要走兩條路。
一是打造覆蓋文本、圖像、視頻、3D 模型等多模態能力的底層通用大模型,面向 B 端提供模型服務能力;二是自己面向圖像生成、視頻生成等場景打造垂類應用,面向遊戲制作、影視後期等需求提供訂閱制收費服務
寫在最後
Sora 剛發布的時候,國內一片驚嘆,又是一片哀嚎。
360 創始人周鴻禕說,Sora 將人類實現 AGI(通用人工智能)的時間從 10 年拉小到了 1-2 年,同時也進一步拉大了中美在 AI 領域的差距。還有更多人認爲,盡管國內大模型衆多,做視頻模型的也不少,卻看不到一個能夠追趕 Sora 的競爭對手。
而 Vidu 的發布,至少再次證明了一切皆有可能。但如果說 Sora 的發布是一個开始,那我相信 Vidu 不是結束,「甚至不是結束的开始。但這也許是开始的結束。」
來源:雷科技
原文標題 : 對標文生視頻模型Sora,中國挑战者Vidu只差一點
標題:對標文生視頻模型Sora,中國挑战者Vidu只差一點
地址:https://www.utechfun.com/post/364547.html