AI視頻模型大混战，誰是你的 No.1？

2024-07-09 18:41:40 編輯： robot

導讀自從Sora發布以來，AI視頻模型的“魔盒”被徹底打开。今年上半年，AI視頻模型遍地开花，Viggle、Genmo、即夢、Dream Machine、可靈輪番炸場。這么多的AI視頻模型，在讓人眼花...

自從Sora發布以來，AI視頻模型的“魔盒”被徹底打开。今年上半年，AI視頻模型遍地开花，Viggle、Genmo、即夢、Dream Machine、可靈輪番炸場。

這么多的AI視頻模型，在讓人眼花繚亂的同時，也帶來了一個疑問：誰才是AI視頻模型的No.1？

烏鴉君也非常好奇各款產品表現優劣。剛好上周三Runaway宣布Gen-3 Alpha向所有用戶开放測試，借着這個契機，烏鴉君就把市面上开放的AI視頻模型都拉過來測一測。

參與此次測試的選手有7位，涵蓋了AI視頻領域的國內外名將、新星，其中國外的包括Gen-3 Alpha、Dream Machine、Genmo、Pika 1.0，國內AI視頻的代表則是愛詩科技的PixVerse、快手的可靈和字節跳動的即夢。

結合測試結果和個人體感，烏鴉君得到以下三個結論：

1.可靈的綜合體驗最好，信息准確度高、視頻時長和質量穩定性上都有着不錯的表現，偶有瑕疵。

2.即夢、PixVerse、Gen-3 Alpha和Dream Machine四家普遍在人物一致性和物理邏輯上會有問題，繼續迭代一下，未來可期。

3. Genmo和Pika1.0則受限於發布時間較早，在語義理解能力、畫面平滑度、運動一致性等方面明顯落後於其他競品，足見AI視頻迭代速度之快。

/ 01 / 三組Prompt，6個測評維度

測評會使用同一個Prompt，對不同AI視頻模型生成的結果進行評判。考慮到AI視頻模型的表現可能會有波動，烏鴉君給出以下三組文生視頻提示詞，綜合評判表現效果。

考題1：我用《愛樂之城》的經典畫面爲基准，設定一個Prompt：Under the night sky, a girl in the yellow skirt are dancing with a man.（在夜空下，一位穿着黃色裙子的女人在和一個男人跳舞。）

考點：對Prompt中提到的“夜空”“黃色裙子”“跳舞”等元素進行生成，描繪出雙人跳舞的畫面，對人物動作的協調性有一定要求。

考題2：我用Sora公布的一條視頻提示詞：Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. （在熙熙攘攘的東京，白雪皚皚。鏡頭跟隨幾個人穿過城市街道，他們正享受美麗的下雪天，並在附近的攤位購物，絢麗的櫻花伴隨着雪花隨風飄揚。）

考點：描繪鏡頭、人物和街道商販的動態，並保持着雪花和櫻花一同飄落的效果。

考題3：我改寫了一條Sora公布的電影預告片風格提示詞：A movie trailer featuring the adventures of the 20 year old space man wearing a transparent fish tank, blue sky, desert, cinematic style, shot on 35mm film, vivid colors. （影片講述了20歲太空人的冒險經歷，他戴着透明的魚缸，背後是藍天、沙漠，電影風格，35毫米膠片拍攝，色彩鮮豔。）

考點：消化電影預告片的風格，細膩描畫人物，還原藍天、沙漠等場景，也考驗AI對於科幻故事的想象力。

測試方法

評判的維度包括六個層面，分別是語義理解、圖像質量、物理邏輯、一致性、風格創意、易用性。每個層面根據視頻表現來評分，總分6分。

1、【語義理解】視頻結果和Prompt的描述是否一致，一致得1分。

2、【圖像質量】圖像質量的考量包括清晰度、分辨率、色彩准確性和動態範圍，表現較佳得1分。

3、【物理邏輯】視頻內容符合基本的物理常識，得1分。

4、【一致性】保持物體和場景的一致性和連續性，得1分。

5、【風格創意】畫面有風格或創意，得1分。

6、【易用性】產品體驗友好，得1分。

以下評測基於我個人主觀判斷，結果僅供參考，有不同看法歡迎討論。

/ 02 / 測評結果和簡單分析

1、Gen-3 Alpha，綜合得分：4分

和上一代Gen-2相比，Gen-3 Alpha面對復雜指令的敏感度更高，能夠處理更復雜的場景。

從視頻畫面來看，Gen-3 Alpha整體控制得很好，具備很高的保真度，能夠生成逼真的人類角色和動態場景。

畫面准確展示了雙人舞動的動態、東京街頭紛飛的雪景，質感很接近影視效果，在畫面紋理、鏡頭視角控制等方面的表現也很突出。

在風格和創意上，Gen-3 Alpha明顯超越其他AI視頻，風格堪稱大片級。

值得注意的是，Gen-3 Alpha在物理邏輯上存在瑕疵，比如，第1題中的人物在跳舞時手部動作相對失真；同時，女人在跳舞轉身後，腦袋上出現了男人的臉，bug明顯。

易用性方面， Gen-3 Alpha可以進行細節控制，支持多種視頻生成和控制工具。現在Runaway已將Gen-3 Alpha开放給所有C端用戶，月費會員15美元，每月只能生成約60秒的視頻，相當於4s視頻就要消耗1美元。

2、 Dream Machine，綜合得分：4分

Dream Machine是Luma AI在6月中旬發布的產品，目前只能生成5秒的視頻，且生成的過程很漫長，但這不妨礙網友排隊用這個免費AI來二創梗圖的熱情。

從視頻畫面上看，除了第一個視頻沒有展示夜空外，Dream Machine的表現基本與Prompt的描述相符，勉強可以算合格，人物一致性也沒有問題。

圖像質量整體控制的不錯，Dream Machine在後兩個視頻也展示了其專業的拍攝角度，鏡頭模擬幾乎達到電影級水准。

美中不足的是，Dream Machine在物理邏輯上表現很差。無論是第一個視頻裏毫無美感的舞蹈，還是第三個視頻裏怪異的走路姿勢，都說明Dream Machine當下很難理解物理邏輯，甚至連簡單動作的動態輸出都有問題。

在使用便利性上，用戶只需前往官網點擊“Try Now”按鈕，按要求登錄谷歌账號，然後在提示欄中輸入文字或圖片，靜靜等待即可。如果用戶一時半會想不到提示詞，還可以在系統預先准備的六條中進行選擇，十分好操作。

3、 Genmo，綜合得分：2分

作爲去年11月發布的一款免費AI視頻工具，Genmo的表現就相對遜色許多。

先說語義理解，就基本不合格。在第一個視頻裏，畫面顯示的是夕陽西下，日照金山，並不符合指令中“夜空下”的要求。而在第二個視頻裏，Genmo也完全沒有呈現Prompt裏的“白雪皚皚”和“下雪天”，反而把環境變成了粉色的櫻花。

在物理邏輯和一致性上，Genmo同樣表現不佳。這一點在其作答第1題時體現得很清晰，畫面开始女生的長頭發出現在男生的頭上，跳舞過程中，雙方的手在運動過程中也出現了多次瞬移。

要說優點，Genmo在圖像質量上的表現勉強合格，在第1題中做了比較多的光影渲染。易用方面，Genmo也做到了保姆級別，提供了直觀清晰的界面，不僅可以調整視頻片段的持續長度、平滑度、變化程度等，還可以模擬相機運動，比如進行畫面放大/縮小、順/逆時針旋轉、平移、傾斜等操作，簡化了視頻生成過程。

4、 Pika1.0，綜合得分：1分

說真的，烏鴉君對這款明星產品此次的表現非常失望。

首先，Pika很難理解復雜的指令。比如，Pika在第3題直接給我個大魚缸，甚至連“太空人”、“沙漠”等元素都不見了。同時，現在Pika只能生成3秒的視頻，是參評工具生成的視頻中最短的。

在畫面質量上，無論是東京雪景還是雙人舞蹈，紋理較差，Pika的畫面都簡陋得像動畫建模的初學作品。

另外，Pika在物理邏輯和一致性上也同樣存在問題，例如第1題中的人物動作模糊、肢體粘連，人物的臉部沒有細節，甚至右側的男生在跳舞時就幹脆一動不動，像個木頭人。

Pika唯一的優勢在於，創作相對方便，單次文生成視頻的過程大約消耗30s，算是比較快的。用戶可以選擇視頻尺寸和幀率，並對鏡頭的運動方向和物體的運動速度進行控制。今年3月，Pika還上线了無縫生成音效的Sound Effects功能，提高了工具便捷性。

5、 PixVerse，綜合得分：4分

由字節前視覺技術負責人王長虎創立的愛詩科技，在今年1月推出了PixVerse。到今年3月，PixVerse的月訪問量超百萬。PixVerse基本能夠准確理解Prompt的意思，並給出相應的畫面。

從視頻質量上來看，PixVerse始終表現得很穩定，畫面整體和諧，也不乏亮點。比如，作答第3題時，PixVerse生成的視頻出現大多數AI視頻裏沒有的運動鏡頭，而背景畫面依舊保持着較高的質量。

另外，PixVerse也很擅長對人物面部細節的刻畫，第3題的視頻中，太空人擁有“緊皺的眉頭”和“思索的神情”，看起來十分靈動。

不足的地方在於，PixVerse幾乎沒有任何人物動作的畫面。在第1題中，除了手部輕微的動作外，根本看不到任何舞蹈的動作，而且女人似乎也只有一只腿。而且，在第2題中，PixVerse生成視頻的行人走路動作也相對模糊，說明其在物理邏輯存在問題。

易用性方面，PixVerse的“Upscale”功能，讓用戶不用花錢，就能提高視頻分辨率。用戶也可以瀏覽熱門作品，查看它們的詳細參數信息，包括關鍵詞、種子、畫面的縱橫比、運動幅度、風格以及原始圖片，學習和模仿優秀作品。

6、可靈，綜合得分：5分

快手推出的可靈大模型採用了與Sora相似的技術路线。從視頻畫面來看，可靈的表現非常穩定，能准確完成指令，整段30秒視頻沒有出現太大的偏差，只是遺漏了第2題中的“飄雪”指令。

可靈的畫面質量超出了我的預期。它對樹木、星空、雪景等自然景觀模擬得很到位，還在第2題中努力做出人臉等細節，看得出可靈是想做出接近實拍的效果，它的一致性也沒什么問題。在風格和創意方面，與其他AI中較誇張的動漫、電影藝術風格相比，可靈的實拍風格算是獨樹一幟。

但是，可靈在理解物理世界方面仍然存在一些小瑕疵。例如，第1題中的女孩在跳舞擡腿動作時，出現了模糊和瞬移，不過相比其他模型，可靈在物理理解上的表現得算是優秀了。

在易用性方面，可靈的優勢比較明顯，它現在有了更加清晰的高畫質版，以及首尾幀控制、鏡頭控制等新功能，且創作者單次生成的文生視頻時長增加至10秒，官方還上线了加快生成模式，提供給會員使用。

7、即夢，綜合得分：4分

即夢是抖音前CEO張楠親自掛帥的剪映所推出的產品，它在時長上比別的AI要高一截，單次可以生成12秒視頻，是這次參評工具中最長的。

即夢基本能准確識別Prompt中的關鍵詞；畫面質量，比較細膩。

例如，第2題中的東京街景描畫得非常優美。在風格創意方面，即夢也能做到讓人眼前一亮的效果，比如在第3題中，即夢對透明魚缸頭盔、宇航服的描畫很有科幻色彩。

與很多AI視頻模型一樣，對物理世界的理解是即夢的短板，完成運動幅度較大的視頻時，即夢會出現較爲明顯的崩壞，例如作答第1題時的表現。從一致性上來看，即夢也存在問題，比如第2題的東京街頭，不少人在轉身之後都出現了另一張臉。

在易用性方面，即夢視頻支持各種變焦、搖鏡等運鏡控制，還有更多的尺寸選擇，操作上也很簡單，非常適合愛玩視頻的抖友們。

/ 03 / 最終的測試結果：

高分組：可靈