《復仇者聯盟》導演喬·羅素曾表示,他相信終有一天AI可以自己生成一部電影。
放在以前你可能覺得這是天方夜譚,因爲一部影片的制作是一個上百人的團隊共同合作的結果。一個小小的AI怎么可能代替上百人,真要那樣的話大導演們都直接原地退休了!
但是經過這段時間AI技術的衝擊,不少人已經被刷新了認知。AI能做的事,遠遠超過人們能想象的,包括制作一部電影。
社交巨頭Meta最新發布的AI技術,讓我們離AI電影又近了一步。
Emu Video和Emu Edit
OpenAI之前發布的全新DALL-E 3文生圖引擎,已經讓我們驚嘆。更別說後來的文本轉語音模型,以及能夠實時語音對話的ChatGPT。
但是Meta最新發布的AI技術,顛覆了我們對AI生成內容的固有認知。
Meta發布的新AI技術涉及內容編輯和生成,並推出了兩款全新的AI模型——Emu Video和Emu Edit。Emu Video 採用的是Meta之前發布的Emu模型,能夠基於文本和圖像輸入生成視頻剪輯。而Emu Edit則主要用於圖像處理,用Meta自己的話來說,Emu Edit比之前的圖像編輯更精確,更好用。
雖然目前兩款模型仍在研究开發階段,但是Meta對其有着充足的信心,他們認爲這將對影視創作者、藝術家甚至是插畫師都有巨大的應用潛力。
根據Meta官方描述,Emu Video 採用了“分解式”訓練方法,將訓練過程分爲兩步,使模型能夠對不同輸入做出響應。
AI模型將生成過程分成兩步:首先根據文本提示生成圖像,然後根據文本和生成的圖像生成視頻。這種“分解式”或分步的視頻生成方法讓模型能夠高效地訓練視頻生成模型。
舉例來說,給定一個標題(例如“一只狗跑過草地小丘”)、圖像或照片以及描述,Emu Video 可以生成一個四秒的動畫剪輯視頻。別看只有四秒,但是它是一段擁有512×512像素,每秒16幀的高質量視頻。
來源:Meta
Emu Edit專注於圖像處理,用戶可以用它來去除或添加圖像背景、執行色彩和幾何變換,以及對圖像進行局部和全局編輯。Meta認爲,模型的主要目標不應僅僅是產生一個“可信”的圖像。相反,模型應專注於精確地改變與編輯請求相關的像素。
據了解,Meta使用了計算機視覺任務來訓練Emu Edit。訓練用的數據集包括 1000 萬張合成圖像,每張圖像都有輸入圖像、任務描述以及目標輸出圖像。用他們的話說,這是迄今爲止同類中最大的數據集。
而在此之前,Meta的CEO馬克扎克伯格發布Emu模型時就談到,用來訓練該模型的數據高達11億條,其中包括Facebook 和 Instagram 用戶分享的照片和標題。
先進,但並不完美
不能否認,Emu Video和Emu Edit的出現,確實是行業的一大進步。但別看Meta把這兩個模型吹得神乎其神,他們也不是完美的,一些匪夷所思的現象仍然存在。
在生成的一些視頻裏面,就有明顯奇怪的物理現象(例如平行於地面移動的滑板)和怪異的附肢(腳趾卷曲在腳後和腿相互融合)。物體的出現和消失也常常沒有太多邏輯,就像埃菲爾鐵塔片段中頭頂上的鳥兒一樣。
來源:Meta
其次,剪輯中的主題並沒有起多大的作用。據了解,這可能是模型基礎架構的限制原因,導致了Emu Video 似乎對動作動詞沒有很強的把握。
例如,一只可愛的擬人化浣熊會拿着一把吉他,但它不會彈奏吉他 - 即使剪輯的標題包含“彈奏”一詞。或者兩只獨角獸會“下”國際象棋,但它們只是好奇地坐在棋盤前但卻不移動棋子。
來源:Meta
結語
說回漫威。AI生成視頻引發最大爭議的,是之前一部漫威的劇集——《祕密入侵》。這部劇集的片頭一出來,給人一種很怪異的感覺。當時就有人稱,這個片頭使用AI生成的。隨着傳聞發酵,幕後工作室承認他們在制作時用到了文生圖模型Midjourney。消息一經發布,立刻引起了業內人士和部分民衆的強烈抗議。
來源:網絡
就在這件事不久之後,好萊塢史上持續時間最長,規模最大的演員和編劇罷工潮开始。罷工的原因之一,就是生成式AI在影視工作中,威脅到了人類的地位。
來源:網絡
目前,好萊塢已經同演員工會和編劇工會達成協議,罷工告一段落。但是照現在AI技術的速度,取代人工剪輯師,似乎並不是多么遙遠的事。到時,業界又會做出何種反應?
如果一部電影,從劇本到制作,全都由AI來操作。你會選擇去電影院看嗎?
標題:看見未來!Meta這項最新的AI技術,讓我們離AI電影又近了一步
地址:https://www.utechfun.com/post/293770.html