Sora之後，視頻生成模型的中國牌局

2024-12-12 18:40:33 編輯： robot

導讀 Sora，自2月16日OpenAI發布後一直被吐槽是“技術期貨”，終於在12月10日，正式版Sora露面了，可以生成最高 1080p 分辨率、最長 20 秒的視頻。 OpenAI CEO奧特曼稱，S...

Sora，自2月16日OpenAI發布後一直被吐槽是“技術期貨”，終於在12月10日，正式版Sora露面了，可以生成最高 1080p 分辨率、最長 20 秒的視頻。

OpenAI CEO奧特曼稱，Sora正式版是視頻生成領域的GPT-1時刻。

但國內AI企業，並沒有像跟進GPT時期一樣，在視頻生成領域也與OpenAI保持同步，而是呈現出更復雜的態度。

有人選擇跟進，比如Sora問世之後，互聯網公司如阿裏、字節跳動、快手、騰訊等，AI公司如智譜AI、MiniMax、愛詩科技、生數科技等，都陸續發布了視頻生成模型，不少都表示達到或超越了預覽版Sora。

也有人選擇不跟進，包括互聯網公司中的百度，李彥宏曾明確表示，“無論Sora多么火爆百度都不去做”。AI公司如百川智能，也明確表示不會做類Sora模型，月之暗面、商湯科技、零一萬物雖然都有文生視頻模型，但都不作爲重點。

視頻生成賽道，不再延續GPT時代的發展模式，即OpenAI打出一張王牌，國內科技企業搶着要跟。Sora之後，國內AI牌局开始有了自己的節奏，也呈現出更爲復雜的局勢。

有能力做通用基礎大模型的國內科技公司，在技術路线、商業前景等判斷上，开始出現明顯分野。我們就從國內企業跟進Sora的選擇與否，聊聊視頻生成的中國牌局。

首先我們要明確一下，國內對標Sora模型的科技公司，到底在做什么？

簡單來說，Sora視頻生成模型的核心技術路线是Diffusion+Transformer相結合，通過文本（自然語言）、圖片、視頻作爲提示詞prompts進行視頻生成。

對標Sora的模型，至少要具備幾個特點：

1.通用性，不針對某一類風格、行業、角色等，任意內容的視頻都可以生成。

2.高質量，畫質精度高（達到1080p）、視頻時間長（最長達一分鐘）、畫面一致性強（理解物理規律）。

面對Sora，國內科技企業不像ChatGPT推出時那樣毫無准備。但到底跟or不跟，卻不再像ChatGPT那樣高度一致，而是分化成了三類：

第一類，明確跟進。

互聯網公司陣營中，以視頻爲核心業務的字節跳動、快手等，以及綜合科技公司騰訊，數字基建成熟，技術人才資源充沛，內部有視頻產品基因，幾乎第一時間選擇了跟進。字節跳動推出了即夢Dreamnia，快手也發布了可靈大模型。騰訊以混元大模型作爲核心，發布並开源了混元多模態生成模型，被認爲是騰訊版Sora。

大模型初創企業中，智譜AI的行動最爲敏捷，今年7月發布了AI視頻生成工具清影，支持用戶通過文本/圖片，生成10秒、4K、60幀視頻。MiniMax的海螺AI也在十月增加了視頻生成能力，支持文本提示詞生成6秒視頻片段。

第二類，堅決不跟。

與第一類企業的態度截然相反，互聯網公司和大模型創企中也有堅決不跟Sora的。比如Sora問世之後，百川智能的王小川就表示，團隊有人提出要做Sora，但他明確表態稱不會跟進這個方向。

同樣想法的還有百度李彥宏，盡管百度已經在視頻生成領域取得了一定的成果，但他不做Sora的態度也非常堅決，原因是Sora的商業化可能要五年甚至十年，目前百度更聚焦在大語言模型、多模態大模型，沒有類Sora的產品化嘗試。

第三類，淺嘗輒止。

除此之外，還有大量國內企業對於Sora，出於FOMO“恐懼錯過”心理有所布局，但並不重點投入，處於一種淺嘗輒止的狀態。

比如阿裏系中的阿裏媽媽團隊發布了tomoVideo，試水電商營銷的視頻生成場景；“大模型六小虎”中，月之暗面也推出了視頻生成模型，但仍聚焦在kimi產品上；零一萬物入局B端業務，而視頻生成模型面向的影視制作行業正處於調整期，類Sora產品也很難成爲核心增長點。

總結一下，如果說全球大模型是一場“鬥地主”，那么遊戲規則不再是OpenAI打出一張王炸，國內科技公司紛紛跟上，而是各自按照自己手裏的牌面、業務重要性和優先級，來確定Sora的出牌策略。

爲什么到了Sora，大模型行業的遊戲規則就變了？

國內科技企業的表現說明，對於Sora存在非共識，整體還是比較混亂、規則模糊的階段。迷霧中的領域，遊戲規則自然只能自行探索。

如今視頻生成領域的現狀，籠罩着三重迷霧。

技術迷霧：OpenAl認爲Sora是世界模擬器、通往AGl的一條有前途的途徑，這一技術路线目前存在不少爭議。

比如李飛飛、lecun等人認爲，Sora不能實現AGI。李飛飛提出，Sora仍是二維圖像，只有三維空間智能才能實現AGI。Sora預覽版展示的“日本女性走過霓虹閃爍東京街頭”的生成視頻，就無法把攝像機放在女子背後，說明Sora並沒有真的理解三維世界。學術大神Lecun也點名不看好Sora，說它根本不是真正的世界模型，並且仍會面臨GPT4的巨大瓶頸。

確實，即使是正式版Sora，生成的手部細節不准確，動態過程中的一致性等問題，依然存在。

而國內公司堅定不跟進Sora的原因之一，也是對這一技術路线保留意見。比如百川智能的王小川就認爲，Sora只是階段性產物，技術高度、突破性以及應用價值均不及GPT。總之，實現AGI、模擬物理世界的技術路线的开放性，決定了Sora並非唯一解。

商業迷霧：視頻生成模型的商用前景、投資回報比，在短期內都不明朗，成爲勸退國內企業的另一重阻礙。

預覽版和正式版Sora，都延續了OpenAI的“暴力美學”，OpenAI 研究科學家 Noam Brown 表示，Sora是scale力量最直觀的展示，也就是通過堆算力、對數據、對參數量的方式，來嘗試讓大模型湧現出理解物理世界的能力。這種方法成本高、資源投入大。是否跟進Sora，就取決於各家對模型的商用預期和投資回報比。

如果視頻生成模型面向ToB收費，通過API或SaaS服務，都需要基礎模型廠商投入大量人力去優化業務流程、开發交互頁面，而影視行業正處於調整周期，AI影視制作業務的增長有限。這就在無形中增加了AI企業的機會成本，因爲同樣的人力、物力、算力，投入到金融AI、教育AI、大型政企等領域，顯然收效更大。所以，百度、零一萬物等公司，都將視頻生成領域作爲邊緣業務，並不重點投入。

而ToC場景中，一方面個人付費意愿不高，視頻生成並不是大衆日常使用的高頻場景，而且生成成本和訂閱費一般都比文本模型高，加上Sora模型都沒能解決幻覺、一致性難題，未必能創造實際價值，所以C端付費規模十分有限。另一方面，模型完全免費，把視頻生成模型產品作爲企業的流量入口，這一商業模式只適合將視頻作爲核心業務的企業。

比如快手、字節跳動，本身就有核心的視頻業務，可以快速實現模型的規模化。面向C端用戶或B端生產力工具，這類企業能夠快速將視頻生成能力與現有產品進行集成與整合，模型研發的邊際成本是會隨着規模商用而下降的。

整體來看，對國內絕大多數基礎模廠，視頻生成領域都是一個相對邊緣、投資回報比不高的業務。

第三重迷霧，就是市場格局的競爭迷霧。

雖然視頻生成模型現在商業前景不明，但有沒有可能以後會爆發，企業悄悄投入然後驚豔所有人？這種押注邊緣賽道“撿大漏”的商業神話，在大模型身上恐怕很難發生。

當前，大模型的產品化、商業化前景普遍比較模糊，通用模型廠商都需要盡快從一大堆不甚明朗的產品中，選出一個更高成功概率和更大市場潛力的選項，重點投入。而在所有產品中，視頻生成模型是一個尤爲沉重且具有挑战性的項目。這種情況下，肯定要優先考慮成功率更高的產品，降低視頻生成模型的業務優先級。

換一個角度，即便企業將視頻生成模型的優先級放到最高，恐怕也很難建立起競爭優勢。因爲當前大模型的市場競爭情況跟GPT時期不太一樣，如今各家在基礎訓練設施、核心架構設計與技術儲備等方面都有了一定積累，復現Sora並上线類Sora應用的技術壁壘，其實沒有ChatGPT時期那么難了。這也意味着，即使企業先發布了視頻生成模型，也未必能長期保持競爭優勢和市場壟斷地位，這種競爭態勢也削弱了Sora的商業想象空間。

技術迷霧、商業迷霧、競爭迷霧，仍然籠罩在視頻生成領域，導致Sora這一場牌局有着太多的不確定，和太多可能。哪種理解是對的，哪條路线是最終贏家，目前都言之過早，各家只能按照自己的遊戲規則玩下去。

大模型技術必須繼續發展下去，但從Sora开始，國內科技企業不再緊跟着OpenAI亦步亦趨，开始有了自己的節奏感。

具體表現在，對於Sora這樣一鳴驚人的新東西，國內企業在大模型產品化、商業化上都有了自己的理解與思考，开始自己定義玩法，跟進Sora展現的是實力，不跟進Sora展現的是心態與战略定力。

此外，不一味跟進產品，但OpenAI的敘事能力仍然值得學習。

無論是2月用Sora搶走谷歌風頭，還是近期Sora正式上线，OpenAI總能一次次帶動節奏、設置議題、吸引關注，這對於資本密集型AI企業是非常重要的能力。

可以不跟進Sora，但不能遺漏關鍵技術。

以百度爲例，雖然沒有推出Sora產品的計劃，但自身也沒有缺席關鍵技術，比如自研了多模態可控生圖技術，能夠在保持實體特徵不變的情況下，實現圖像的高泛化生成，而可控性的提升，恰恰是視頻生成下一階段核心中的核心。此外，百度也沒有完全無視視頻生成領域，目前投資了視頻生成初創公司生數科技、AI視頻短劇公司井英科技等。

聚焦主賽道，以自身核心業務、商業優先級等多元因素來確定追趕Sora的輕重緩急。大模型的牌局，國內企業正在找到自己的節奏感。

原文標題 : Sora之後，視頻生成模型的中國牌局

標題：Sora之後，視頻生成模型的中國牌局

地址：https://www.utechfun.com/post/453787.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤： AI Sora 視頻生成模型

上一篇:2024年我國電子競技用戶規模爲4.9億人同比增長0.42%

下一篇:硬件爲王的聯想，能做好智能體嗎？

您現在的位置：首頁人工智能

Sora之後，視頻生成模型的中國牌局

猜你喜歡

您現在的位置： 首頁 人工智能

猜你喜歡

您現在的位置：首頁人工智能