踢开AGI大門！Sora會讓世界成爲“太虛幻境”嗎？

2024-02-20 18:40:20 編輯： robot

導讀假作真時真亦假，如夢如幻。就在前幾天，OpenAI發布了文生視頻工具Sora，盡管這並非行業首創，但作爲AGI的“开宗立派”者的旗艦產品，Sora依然震撼了科技產業。除了引爆科技圈熱議外，媒體、文...

假作真時真亦假，如夢如幻。

就在前幾天，OpenAI發布了文生視頻工具Sora，盡管這並非行業首創，但作爲AGI的“开宗立派”者的旗艦產品，Sora依然震撼了科技產業。除了引爆科技圈熱議外，媒體、文娛等等相關產業均對Sora高度關注，更有消息稱“开工第一天，所有VC都在开會討論Sora”。

Sora從技術上迎來了全面革新，比如說，它能實現長達1分鐘的視頻內容創作，也能根據需要制作長鏡頭內容，還能根據不同角色的情感給出不同的鏡頭語言。如果最終發布的產品的能力，真如視頻Demo這般強大，Sora將對流水线制作模式的影視團隊帶來一些衝擊。

馬斯克也在個人社交平台當中銳評道：“gg humans（人類愿賭服輸）”。

（圖源：X）

不過，Sora仍在測試階段，距離其真正投入使用還有一段時間。鑑於AIGC行業存在“Demo過度”的情況（比如Google Gemini發布會的演示就被揭露造假了），因此Sora發布版到底表現如何還有待體驗。至於Sora能否真正引發行業變革甚至像一些媒體危言聳聽宣稱的“顛覆世界，消滅XX”，其實也還是未知數。

史上最強AI視頻工具，到底有何突破？

Sora的最大突破在於能夠根據文本描述生成一段長達60秒的視頻內容，此前，世界記錄的保持者爲Runway的Gen-2，最高能創作時長爲16秒的視頻。但Sora並不是一個純粹的視頻生成工具。

（圖源：Sora）

在OpenAI公开的技術性報告中，Sora的真實身份被揭曉：底層是一個擴散Transformer模型，相較於傳統的基於二維模型的文生視頻產品而言，Sora具有對現實世界物理規律的感知，對於如何生成一段「逼真」的視頻，有深刻的自主意識。

OpenAI在Sora的官方網站中放出了多條演示視頻，其中一段兩只海盜船在咖啡杯中翻湧的視頻，展現出Sora對液體的狀態、船只的物理形態、運動軌跡的判斷多維度的理解。

（圖源：Sora）

此外，Sora還能產生多個角色、特定類型運動以及主體背景豐富細節等多種復雜場景的視頻，即便用戶沒有描述這些特定場景的細節，Sora依然能夠理解並准確生成。比如說，當你需要一個描述爲「晚宴」的視頻內容時，Sora並不會止步於饕客們將美食一掃而光的過程與結果，而是會將每一個動作所留下來的痕跡得以保留：咬了一口的漢堡，就會有咬過的痕跡。

事實上，Sora的成功離不开OpenAI公司前兩款產品的經驗積累，那就是2021年初、2022年末分別推出的圖像生成工具DALL.E與自然語言大模型工具ChatGPT，通過它們，Sora獲得了對文字描述的理解與圖像數據處理的能力。

（圖源：Sora）

更重要的是，OpenAI爲Sora引入了視覺塊嵌入式代碼，即pathces，你也可以將其理解爲LLM裏的tokens，這些pathces就像是一個又一個包含了時間、空間信息的積木塊，Sora能夠更快速地從中找到所需的素材，爲創作者生成視頻。此外，這些pathces也能幫助Sora完成高速的自主學習。

Sora還能接受圖片和視頻輸入，生成新的創意視頻，又或是根據描述生成多達五個分鏡頭，包含人物表情特寫、動作特寫、場景等。這只是目前爲止我們能看到的Sora具備的能力，正如前面所提到，Sora是一個擴散Transformer模型，其與生俱來的學習能力才是讓人敬畏的關鍵所在。

很可惜，現階段的Sora也存在一些問題，例如空間、方位的細節。在官方演示視頻裏，展示了反向跑步的運動者、憑空出現的狼崽以及從杯底流出果汁的水杯等。

（圖源：Sora）

盡管仍有美中不足的地方，但Sora絕對稱得上是AI視頻的一大革命性突破——是真的革命性，而不是誇大其詞那種。

過於聰明的Sora，確實會讓人後背發涼？

在所有演示視頻中，最令人感到震撼的還是那段一對情侶漫步東京的短片。

（圖源：Sora）

Sora通過對現實空間的精確識別，創作出帶有動態視角變化的視頻內容，視頻中，人物、背景都在立體三維空間內移動，就像真實的影片創作一樣。

作爲一個文本視頻生成工具，Sora似乎有些過於「聰明」了，它的到來，也不禁讓人對AI在未來的發展產生更多思考。

全球化人工智能企業APUS董事長兼CEO李濤先生認爲，Sora的橫空出世，帶來了三個問題：

1、打造無限逼近真實的場景。

正如我們前面提到，Sora擁有現實世界的「意識」，這意味着它構建的內容基本都會遵循真實存在的物理規律，而這種「虛擬」在未來只會更加「逼真」，這也讓我們不禁思考：在AI時代，我們應該如何定義和理解真實與虛擬。

這讓雷科技想到了曹雪芹《紅樓夢》第一回的這樣一段：

士隱接了看時，原來是塊鮮明美玉，上面字跡分明，鐫着“通靈寶玉”四字，後面還有幾行小字。正欲細看時，那僧便說“已到幻境”，便強從手中奪了去，與道人竟過一大石牌坊，上書四個大字，乃是“太虛幻境”。兩邊又有一幅對聯，道是：

假作真時真亦假，無爲有處有還無。

Sora的出現，讓真實世界與虛擬世界的邊界一下變得模糊，在如夢如幻的“太虛幻境”，真假難辨，將給人類帶來許多困惑。對此，人類必須要想法來應對。

2、學習能力高度類人。

Sora與之前問世的文本視頻生成工具不太一樣，它具備高度模擬能力與學習能力，而作爲一個有自主學習能力的「模擬器」，參考ChatGPT從3.5到4.0的進化速度，是否可以大膽預測，Sora很快就會成爲類人的智能，不光學習速度快，反應能力與反應速度甚至可以超越人類。

3、算力之上芯片落後。

每一個深度學習的人工智能模型，都離不开背後強大算力的支持，Sora亦是如此。如今，中國人工智能所擁有的能力遠遠落後於此，算力的局限無疑是制約我國AI發展的重要因素之一。因此，加強芯片研發、提升算力水平，是我國人工智能發展的當務之急。

Sora仍在測試階段，我們仍有時間在短期時間內嘗試駕馭它、了解它，同時繼續在芯片端鞏固地位，爲AI提供更強大的底層硬件支持。

AI時代落幕，Sora叩开了AGI世界的大門

在Sora問世之後，馬斯克急得像熱鍋上的螞蟻，只因Sora是當下最接近AGI概念的產品，而AGI又是馬斯克心心念念的藍海市場。

AGI，即Artificial General Intelligence，又稱人工通用智能，是指能夠完全模仿人類情感、行爲，實現自我學習、自我改進、自我修正的智能計算機系統。盡管Sora當前只展示了其在視頻，又或是內容創作上的能力，但其對於真實世界的理解，已經展現出強悍的實力。

（圖源：Sora）

爲什么三六零周鴻禕說Sora讓AGI時代到來的時間從十年縮短至一年？歸根結底就是對現實世界的理解能力。AGI最大的特點在於對真實世界的規則，尤其是物理狀態、自然規律、化學變化等等因素的反饋。Sora雖然只在內容創作上帶來幫助，但誰能確保經過足夠的訓練，OpenAI不會基於此推出真正意義上的AGI產品呢？

周鴻禕在見證Sora誕生後表示，Sora有別於其他文本視頻生成工具，它能理解坦克是有巨大衝擊力的，坦克能夠衝毀汽車，而不會出現汽車撞毀坦克這樣的事情發生。同時，他還認爲，Sora只是OpenAI小試牛刀的產品，真正的好戲還在後頭。

（圖源：微博）

這並非空穴來風，早在去年10月，路透社就曾報道OpenAI已經參與投資至少三家半導體設計公司，其中Cerebras更是一家初創型企業。OpenAI CEO Altman曾公开表示，其工作與產品仍需更多算力提供幫助，目前公司所使用的還遠遠不夠。除去已經投入運營的DALL.E和ChatGPT，以及測試中的Sora，或許還有真正屬於AGI時代的產品蓄勢待發。

2016年，Google旗下的AlphaGo战勝李世石讓深度學習被全世界關注，我們進入了深度學習驅動的AI時代，許多科技產品和傳統行業均被深度學習技術改變，這一階段也迎來了抖音、小紅書這樣的AI驅動的世界級產品的崛起。

2023年兔年开工，全世界沉浸在 ChatGPT 帶來的 AGI（通用型人工智能）的震撼之中，一年之後的今天，Sora再度震撼人類，且是更大的震撼，見過大世面的人類就像原始人發現火種一般激動不已。

毫無疑問，一個嶄新的AGI時代的序幕已經緩緩拉开，一個新的智能時代已然到來。或許Sora不一定取代影像工作者，但Sora背後的AGI技術，一定會重構科技產業的秩序，催生抖音這樣的世界級產品，賦予人類全新的工具和力量，這一切，都是如此振奮人心。