Sora配得上一句「遙遙領先」嗎？

2024-02-21 18:40:19 編輯： robot

導讀 Sora沒有讓「現實不存在了」，畢竟現實中的槓精依舊存在。文 | 佘宗明 Sora+蘋果頭顯VisionPro+腦機接口=？這注定是個沒有標准答案的問題。在e/acc（有效加速主義）思維中，答...

Sora沒有讓「現實不存在了」，畢竟現實中的槓精依舊存在。

文 | 佘宗明

Sora+蘋果頭顯VisionPro+腦機接口=？

這注定是個沒有標准答案的問題。

在e/acc（有效加速主義）思維中，答案也許是「顛覆」「革命」「iPhone時刻」等大詞不夠用，「未來已來」的既視感愈發強烈。

在EA（有效利他主義）視角裏，這可能意味着風險連着風險：深度僞造、後真相，意念失控、腦波異樣……

擔心「被AI替代」、熱議「××行業已死」，成了Sora在輿論場激起的鏈式反應。震驚體和重磅發布體標題堆砌，則成了自媒體蹭熱點的標准姿勢。

在網上，還有些YY達人用腦補那些難以描述畫面的方式，代償着《完蛋！我被美女包圍了》玩完後的意猶未盡：戴上VR眼鏡，就能觀看由自己意念發出的Prompt（提示詞）生成的小視頻，男主角是自己，女主角是劉亦菲楊冪劉詩詩熱巴……

▲從Sora生成的視頻中，可以看到女子眼部的細節變化。

雖然打开方式各異，但現實中，大多數人終究是承認「二向箔原產地供應商」OpenAI的優秀的：去年初ChatGPT爆火帶來的AI大模型熱余溫猶在，今年初文生視頻大模型Sora又將AIGC推向新裏程碑，怎一個「了得」二字了得？

饒是如此，仍有不少人對「开年王炸中的王炸」Sora翻起了白眼——他們手裏拿着DAO、DeFi、NFT、Crypto的概念合訂本，准備在上面再加個「Sora」。

每場技術變革，都是在被質疑中擴散开來的，「泡沫論」幾乎是每個風口都揮不去的陰影。

只不過，對Sora的質疑裏，還摻雜了更爲復雜的情緒配方。這類情緒配方，跟「大國技術差距」的對照關聯，也被民族情緒托起的某種力場強化。

這番景象，讓慣於自己打倒自己的胡錫進都有些坐不住。

在ChatGPT剛問世時，面對「胡錫進要被替代」的調侃，他還能調侃着回應「老胡不依附任何時髦的東西」。

到了Sora問世時，面對Sora「不代表什么」的論調，他怒斥這是「睜着眼睛硬說」「太不負責任」「給廣大網民們灌迷魂湯」，還感慨：最可怕的是我們不敢面對問題，在一切都OK甚至很好的自我安慰和陶醉中，變得麻木。

挺耐人尋味的。

盡管總有「新工業革命」之類的強衝擊字眼蹦出來提醒人們：AI時代大幕已啓，人類離通用人工智能（AGI）又更近一步，ChatGPT和Sora面世都是標志性節點……可總有些從新盧德主義余燼裏竄出的「看空」話語，跟「看多」聲量形成對衝。

在盛產奇觀的簡中輿論場，把Sora看成「又一個Web3」「下一個元宇宙」的貶抑話語含量更是超標。很多人繡口一吐，就是一個「奇技淫巧」。

Sora明明憑着具備超長生成時間（60s）、單視頻多角度鏡頭、細節高度仿真、理解物理世界等優勢，實現了對同行的降維打擊，引得Runway、Pika Labs、Stable Video幾大競品都俯首稱臣。

▲谷歌今年1月發布的視頻模型Lumiere演示了圖生視頻案例，卻終究難逃被Sora豔壓的命運。

可他們卻微微一笑：無他，大力出奇跡爾。

Sora本是依托兩項核心技術突破的突破——Spacetime Patch（時空Patch）技術和Diffusion Transformer（擴散型 Transformer）架構。

可他們卻擺了擺手：這些技術又不新，全靠咱們謝賽寧。

你還想說些什么，他們甩出一堆翻車神圖：椅子漂浮、反向跑步、玻璃杯詭異碎裂……然後滿臉不屑地說：Sora也就比人工智障多走了幾步而已，它能用多個1分鐘視頻「拼」成2小時的電影嗎？不能。能表現影視劇中復雜的人物內心活動嗎？不能。能生成三維化虛擬世界讓人在裏面嗨嗎？不能。

▲Sora生成的視頻中出現了椅子懸浮的反物理學畫面。

很顯然，Sora沒有讓「現實不存在了」，畢竟現實中的槓精依舊在。

Sora當然沒有免於質疑的豁免權。

Sora引爆科技圈後，滿屏盛贊的同時就有許多質疑聲冒出來。

點贊的人很多。

馬斯克在X平台（原推特）上感慨：「GG Humans」「被人工智能增強的人類，將會在未來幾年之內創作出最傑出的作品。」之後又不無遺憾地透露：特斯拉早在1年前就掌握了類似OpenAI的視頻生成技術，它的真實世界模擬和視頻生成是全世界最好的，奈何受限於算力不足。

▲馬斯克在X平台上感慨：被人工智能增強的人類，將會在未來幾年之內創作出最傑出的作品。

在OpenAI推出Sora的當天（2月16日）宣布Stable Video Diffusion更新1.1版本後又刪除動態的AI視頻生成初創公司Stability AI CEO埃馬德·莫斯塔克在X平台上感嘆：「奧特曼（OpenAI創始人兼CEO）真是個魔術師」，並稱Sora可以被視爲AI視頻的GPT-3。

Runway的CEO克裏斯托瓦爾在X平台上發了句「Game On（比賽开始了）」。

Pika創始人郭文景表示:「我們覺得這是個很振奮人心的消息，我們已經在籌備，將直接對標Sora。」

英偉達高級研究科學家兼人工智能代理負責人Jim Fan認爲，Sora代表了文本生成視頻的 GPT-3 時刻。他斷言，「Sora 是個數據驅動的物理引擎……是個可學習的模擬器或世界模型」。

▲英偉達高級研究科學家Jim Fan認爲，Sora是個世界模型。

被譽爲「最懂DiT架構科學家」的謝賽寧說：Sora將改寫整個視頻生成領域。

360集團創始人周鴻禕更是據此預言，「AGI實現將從10年縮短到1年」。

質疑者也不乏其人。

Open AI自稱Sora是「世界模擬器」，可很多大神級科學家不答應。

圖靈獎得主、Facebook首席AI科學家楊立昆（Yann LeCun）怒斥，Sora不能理解物理世界。他還順勢安利了Meta前幾天推出的AI視頻模型 V-JEPA聯合嵌入預測架構的優越性。

▲楊立昆認爲，Sora並不能理解物理世界。

前谷歌、Facebook技術主管Hongcheng也表示：「AI模型不大可能通過被動看訓練數據視頻，就能掌握物理定律。」言下之意，再聰明的智能體，也不大可能通過看太陽東升西落的視頻，就能悟出地球圍着太陽轉。

谷歌AI研究員、Keras之父弗朗索瓦·肖萊分析，從Sora生成的部分視頻看，它是依賴於數據插值和潛空間拼貼來生成圖像，而不是真實的物理模擬。

在他看來，通過機器學習模型擬合大量數據點後形成的高維曲线（大曲线）在預測物理世界方面是存在局限的，因爲現實世界的復雜性和多樣性不是AI模型能夠通過有限數據就全部學習到的。

圍繞Sora到底是不是物理引擎、世界模型的爭論，估計一時半會無法止息。

Sora免不了被質疑，但質疑跟質疑也有區別。

人家爭論火箭推進器燃料用C2H4、N2H4、高級硼硅烷哪個好，終歸是科學範疇的討論，你在旁邊嚷着「得燒柴，最好是燒煤，煤還得精選，水洗煤不行」，就多少有些民科了。

目前看，網上已經冒出了很多大聰明，就在用「精選煤思維」看Sora。

秉持「蒸汽機不就是個活塞嗎」的簡化邏輯，他們一眼看穿了Sora的「本質」：不就是大力出奇跡嗎？

還有人順帶着拋出一張圖——「Web3.0，顛覆了時代；Houseclub，顛覆了時代；GoogleGlass，顛覆了時代；元宇宙，顛覆了時代……回頭一看，時代還是原樣」，硬生生將Sora問世的意義拉低到「造詞遊戲」的維度。

左一個「純屬徹頭徹尾的炒作」，又一個「一驚一乍沒出息」，他們就差來上一句「不過是奇技淫巧爾」了。

▲由Sora生成的「賽博朋克背景下機器人的生活故事」。

Sora的驚豔場面，他們選擇性無視；Sora的翻車畫面，他們拿着放大鏡看。

也不奇怪：用前現代思維理解現代技術的人，是難有從明天看今天的「明天觀」的，你跟他們說Sora可以像ChatGPT向GPT-4非线性跨越那樣快速進化，形同於雞同鴨講。

通用人工智能時代的大門都已經叩开了，他們卻站在門外不入，還哼着「全都是泡沫，只一剎的花火」。

跟他們說「中美科技差距又……」，更是碰到了他們的逆鱗。

事實上，在Sora問世後，「大國科技差距」的問題總是無法回避。

在ChatGPT引爆大模型軍備競賽後，中國出現了百模大战，不少國內大模型廠商都聲稱多項能力已經趕超ChatGPT。但OpenAI掏出「祕密武器」Sora，又讓許多人認清了現實。

周鴻禕就分析，中美間的AI差距還在擴大。

也有人認爲，差距有是有，但沒那么大。

如昆侖萬維CEO方漢就認爲，「國內廠商和國外廠商在文生視頻的差距，不像大模型領域的差距那么大。」從技術上看，Sora領先國內同行大概半年。

▲Sora跟其他多個視頻模型的區別。

差距是大是小，固然言人人殊，但首先得正視差距的存在。

現在的問題是，有些人習慣了錯把「順差」當「逆差」的思維意識中，對自媒體三天兩頭渲染的「光刻機大突破！」深信不疑，對「領跑-跟跑」角色錨定的差距卻視而不見。

華大基因CEO尹燁這兩天就撰文說：

如果把人類已經存在的語言、圖像、音頻、視頻等這些資料庫看成是人類文明的金礦，但是你已經有挖掘機了，我卻被限制只能用鐵鍬，長此以往會是什么樣的結果？

我們在芯片的問題上，可能犯了刻舟求劍的錯誤。比如總有一種聲音，認爲我們能夠突破14納米，甚至認爲如果我們能追趕到7納米，我們就會贏，但這個前提是我們的競爭對手就不進步了，就在原地等着。我並不是說，你追趕到14納米、7納米不重要，而是你要明白，競爭對手會在同樣的時間，實現3納米、2納米，甚至1納米。

我們可以在战略上藐視，但不能不在战術上重視……當下據不完全統計，國內號稱有大模型的公司，已經有300多家，相信大部分還是「多小散亂」，面對GPT在簡體中文的世界裏，似乎尚能一战，但面對Sora的橫空出世，可有一個能打的，甚至是接近的嗎？

說到底，縮短差距的前提，永遠是正視差距。

胡錫進之所以駁斥那些對准Sora的「奇技淫巧論」，究其原因大概就在於，諸如此類的頗具誤導性。

把ChatGPT或Sora的深遠影響降維，以維持「科技趕超」想象，只會是自我麻痹。到頭來，面對技術革命輕易轉過身去，沒准是跟正在到來的AI時代擦肩而過。

要知道，AI時代的技術演化不是匍匐向前的，而是跳躍式的——經常從一個斷層躍上另一個斷層。

眼下我們就已進入科技發展的「最後7分鐘（施拉姆語）」時刻。越是這時候，我們越不能搞「顱內閉關」。

就在過去1個月，全球科技圈發生了很多事：

1，英偉達（Nvidia）前不久發布了在本地運行的名爲「Chat with RTX」的Demo版個性化AI聊天機器人。高性能AI處理器的加持，會加速AI+N類終端浪潮的到來。

2，2月16日，谷歌發布Gemini1.5，上下文窗口長度擴展到100萬個tokens（GPT4-turbe12.8萬tokens），是目前最大的上下文窗口。這其中，Gemini1.5pro能一次處理1小時的視頻、11小時音頻、超3萬行的代碼庫、超70萬字的代碼庫。說出來的是「最大」，沒說出來的是「完爆GPT-4」。

3，2月17日，Meta推出了名爲「V-JEPA」的視頻預測模型。在此之前，Meta還推出了AI視頻模型Fairy。看得出來，楊立昆對Sora100個不服。

4，差不多1個月前，奧特曼的7萬億美元造芯計劃被曝出，旨在對標英偉達。從算力集群到芯片制造，奧特曼下了一盤很大的棋。

5，春節前，阿裏巴巴發布了通義千問大模型Qwen-1.5版本，涵蓋了6個不同參數規模的型號。節後伊始，OPPO、魅族都宣布，停止傳統智能手機研發，資源向AI手機集中。

毫無疑問，Sora的出現，也是大時代的注腳。

▲Sora根據Prompt提示生成的紙工藝品的海洋世界。

在此語境中，我們對Sora價值的認知鏡框，該是AI時代的背景框，而不是預設立場的思維框架。

2月19日，「天才少年」謝賽寧在朋友圈闢謠「謝賽寧是Sora發明者」之余，就拋出了一個問題：（大家）在問Sora爲什么沒出現在中國的同時，可能也得問問，假設真的出現了（可能很快），我們有沒有准備好？

目前看，答案一目了然：很多人都沒做好准備。

「沒做好准備」體現在很多方面。

比如，在硅碳融合的重要關口，在浪潮已來的關鍵節點，有些人依舊是拿着前現代的眼光看現代技術變革，依然是用狹隘思維看技術浪潮。

又如，AI產業發展需要依托於創新友好型生態和氛圍。拿AI視頻模型來說，它要拼工程化調參能力、拼算力，更要拼創新生態與創新土壤。唯有寬松包容的環境，才能更好地激發企業與人才創新的強勁活力、創造的內生動力。揆諸現實，如果說，缺芯是外部掣肘，那擺在企業面前的內部掣肘也不少。

科技觀察者王兆洋就假設：OpenAI不是transformer模型發明者，Stable Video不是diffusion模型發明者，如果它們誕生在中國，會不會也躲不過被罵「套殼」的命運？看到這，雷軍興許會溼了眼眶。

厄休拉·M. 富蘭克林在《技術的真相》裏說：「技術的發展和運用從一個社會結構中產生，然後被嫁接在這個結構之上。」

她認爲，「尺寸是生長的自然結果，但生長本身是不能被強取的，它只能通過提供一種適宜的環境而得到培育和鼓勵。生長是發生性的，不是制造出來的。」

某種程度上，「我們爲Sora的到來准備好了嗎」的孿生命題是：我們爲「Sora」的培育提供了適宜的社會結構了嗎？

Sora沒有說自己「遙遙領先」，但毋庸諱言，就眼下看，它配得上一句「遙遙領先」。

而彌補跟先行者的差距，靠的自然不是「人家OpenAI的Sora一路狂飆，我們199元的Sora名（割）師（韭菜）課鋪天蓋地」，而是做真正該做的事。

在Sora問世後，有人寫道：這意味着，未來的美國將更加美國，未來的中國將更加中國。

這句話的指向有很多，但最不該有的一個，是「差距Bigger Than Bigger」。