大力出奇跡。OpenAI最新發布的文生視頻大模型Sora,再一次驗證ChatGPT路线的成功:數據精確處理後大規模預訓練帶來的智能湧現。從官方演示視頻看,Sora能夠根據文本提示創建詳細的視頻,擴展現有視頻中的敘述以及從靜態圖像生成場景,最長能生成60秒視頻。一時間,Sora成爲OpenAI的新爆款,被全球追捧。馬斯克感嘆“人類愿賭服輸”,360集團創始人、董事長兼CEO周鴻禕預言“AGI實現將從10年縮短到1年”。但“XX已死,AI一夜變天”、“現實不存在了”、“這個行業要完蛋了”等兩極分化的觀點也瞬間充斥網絡。觀察各種討論和信息後,整理出10個信息點,作爲學習資料分享給大家。
1、爲什么叫Sora?有什么含義?
Sora這個名字取自日語單詞,意爲“天空”,引申含義還有“自由”。在Sora官網頁面,無數只紙飛機在自由飛翔,行動自主,最後匯集成一片天空的背景色。
此外,Sora這個詞在在韓語中表示海螺殼,在芬蘭語中表示砂礫,很容易讓人聯想到《海底兩萬裏》的鸚鵡螺號和科幻片《沙丘》。硅基立場提到,Sora在日語裏有時候會用作動詞,意思是“用心記,而不用看任何寫下來的材料”,變化出來的詞比如“Soranjiru”, そらんじる 的意思就是“remember by heart”,這不正是Sora的能力?官方說法是這樣,研究團隊成員蒂姆·布魯克斯和比爾·皮布爾斯介紹,選擇這個名字,是因爲它能“喚起無限的創造潛力”。
2、現實不存在了?Sora到底有多炸裂!
OpenAI官方網站貼出了Sora創作的東京街頭視頻。提示詞是:“美麗的、白雪皚皚的東京市,鏡頭穿過熙熙攘攘的城市街道,跟隨幾名行人享受美妙的雪天,有人在路邊小攤購物。絢麗的櫻花與雪花一起在風中飛舞。”
Sora制作的視頻另一個視頻根據如下提示詞產生:“幾只巨大的、毛茸茸的猛獁象,踩着白雪皚皚的地面走近,風吹動它們身上的長長毛發,遠處是白雪覆蓋的高大樹木和雄偉山脈,午後的光线營造出溫暖的光芒。”
Sora制作的猛獁象視頻/OpenAI由此可以看出,Sora讓“一句話(prompt)生成視頻”成爲可能。這種能力的震撼之處在於, Sora在模擬物理世界時,能夠更准確地反映出現實世界的復雜性和多樣性。有了提示詞,Sora就“知道”如何用鏡頭語言講故事。出門問問創始人兼CEO李志飛認爲,“視頻”作爲物理世界的映像,是世界模型渲染出來的結果。相比語言數據,通過視頻大數據學習到的模型是“模型的模型” ,同時學到了很多物理世界規律,讓模型更加逼近模擬物理世界。文本與視頻的區別在於,前者是理解人類的邏輯思維,後者在於理解物理世界。所以,視頻生成模型 Sora 如果能很好跟文本模型 LLM 融合,那它真有望成爲世界的通用模擬器。如果有一天,這樣的系統自己通過模擬駕車場景,學會了在城市復雜的交通環境下开車,人類也不會奇怪。不少從業者驚呼“現實不存在了”即是源於此。
3、Sora爲何被稱爲世界模擬器?
“文生視頻大模型”並不是一條全新的賽道。在Sora發布之前,Google、Stability AI等頭部大廠都擁有自己的文生視頻大模型。甚至誕生了垂直內容創作大模型的獨角獸,例如視頻生成大模型Gen-2的开發商Runway,在2023年6月底完成由Google、Nvidia等參與的C輪融資後,估值超過15億美元。但和ChatGPT的故事如出一轍,Sora登場就碾壓對手。在此之前,AI視頻生成領域的明星產品Runway和Pika,只能做3或4秒長的模糊視頻,角色形象也很扭曲,還得用戶輸入圖片。
主要視頻生成模型/技術對比(來源:東吳證券)OpenAI並未單純將Sora視爲視頻模型,而是作爲“世界模擬器”。它能像人一樣,理解坦克是有巨大衝擊力的,坦克能撞毀汽車,而不會出現“汽車撞毀坦克”這樣的情況,這就是“世界模型”的強大之處。Sora擁有三大關鍵特點:60秒超長長度、單視頻多角度鏡頭以及世界模型。其中,“世界模型”是指通過對真實物理世界的模擬,讓計算機可以像人類一樣全面、准確地“認知”世界。Sora背後擁有兩大技術革新:時空補丁(Spacetime Patch)技術和擴散型Transformer(Diffusion Transformer,簡稱DiT)架構。
OpenAI發現訓練計算量越大,樣本質量就會越高,特別是經過大規模訓練後,Sora展現出模擬現實世界某些屬性的“湧現”能力。雖然Sora在物理規則模擬方面仍然存在不足。例如,一段展示老奶奶吹蠟燭的視頻中,蠟燭並未隨風熄滅;另一段視頻中,玻璃杯從空中墜落卻未破裂,水卻已流出。但Sora的作品達到了驚人的高清照片級真實感,“運鏡”手法更令人難忘——圍繞同一主體實現遠景、中景、近景、特寫等不同鏡頭的切換。這已經表明,通過大量數據的分析,機器能夠推斷出一些物理世界的規則,這無疑是向現實世界模擬邁出的重要一步。值得一提的是,Sora所展現出來的“精准的物理世界還原能力”,也並不是OpenAI獨自探索的AI領域。“世界模型”最早是由圖靈獎得主、Meta首席科學家楊立昆(Yann LeCun)2023年6月提出。2023年12月,Runway宣布建造“通用世界模型”,用生成式AI模擬整個世界。馬斯克也稱,特斯拉掌握“精准還原現實世界物理規律的虛擬世界生成能力”快一年了。
4、Sora爲何能實現如此震撼的效果?
Sora模型基於Transformer架構,建立在DALL·E 3和GPT模型之上,使用文本到視頻的合成技術,按文本提示生成視頻。這種技術將自然語言轉換爲視覺表示形式——圖像或視頻。
OpenAI在官網展示Sora的生成邏輯深度神經網絡依然是Sora的基礎,它是一個帶有Transformer骨架的擴散(Diffusion)模型,AI從數據中學習並執行復雜的任務。Sora就是從“學習”的大型視頻數據集裏學會了各種風格、主題和流派。Transformer模型本質是一個編碼器-解碼器,輸入原始語言,生成目標語言。擴散模型的原理是先給數據添加高斯噪聲,再反向去除,從中恢復數據本貌。簡單粗暴地理解Sora的原理,就是翻譯器+搜索引擎+概率制作(內容)。
首先,拿到提示詞後,Sora先分析文本,提取關鍵字,比如主題、動作、地點、時間和情緒,再從它的數據集裏搜索與關鍵字匹配的、最合適的視頻。其次,Sora將數據集裏合適的視頻混合在一起,重新創建一個符合要求的視頻。在“創造”的過程中,它要“知道”場景中有哪些對象和角色,它們的外形,它們如何運動,對象如何交互,以及受到環境影響後如何表現。根據用戶的喜好,Sora會修改視頻的風格。假如用戶想要一個35毫米膠片樣式的視頻,Sora會調整效果,更改圖像的亮度、色彩和攝像機角度。這一點和Midjourney等“文生圖”應用類似。Sora可以生成分辨率1920x1080的視頻,也可以基於靜止圖片創建視頻,使用新素材擴展現有素材。比如用戶給它一張森林圖片,它可以幫你加上鳥、獸、人。給它一張汽車行駛圖,它能加上道路、交通燈、沿途建築物和風景。
Sora將兩段視頻結合後產生的奇幻景象/OpenAI
5、怎么理解Scaling Law(縮放定律)?
Sora和ChatGPT類似,是OpenAI的Scaling Law(縮放定律)的又一次成功:只要模型足夠“大”,根據特定算法,就會產生智能“湧現”的能力。大模型的Scaling Law是OpenAI在2020年提出的概念,不僅適用於語言模型,還適用於其他模態以及跨模態的任務。根據相關資料可以得到一個簡單介紹:Scaling Laws隨着模型大小、數據集大小和用於訓練的計算浮點數的增加,模型的性能會提高。並且爲了獲得最佳性能,所有三個因素必須同時放大。當不受其他兩個因素的制約時,模型性能與每個單獨的因素都有冪律關系。GPT-4報告中,明確指出:The results on the 3rd easiest bucket are shown in Figure 2, showing that the resulting predictions were very accurate for this subset of HumanEval problems where we can accurately estimate log(pass_rate) for several smaller models.
在第3簡單的23個代碼問題上的性能預測簡單翻譯一下,GPT-4在這23個問題上的性能預測,可以通過比GPT-4小1000倍的模型預測得來。也就是說GPT-4還沒开始訓練,它在這23個問題上的性能就已經知道了。可以跳過上述學術描述,直接理解爲,Scaling Laws對於大模型的訓練很重要!硅基立場認爲,Scaling Laws正在快速變成一種路线,充滿OpenAI領導者Altman的意志,也正變成這家公司的核心战略。
6、Sora團隊有何“天才”之處?
根據OpenAI官網介紹,Sora核心團隊共有15人,而從公开資料顯示的畢業和入職時間來看,這支團隊的成立時間尚未超過1年。
除了由伯克利應屆博士生帶隊,有多名LeCun學生參與。其中還有包括北大校友在內的3位華人研究員,以及20歲就加入OpenAI的天才工程師。
7、重塑AGI的Sora如何影響世界?
360公司董事長周鴻禕的預言,即Sora的出現可能將實現通用人工智能(AGI)的時間從十年縮短至僅一年。許多人認爲,Sora首先將對影視行業造成衝擊。將來,影視劇制作的門檻會將會大大降低,只要心裏有故事,就可借助強大的AI工具進行創作。AI電影《山海奇境》的制作人陳坤提到,Sora通過展示其視頻能力,旨在收集用戶反饋,進一步探索和預測人們期望生成的視頻內容。這一過程類似於大規模模型訓練,全球用戶的互動不斷豐富和優化了其世界模型,推動AI在模擬現實世界方面變得更加精准和智能。不同行業的巨頭也感受到Sora的“威能”:遊戲公司育碧視其爲一次巨大的飛躍;華大集團CEO尹燁將其比作开啓了AI發展的“牛頓時代”;而Meta的首席人工智能科學家、圖靈獎得主LeCun則批評Sora無法真正理解物理世界。
8、Sora制造焦慮么?Sora值得更多的贊譽,但過度神話大可不必。
販賣焦慮的不是Sora,喊出“現實不存在”,就兩類人,一類是AI門徒,一類是正在賣課割韭菜。應該向前者致敬,而後者正如這張流傳甚廣的照片,典型如李一舟,正賣付費課程從你口袋掏錢。
網圖對於普通人,人工智能是一套輔助工具。想靠着买課聽來的信息賺錢,只會是竹籃打水一場空。真正帶來壓迫感的,或許是Sora不可思議的進化速度。例如,Gen-2是2023年6月發布的產品,距離Sora的發布不過8個月。支撐OpenAI以如此速度迭代的是“瘋狂燒錢”,也是“大力出奇跡”的驅動力。知乎上,一位叫做“像素煉金師”的創業者坦承了他在目睹Sora發布後的心路歷程:“我有些害怕科技巨頭的產品像隆隆火車一樣駛過,而我做的東西如同路邊的野草一樣,在這個技術進步就像跑馬燈一樣的時代裏,留不下一絲痕跡。”
9、OpenAI使了多大力?
Stability AI CEO Emad Mostaque曾稱,人工智能作爲基礎設施所需的投資總額可能爲1萬億美元,這會是人類有史以來最大的泡沫。OpenAI訓練GPT-4,用了大約25000塊A100 GPU 。而訓練GPT-5,還需要5萬張H100,目前這張GPU的售價在2.5萬至3萬美元,還要排隊。爲支撐OpenAI技術發展所需要的算力,“奧特曼”宣布啓動“造芯”計劃,籌集多達5萬億至7萬億美元的資金,生產芯片。這個募資規模,可以买下包括英偉達、台積電、英特爾、三星在內的十八家芯片巨頭,以及社交巨頭Meta,還剩3000億美元。按照英偉達CEO黃仁勳的說法,7萬億美元能买下全球所有的GPU。
10、Sora面臨的挑战有哪些?
首先是成本,Sora很強,但也更貴。小冰CEO李笛曾算過一筆账,如果把全中國所有媒體的撰稿工作全部由大模型來完成,顛覆掉了一個市場、端掉了很多撰稿人的飯碗,AI公司獲得的也不過是200萬左右的市場規模。大力出奇跡,但不是每家公司都有OpenAI的實力。
還有一個老生常談的問題,Sora生成內容的版權問題也一直在被不斷規範。比如,美國聯邦貿易委員會(FTC)2月15日提出了禁止使用AI工具冒充個人的規則。FTC表示,它正在提議修改一項已經禁止冒充企業或政府機構的規則,將保護範圍擴大到所有個人。
OpenAI內部也在進行模型倫理方面的對抗性測試,包括拒絕處理錯誤信息、仇恨內容、偏見內容和色情暴力等。
如今,山姆.阿爾特曼就像百年前的奧本海默,正在搭建影響未來的基礎設施,並且還在不斷同競爭對手拉开差距。相較於ChatGPT的人聲鼎沸,這一次,中國企業家和創投圈的公开“對比”,明顯沉寂很多。但賽道外,妄自菲薄、腹誹以及嘲諷的聲量卻不絕於耳。此種情形,個人十分認同硅基立場的觀點:我們不缺同樣帶來極佳體驗的AI模型和產品,也不缺技術社區影響力極佳的個體和作品,但卻沒有在我們自己的討論裏形成該有的關注,也許所有人該放开一些包袱了。我們對自己嚴苛到妄自菲薄的事實也在起着反作用。
以對原創技術的理解和定義爲例,OpenAI不是Transformer模型發明者,Stable Diffusion不是Diffusion模型發明者,Mistral不是MoE發明者。如果對標,它們本質都可以理解是一個個ASML,所以“我們爲什么沒有誕生OpenAI”是不是並不等於“我們爲什么沒從頭發明某某技術”?是不是哪怕一家像ASML這樣的“只做沙子的搬運工”的公司,今天誕生在中國也躲不過先被罵套殼的命運?有時候,問題提錯了可能一切就都錯了。綜合內容:智東西,《Sora爆火48小時,大佬們怎么看?》投中網,《“今天,所有VC的會上都在談Sora”》硅基立場,《Sora帶來的四點啓發》南風窗,《東京街頭視頻流出,硅谷巨頭不淡定了》飛哥說AI,《爲什么說 Sora 是世界的模擬器?》
原文標題 : Sora很強大,但也不必過度神話
標題:Sora很強大,但也不必過度神話
地址:https://www.utechfun.com/post/334907.html