SORA放大招？讓馬斯克認輸的AI到底有多猛？

2024-02-20 18:40:09 編輯： robot

導讀回顧剛剛過去的2023年，如果要問什么東西最火的話，大模型肯定是其中最靚的仔，就在最近用GPT引爆全球大模型賽道的OPEN AI再度給市場一記重拳，甚至連馬斯克都不得不愿賭服輸，這就是全新的視頻生成...

回顧剛剛過去的2023年，如果要問什么東西最火的話，大模型肯定是其中最靚的仔，就在最近用GPT引爆全球大模型賽道的OPEN AI再度給市場一記重拳，甚至連馬斯克都不得不愿賭服輸，這就是全新的視頻生成大模型，這個全新的大模型到底有多猛？我們該如何看待這件事？

一、視頻生成大模型再放大招？

據每日經濟新聞的報道，據OpenAI官網，OpenAI首個視頻生成模型Sora發布，完美繼承DALL·E 3的畫質和遵循指令能力，能生成長達1分鐘的高清視頻。

AI想象中的龍年春節，紅旗招展人山人海。有緊跟舞龍隊伍擡頭好奇觀望的兒童，還有不少人掏出手機邊跟邊拍，海量人物角色各有各的行爲。一位時髦女士漫步在東京街頭，周圍是溫暖閃爍的霓虹燈和動感的城市標志。

一名年約三十的宇航員戴着紅色針織摩托頭盔展开冒險之旅，電影預告片呈現其穿梭於藍天白雲與鹽湖沙漠之間的精彩瞬間，獨特的電影風格、採用35毫米膠片拍攝，色彩鮮豔。

OpenAI表示，公司正在教授人工智能理解和模擬運動中的物理世界，目標是訓練出能夠幫助人們解決需要與現實世界互動的問題的模型。在此，隆重推出文本到視頻模型——Sora。Sora可以生成長達一分鐘的視頻，同時保證視覺質量和符合用戶提示的要求。

Sora模型能夠生成包含多個角色、特定類型運動和主體及背景精確細節的復雜場景。該模型不僅能理解用戶在提示中所要求的內容，還能理解這些事物在現實世界中的存在方式。

對於這款全新的產品，世界知名企業家馬斯克也不吝贊美之詞，馬斯克回應稱：“gg人類（gg humans）。”據媒體引申，gg是網絡遊戲用語“goodgames”的縮寫，主要用於遊戲結束後，輸贏雙方都可以用。但現在多由失敗方發出，表示認賭服輸、心服口服的意思。在馬斯克帖子的評論區裏，還有用戶附和道：“gg好萊塢”。

360集團創始人、董事長周鴻禕在微博發文談文生視頻模型Sora。周鴻禕認爲，Sora意味着AGI實現將從10年縮短到1年。他分析說，OpenAI訓練這個模型應該會閱讀大量視頻，大模型加上Diffusion技術需要對這個世界進行進一步了解，學習樣本就會以視頻和攝像頭捕捉到的畫面爲主。一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube上和TikTok的視頻都看一遍，對世界的理解將遠遠超過文字學習，一幅圖勝過千言萬語，而視頻傳遞的信息量又遠遠超過一幅圖，這就離AGI真的就不遠了，不是10年20年的問題，可能一兩年很快就可以實現。

二、Sora到底有多猛？

隨着科技的飛速發展，人工智能（AI）已經成爲了當今世界最爲熱門的話題之一。其中，OpenAI的ChatGPT和Sora等模型的出現，更是顛覆了我們的認知，Sora的出現到底意味着什么？當馬斯克都要認輸的時候我們到底該怎么看？

首先，Sora的出現無疑是另一大裏程碑。ChatGPT作爲OpenAI研發的裏程碑式語言模型，其強大的自然語言處理能力和對上下文理解的深度，在推出後迅速引發了全球範圍內的廣泛關注和熱議。ChatGPT不僅能夠流暢對話、解答問題，還能生成具有邏輯性和創造性的文本內容，這一突破性進展讓人們看到了人工智能在認知智能領域取得的重大飛躍。

緊隨ChatGPT之後，OpenAI又推出了視頻生成模型Sora，該模型更是將AI技術推到了一個全新的視覺維度。Sora憑借其創新的文本到視頻轉換能力，使得AI從理解和生成文本躍升至創作高清視頻內容的新高度。通過理解用戶輸入的文字描述，Sora可以自動生成包括復雜場景、多角色動態交互在內的長達一分鐘的流暢高清視頻，這標志着OpenAI在跨模態學習與生成方面取得了重大突破。

其次，Sora的最大突破還是在於理解人類語言並且通感成爲視頻。Sora模型的核心優勢體現在它能夠理解人類語言輸入，並基於這種理解進行視頻內容的創造性生成。通過深度學習和跨模態技術，Sora能夠將文本描述中的抽象概念、情境、甚至是情感色彩映射到視覺表達上，生成與描述相匹配且具有一定連貫性的視頻片段。

盡管目前生成的視頻可能在細節處理、物理真實感或者復雜交互場景等方面還存在不完善之處，但其突破性在於首次實現了從文本到高質量視頻內容的有效轉化，這爲內容創作者提供了一種全新的工具，大大提升了創意表達的效率和可能性。此外，Sora的應用價值也體現在教育、娛樂、廣告設計等衆多領域中，它有可能重塑這些行業的生產方式，並爲未來更加智能化的內容創作打下堅實基礎。

第三，視頻的變革可能遠超過文字的變革，而且速度會更快。在當前的互聯網時代，視頻已經成爲人們獲取信息、娛樂休闲的主要方式之一。每天都有大量的視頻內容被上傳到網絡上，涵蓋了新聞、教育、娛樂、廣告等各個領域。這些豐富的視頻資源爲大模型的學習提供了寶貴的素材。

通過對這些視頻進行深度學習和分析，大模型可以不斷地提取和總結視頻中的視覺元素、場景轉換、敘事結構等規律，從而提高自身的生成能力。同時，大模型還可以利用這些視頻資源進行自我迭代和優化，不斷提升自身的性能和效率。

隨着Sora等大模型的快速普及和應用，我們可以預見一場行業變革正在酝釀之中。對於內容創作者來說，大模型將極大地提高他們的創作效率和質量，降低創作成本。他們只需輸入簡短的文字描述或創意想法，就可以快速生成符合要求的視頻內容，大大節省了時間和精力。

對於廣告公司、影視制作公司等企業來說，大模型將爲他們帶來更多的商業機會和創新空間。他們可以利用大模型快速生成廣告宣傳片、宣傳片等視頻內容，提高品牌曝光度和用戶黏性。同時，大模型還可以幫助他們實現個性化定制服務，滿足客戶的個性化需求。

第四，人類到底該怎么辦？隨着人工智能技術的不斷發展和普及，嚴防死守來防止其應用已經變得不再現實。從長遠來看，更好的策略是積極地去理解和利用人工智能，而不是試圖阻止它的發展。

一方面，人工智能在很多領域已經展現出了巨大的潛力和價值。例如，在醫療領域，人工智能可以幫助醫生進行疾病診斷和治療方案制定；在交通領域，人工智能可以提高交通流量和安全性；在金融領域，人工智能可以幫助進行風險評估和投資決策等。因此，通過積極利用人工智能，人類可以創造更多的價值，提高生活質量。

另一方面，理解和利用人工智能也需要人類不斷地進行探索和創新。隨着人工智能技術的不斷發展，新的應用場景和商業模式也將不斷湧現。通過不斷學習和實踐，人類可以更好地掌握人工智能的技術和應用，推動其與社會、經濟、文化等各個領域的深度融合。

因此，與其盲目地抗拒人工智能，不如積極地去理解和利用它。通過不斷學習和創新，人類可以更好地掌握人工智能的技術和應用，推動其與社會各個領域的深度融合，這樣才是人工智能時代真正的生存之道。