前言:
在衆多長視頻生成算法中,Sora的技術革新具有劃時代的意義。
相較於傳統的 Stable Diffusion,Sora採納了創新的 Diffusion 與Transformer架構。
不僅彌補了Stable Diffusion在擴展性方面的不足,更在生成內容的精確度和靈活性上實現了顯著的突破。
作者 | 方文三
圖片來源 | 網 絡
[國產Sora]發布,全面對標Sora
近日,生數科技與清華大學攜手推出國內首個基於自主研發的U-ViT架構的視頻大模型——Vidu。
能迅速生成16秒、高清1080p分辨率的視頻內容,展現了與Sora相當的性能,尤其在多鏡頭生成、時空一致性、模擬真實物理世界以及創新能力等方面。
Vidu在視頻生成時長方面具有顯著優勢,突破了長期以來國產Sora的十秒閾值。
生數科技採用單一模型的完全端到端生成方式,實現連續、絲滑的視頻內容生成,無需插幀處理。
具體而言,Vidu能夠生成細節復雜的場景,符合真實物理規律,展現合理光影效果和細膩人物表情。
同時,它還能生成真實世界不存在的虛構畫面,創造超現實主義內容。
在鏡頭語言方面,不再局限於簡單鏡頭,而是能實現遠景、近景、中景、特寫等不同鏡頭的切換,生成長鏡頭、追焦、轉場等效果。
值得一提的是,Vidu採用[一步到位]的生成方式,與Sora一樣,文本到視頻的轉換直接且連續。
在底層算法實現上,Vidu基於單一模型完全端到端生成,不涉及中間插幀和其他多步驟處理。
這一創新技術爲視頻生成領域帶來了新的突破和可能性。
清華系創業,兩條路走路模式
Vidu之名,不僅與[Video]諧音,更富含[We do]之寓意,彰顯着行動與實踐的精神。
公开資料顯示,生數科技成立於2023年3月,其核心成員均來自於清華大學人工智能研究院,致力於獨立研發全球領先的可控多模態通用大模型。
生數科技的首席科學家朱軍,不僅是清華大學計算機系的教授,還是人工智能研究院的副院長。
同時,生數科技的CEO唐家渝,其本碩學歷均來自於清華大學計算機系;
CTO鮑凡則是清華大學計算機系的博士生,並作爲朱軍教授課題組的成員,共同推進研發工作。
生數科技當前採取的是模型層和應用層並行的战略。
一方面,他們正致力於構建涵蓋文本、圖像、視頻、3D模型等多模態能力的底層通用大模型,爲B端提供模型服務能力;
另一方面,他們也在圖像生成、視頻生成等場景上打造專業應用,通過訂閱等方式進行收費。
這些應用主要面向遊戲制作、影視後期等內容創作場景,展現出生數科技在技術和市場應用上的雙重實力。
走對技術路线,融合框架優勢顯現
生數科技近日發布的Vidu與Sora視頻生成技術,顯著區別於市場主流基於U-Net卷積架構的傳統擴散模型,採用了前沿的融合架構,即U-ViT與DiT。
這種融合架構是Diffusion(擴散模型)與Transformer的有機結合,旨在發揮Transformer在可擴展性方面的優勢;
同時保留Diffusion模型在處理視覺數據時的天然強項,從而在視覺任務中展現出卓越的性能。
回顧生數科技在視頻生成技術領域的研發歷程,早在2017年,團隊便發布了貝葉斯概率機器學習平台[珠算]。
這一平台在國際上屬於最早面向深度概率模型的編程庫之一,支持包括GAN、VAE、Flow等在內的多種深度生成式模型的概率建模。
2022年初,團隊提出了無訓練推理框架Analytic-DPM,通過直接估計最優方差,大幅提升了採樣效率,相較於傳統模型DDPM,加速近20倍。
該成果被評選爲ICLR 2022傑出論文,並得到了OpenAI在DALL·E 2模型處理策略中的應用。
同年6月,團隊再次創新,提出了採樣算法DPM-Solver,僅需10到15步就能獲得高質量的採樣。
該成果入選NeurIPS 2022 Oral,並被Stable Diffusion等大量开源項目所採納,至今仍是全球最快的圖像生成算法之一。
在技術的不斷推進中,2022年9月,團隊發表了U-ViT論文,首次提出了將擴散模型與Transformer融合的架構思路。
隨後推出的DiT架構也沿用了這一創新理念,並最終被Sora所採用。
與傳統的Transformer相比,U-ViT通過引入[長連接]技術,顯著提升了訓練收斂速度。
2023年3月,團隊基於U-ViT架構在大規模圖文數據集LAION-5B上訓練出了近10億參數量模型UniDiffuser,並將其开源。
UniDiffuser不僅支持圖文模態間的任意生成和轉換,而且其實現驗證了融合架構在大規模訓練任務中的可擴展性(Scaling Law),標志着融合架構在大規模訓練任務中的所有環節流程均得到了有效驗證。
值得一提的是,相較於最近才轉向DiT架構的Stable Diffusion 3,UniDiffuser在圖文模型領域領先了一年。
基於資源等方面的考慮,Sora團隊選擇了高強度的工作模式,全力以赴投入長視頻的研發,而生數科技則選擇從2D圖像入手,逐步拓展至3D和視頻領域。
今年1月,生數科技正式上线了4秒短視頻生成功能,隨後在2月Sora發布後,公司迅速攻堅,於3月實現了8秒視頻生成的突破,4月更是達到了16秒長度的突破,生成質量與時長均取得了全面性的提升。
完成三輪融資,成爲國內估值頭部
經過多輪嚴謹的資本運作,生數科技在2023年6月成功完成首輪融資,由螞蟻集團主導,並得到BV百度風投和卓源資本的跟投。
經過此次融資,公司的估值已達到1億美金。
這些資金將被投入到核心研發團隊的建設和產品研發中,以推動公司的持續發展。
值得一提的是,自ChatGPT於去年11月發布以來,生數科技成爲螞蟻集團投資的首個AIGC項目,同時也是百度風投在AI內容生成領域的第三個重要投資項目。
在2023年8月,生數科技再次獲得了錦秋基金的獨家投資,完成了數千萬元的天使+輪融資。
這筆資金將主要用於算法研發、產品开發和團隊擴充,爲生數科技的未來發展注入新的動力。
到了2024年3月,生數科技成功完成了數億元人民幣的A輪融資。
此次融資得到了啓明創投、達泰資本、智譜AI等新機構的支持,同時也得到了BV百度風投和卓源亞洲兩位老股東的繼續跟投。
經過三輪融資,生數科技累計獲得了數億元人民幣的投資,這使得公司成爲目前國內多模態大模型中估值最高的初創公司之一。
同時,生數科技團隊還推出了基於統一的多模態多任務框架的產業級通用基礎大模型(閉源版),展現了公司在AI領域的深厚實力和創新精神。
生數科技的核心團隊不僅是最早布局多模態大模型的團隊之一,而且在擴散概率模型的基礎理論和算法研究方面也有着豐富的經驗和突出的成果。
目前,生數科技是國內在擴散概率模型領域發表論文成果最多的團隊之一,這充分證明了公司在AI領域的領先地位和強大的研發能力。
結尾:市場前景廣闊,有待持續开發
文生視頻技術有望引領視頻創作領域的生產力變革,顯著降低生產成本和創作難度,有望在短視頻和動漫領域率先實現應用落地。
建銀國際指出,文生視頻模型在多個行業中具有廣泛的應用前景,包括但不限於營銷廣告、研發培訓、電商零售以及文娛遊戲等領域。
根據彭博行業研究的數據,全球AIGC市場規模預計將從2023年的670億美元大幅提升至2030年的8970億美元,這表明該領域的復合年增長率將達到驚人的45%。
對於中國市場而言,艾瑞咨詢預測其產業規模將可能從2023年的143億元人民幣迅猛增長至2030年的11441億元人民幣,復合年增長率高達87%。
這一趨勢顯示出文生視頻在中國市場的巨大潛力和廣闊前景。
部分資料參考:極客公園:《國產 Sora 的祕密,藏在這個清華系大模型團隊中》,機器之心:《國內公司有望做出Sora嗎?這支清華系大模型團隊給出了希望》,中國新聞網:《中國首個!全面對標Sora》,獵雲精選:《背靠清華,[國產最強]Sora來了》,算力豹:《[應战]Sora,清華朱軍「生數科技」又融數億元,啓明創投領投》
原文標題 : AI芯天下丨科創丨國內版Sora的祕密,藏在生數科技大模型團隊裏
標題:國內版Sora的祕密,藏在生數科技大模型團隊裏
地址:https://www.utechfun.com/post/368360.html