聊聊OpenAI最新的文生視頻的技術 Sora

2024-02-22 18:10:51    編輯: robot
導讀 一個企業想只靠技術長盛不衰是不可能的,技術優勢只能保持幾年。企業必須抓住技術上短暫的領先,把技術領先變成品牌和生態的壟斷,才能“各領風騷幾十年”。 1 對一個密切追蹤AIGC行業進展的人來說,Sor...

一個企業想只靠技術長盛不衰是不可能的,技術優勢只能保持幾年。企業必須抓住技術上短暫的領先,把技術領先變成品牌和生態的壟斷,才能“各領風騷幾十年”。

1

對一個密切追蹤AIGC行業進展的人來說,Sora確實是一個令人眼睛一亮,爆炸式的進展。文生圖的技術在過去一年已經有了不少進步,但文生視頻的難度大得多,一直也沒有明顯的突破。

之前Pika的文生視頻,在輿論場上也受到了不少關注。但Pika的效果在Sora面前被無情的碾壓,完全不在一個水平线上。

這也很容易理解。一家創業公司,就算創始人再天才,用很短時間的積累,有限的資源和算力,能做出的效果,OpenAi 用最優秀的人才積累,海量的算力和顯卡資源,沒有理由做不出。而且理應做的更好。更何況,在Sora推出前,OpenAI的DALL-E本來也是文生圖技術的先行者之一。而Sora採用的DiT技術路线也可以充分發揮OpenAi在大語言模型上的優勢。

無論是文生圖還是文生視頻算法和技術,早就有不少論文提出過,技術方向是清晰的,並不是科學領域的突破。

OpenAI的強大,一方面在於有業界最多的積累,在模型訓練上有最多的knowhow,另一方面,在微軟的大力支持下,有海量的資源和算力,積累了最多的數據,大力出奇跡。

2

這個技術會帶來什么?有些人故作驚人之言,說什么現實不存在了。

人們往往高估技術進步的短期影響,而低估其長期影響。

如果說計算機生成一段以假亂真的視頻,就是現實不存在了。那卡梅倫在2009年拍攝的阿凡達,就用計算機生成了完全可以以假亂真的效果,比今天Sora的效果好很多,如果說現實不存在了,多年以前現實就不存在了。

但阿凡達的時代,CG要花大錢的,阿凡達的制作花了3億美元。今天Sora生成一段60秒的CG,只需要輸入一段prompt。

AIGC目前短期最大的應用落地,就是大幅降低生產內容的成本。比如文生圖這個技術,現在各家遊戲公司用的不亦樂乎。用原先一半的美術人力,就可以做到和過去類似的美術效果。當然,細看質量還不如人做的,但隨着技術進一步提高,相信未來遊戲美術這項工作,很大程度上會被AI所取代。

大語言模型也是一樣,可以在極短時間內成百上千篇生產文字內容。我寫兩千字,怎么着都得花一小時寫。AI一分鐘可以寫幾千上萬字。大語言模型誕生後,大量AI生產的內容,充斥平台,特別是頭條這類基於推薦算法的平台。雖然AI生產的內容質量低,但架不住數量多。單篇質量再好,架不住AI能批量生產的成千上萬篇的內容。每篇薅到一點流量,加起來總比單篇多。

AI智能客服,AI智能審核,同樣可以取代人,大幅降低成本。

文生視頻技術的進步,同樣降低內容生產成本。之前有一個MCN找過我,幫我把文字內容制作成視頻。我了解了一下他們的制作方法。爲了降低視頻制作成本,他們做了一個“內容中台”,收集了大量圖片和短視頻片段,分類標注建立資源庫。在制作視頻時,就根據文字內容,從資源庫中用素材拼接成30分鐘左右的視頻。這樣可以把視頻的生產成本大幅下降。然而,即使這樣,最終這個MCN還是覺得成本太高,現在开始嘗試用AI進一步降低成本。

未來如果文生視頻技術進一步迭代,也許有朝一日,輸入一篇2-3000字的文章,就可以自動生成一段包括配音在內的視頻。那時我也可以追追時髦,嘗試一下自己做一些視頻。

3

技術進步導致內容生產成本大幅下降,並不是第一次。最早的造紙和印刷術,就是例子,讓知識和書籍從少數人才能擁有的奢侈品,走進千家萬戶,沒有造紙術,就不可能有科舉制度。沒有印刷術,就不可能實現教育全民化。

離我們更近的一個例子是照相和攝像。過去,照相是個很專業的事情,拍張照片要全家出動去照相館。一般只有紀念日才能去拍。攝像更不要提了,只有電視台這樣的專業機構才能搞。後來,照相機膠卷價格下降,照相機走入家庭。但一卷36張,每一張還是成本不低。

後面數碼相機出現了,讓拍攝一張照片或一段視頻的成本接近於零。每個人都可以成爲攝影師。再往後,就是手機攝像頭出現,每個人都可以隨時隨地的拍攝圖片視頻,每個人都是圖片和視頻內容的生產者。

今天,拍攝真人視頻的成本,遠遠低於用計算機生產一段CG視頻。未來,隨着AIGC技術的發展,CG也和拍攝真人視頻一樣,不再是一件高門檻的事情,每個人都能用自己的想象生產CG。

從短期看,AIGC只是降低了中低質量內容生產的成本。大語言模型可以在一瞬間寫成千上萬篇文章。聰明的學生开始運用大語言模型幫助他們寫作業寫論文。文生圖模型可以讓遊戲公司大幅減少美術人員的數量。未來的文生視頻模型也會讓不少CG人員失業。

這個技術長期的影響,不僅僅局限在內容生產行業。

發明數碼相機的人,第一個在手機上裝攝像頭的人不會想到,這些技術造就了數千億美元的短視頻行業。如果沒有數碼成像技術,手機上沒有攝像頭,也不會誕生短視頻行業,不會誕生抖音/TikTok這樣的行業巨頭。沒有數碼成像,估計也不會有無人機航拍,不會有大疆這樣的企業。

AIGC會怎么樣改變這個世界,我們現在很難預測。正如2000年11月,當夏普首次在手機上安裝攝像頭時,絕對想不到今天的抖音/TikTok在全球能有20億月活躍用戶,超過千億美元的收入。

4

關於技術進步,另一件有趣的事情是,發明某項技術的人,往往不是最終的受益者。

數碼成像技術的开創者是柯達。1975年全球第一張數碼相片即在美國紐約州羅徹斯特的 Kodak 實驗室拍攝出來的。柯達最終卻因爲數碼技術取代了膠卷技術,而申請破產。今天柯達已經成了一家市值只有三億美元的小公司。

讓數碼相機商業化的是索尼。1978年,索尼公司(Sony)制造出了具有12萬像素的CCD,並在1980年發布了全世界第一個商品化量產的12萬像素CCD彩色照相機。索尼目前還是數碼成像系統的主要玩家。然而,索尼的影像及傳感解決方案業務(I&SS)每年的收入大概100億美元出頭,利潤大概十幾億美元。而廣義的數碼影像相關市場,有萬億美元的規模。

2000年11月,夏普首次在手機上安裝攝像頭。但今天,夏普已經幾乎完全退出了手機市場,公司控股權也被鴻海收購。

數碼成像技術最大的受益企業是誰,現在看,也許是字節跳動。

技術是很難被完全壟斷的,技術也很難長期領先。第一個把鋰離子電池方案推向市場的是索尼。1991年,索尼公司獲得吉野彰的鋰離子電池技術後,與旭化成公司合作,首次將鋰離子電池實現了商業化。但今天的索尼已經完全退出了鋰電池行業。今天鋰電池技術的最大獲益者,反而是中國的企業。

一個企業想靠技術長盛不衰是不可能的,技術優勢只能保持幾年。企業必須抓住技術上短暫的領先,把技術領先變成品牌和生態的壟斷,才能“各領風騷幾十年”。今天的蘋果,已經不再是手機技術的領先者,產品設計也乏善可陳。蘋果獨步天下的,是品牌,是Appstore生態。

微軟、Google、META,今天的互聯網巨頭,都是成功的把技術和產品的短暫領先,變成了品牌和生態的壟斷。今天的OpenAI,也試圖把在AI大模型技術上的領先,轉化成生態上的壟斷。但OpenAI能不能成功,還不確定。

就算OpenAI做成了,也不過是美國再出一個谷歌或Meta,進一步加大美國在互聯網領域對歐日的優勢而已。做不出,OpenAI可能就是柯達或者夏普,成爲AI領域成功者的踏腳石。

中國AI技術現在大概落後一年到一年半。看似不長,但OpenAI也在快速發展,所以最近一年,差距沒有縮小,可能還擴大了一些。但技術的發展不是勻速的,遲早也會遇到瓶頸,中國也遲早有趕上的那一天。在技術領域,芯片技術的差距和追趕的難度,遠大於AI領域。如果芯片最終中國能趕上,AI不過是小菜一碟。畢竟,由於監管限制,OpenAI在中國不具備把技術優勢變成品牌心智優勢和生態壟斷的能力,而技術的優勢是不可能永遠保持的。

未來的AI領域,應該和互聯網比較類似,主要的玩家也只有中美兩國。中國企業起步晚,技術差,但最終還是能佔據本土市場,技術上也可以逐步趕上。

如果未來沒有可控核聚變這個級別的技術突破,中美技術領域的決战就是半導體。其他領域都不重要。中國AI發展最大的攔路虎不是OpenAI,而是英偉達+台積電。

5

我樂於看到OpenAI的發展。技術進步對全人類都有好處,也不可能被一家企業一個國家所壟斷。在人類歷史上,從來沒有任何一項技術的發明,能讓發明的國家取得明顯的持續競爭優勢。即使是核武器這樣徹底改變人類战爭方式的武器,美國的技術壟斷也只保持了短短四年。

現在的互聯網輿論場很有趣,美國有一點比中國做得好的地方,就有人如獲至寶撿起來,當成美國復興,中國藥丸的證據。他們忘記了,當年的中國是全方位落後,幾乎方方面面美國都遠勝中國。那時的中國都沒完,更不要提現在了。

美國近三十年的技術突破,第一當然是互聯網。美國企業成功的把互聯網領域的技術優勢,變成了對全球(除中國外)互聯網生態的壟斷。歐洲和日本錯過了互聯網,也就失去了經濟上挑战美國的能力。第二我覺得是頁巖氣。頁巖氣技術和美國的資源儲備,讓美國實現了能源自主。大大改善了美國工業的競爭力和地緣政治態勢。頁巖氣技術雖然有辦法趕上,但其他能源缺乏的國家也沒有美國的頁巖氣儲備。這個是老天爺賞飯喫,沒辦法。

其他的這些,比如大模型AI,在宏觀層面上,還沒那么重要。短期不宜高估其影響。長期的影響也許會更大,但受益者是誰,現在還不知道呢。



標題:聊聊OpenAI最新的文生視頻的技術 Sora

地址:https://www.utechfun.com/post/335067.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡