撰文 | 文燁豪
編輯 | 王 潘
自AIGC熱潮湧現以來,敏銳的科技巨頭們紛紛下場,推動着國內大模型賽道一路狂奔。
然而,技術本身很難直接創造價值,訓練大模型只是一個起點,沸沸揚揚的“百模大战”,也或多或少夾雜了一絲“重復制造輪子”的意味。
對大模型而言,嵌入應用場景,從而實現成熟的商業化落地,才是終點所在——而隨着大模型賽道的邏輯從訓練轉向落地,AIGC應用正逐漸在各個領域湧現。
7月,AI寫真應用妙鴨相機爆火出圈,不僅在社交平台裏瘋狂刷屏,更是激起了科技語境的廣泛討論。很多此前不太熟悉科技語境的用戶,也從中第一次真切地感受到AIGC的魅力。
8月,抖音及火山引擎發起了“經典影像修復計劃”,首次將AIGC視覺大模型應用於老片修復場景,計劃修復100部香港老電影,還原大衆記憶中的香港電影,最初的、最清晰的模樣。
左圖爲修復前,右圖爲修復後
這意味着,大模型已逐漸走出了“實驗室”,走入人們的視野。
妙鴨相機與老片修復,藏着大模型的答案
妙鴨相機的爆火,對當下仍困於落地的大模型賽道無疑有着啓示作用。
其實,從技術路徑來看,妙鴨相機背後的AIGC圖像生成能力,並沒有太高的技術壁壘,亦不及Midjourney、Stable Diffusion等主流應用全面。
只是,諸如Midjourney等應用有着極高的上手門檻,需要用戶不斷摸索提示詞(Prompt),在此過程中難免產生消費障礙。
而妙鴨相機則將前述繁瑣的步驟封裝、簡化爲一鍵操作,用戶僅需上傳一張正面半身照,以及不少於20張的補充照,便能根據設定模板一鍵生成各式各樣的寫真,易用性大幅提高。
從中不難窺見,前沿技術若想實現大規模落地,不僅需要找准應用場景,更需解決相應場景過往的痛點與難點。這正是火山引擎切入“老片修復”場景的重要原因。
一直以來,老片修復都是影像領域的重要議題,根據來自65個國家超過130電影資料館統計,電影自誕生以來平均存活率不過 10%。
背後的邏輯在於,早期電影拍攝後大都儲存於膠片上,可膠片作爲儲存介質可謂相當脆弱,不僅對儲存環境的溫度、溼度要求極高,亦極易在使用、搬運等過程遭受物理和化學損傷,從而產生褪色、撕裂、髒點、黴變、酸變等問題。
一個簡單的例子,如今許多早期電影的畫面色調常常偏紅或偏紫,除卻導演本身藝術表達的因素,更多是電影膠片因保存不當而患上醋酸綜合徵的表現——膠片褪色變紅的同時,還會釋放出刺鼻的酸味,加劇保存環境的惡化。而酸化一旦开始,便很難完全逆轉。
此外,電影在制作、分發過程中,膠片往往會經歷反復翻印,每次翻印都會帶來細微的畫面細節損失,而隨着翻印次數增加,畫質衰減將愈發嚴重。基於種種因素,多數港片的畫面表現遠不及當下的高清視頻,用戶的觀影體驗難言友好。
另一方面,傳統修復技術主要仰仗於人工進行——先將膠片轉制爲數字格式,再由修復師一幀一幀地處理畫面上的黴斑、污漬等問題。
然而,一部電影通常包含數十萬幀畫面。若完全依賴人工修復,不僅成本高昂,效率也難以令人滿意。以《東邪西毒》爲例,王家衛曾回憶道,因爲膠片受潮,當時的修復耗費了整整四年時間。盡管如此,還是因爲修復不及時,使《東邪西毒終極版》的極少數片段仍有花片的情況出現。
換言之,傳統影像修復技術,難以進行大規模修復。而若無法實現規模化,電影資料館修復膠片的效率,或許難以追趕數十萬卷膠片在時光荏苒下逐漸褪色的速度。
在此背景下,AIGC視覺大模型,成爲了影視領域老片修復“心病”的解藥。
火山引擎的大模型答卷
利用AI深度學習算法修復影像,其實並不是什么新鮮事。早在幾年前,國內影像垂直論壇上,便已有影像發燒友通過深度學習算法提升老片分辨率,以提升畫面觀感。
然而,過去的影像處理算法雖能在一定程度上起到提升畫質的作用,但並不足以支撐嚴肅的商業應用場景,以現階段基於Stable Diffusion的开源大模型爲例,其主要針對圖片生成任務,對偏向於退化修復的老片修復場景的針對性較差,很難簡單套用。
基於此,火山引擎在現有成熟大模型的基礎上,疊加了自身的老片修復網絡,對模糊、失焦、人像、色彩等常見修復問題進行了針對性優化,使得大模型可以充分感知和適應老片場景。
一個簡單的例子,傳遞角色的情感狀態和內心世界的人像鏡頭,在電影語言中尤爲重要。對此,火山引擎針對不同畫面質量的影片,自適應使用了不同人像解決方案。
針對制作時間久遠,影片畫質較差的老電影,火山引擎使用基於生成式的人像修復模塊,在保持人像真實特徵的前提下,進行高清五官重建;針對中高質量的人像,火山引擎則使用了人像超清模塊,優化五官清晰度,實現了對睫毛、眉毛、發絲和膚質等臉部細節最大程度地還原和紋理增強。
值得一提的是,除了面向泛化老片修復場景的調優,火山引擎此次更是針對港片的特性,打磨出了更垂直細分的修復能力。
以武打場景爲例,不同於海外電影“直截了當”的打鬥,打戲作爲貫穿香港電影黃金年代的獨特標志,更像是華麗的舞蹈,強調每一招每一式的對壘,有着極強的辨識度。
可武打場景,對AIGC模型而言卻是不小的考驗。一方面,畫面中迅速變化的動作和快速運動,往往會造成較大的幀間位移,進而導致光流模型的准確性下降,從而產生拖影;另一方面,復雜的武打動作更容易導致插幀結果的失真,產生僞影,直接影響了觀衆的視覺體驗。
爲此,火山引擎自研了智能插幀算法,通過對前後幀的內容進行光流估計,根據光流信息將前後幀像素轉換到中間幀,然後進行整合,生成中間幀,提升視頻幀率;通過針對性優化,降低處理大運動時的計算負擔,從而提升模型的穩定性和效果。
而武俠元素,向來是香港電影的重要組成部分,但由於早期電影拍攝制作方式較爲簡陋,部分武打場面往往會有威亞的部分殘留,從而破壞了畫面的完整性。對此,火山引擎利用去噪點和去劃痕等算法批量處理畫面瑕疵的同時,亦針對威亞優化了去劃痕算法,在消除威亞痕跡的同時保證了畫面主體人物的完整性。
左圖爲修復前,右圖爲修復後
據中國電影資料館副館長張小光介紹,此次電影修復也邀請了電影的主創人員參與到修復流程中,既通過技術還原影像的“形態”,亦還原影片原本的“靈魂”,使其“修舊如舊”。
背後的邏輯在於,電影修復並不僅是前沿技術的找尋落地場景的嘗試,更是一種商業行爲。而“修舊如舊”,正是經典電影觸動大衆情懷、喚醒集體記憶,從而提升商業化價值的關鍵。從中不難窺見,火山引擎務實的技術觀。
飛入尋常百姓家
盡管AIGC初期爆發初期,互聯網語境曾困於技術與應用的激烈爭論,但妙鴨相機與火山引擎卻證明了,二者其實並不對立。
一方面,前沿技術的演化不斷擴展着應用的邊界,既使普羅大衆無需負擔寫真館高昂的價格,便能看到自己的多元面貌;也使昔日陳舊的影像擺脫了生存危機,穿越時空煥發了新的生命力。
另一方面,前沿技術從研發到落地往往需要經歷較長的周期,過去更多活在“實驗室”裏、商業化遇冷的大模型,更是需要這些深入人心的內容來賦予它們生命,以此真正走入人們的生活。
面對前沿技術落地的桎梏,玩家們不斷交出的答卷,對行業無疑有着重要的參考價值。
出圈的妙鴨相機,一改過去前沿技術落地“苦大仇深”的面貌,通過貼近普通用戶的場景與更易上手的功能,以更活潑、輕快的姿態切入了C端市場。
無獨有偶,火山引擎亦在不斷探索落地場景。早在2021年,火山引擎便基於畫質增強技術,將哪吒、葫蘆娃、黑貓警長等童年記憶中的經典動畫修復爲4K版本;去年,其則是使Beyond樂隊在紅磡體育館的演唱會,時隔30多年於大衆視野中重現。
換言之,從還原經典動畫,到演唱會重映,再到港片修復,有如一個個錨點,昭示着火山引擎在商業化應用領域的落地生根。時至今日,火山引擎已打磨出不俗的技術力,並已在內部業務线以及外部企服市場,實現了規模化實踐與批量規模化生產應用。
歸根結底,妙鴨相機也好,火山引擎也罷,均在通過更多元、靈活的應用,解構了AIGC的科技高牆,使活在科技語境裏的前沿技術,演變爲了用戶觸手可及的現實。可以預見,在這批務實派玩家的帶動下,AIGC未來或將以更豐富的形態,飛入尋常百姓家。
原文標題 : 從妙鴨爆火到老片修復,大模型已經开始幹活了
標題:從妙鴨爆火到老片修復,大模型已經开始幹活了
地址:https://www.utechfun.com/post/250956.html