快手祭出文生視頻模型的的王炸,產品型創新能讓快手領先多少?
@科技新知 原創
作者丨王思原 編輯丨賽柯
“甚至我覺得也吊打了Sora,我認爲這個產品今天,在我能使用的範疇內就是全世界第一的。”鏡頭前,獵豹移動董事長傅盛,難掩興奮的表情。而他口中,能吊打國內外各個文生視頻模型的產品,就是快手可靈視頻生成大模型。
6月6日,快手發布AI視頻模型,而就在發布當天,就有諸多如傅盛一樣的業內人士,獲得邀請碼進行了第一波測試。從業內的反饋以及可靈生成的視頻樣本來看,快手可靈似乎與Sora已然非常相近,在第一版五秒中的視頻中,業內反饋無論技術路线,和訓練數據質量都較爲突出。而更爲令業內興奮的是,快手可靈似乎做到了如Sora一般極度真實的還原物理規律,無論是運動的合理性,還是其他物理特性,甚至概念組合能力和想象力都表現得較爲優秀。
但也有業內人士指出,Sora是今年2月公布的,其訓練有可能在去年年底就完成了,可靈多出幾個月的訓練時間。更進一步來說,能調用更多的訓練算力,是可靈的優勢。
隨後6月21日,可靈模型再次拋出新的功能,圖生視頻以及視頻續寫等功能上线,讓產品功能更加豐富。
可靈的表現之所以從某種程度超出業內的預期,最爲關鍵的是,在其公布之前,絕大部分AIGC從業者對其一無所知,快手的通用語言大模型快意,在國內大模型梯隊中,作爲新品上线暫無耀眼表現,知名度也沒有投入了大量營銷預算和研發成本的豆包、混元、文新一言、月之暗面等一衆新老勢力名氣大。
就在這種情況之下,可靈的出現似乎打破了行業內的認知,從技術性到產品性的轉化,也有了新的路徑。但需要清醒的是,驚豔的產品距離能夠廣泛應用,以及成功的商業化,都有較大的距離,而快手能否依靠可靈完成超車,與同行拉开差距,此刻來看,還面臨着不少的風險與挑战。
Part.1
劍走偏鋒的快手
“可以說的是,可靈這個事情肯定是一個非常復雜的,重資源投入,多兵種協作的復雜項目,肯定不是一個單一的天才的想法隨便搞出來的東西。”快手視覺生成與互動中心負責人萬鵬飛在2024北京智源大會先後拒絕了幾個關於可靈參數、性能的問題之後,給出了一個較爲實際的回答。 在國內的AI賽道,能吸引C端目光的部分,其實相當有限,其中的焦點是,百模大战留下的各類語言大模型,月之暗面是個典型的代表,從默默無聞到估值達30億美金,公司只用了不到1年時間,但從產品上來看,除了一款有長文本閱讀能力的Kimi之外,C端對其感知並不明顯。 而另一方面,資本和創業方似乎都非常糾結,以金沙江創投管理合夥人朱嘯虎爲代表的現實主義派,始終在保持一種相對悲觀的態度。比如朱嘯虎認爲這一代大模型創業公司,面臨比上一代商湯等AI公司更惡劣的處境:公司之間技術沒有差異,每一代技術都要重新砸錢,且投資規模指數級上升。根據媒體報道,在OpenAI發發布GPT-4o後,朱嘯虎在朋友圈的新判斷是,“不是深度綁定大廠的模型公司基本已經出局”。 而正是在這種復雜的環境之下,產品的創業面臨的困難就愈發之多。在商業化的要求之下,各大模型廠商先後加入了價格战,而即便估值已達30億美元,Kimi也在從打賞等方式試圖完成變現。
資本的小心翼翼,疊加大廠的FOMO“不愿錯過”成了當下AI,創業的主基調,從這個視角來看,可靈的成功更加難能可貴。 在文生圖賽道之中,有業內人士評論道,快手能拿出國內第一個令人驚豔的“准Sora”文生視頻大模型,與平台深耕視頻內容相關。但是抖音的視頻數據更多、算力更強、在AI方面投入更大,爲什么反而沒拿出來類似量級的大模型? 而從摩根史丹利的研報中也可以看出,目前,可靈的表現要比抖音和騰訊過往發布的視頻生成模型都更加優秀,從時長來看,可靈可以生成長達2分鐘的視頻,而抖音的即夢目前只支持生成最長3秒的視頻、騰訊的混元大模型則能生成16秒。 歸根到底,大模型本質上還是基礎研發的交战,必須從基礎研發層面下功夫。而字節跳動的策略是以應用端促進研發,整個字節跳動AIGC线條的人員非常混亂,真正的技術牛人不多,C端應用思維主導了整個AI平台的研發,這可能不是正確方向。 而從實踐上來看,與其說可靈的產品是技術的領先,不如說快手,在這一賽道策略布局的成功。用獵豹傅盛的話來說,“可靈的成功,更加證明了,Sora並不是一項技術性突破,而是產品型圖片” 可靈的劍走偏鋒,無疑給行業帶來了全新的啓示,但能否就此判斷可靈在文生視頻賽道與國內AI大廠差距已經拉开似乎還需要更多實踐證據。
Part.2
能否成爲下一個爆款?
盡管可靈已然做出了不少成績,但想要成爲AI賽道的下一個Killing APP,可靈要走的路也許還有很多。
首先,可靈想要大規模應用,尚需要時間。在最新的交互頁面之中,申請可靈的人數已達41萬+,據接近快手人士透露,可靈雖然已有超過10萬+的使用者,但目前試用範圍依舊無法完全匹配市場需求,即便是快手內部的人想試用都很困難。而另一方面,當下使用的結論,是基於內測視頻得出,這也就意味着對於可靈的模型能力可能是高估的。
而與此同時,可靈對於行業內也是神祕的存在,正如快手視覺生成與互動中心負責人萬鵬飛對於各項參數的諱莫如深,外界對於可靈使用了多少算力、算力來自哪裏,有沒有充足的推理算力可供大規模公測,也同樣好奇。
在可靈一方,不知是否爲了繼續產品熱度,先後推出了圖片生成視頻,以及視頻續寫等功能,但測試下來,整體效果較爲平淡,生成時間的不穩定,以及差異化並不明顯的效果,也意味着這些功能尚需要進一步優化。
而在行業最爲關心的算力上,有從業者評估,快手同時從騰訊雲和阿裏雲租用了大批“大卡”,而快手自身也有一批約爲數千張的大卡,而根據多方消息猜測,可靈的訓練算力來源應該是多元化的。
而在另一方面,根據多方信源估計,文生視頻大模型生成一分鐘1080P視頻至少要消耗100萬Token,推理算力需求遠大於文生文,而在推理算力方面,L40採購難度較大,快手可能面臨瓶頸,這也就意味着,快手可靈全面投入公測可能還是很遙遠的事情。
在多個短視頻平台,甚至諸多海外社交媒體,可靈幾乎已經成了中國Sora的代名詞,海外博主一碼難求,國內測評博主聲稱,已達到了,免費、可用、可實操的階段,但這樣的結論,從目前來看,似乎還有不小的差距。
從某種程度來說,可靈是一款战略意義遠大於實際意義的產品,技術的領先無可厚非,對於行業來說也有示範作用。但在真正意義上的廣泛應用,似乎還需要很長的時間。
Part.3
老鐵們的“新希望”?
在可靈對外的宣傳之中,可靈的優勢簡單明晰,首先是真正可應用,其次是視頻生成效果好。不僅可以能夠生成大幅度的合理運動,能夠模擬物理世界特性,而且,生成的視頻分辨率高達1080p,最長可達2分鐘(幀率30fps),允許用戶自由調節視頻的縱橫比。 正是基於此,外界對於可靈商業化想象空間進一步打开,有業內人士總結,在媒體與廣告行業,可靈可以用於快速生成廣告宣傳片、新聞報道等,不僅能大幅提升生產效率,還可以通過數據分析優化內容。同時,在教育與培訓行業,可靈可以輔助教師制作教學視頻,甚至生成虛擬的教學場景,爲學生提供沉浸式的學習體驗。另一方面,娛樂與社交媒體行業,對於社交平台和內容創作者而言,可靈提供的個性化視頻生成工具將極大地豐富平台內容。
多家券商研究機構,也對可靈表示樂觀,國泰君安互聯網傳媒研究表示,可靈大模型配套建設了高效的大規模自動化數據解決方案,覆蓋了海量視頻挖掘、多維打標篩選、視頻描述增強及數據驅動的效果質量評估等多個方面,在國產視頻生成大模型中居於前列。 但豐滿的預期,在現實面前,似乎還有不小的差距。 根據接近快手人士透露,當下,可靈暫無商業化計劃,也不對外提供API。這就意味着,從投資層面來看,可靈對於快手近幾個季度的業績並無太大貢獻。而從快手近期在二級市場的表現來看,也可以印證,可靈似乎對於快手的幫助不大。 在快手視覺生成與互動中心負責人萬鵬飛演講中,在談到可靈的未來時曾提到,“視頻創作的門檻和效果的ROI大幅度提升,視頻創作者和消費者界限逐漸模糊。越來越多消費者變成創作者,對於視頻創作生態的繁榮是非常有價值的。”
從此可以簡單猜測,也許快手對於可靈的未來,更多的還是傾向於在自有生態中賦能更多的創作者,而從另一個視角來看,快手當下面臨着不小的壓力,無論是廣告還是電商,增長都在經受住各個大廠的挑战。而可靈的出現,如果能如快手負責人所言,降低門檻,提升ROI,從而吸引更多的用戶從消費者變成內容生產者,無疑吸引力巨大。 總結來看,可靈似乎讓國內從業者以及更廣泛受衆看到快手在全新領域的努力和希望,但從全局來看,想要短期增加營收,也許需要更長的時間。
原文標題 : 快手可靈,能成爲中國Sora嗎?
標題:快手可靈,能成爲中國Sora嗎?
地址:https://www.utechfun.com/post/393481.html