大模型走到AI战略分岔口，字節們面臨偏航危機

2024-10-25 18:41:40 編輯： robot

導讀 “不少AI企業追求“大而全”，面臨商業上的挑战和市場規模的限制。盡管深度推理具有長遠價值，但敢於投入和堅持的企業爲數不多。 ” @科技新知原創作者丨林書編輯丨蕨影最近，字節在AI方面又搞了個...

“不少AI企業追求“大而全”，面臨商業上的挑战和市場規模的限制。盡管深度推理具有長遠價值，但敢於投入和堅持的企業爲數不多。 ”

@科技新知原創

作者丨林書編輯丨蕨影

最近，字節在AI方面又搞了個大新聞。

一個字節的實習生，因爲對團隊資源分配不滿，用惡意代碼把模型訓練過程給投了“毒”，字節這邊損失不小。

盡管“資源分配問題”這個說法還沒完全坐實，但既然一個實習生，都能隨便對訓練中的模型下毒手了，那至少說明，字節對文本模型的訓練方面重視度不夠，因此才會出現“把關不嚴”的情況。

與文本大模型相比，字節在視頻方向上可謂打得火熱，推出了兩款最新的視頻模型PixelDance1和Seaweed2。

這種資源上的傾斜，反映的是國內大廠在當下LLM發展岔路上的關鍵分歧：算力資源有限的情況下，未來的大模型到底是要往視頻方向衝，還是繼續在文本上發力？

這樣的分歧，在OpenAI推出了能搞深度推理的o1模型後，顯得愈發棘手和關鍵。

01.

AI視頻硬傷，遭遇市場冷眼

在這樣的關鍵抉擇上，百度CEO李彥宏前兩天放了個大招，直接撂話說“百度不碰Sora類的視頻生成”。

原因就在於，在百度看來，現在的視頻大模型還不成氣候，離能真正進行商用還早着呢。用李彥宏的話來說，“10年、20年都可能拿不到業務收益”。

而這樣的判斷，也並非空穴來風。

據SimilarWeb統計，位居全球前列的AI視頻生成企業Luma AI網站在9月的總訪問量僅爲1181萬次，環比下跌38.49%。

同樣地，身爲AI視頻生成領域的“老大哥”的Runway在9月流量僅755.8萬次，不及ChatGPT的1/400；

用戶不买账，首先得從產品上找原因。

以國內AI視頻生成模型爲例，盡管從今年2月Sora出現後，國內的大廠如快手、字節、智譜清言等，都推出了各自的視頻模型，但平心而論，目前所有的視頻模型都存在兩個難以掩蓋的短板：

其一，是難以做到成本、質量二者兼具。

圖源：可靈

以快手的可靈爲例，雖然其生成的效果，在國內視頻模型中已算翹楚，但從成本上來說，其生成一個5秒的視頻，需消耗10個靈感值（1靈感值=1元），生成時間大約爲2～5分鐘。

按照這樣的成本估算，如果要生成一分鐘的短視頻，用戶至少要花費十余元，等上半個小時左右。

而且，這還沒算上由於AI理解不准確，需要重新生成的情況，實際成本只會更高。

圖源：可靈

相較之下，身爲國內“AI六小虎”之一的智譜清言，雖然开放了可免費使用的視頻模型“清影”，但其生成效果實在不敢恭維，其生成的畫面有一股濃濃的“90年代3D動畫”的感覺。

況且，雖然免費了，但其生成時長還是沒打下來，用戶生成一個5秒的片段，照樣要等3~5分鐘。

圖源：智譜清言

AI視頻生成的另一大短板，便是那股始終揮之不去的“AI”味。

這幾乎是所有視頻模型的通病。

無論人物或物體的外觀，看起來多么真實、多么形似，可觀衆總覺得哪兒不對勁兒。有一種活生生的“恐怖谷”效應，看着就覺得渾身不自在。

說白了，這就是一種技術不到位的表現。

因爲大多數AI視頻生成算法，背後雖然在很努力地模仿現實世界的物理規則，模仿人和動物的運動方式，但仍無法完全理解數據背後的語義和情感。因此生成的內容，在某些細節上顯得缺乏“靈性”。

圖源：可靈

而這明顯的“AI”味，也成了當下大衆對AI作品懷有偏見的重要原因。

由於上述短板的存在，目前火爆於各大視頻平台的AI視頻，大都以“玩梗”“搞笑”爲主，因爲只有這類“不正經”的視頻，才不會對生成的成本、效果有太高要求。

更悲哀的是，當下的AI視頻賽道雖未大火，但早早面臨“未火先卷”的情況，多家AI視頻生成廠商都對功能進行密集迭代，但大多是“錦上添花”而缺乏躍進式體驗升級。

以快手的可靈爲例，其推出的運鏡控制、高清生成、圖生視頻等功能，國內的各大視頻生成類AI，例如智譜的清影、字節的即夢也都有。

圖源：可靈

而這種同質化的、聊勝於無的功能，並未能給用戶體驗帶來大幅度的改善。

說到底，視頻生成類賽道的內卷，本質上是現在的LLM遇到瓶頸後，一種爲了延續“AI故事”的無奈之舉，但悲哀的是，這樣的故事目前還沒有一個大廠能講好。

02.

數據枯竭下，深度推理或是救星

在各種訓練數據行將耗盡的當下，LLM的scaling law的神話該怎樣繼續？

在OpenAI 的o1模型發布後，人們意識到，這個問題的答案，就是強化學習。

對此，月之暗面的CEO楊植麟分析道：決定這一代AI技術的上限，核心是文本模型能力的上限。

從技術上來看，楊植麟此言非虛。

因爲即使在多模態任務中，文本層面的理解和推理也是必不可少的。以Sora爲例，其訓練數據包含了大量“視頻-文本對”，每個視頻片段都有對應的詳細文本描述，這種配對方式，讓模型能夠建立文本語義和視覺表現之間的映射。

同時，倘若視頻模型要想取得更大進展，例如發展出完整的敘事結構，就要求文本模型有執行復雜邏輯推理的能力。

如果文本模型無法規劃復雜敘事，視頻模型也難以突破這個上限。

因此，LLM未來的方向實際上已十分明了：文本模型決定了多模態的上限，而深度推理又決定了當前文本模型的上限。

正因如此，在o1推出後，國內的諸多大廠如字節、智譜清言、月之暗面等，都紛紛在自家的大模型中开通了“深度搜索”功能，這算是深度推理功能的聯網版本。

但從實際表現來看，並非所有廠商都在這方面表現得盡如人意。

在這裏，我們以一個較爲考驗深度推理和分析能力的問題，來對字節、智譜清言、月之暗面各自的大模型進行一番對比。

這個問題是：分析近三年全球智能手機市場的發展趨勢，包括各大品牌的市佔率變化、技術創新，以及消費者偏好的變化。

圖源：豆包首先測評的，是字節的豆包大模型。

可以看到，雖然在整體的水准上，確實有一些切中要害的關鍵點，但在進行回答時，整體的內容、結構顯得十分臃腫、凌亂，並沒有做太多結構化、精細化的處理，使用戶在閱讀時，仍感到很大的閱讀負擔和壓力。

圖源：智譜清言

接下來測評的，是智譜清言的智譜AI。

可以看到，與豆包相比，智譜AI在進行深度推理時，結構明顯比豆包更清晰、更有條理，且針對蘋果、三星、vivo等不同的品牌，具體列出了不同的市場表現、市場份額。

但從整體上來看，每一部分的總結與分析，仍顯得過於簡略。

圖源：KIMI

最後登場的，是月之暗面的kimi。

在开啓深度搜索功能後，Kimi在信息的分析、總結上，表現出了更加細致、深入的特點，不僅以不同的年份，詳細展示了不同品牌在市場中的份額變化，以凸顯趨勢，且在對技術創新方面進行分析時，十分具體、細致地展示了不同年份中，不同品牌推出的具體技術。

綜合來看，Kimi在進行復雜問題分析時，其推理的深度、精細度，要顯著優於豆包、智譜AI。

由此可見，目前在“深度推理”這一頗爲考驗LLM“內功”的分水嶺上，國內廠商已經顯示出了顯著的差距。

03.

追求大而全，陷入战略困境

如前所述，自從OpenAI推出o1後，當下大模型的發展，已經到了一個進行战略選擇的分岔口。

而在這關鍵的战略分叉點上，國內的部分大廠如字節，由於自身布局於短視頻業務的巨大慣性，並未在深度推理方向進行深耕，只是靠着低價競爭，以及“多而不精”的龐雜功能，才硬擠上國內大模型排行榜的頭部。

圖源：豆包

據火山引擎總裁譚待介紹，“豆包主力模型在企業市場的定價只有0.0008元/千Tokens，比行業便宜99.3%。”

但一味地降價追求“性價比”，某種程度上透露出的是自身模型缺乏核心競爭力的表現。

與字節類似，“AI六小虎”之一的智譜清言，也走上了一條追求“大而全”的路线。簡言之，目前的智譜，也成了那種“繪畫、視頻、搜索都要一攬子拿下”的AI企業。

圖源：智譜清言

但實際上，這種“大而全”的追求，反映的是一種商業上的“困獸猶鬥”。

這是因爲，目前國內企業主對軟件購买意愿偏低，To B端大模型給企業帶來的價值仍處在割裂狀態，2023年國內大模型市場規模僅有50億元，2024年也僅增加到120億元。

在B端市場狹窄、C端又尚未打开的情況下，任何做大模型的企業，唯有不停地融資、燒錢，橫向地擴展用戶，才能讓自己的模型活下來。

但這種跑馬圈地的邏輯，本質上仍是互聯網時代的思維，這並不能真正地“救活”AI。因爲與互聯網不同，AI產品的邊界，並不是由用戶數決定，而是由實打實的技術力決定。

一個有些反直覺的現實是：與視頻生成這類耀眼的、更容易令人遐想聯翩的技術相比，真正能在C端帶來突破的，也許是深度推理這類既難啃又不性感的技術。

原因就在於，視頻生成主要服務創意表達，應用場景相對固定，用戶群體、變現模式都較爲單一，其價值體現在內容產出，ROI相對直觀。

從本質上來說，它更像是一個效率工具，而不是一個能帶來顛覆性改變的技術。

相較之下，深度推理則屬於基礎認知能力，可以賦能各類應用，其突破可帶來各方向的普遍提升，且其能力可以遷移復用，更易於產生協同效應。

更重要的是，隨着這項技術的發展，它對用戶的理解會越來越深入，提供的建議會越來越個性化和精准。

這種持續學習和進化的特性，讓其很難被簡單的工具或服務所替代，這正是某些短命的“爆款應用”所需要吸取的教訓。

可惜的是，在這條難而正確的道路上，真正敢於堅持並做出成就的企業，目前仍屈指可數。

原文標題 : 大模型走到AI战略分岔口，字節們面臨偏航危機

標題：大模型走到AI战略分岔口，字節們面臨偏航危機

地址：https://www.utechfun.com/post/436823.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：大模型 AI 字節

上一篇:地平线正式登陸港交所：开盤上漲超25%，港股迎今年最大科技IPO

下一篇:AI 盡頭是核電！

您現在的位置：首頁人工智能

大模型走到AI战略分岔口，字節們面臨偏航危機

猜你喜歡

您現在的位置： 首頁 人工智能

猜你喜歡

您現在的位置：首頁人工智能