AI大模型战爭年度復盤:21世紀最重要技術競賽的幾個基本事實與演繹趨勢

2024-12-19 18:40:14    編輯: robot
導讀 本文系基於公开資料撰寫,僅作爲信息交流之用,不構成任何投資建議 這場轟轟烈烈的大模型之战,是21世紀迄今爲止最重要的技術競賽,沒有之一。 這場技術競賽具有強烈的21世紀的特徵: 一、信息公开及時,任...

本文系基於公开資料撰寫,僅作爲信息交流之用,不構成任何投資建議

這場轟轟烈烈的大模型之战,是21世紀迄今爲止最重要的技術競賽,沒有之一。

這場技術競賽具有強烈的21世紀的特徵:

一、信息公开及時,任何參賽選手的動作都會隨時被全世界的選手了解並跟進,一個選手的技術優勢保持的時間只能以天計。

二、上下遊高度聯動,只是开發出一項絕技是不夠的,還要找到上下遊的幫手來將這個絕技貫通到用戶端和上遊基建端,一個維度不夠有優勢都有可能被偷家。

主流視野內,這場競賽已經开始2年了。我們有必要對這場競賽做一個復盤,看看它進入哪個階段了,有哪些還在緊跟和引領的選手,甚至有可能大膽的猜一猜這場競賽最終將以何種形式結束,誰是最終的勝出者。

01三個階段

首先很有必要給這場競賽一個階段性劃分,方便我們有明確的時間戳來梳理競賽過程。如果給這場競賽一個階段性劃分,按照傳統的方法,我們可以找個標志性的產品來粗略判斷,而當前有個最佳參考標的:OpenAI旗下的ChatGPT。

它既是這場競賽的發起者,也是截止目前最佳的參賽選手,更是其他選手的追趕和對齊的目標。我們用OpenAI作爲參考和分析對象,觀察其技術和產品動態可以大略把迄今爲止的競賽分爲三個階段——但考慮未來大模型最重要走入終端應用,也可以把這場競賽分成四個階段。

第一階段:參數比拼,先上牌桌

一個模型是否好用,沒有上億個參數基本上不了台面。

2023年關於大模型的新聞報道,參數指標以及大規模多任務語言理解基准測試的得分基本模型面世的“見面禮”。GPU成了大廠拼搶的目標,記得有段時間GPU倒賣比挖礦還要火熱。

這個階段表面是比誰家的模型參數多,誰家的模型評分更高,誰家模型效果好。背後何嘗不是算力的比拼,而算力背後又是GPU的比拼。這一層層的比拼中造就了多少的贏家和輸家。

這個階段的畢業的贏家,基本會形成自己的模型“調性”和特長方向。

通過對OpenAI的GPT模型的迭代梳理,我們發現這是一個需要一步步消除歷史問題,並改進准確度,提高智能性並逐漸增加更多模型能力的過程。

2019年2月,GPT-2發布,這僅是一款無監督的Transformer語言模型,完整版本的GPT-2僅有15億個參數,隨後的2020年6月份GPT-3發布,參數爆發性上漲到】1750億個,標志着自然語言處理技術的飛躍,也給之後的大模型設定了入門門檻。

隨後2022年11月,OpenAI發布了基於GPT-3的對話產品ChatGPT,同月發布了GPT-3的改進版本GPT-3.5這個改進版本,具備近似自然人的語言生成能力,隨着ChatGPT的發布驚豔全球。

2023年3月,OpenAI發布第四代語言模型GPT-4,其參數有1.8萬億個,甚至媒體報道訓練一次的成本在6300萬美元,從這個版本开始ChatGPT具有了圖像作爲輸入的處理能力。但用戶對ChatGPT囉裏囉嗦,編故事的抱怨不斷升級。

2024年5月,OpenAI發布了GPT-4o,它可以處理和生成文本、圖像和音頻,從這個版本开始語音加入了大模型擂台。GPT-4o在大規模多任務語言理解基准測試中的得分爲88.7%,高於GPT-4的86.5%,用戶對ChatGPT胡說八道編故事的抱怨大大減少了。

2024年7月,OpenAI發布了GPT-4omini,這是GPT-4o的較小版本,使用這個版本可以在犧牲部分模型效果的前提下大大降低應用成本。其API每百萬輸入令牌成本爲0.15美元,每百萬輸出Token成本爲0.60美元,而GPT-4o的成本分別爲5美元和15美元。OpenAI已經在考慮讓大模型成爲企業和开發者產品功能的基礎組成部分。

2024年9月,OpenAI發布了o1-preview和o1-mini模型,進一步提高模型的准確率。

2024年12月,GPT-o1完整版發布。o1可以根據不同的prompt有不同的相應速度,對於復雜的問題會提供更加智能的回應,我們親測o1的解答明顯更加具備邏輯性,這意味着大模型幻覺問題得到一定程度解決。同時o1處理圖像作爲輸入時的准確度進一步提升,測試一章模糊的柱形圖圖片,o1不僅可以識別數字,還會自行生成對柱形圖的分析。

OpenAI走過的這一個個階段,幾乎也成了其他廠商模型改進的重要參考,OpenAI的改進方向也成了其他廠商努力的目標。

傳統的互聯網大廠,Meta、微軟、谷歌和亞馬遜對於AI模型的研究並不晚於OpenAI,只是後者最快有了突破。

Meta不僅推出了自家的大模型,並且开源了。12月9日Meta發布了Llama最新成員:Llama3.370B,該模型能夠以更低的成本擁有Llama3.1405B的性能。該模型優化了多語言支持,上下文長度拓展到了128k。

除了开源模型,Meta還推出了廣告推薦設計的廣告檢索引擎Andromeda。Andromeda通過利用最先進的深度神經網絡,結合ML、系統和硬件的協同,有效提升了廣告檢索階段的效率,爲Meta廣告系統提供更個性化的廣告投放,提升了廣告花費回報率。

谷歌一直在深度學習和人工智能方面學術研究領先,但在大語言模型方面似乎有些亂了陣腳,初代Gemini給谷歌帶來的是更多的質疑聲。12月12日谷歌發布Gemini2.0Flash,這是谷歌首款實現原生多模態輸入輸出的模型,不僅在模型精准度方面相比1.5pro完成大跨度提升,還可直接生成圖片。

微軟和亞馬遜自研的大模型進度落後,但通過曲线救國完成了大模型布局。微軟是OpenAI的最大金主,獲得了OpenAI的大模型獨家授權,同時微軟Azure雲也是OpenAI的服務提供者,微軟旗下的Microsoft365商業軟件、CopilotAI都已經上线了基於GPT模型的AI產品,2024年Q3的財報前瞻中微軟預期Azure雲營收245~250億美元,同比增35%~36%,AI的應用對收入的貢獻約爲13個百分點。

亞馬遜則是通過多次投資Anthropic進入大模型賽場,截止目前,亞馬遜的投資金額已經達到了80億美元。

Anthropic旗下的Claude之於Amazon,就像ChatGPT至於微軟,Anthropic成爲了亞馬遜在這場競賽中對抗OpenAI和微軟的重要棋子。亞馬遜是一加注重InfoInfra的巨頭,即使在推進大模型業務方面,亞馬遜也是全鏈條推進。12月3日“re:Invent”大會上,亞馬遜發布了6款大模型,並計劃在2025年再發布2款大模型,還推出了AI訓練芯片Trainum3以及AI服務器Trn2UltraServer。幾乎是一次性完成了從模型訓練到應用的布局。

盡管發布時間明顯落後,但亞馬遜對於大模型的應用反而是很徹底的。三季度財報顯示,面向購物者亞馬遜推出了生成式人工智能專家購物助手Rufus以及面向B端商家推出了人工智能助手ProjectAmelia。

Anthropic旗下的Claude,在2024年二季度迭代以後,在變成和對話方面的能力可以與GPT-4比肩。2022年8月創立的基於大模型的搜索產品PreplexityAI,推翻了傳統搜索引擎超鏈接的展示方式,直接將關鍵詞的搜索結果通過AI總結摘要展示給用戶,免去了挨個點擊鏈接並自行判斷的過程。PreplexityAI甚至在四季度已經开始嘗試AI結果頁面的廣告變現。

馬斯克旗下的xAI推出开源大模型產品Grok以及圖像生成模型Aurora……

在2023-2024年這2年內不止國外大模型突飛猛進,國內也是百模大战好不熱鬧,一時間幾乎所有的互聯網公司都在研發大模型。

有專注大模型的垂直創業公司六小龍,智譜AI、MiniMax、月之暗面、百川智能、零一萬物和階躍星辰。以及老牌BAT出品的,阿裏的通義千問、百度的文心一言、騰訊的混元模型。

由於具備豐富的業務和數據積累,BAT的大模型產品一开始就姥姥抓住了用戶,特別百度不僅模型推出的早,還創造性的提出了“模型即服務”MAAS概念,一時間幾乎定義了國內的大模型研發的範式。

互聯網新貴字節和快手分別推出了豆包和可靈大模型。豆包更是後來居上,據晚點披露,字節豆包App今年9月的日活已達760萬,MAU超過4000萬,成爲衆多大模型C端產品中獨一檔的存在。

不同於通用性大模型,一些互聯網公司根據自己業務特性开發的針對性較強的大模型,如B站index大模型、網易的子曰、360的奇元。大廠中尚無明確大模型產品和策略的只剩下美團和拼多多。

對自家模型功能的描述猶如另一套互聯網黑話,其用詞堪比房地產公司的宣傳語,總結起來就是強大,強大還是強大。

王小川曾斷言,未來國內大模型市場第一梯隊或僅有五家存活,大廠佔據主導地位,小型創業公司能存活的寥寥無幾。今天來看,這一結論似乎正一步步驗證,缺乏有效的商業變現機制以及對模型訓練持續投入的熱情正在下降,六家公司真正直接依靠大模型能力打正成本的幾乎沒有。

總體來看,經過2年的酝釀和淘汰賽,仍然穩定在牌桌上的廠商都有過硬的技術和產品了。各家面對的最大問題战略層面是變現,技術層面是向拓展模型邊界,發展多模態。樂觀的是,這個階段我們也看到了一個積極的信號,即大模型不再是贏家通喫的市場了,沒有一家有能力壟斷技術和市場。

第二階段:多模態拓展和變現並行

除了大語言模型(LLM)外,文生圖、文生視頻,語音對話,甚至3D生成極大的拓展了大模型的應用邊界。

多模態之爭中,最有應用前景的當屬視頻生成,OpenAI推出了視頻生成模型Sora、圖片生成模型DALL-E、Meta發布文生視頻工具MovieGen、谷歌的Gemni2.0可以直接從文字生成視頻。

國內方面快手正式推出了視頻生成模型可靈AI,字節推出了視頻生成模型PixelDance和Seaweed,以及基於模型的視頻生成平台即夢AI,六小龍中MiniMax發布了其首款AI高清視頻生成模型技術abab-video-1。

百度在這場多模態競賽中表現的格外另類,曾有消息傳出李彥宏並不認可像OpenAI一樣去做視頻生成模型Sora,另一方面又強調百度需要發展多模態,但百度在這方面的動作緩慢。

與多模態發展並行的是盡快將大模型能力變現。面向C端用戶國內外主流的變現方式採用類似視頻網站的“每日限次使用+會員訂閱”模式,20美金/月成了大部分大模型的入門價位。

仍然以OpenAI爲例,推出了團隊版Team、每月20美金的Plus版本以及每月200美金的Pro版本。國內Kimi創造性的採用“打賞”模式,“打賞”金額不同可獲得不同時長的高峰期優先使用權。

B端的變現模式則增加多樣化,也代表着大模型真正發揮實力方向。Meta、谷歌將大模型能力應用在在线廣告業務中,通過驅動廣告業務增長來拉動營收。國內除騰訊並未透露大模型的收入提效外,阿裏和百度的雲業務都已經應用AI大模型,並產生部分受益。

2024年10月31日谷歌發布三季度財報,其中谷歌雲營收從去年同期的84.11億美元增長至113.53億美元,同比增長近35%,谷歌將其強勁的雲業務表現歸因於旗下的AI產品如面向企業客戶的訂閱服務增長驅動營收提速。

另一巨頭Meta在同期三季度財報中透露,核心廣告業務的得益於大模型改進打來收入增長,已有超過100萬廣告主使用Meta的生成式AI廣告工具。

大模型創業公司的營收則更爲直接的展示了其營收能力。從OpenAI和Perplexity AI的收入來看還遠遠不夠驚豔,但巨大的用戶體量還是給投資人以變現的耐心。

OpenAI目前周活2.5億,C端付費用戶貢獻約75%的營收,2024年公司總收入約34億美元,但在刨除運營、人工和管理成本之後虧損50億美元。6月份其首位CFO到位,其透露OpenAI將努力增加消費端訂閱人數,努目標是將周活的5%-6%轉化爲付費用戶。

AI搜索公司Perplexity近期在尋求新一輪融資,據The Information報道其在融資材料中披露,預計其年化收入將在2025年達到1.27億美元,較目前水平翻倍。

國內方面,百度在第三季度財報中透露文心大模型日均調用量達15億次,比2023年四季度的5000萬次,增長了30倍,相比去年Q4披露的5000萬次,一年內增長30倍,百度智能雲營收達49億元,同比增長11%,AI相關收入佔比持續提升至超11%。阿裏雲季度營收增長至265.49億元人民幣,同比增長6%。其中,AI相關產品收入實現三位數增長。

兩年的時間,對於一個技術應用來說還不夠長,最重要的是模型還需要打磨並滲透到現有的業務中,推向用戶。這需要一定的短期的技巧和長期的耐心。

第三階段:推薦到應用層的變革

但如果說大模型的牌桌最終可能屬於實力巨頭,那么在經過3-5年的技術發展之後,各家始終要面對的就是讓更多的下遊企業運營大模型,實現成本回收,更重要的是真正讓大模型經受來自最終端用戶的檢驗。

已經有多個模型的實際應用方向吸引衆多公司嘗試,如AI Coding,側重模型的邏輯思維和編碼能力,大大降低互聯網產品开發門檻。

AI Agent,突破Chatbot框架,更廣泛的發揮大模型的能力走入實際應用中,谷歌的Project Mariner是一個AI代理,能夠幫助用戶查找航班和酒店、購买家庭用品和尋找食譜。

AI代理概念被業內普遍看好,但具體定義尚未達成統一共識,一個普遍的觀點是,AI代理除了能回答問題,還需要能跨越多個系統執行復雜任務。AI機器人,通過人機對話接口來輔助失能人群和替代勞動密集型崗位。

其中尤其以AI Agent最受關注,甚至微軟和谷歌也已經在進行相關部署。畢竟有了代理,能極大的將用戶從PromptEnginering中解放出來,讓模型能力的發揮不再受制於輸入方式的限制。

就像一場奧林匹克運動會,有些賽場會吸引大多數人的目光,有些賽場小衆人群關注,但不管哪個賽場都可以決出實實在在的金牌。

大模型賽場在巨頭你來我往的爭奪之外,還有一個“應用賽場”也格外值得關注。

AI教育,以Duolingo、Speak等明星企業爲藍本,AI語音+大模型完美替代了“外教”這一角色,爲用戶提供了完美的口語訓練和單詞記憶功能。

AI陪伴成爲了收入和用戶體量上受益最大的賽道。盡管上不了大台面,但這個賽道內的公司紛紛賺得盆滿鉢滿,AI Dating(Rizz、Blush)、Talkie、Character AI名利雙收。

AI營銷:僅是LLM就足以在投放素材上大大解放營銷人員,Meta早就在其營銷神態產品中應用了AI創意生成,Pinterest也上线了自己的大模型產品PinterseCanvas幫助廣告主進行創意和素材生成。

除了生成素材,大模型還可以幫助廣告主從縝密的營銷活動設置中解放出來,Applovin和Meta的投放流程自動化產品已經做到了廣告主只需要設置推廣產品和預算、投放地區和人群等基本營銷條件,大模型自動生成營銷活動、廣告投放以及最終的投放數據分析,甚至連具有一定門檻的AB測試都可以用模型實現,大大解放了廣告主的人力配置。

最有“錢景”的方向——SAAS。如果要選擇一個第二賽場的最大受益者,那中小創業公司必然在列。Reddit論壇和HackerNews上,不斷有個人开發者個小團隊利用大模型技術,這類應用簡單小巧應用覆蓋的範圍窄,一般都是基於成熟大模型,解決特定的效率問題,如廣告文案修改和腳本潤色、故事思維拓展等。

未來還可能有第四階段,大模型的應用已經推進到終端,在各種應用層面掀起一場自上而下的效率改革,這恐怕不是三五年的時間可以實現的了。

02起飛的枷鎖:算力和成本

我們劃分大模型的發展階段,卻始終沒提到伴隨這股風潮而再次火起來的算力問題。

2023年,OpenAI奧特曼指出,全球AI運算量每隔18個月就會提升一倍,英偉達黃仁勳在2024年宣布,摩爾定律已經失效,GPU效能每兩年將增加一倍以上。

除了算力還有模型訓練成本問題。

大模型訓練的成本有多高?根據報道2024年,Anthropic的模型訓練和擴展成本超過27億美元,盡管大模型相關的融資屢見不鮮,融資金額也屢創新高,但隨着可預見的未來越來越清晰,以及各大模型廠商幾乎同步的遇到算力和應用問題,不少企業無法再無門檻的拿到融資,由此出現了資金喫緊和運營困難的情況。

文生圖模型StableDiffusion的面世讓StabilityAI廣爲認知,但在2024年也出現財務困境,公司幾乎難以爲繼。

03國內大模型隱憂

隱憂之一,漫長的投入期,要還是不要?

國內的大模型賽場用幾個詞形容最爲合適,起步晚,趕得緊,走得急,落的快。

時至今日,可以說大模型競賽進入了第三階段,多模態能力的比拼正在慢慢進入尾聲,可以說在這個階段國內廠商並不落後。

但我們同時又可以看到,國外即使是基礎的大模型仍然在迭代中,參數增強、算力優化等等。甚至Google在經歷了Gemini被各種諷刺後,仍然推出了Gemni2.0,實現原生多模態輸入輸出,讓一衆使用者贊嘆不已。

根據我們多次對比使用來看Gemini2.0比1.5完成了質的飛躍,甚至在某些應用中比ChatGPT-o1更令人滿意,真正讓人體驗到了“推理模型”的魅力,在給出應答結果的時候還會同時給出next level的參考。

回到國內無論是六小龍還是新舊BAT似乎同步遇到了瓶頸——預訓練還要不要做,推理模型還要投入多久?這漫長看不到頭的投入期,讓前幾年紛紛降本增效的各大公司猶豫不決。

國內的商業環境以及上市公司的股東們是否會允許大模型近乎看不到回報的投入?

早在2023年下半年以及2024年上半年的多次財報電話會議中Meta、微軟、谷歌等公司的分析師就多次詢問大模型投入回報率,以及投入是否足夠的時候,各個公司的管理層頂住了投資者的壓力沒有在預算上砍價。

但國內呢,能夠頂住投資者投下來的壓力嗎?要知道國內至今沒有一家巨頭在財報中明確給出大模型帶來的收益。

隱憂之二,成本回收。

國內市場來講,大模型訓練和應用缺乏有效的應用場景來回收投入成本,盡管這點在國外也並不鮮見,但國內成本回收問題尤其令人憂心。近期百川智能首席營銷官洪濤離職可能就是這一隱憂的間接體現。

以互聯網行業爲例,國內缺乏一個成熟的在线廣告行業應用場景。

Meta和Applovin已經證明了大模型在廣告營銷方面的巨大潛力,並且已經在逐漸從底層再次給這個成熟巨大的市場添一把火。國內首先缺乏一個有一定覆蓋度的廣告平台,幾乎都是既當運動員又當裁判,營銷效果透明性較差。

其次,大模型成效明顯的SAAS行業,在國內的發展也乏善可陳。

國外像Salesforce、Snowflake以及剛剛上市的ServiceTitan這樣提供互聯網雲計算、雲存儲和信息數據服務的saas廠商,這類toB的公司可以融合和觸達更多的中小企業的雲服務和計算需求,給大模型應用提供廣闊的的平台。

國內大模型廠商商業化有幾個方向:

其一會員訂閱,即每日免費次數使用完之後,結果更多次數需要按月付費。

其二,大模型訓練,按token收費。其他企業使用大模型廠商的模型接口來完成自身功能改善,根據對話量向模型廠商付費。例如,在社交產品中上线對話機器人,如微博的評論羅伯特,或者供自家用戶文生圖或者文生視頻等UGC場景。這些幾乎都依賴於接口調用量,這是各大模型廠商競爭最激烈的战場。

價格战嘛,並不陌生,這恐怕是國內商战最簡單有效的套路了,放到大模型應用這也同樣好使。可問題是在價格战背後,模型的效果的提升還能有保證嗎?甚至於我們認爲,字節在大模型战場起步晚、追趕快,就是趕上了國內大模型價格刺刀战中,各家都暫時把模型質量放到一邊這個時間窗口。

根據歷史上各類“風口之战”的經驗,沒有有效的商業模式來收回模型成本,企業不會持續投入,甚至理想情況看,國內的大模型之战的結果可能變成另一個“中國安卓機”市場的現狀。

04基本結論

以上,總結下當前AI大模型的幾個基本事實:

1.大模型技術發展至今2年的時間,其應用方向已經遍布互聯網的核心行業中,其中在线廣告、在线教育、受益最大;

2.傳統實業也正在以終端接入模型的方式這一技術革新帶來的提效;

3.模型進一步發展的瓶頸在於突破算力的束縛,但當前算力幾乎集中在英偉達一家公司,這是不正常現象;

4.AI訓練芯片可能是繞過算力瓶頸的另一種更直接高效的方式;

5.由於大模型越來越集中到巨頭手中,且缺乏有效的第三方業務平台,國內的應用不會像美國那樣普遍,有可能傳統實業的應用成效比互聯網更大;

6.國內大模型應用最終進展,取決於投資人是否有耐心容忍企業的長期持續投入。

大模型競賽進展到今天,已經不是一場算法比拼,肯定會掀起一場新的產業變革,這種變革和前段時間的元宇宙以及WEB3不同,是一場實實在在的從上到下又發起,又從底層到上層應用的競賽。

比人才、拼技術、比算力的競賽,其發展目標更接近奧林匹克的“更快、更高、更強”,但其中唯一不合理的地方就是這場競賽的速度瓶頸——算力至今仍然只掌握在英偉達一家公司手中。這種現狀肯定不會爲科技巨頭所容忍,AI訓練芯片已經被亞馬遜和英特爾提到日程上來了,從芯片層級來打破英偉達的壟斷。

所幸大模型競賽已經不再是贏家通喫的局面了,甚至擁有某些局部優勢的中小創業公司也有可能在其中分一杯羹。人們短期內高估了大模型的影響而長期又低估了其影響,這是一場來勢洶洶又細水長流的競賽。

       原文標題 : AI大模型战爭年度復盤:21世紀最重要技術競賽的幾個基本事實與演繹趨勢



標題:AI大模型战爭年度復盤:21世紀最重要技術競賽的幾個基本事實與演繹趨勢

地址:https://www.utechfun.com/post/456567.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡