冷眼與嘲諷之後,谷歌的AI大模型翻盤之路

2024-12-31 18:40:53    編輯: robot
導讀 本文系基於公开資料撰寫,僅作爲信息交流之用,不構成任何投資建議 “我認爲2025年將至關重要。我認爲我們必須意識到這一刻的緊迫性,並需要作爲一家公司加快步伐。風險很高。這些都是顛覆性的時刻。在202...

本文系基於公开資料撰寫,僅作爲信息交流之用,不構成任何投資建議

“我認爲2025年將至關重要。我認爲我們必須意識到這一刻的緊迫性,並需要作爲一家公司加快步伐。風險很高。這些都是顛覆性的時刻。在2025年,我們需要堅持不懈地專注於釋放這項技術的優勢並解決真正的用戶問題。”12月18日舉行的2025年战略會議上,谷歌首席執行官桑達爾·皮查伊(Sundar Pichai)如是說。聽起來像是公司生死存亡的時刻,事實是遠沒有到這地步。

谷歌剛剛經歷了一個揚眉吐氣的12月,當然揚眉吐氣之前是灰頭喪氣。而在2023-2024年,能讓谷歌的命運如此波折的事件,只有當下最受矚目的新賽道——大模型。谷歌在大模型的賽場上可謂受盡了冷眼和嘲諷。首先要說,谷歌的大模型或者人工智能起步非常早,幾乎是Mag-7中起步最早的,甚至在OpenAI發布了3.5之後,馬上在2023年出發布了自己的第一代成熟大模型Bard。但幾乎招來的不是贊嘆,而是近乎嘲諷的對待,股價也隨之低迷。直到現在,谷歌仍然是Mag-7中PE最低的。作爲上個移動互聯網時代的絕對勝利者,早在2001年就已經开始機器學習研究的谷歌來說,這是無法容忍的。

01坎坷的大模型之旅

【1】起大早趕晚集

作爲上個移動互聯網時代絕對的勝利者,谷歌向來在技術儲備和技術創新方面不遜色於任何公司。尤其是在深度學習、神經網絡這類人工智能領域,需要絕對比拼算力和算法的領域,谷歌一直都處於領導地位。2001年,谷歌开始利用機器學習來幫助人們糾正關鍵詞輸入的錯誤拼寫。2006年,推出基於機器學習的谷歌翻譯。2015年,开源機器學習框架 TensorFlow推出,使得人工智能更易於訪問、可擴展和高效,由此推薦算法進入主流移動應用場景。2016年,DeepMind开發的AlphaGo擊敗世界圍棋冠軍,人工智能這個曾經出現在科幻作品中的詞匯變成現實。

同年,DeepMind就推出了機器學習發明並針對 TensorFlow 優化的定制芯片TPU,這種定制化芯片可以更快、更有針對性地訓練和運行AI模型,2024年12月谷歌的新一代大模型Gemini2.0 就是基於第六代TPU訓練得來。2017年,谷歌推出了新型神經網絡架構Transformer,奠定了生成式 AI 系統的基石。2019年2月,GPT-2正式基於Transformer架構的語言模型,隨後催生了GPT-3.5、GPT 4.0,GPTo1等等。遺憾的是,谷歌自己的初代大模型反而不是基於Transformer架構。

2】競爭來的太快太急

爲了應對2022年底GPT-3.5的爆紅,2023年2月6日谷歌發布大模型Bard,3月份首批在美國和英國推出。初代版本的Bard,是基於谷歌2021年發布的LaMDA(Language Models for Dialog Applications)大模型。這款模型具有多達 1370 億個參數,更注重自然對話能力,對於信息和數據處理的能力不夠強,因此在巴黎的直播發布會中表現不佳,導致谷歌的股價下跌了8%。

谷歌內部和媒體紛紛批評和質疑谷歌的大模型能力。我們的測試中,也發現和ChatGPT相比,Bard更像是上個時代的產物,對話效果比Apple的Siri好不了多少。2023年4月10日,Bard的底層模型升級爲更強大的通用語言模型PaLM(Pathways Language Model)。和前代LaMDA模型相比,PaLM擁有更強大的語言理解和生成能力,對話過程更爲流暢自然。5月10日,Bard升級爲PaLM2大模型,在PaLM的基礎上增加大大提升了邏輯推理能力,來減少對話中的笑話。

谷歌在這個階段开始了大模型和自身產品的集成,從PaLM2开始大模型已經爲多款 Google產品提供生成式AI功能,包括Gmail 和Workspace等。一直到2023年12月,Bard才再次迎來大升級,谷歌官方給出的表現報告顯示Gemini Pro性能表現全面超越GPT-3.5,模型從PaLM切換爲GeminiPro。Gemini Pro在文本理解、總結、推理、編碼和規劃等方面都得到了顯著加強。在整個2023年中,盡管谷歌在不斷迭代模型,但始終並未進入“大模型頂流”行列,甚至應用範圍沒有走出谷歌自己的生態鏈。要知道彼時已經有不少套殼產品依靠OpenAI的chatgpt开始盈利了。

谷歌周圍,強敵環伺。OpenAI佔據大模型絕對的領頭羊第二,Anthropic的Claude每次迭代都能帶來驚喜,並不斷投Amazon等一輪輪融資,大有趕超OpenAI氣勢。Meta索性將自家大模型开源,劍走偏鋒。谷歌自己的基本盤搜索業務上,又有垂直AI搜索產品Preplexy爆火,直接改革了搜索結果這一谷歌搜索廣告的重要流量源。谷歌大概很多年沒有感受到這么強烈的危機感了。大模型競賽就像一場开卷考試,比拼的就是算法、算力和基建,幸好這幾樣谷歌都不缺。

【3】老牌霸主憑實力趕上

2024年2月8日 Bard正式更名爲Gemini,谷歌开始了趕超之旅。

2024年5月14日Gemini 1.5Pro和Gemini1.5Pro,2024年12月6日Gemini發布2.0 Flash。在迎頭趕上垂直大模型產品之外,谷歌還拓展了大模型外圍產品,廣受好評的就是NotebookLM。NotebookLM是2024年9月份谷歌發布了一款AI筆記應用。該產品可以對輸入進行理解和摘要,生成一個對談式的音頻內容,堪稱播客制作的先天聖體。12月份NotebookLM進行了重大升級,包括新外觀、新功能(例如“加入”音頻概覽以與主持人交談的能力)以及高級版本 NotebookLM Plus。

我們在測試了兩款由該筆記應用制作的播客節目,談話的嫺熟程度已經超過播客從業者初級水平,AI主持人的音色自然,聊天過程中的不乏由談話內容產生的抑揚頓挫,幾乎無法識別是真人還是AI節目。唯一的不足就是對內容的理解,過於“AI”化,對輸入內容的挖掘無法跟進時下熱門內容。但這款AI音頻制作工具帶來的強大效率是真人播客無法比擬的,不僅可以應用在播客制作,還可以應用在論文理解和解讀方面,大大降低了人們對高深內容的閱讀門檻。Spotify Wrapped 的粉絲們推出一檔Spotify Wrapped AI 播客,該播客完全使用NotebookLM 構建。

多模態方面,2024年2月,谷歌推出了文生圖模型Imagen 2。但推出後不久,就被用戶發現混淆了真實歷史錯誤而蒙上陰影。隨後進行“回爐再造”直到8月才迭代到Imagen 3。重生後的Imagen 3模型細節准確性方面得到了增強,並支持多種畫面各種風格和更豐富的紋理,文生圖像質量得到顯著提高。

5月份,谷歌發布視頻生成模型Veo來對抗OpenAI的Sora。

初期Veo主要面向內容創作者,可以支持高清晰度的視頻生成,用戶能夠輕松制作分辨率達1080p、時長超過60秒的高質量視頻,還支持多種電影效果的視頻風格。多家媒體測評發現,盡管Veo在畫質方面細膩度更勝一籌,但視頻內容“科幻感”太強,無法做到Sora的現實感,幾乎一眼假。DeepMind還爲天氣預測研發了AI天氣模型GenCast,可以做到比其他天氣預報系統提前15天預報氣象變化,這對於農業地區氣象災難預警極爲有利。2024年10月份DeepMind因爲蛋白質結構預測模型AlphaFold順便拿了一個諾比爾化學獎,盡管是和David Baker均分的。無論是天氣還是在生物醫藥領域,都表明谷歌AI在科研領域滲透遠超OpenAI等AI新秀。

【4】豐收的月份

經過2024年一年的煎熬和打磨,谷歌找到了自己的節奏,在24年最後一個月份迎來了豐收。不僅以Gemini 2.0打破了OpenAI連續12天產品發布會的連續劇,更是以量子芯片Willow證明了自己在科技界不可撼動的地位。12月11日Gemini 2.0發布前,谷歌已經“不引人注意”地發布了gemini-exp-1206模型。這是一款實驗性模型,甫已發布就在小範圍內成爲了多個LLM評分榜單的top,甚至超過自家後來發布的2.0 flash。預計這個版本的模型會是未來更先進模型的測試版。更轟動的當然是12月11日的Gemini 2.0 Flash,從“flash”這個單詞可以看出,大概率這還不是Gemini 2.0的完整版,但目前釋放出的功能就足以幫谷歌拿回技術引領者地位。

其強大之處不僅在於強大的推理能力,更在於一步到位的多模態支持能力。這點和OpenAI相比就良心很多,說實話這兩年OpenAI的發布有點像評估的擠牙膏,每隔一段時間就發布一款模型,能力上絕對高於上一代,但提高的不多,對於多模態的支持更是相當滯後。Gemini 2.0 Flash比上一代的推理能力更強,相應速度更快。谷歌官方稱,2.0 Flash 在關鍵基准測試中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的兩倍。2.0 Flash作爲一款原生多模態模型,可以支持支持圖像、視頻和音頻等多種信息模態的輸入和輸出。還可以原生調用 Google 搜索、代碼執行等工具以及第三方用戶定義函數。尤其是在數學運算、編程等方面,lmarena ai給出的評測結果是力壓OpenAI 的o1-preview和o1-mini。除了性能和多模態能力的提升外,Gemini 2.0 Flash也在積極推進AI代理的產品形態演進和應用,伴隨這次模型發布谷歌還推出了一系列相關功能,包括對多模態人工智能助手Project Astra 的更新,推出了瀏覽器助手Project Mariner和代碼助手Jules。

人工智能助理Project Astra最早於2024年5月推出,用戶可以借助攝像頭、麥克風等端口和AI互動,用來進行物體識別、語音信息交互等操作。更新之後的Project Astra增加了對多語言、口音和生僻詞的支持。

同時和谷歌產品生態進行了更好的融合,借助Project Astra用戶可以使用谷歌的搜索、Lens和地圖產品,增加了上下文記憶功能,可以擁有長達10分鐘的對話記憶,語音延遲方面也有了很大的改善。現階段的Project Mariner以一款實驗性質的瀏覽器擴展形態存在,該拓展可以理解當前頁面上的像素、文本、代碼、圖像和表單等元素,並根據用戶的指令輸入完成特定的任務,如下單購物、填寫表單、瀏覽關閉等操作。Jules是一款爲开發者打造的代碼助理,目前已經集成到GitHub 工作流中,幫助开發者進行代碼分析和指導。這次發布還推出了二代的視頻和圖像生成模型,Veo 2 和 Imagen 3。

視頻大模型Veo2,基於對現實世界的物理有了更好的理解——因此它可以制作出非常高質量的視頻,整體上細節和真實感都有所提高。以及爲研究人員打造的研究工具Deep Research,它直接使用高級推理模式幫助研究人員進行研究主題的探索和編寫研究報告,根據筆者在多個社媒論壇潛水發現不僅各類學科的學生、教師群體第一時間已經使用上了Deep Research,某些從事復雜技術工作的企事業員工也正常嘗試將其作爲大模型的首選產品。可以說這次發布會將谷歌帶回了人工智能超一流行當,取得了大模型競賽階段性的全方位的勝利。更重要的是,借助其產品生態鏈完整的優勢,谷歌有能力在AI大模型競賽的下一個賽場——AI Agent研發和應用上比其他廠商走的更遠。谷歌的在大模型領域的領先不僅包含其“大模型”產品本身的性能、多模態能力領先,更包含谷歌在模型芯片、模型訓練平台和下遊應用場景的全方位覆蓋。隨着2.0flash模型的發布,其背後的核心硬件也浮出水面——第六代TPUTrillium。Gemini2.0的訓練和推理100%由該芯片支持。

TrilliumTPU是谷歌雲AI超級計算機的關鍵組件,這是一種突破性的超級計算機架構,它採用性能優化的硬件、开放式軟件、領先的ML框架和靈活的消費模型的集成系統。與上一代TPU v5e相比,TrilliumTPU可將密集型LLM(如Llama-2-70b和gpt3-175b)的訓練速度提高高達4倍,將MoE模型的訓練速度提高高達3.8倍。主機動態隨機存取內存(DRAM)是v5e的3倍,有助於最大限度地提高性能和規模吞吐量。現在Trillium已經走向實際應用階段,任何廠商都可以購买來構建自己的大模型產品。但面對NVIDIA的強大競爭壓力,Trillium目前只取得了參數層面的領先,以及一個成功的大模型案例,其與上下遊硬件的兼容能力和業界的接受度還需要時間的檢驗。

02谷歌的優勢和隱憂

【1】優勢:生態與金錢

一直以來谷歌都是個“愛折騰”的公司,最爲著名的就是曾經的“谷歌20%時間政策”,允許谷歌員工每周可以花費20%的工作時間开展自己感興趣的項目。

在類似的鼓勵創新的企業氛圍下,谷歌內部誕生了大量大大小小的項目,盡管大部分都悄然下线,但其中也誕生了不少至今仍帶給谷歌滾滾財源的營收產品,據說Gmail、Adsense就是這一政策的產物。這條政策能夠執行至今,都說明谷歌是個鼓勵創新的企業,這是新技術和新產品的溫牀。除了鼓勵創新,谷歌在算力、雲服務方面的基建能力和技術架構、人才儲備是其他垂直廠商和Meta、Amazon等大公司短時間無法追趕的。除了發展大模型所必須的軟硬件條件,下遊應用生態的比拼中谷歌也是一枝獨秀。谷歌自己的視頻平台Youtube天然就是多模態最佳應用場景、谷歌的搜索已經上线了AI Overview來應對Preplexity AI的追趕。谷歌的無人駕駛平台Waymo,未來也未必不能應用語音模型產品。豐富的產品生態,使得谷歌可以嘗試AI Agent、AI硬件、機器人多個方向的大模型應用。更重要的,谷歌有錢。

根據三季度財報,谷歌當季營收883 億美元,同比增幅達到16%,淨利潤263億美元,同比增長35%。谷歌雲服務營收114億美元,同比增長 35%。三季度實現了 176 億美元的自由現金流,季度末現金儲備達到了930億美元。經過兩年的大模型競賽,谷歌依然手握近千億美元現金。這樣大的現金儲備,什么算力、芯片、人才問題還會是問題嗎?谷歌幾乎具備大模型從0到1,再到100以至於工業級應用所需的軟硬件條件。只要管理層不再想2023年初那樣亂了節奏,大模型給谷歌的營收和股價貢獻力量是就是不遠的現實。

【2】隱憂:反壟斷風險

谷歌的股價偏低,其主要原因就是反壟斷官司可能導致的業務被拆分的風險。最新的反壟斷審判中谷歌落敗之後,給谷歌核心業務的前景蒙上一層陰影。美國司法部(DOJ)要求谷歌出售Chrome瀏覽器,解除與蘋果等公司達成的搜索引擎默認位置的協議,甚至未來可能要求出售安卓操作系統。這一系列要求對於谷歌最爲核心的搜索業務無疑會造成巨大的影響,無他這幾項調整關系到搜索的主要流量入口,沒有這幾個入口谷歌搜索的市佔率勢必會受到影響,進而影響到搜索廣告的收入。出售安卓操作系統則可能會影響谷歌的移動端應用生態完整性。爲了應對司法部的要求,谷歌提出數項針對性瀏覽器協議、Android廠商的谷歌商店和瀏覽器改爲非獨佔性質,或者是搜索的默認設置進行年度評定來減少公衆對其“壟斷性”地位的認定。

近期日本公平交易委員會也做出了谷歌搜索違反日本《壟斷禁止法》的判決,這意味着未來谷歌日本的業務也會受到影響。甚至由此引發其他國家也會陸續對谷歌做出反壟斷相關的判決。樹大招風,曾經幫助谷歌搜索崛起的因素似乎开始出現不穩定的波動,谷歌面對內外強大的競爭對手和核心業務的多重打擊,很是需要一個穩定強硬的管理層。無怪乎桑達爾·皮查伊內部公开說,2025年風險很高,谷歌到了緊迫性時刻。谷歌正在逐漸奪回大模型競賽的行業關注度和开發者認同,反壟斷大錘還尚未真正落下,谷歌獲得了一個難得的發展窗口來在新的技術革新潮流中暫時站穩腳跟,爲下一個人工智能時代真正到來前做好准備。

       原文標題 : 冷眼與嘲諷之後,谷歌的AI大模型翻盤之路



標題:冷眼與嘲諷之後,谷歌的AI大模型翻盤之路

地址:https://www.utechfun.com/post/461822.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡