本文由半導體產業縱橫(ID:ICVIEWS)編譯自lesswrong
2024年五大AI巨頭,擁有多少片英偉達GPU?
人工智能基礎設施的數據難以精確獲取。諸多報道中會出現諸如 “某公司本季度在基礎設施上花費了 Xbn”“某公司購买了 10 萬台 H100” 或者 “擁有 10 萬台 H100 集群” 這類信息,但當筆者試圖估算某家公司能夠使用的計算資源時,卻無法找到統一的數據。
在此,筆者試圖從各類來源搜集信息,來大致估算以下兩點:其一,截至 2024 年,預計各方會擁有多少計算能力?其二,預計 2025 年會有哪些變化?之後,筆者將簡要闡述這對主要前沿實驗室的培訓計算可用性的意義。在討論該問題之前,筆者想先說明幾點注意事項。
這些數字是筆者在有限時間內依據公开數據估算得出的,可能存在誤差,也可能遺漏了一些重要信息。
付費供應商很可能有更精准的估算,他們能夠花費更多時間去詳細分析諸如晶圓廠的數量、各晶圓廠的生產內容、數據中心的位置、每個數據中心的芯片數量等諸多細節,並得出精確得多的數字。若讀者需要非常精確的估算,筆者建議向幾家供應商中的一家購买相關數據。
英偉達芯片生產
首先要從最重要的數據中心 GPU 生產商 Nvidia 开始。截至 11 月 21 日,在 Nvidia 公布 2025 年第三季度財報之後,預計Nvidia 該財年數據中心收入約爲 1100 億美元。這比 2023 年的 420 億美元有所增長,預計 2025 年將達到 1730 億美元(基於 2026 財年 1770 億美元的估計)。
數據中心的收入絕大部分來自芯片銷售。2025 年的芯片銷售額預計爲 650-700 萬 GPU,幾乎全部是 Hopper 和 Blackwell 型號。根據 CoWoS-S 和 CoWoS-L 制造工藝的預期比例以及 Blackwell 的預期量產速度,筆者估計 Hopper 和 Blackwell 型號分別爲 200 萬和 500 萬。
2024 年產量
有關 2024 年生產數字的資料來源很少,而且經常相互矛盾,但 2024 年第四季度的 Hopper GPU 產量估計爲 150 萬個(盡管其中包括一些 H20 芯片,因此這只是一個上限),而且各季度的數據中心收入比率表明,產量上限爲 500 萬個(這將假定每個 H100 同等產品的收入約爲 2 萬美元)。
這與今年早些時候估計的 150 萬到 200 萬台 H100 的產量相衝突--這種差異是否可以合理地歸因於 H100 與 H200、擴容或其他因素尚不清楚,但由於這與他們的收入數字不一致,筆者選擇使用較高的數字。
此前的產量
爲了評估目前以及未來誰擁有最多的計算資源,2023年之前的數據對整體格局的影響有限。這主要是因爲GPU性能本身的提升,以及從英偉達的銷售數據來看,產量已經實現了大幅增長。根據估算,微軟和Meta在2023年各自獲得了約15萬塊H100 GPU。結合英偉達的數據中心收入,2023年H100及同等級產品的總產量很可能在100萬塊左右。
GPU/TPU 按組織計數
筆者試圖估算微軟、Meta、谷歌、亞馬遜和 XAI 到 2024 年底將獲得多少以 H100 當量表示的芯片,以及 2025 年的相關數量。
許多消息源稱 “英偉達 46% 的收入來自 4 個客戶”,不過這可能存在誤導性。查閱英偉達的 10 - Q 和 10 - K 可以發現,他們區分了直接客戶和間接客戶,46% 這個數字指的是直接客戶。然而,直接客戶大多是中間商,比如 SMC、HPE 和戴爾,他們購买 GPU 並組裝服務器供間接客戶使用,這些間接客戶包括公共雲提供商、消費互聯網公司、企業、公共部門和初創公司,而筆者所關注的公司屬於 “間接客戶” 這一範疇。
關於間接客戶的信息披露相對寬松,可能也不太可靠。在 2024 財年(約 2023 年,文中所討論的情況),英偉達的年報披露,“一個主要通過系統集成商和分銷商購买我們產品的間接客戶估計佔總收入的約 19%”。按照規定,他們需要披露收入份額超過 10% 的客戶信息。所以,要么他們的第二個客戶最多只有第一個客戶規模的一半,要么存在測量誤差。這個最大的客戶可能是微軟,有零星信息披露稱,每季度有第二個客戶的數量曾短暫超過 10%,但這種情況不具有連貫性,而且不包括 2023 年全年或 2024 年前 3 個季度的情況。
估計 2024 年底 H100 等效芯片數量
微軟,Meta
筆者考慮到微軟身爲最大的公有雲之一,是 OpenAI 的主要計算提供商,自身沒有像谷歌、可能還有亞馬遜那樣大規模的定制芯片安裝基礎,並且與英偉達似乎存在相對於同行的特殊關系(例如,他們顯然率先獲得了 Blackwell 芯片),所以推測這兩個最大的客戶極有可能都是微軟。英偉達在 2024 年的收入份額不像 2023 年那般精確,其在第二季度和第三季度提及 H1 收入的 13%,而第三季度僅 “超過 10%”,不過 13% 可作爲一個合理的估計,這表明微軟在英偉達銷售中的份額相較 2023 年有所降低。
另有一些對客戶規模的估計,數據顯示,微軟佔英偉達收入的 15%,其次是 Meta Platforms 佔 13%,亞馬遜佔 6%,谷歌佔約 6%,但從消息來源難以確定這些數據對應的年份。截至 2023 年底,有關這些雲提供商擁有 H100 芯片數量的報告(Meta 和微軟爲 15 萬片,亞馬遜、谷歌和甲骨文各爲 5 萬片)與上文的數據更爲契合。
這裏有一個關鍵的數據點,即 Meta 宣稱到 2024 年底 Meta 將擁有 60 萬 H100 當量的計算能力。據說其中包含 35 萬 H100,其余大部分似乎將是 H200 和上個季度到貨的少量 Blackwell 芯片。
倘若我們將這 60 萬視爲准確數據,並依據收入數字的比例,便能更好地估算微軟的可用計算量比這高出 25% 至 50%,即 75 萬至 90 萬 H100 等效值。
谷歌,亞馬遜
筆者注意到,亞馬遜和谷歌向來被視作在對英偉達收入的貢獻方面處於較爲靠後的位置。不過,二者的情況實則全然不同。
谷歌早已擁有大量自定義的 TPU,而這 TPU 正是其內部工作負載所倚重的主要芯片。至於亞馬遜,其內部 AI 工作負載看上去很可能要比谷歌小得多,並且亞馬遜所擁有的數量相當的英偉達芯片,主要是爲了通過雲平台來滿足外部 GPU 的需求,其中最爲顯著的當屬來自 Anthropic 的需求。
下面先來看谷歌的情況。如前文所述,TPU 是其用於內部工作負載的主要芯片。提供該領域數據的領先訂閱服務 Semianalysis 在 2023 年底曾宣稱:“谷歌是唯一一家擁有強大內部芯片的公司”,“谷歌具備近乎無與倫比的能力,能夠以低成本和高性能可靠地大規模部署 AI”,且稱其爲 “世界上計算資源最豐富的公司”。自這些說法問世以來,谷歌在基礎設施方面的支出一直維持在較高水平。
筆者對 TPU 和 GPU 的支出進行了 2 比 1 的估計(此估計或許較爲保守),即假設每一美元的 TPU 性能等同於微軟的 GPU 支出,由此得出的數據範圍是在 2024 年年底擁有 10 萬 - 150 萬 H100 當量。
亞馬遜雖有自己的定制芯片 Trainium 和 Inferentia,但它們起步的時間相較於谷歌的 TPU 要晚得多,並且在這些芯片的發展進程中似乎落後於前沿水平。亞馬遜甚至推出 1.1 億美元的免費積分以吸引人們試用,這一舉措表明其芯片截至目前尚未呈現出良好的適應性。半分析指出:“我們的數據顯示,Microsoft 和 Google 在 AI 基礎設施上的 2024 年支出計劃將使他們部署的計算量遠超過亞馬遜”,並且 “此外,亞馬遜即將推出的內部芯片 Athena 和 Trainium2 仍然顯著落後”。
然而,到 2024 年年中,情況或許已有所轉變。在 2024 年第三季度財報電話會議上,亞馬遜首席執行官安迪?賈西談及 Trainium2 時表示 “我們察覺到人們對這些芯片抱有濃厚興趣,我們已多次與制造合作夥伴溝通,產量遠超最初計劃”。但由於當時他們 “在接下來的幾周內才开始增產”,所以在 2024 年其芯片似乎不太可能有大規模的供應。
XAI
筆者在此要介紹的最後一位重要參與者便是 XAI。該機構發展極爲迅速,在相關領域坐擁一些規模最大的集群,且有着宏大的發展計劃。其在 2024 年底對外透露了一個正在運行的、擁有 10 萬台 H100 的集群,不過就目前來看,似乎在爲該站點提供充足電力方面存在一定的問題。
2025年Blackwell芯片預測
筆者注意到《2024 年人工智能狀態報告》對主要供應商的 Blackwell 購买量有所估計,其提到 “大型雲公司正在大量購买這些 GB200 系統:微軟在 70 萬 - 140 萬之間,谷歌在 40 萬以及 AWS 在 36 萬之間。有傳言說 OpenAI 至少有 40 萬 GB200”。由於這些數字是芯片的總數,所以存在重復計算 2024 年 Blackwell 購买量的風險,故而筆者打了 15% 的折扣。
若依據微軟的估計,谷歌和 AWS 購买英偉達的數量約爲 100 萬台,這與它們相對於微軟的典型比例相符。這也會使微軟佔英偉達總收入的 12%,此情況與其在英偉達收入中的份額於 2024 年的小幅下降態勢相一致。
在這份報告裏,Meta 未被給出任何估計,但 Meta 預計明年人工智能相關基礎設施支出將 “顯著加速”,這意味着其在英偉達支出中的份額將維持在高位。筆者假定到 2025 年,Meta 的支出約爲微軟的 80%。
對於 XAI 而言,其在這些芯片的相關內容中未被提及,不過埃隆?馬斯克宣稱他們將於 2025 年夏天擁有一個 30 萬的 Blackwell 集群。考慮到馬斯克有時會有誇張言論的情況,XAI 似乎有可能在 2025 年底擁有 20 萬至 40 萬這樣的芯片。
一架 B200 的 H100 值多少呢?爲衡量產能增長,這是一個關鍵問題。訓練和推理所引用的數字不同,就訓練而言,當前(2024 年 11 月)的最佳估計值是 2.2 倍。
對於谷歌,筆者假定英偉達芯片繼續佔其總邊際計算的 1/3。對於亞馬遜,筆者假定爲 75%。這些數字存在較大不確定性,估計數對其較爲敏感。
值得留意的是,仍然有諸多 H100 和 GB200 未被記錄,且可能在其他地方有顯著聚集,尤其是在英偉達 10% 的報告門檻之下。像甲骨文等雲服務提供商以及其他較小的雲服務提供商可能持有。
芯片數量估計摘要
模型訓練注意事項
筆者在此所提及的上述數字,乃是對可用計算總量的估計情況。不過,想必許多人會更爲關注用於訓練最新前沿模型的那部分計算量。接下來,筆者將着重圍繞 OpenAI、Google、Anthropic、Meta 以及 XAI 展开介紹。但需說明的是,這一切內容都頗具推測性,畢竟這些公司要么是私營性質,要么規模極爲龐大,以至於無需對外披露這方面的成本明細。就拿谷歌來說,相關內容僅僅只是其業務的一小部分罷了。
據預計,OpenAI 在 2024 年的培訓成本將會達到 30 億美元,其推理成本則爲 40 億美元。依照一位消息人士的說法,Anthropic“預計今年將會虧損約 20 億美元,營收可達數億美元”。這也就意味着,Anthropic 的總計算成本要比 OpenAI 的 70 億美元多出 20 億美元。由於 Anthropic 的收入主要源自 API,且應當具備正的毛利率,所以其推理成本將會大幅降低,由此可推斷出,多出的 20 億美元中的大部分是用於訓練的,大概爲 15 億美元左右。即便與 OpenAI 相比,Anthropic 在培訓成本方面存在兩個不利因素,但這似乎並未對其競爭力造成妨礙。這種情況看起來確實很有可能,因爲 Anthropic 的主要雲提供商是 AWS,而我們已然了解到,AWS 所擁有的資源通常要比爲 OpenAI 提供計算資源的微軟少。之前提到的《AI 狀態報告》中有傳言稱,微軟將會向 OpenAI 提供 40 萬個 GB 200 芯片,這一數量將會超過 AWS 傳聞中的整個 GB 200 容量,所以極有可能使得 OpenAI 的訓練能力遠遠高於 Anthropic 的訓練能力。
筆者發現,谷歌的情況不太明晰。Gemini超 1.0 模型的訓練計算量大約是 GPT - 4 的 2.5 倍,不過在其發布 9 個月後,相比最新的 Llama 模型僅多出 25%。正如我們所了解到的,谷歌或許比同行擁有更多的可用計算能力,然而,由於它既是一個主要的雲提供商,又是一家大企業,所以其自身的需求也更多。谷歌的計算能力要強於 Anthropic 或 OpenAI,甚至比 Meta 也要強,要知道 Meta 也有大量獨立於前沿模型培訓的內部工作流程,比如社交媒體產品的推薦算法。Llama 3 在計算方面比 Gemini 要小,盡管它是在 Gemini 發布 8 個月後才推出的,這表明截至目前,Meta 分配給這些模型的資源相較於 OpenAI 或 Google 而言略少一些。
再看 XAI 方面,據稱其使用了 2 萬個 H100 來訓練Grok 2 型,並且預計Grok 3 型的訓練將會使用多達 10 萬個 H100。鑑於 GPT - 4 據稱是在 25000 個英偉達 A100 GPU 上訓練了 90 - 100 天,而 H100 的性能大約是 A100 的 2.25 倍,如此一來,Grok 2 型的計算量將達到 GPT - 4 的兩倍,並且預計Grok 3 型的計算量還會再增加 5 倍,從而使其接近行業領先水平。
需要注意的是,XAI 並非所有的計算資源都來自於他們自己的芯片,據估計,他們從甲骨文雲租用了 16000 個 H100。倘若 XAI 能夠像 OpenAI 或 Anthropic 那樣將其計算資源合理地部分用於培訓,筆者猜測它的培訓規模或許會與 Anthropic 類似,略低於 OpenAI 和谷歌。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅爲分享與討論,不代表我方贊成或認同,如有異議,請聯系後台。
原文標題 : 今年355萬片等效H100,流向五大AI龍頭
標題:今年355萬片等效H100,流向五大AI龍頭
地址:https://www.utechfun.com/post/450924.html