來源:王欣喜
英偉達攤上大事兒了。
據《The Information》報道,英偉達的最新殺手鐗——採用Blackwell架構的AI GPU從原定的今年Q3推遲到2025年Q1推出。據稱,這款 GPU 存在設計缺陷,因此需要推遲發布產品以解決問題。
這一推遲直接鴿了微軟、META 和 xAI 等大客戶,這些公司總共訂購了價值數百億美元的芯片,關鍵數據中心的建設可能會因此受到影響。
有從業者表示,這可能會導致英偉達失去客戶的信任,並存在被訴訟的可能。
盡管英偉達發言人很快做出了回復,並表示:“Hopper 的需求非常強勁,Blackwell 的產量將在下半年逐步提升。”
但種種跡象顯示,被硅谷巨頭們寄予厚望的Blackwell,可能真的要“跳票”了。
硅谷巨頭的“白月光”
當採用Blackwell架構的B100/B200芯片在GTC大會亮相後,知名華爾街投行Keybanc Capital Markets發出了一份預測:
“Blackwell芯片將推動英偉達數據中心業務的收入,從2024財年(截至2024年1月)的475億美元增長到2025年的2000多億美元。”
衆所周知,在在大模型的訓練與部署中,英偉達的高性能算卡居功至偉,但BlackWell真的能憑一己之力帶動業績翻倍上漲嗎?
答案是完全有可能,甚至未來五年內,硅谷巨頭之間的軍備競賽,在硬件層面將完全基於Blackwell架構芯片展开。
首先需要明確的是,Blackwell並不是一種芯片,而是一個平台,可以把它看作是過去Hooper架構的延伸,但性能卻實現了全方位的碾壓。
在Blackwell架構的芯片上,英偉達承襲了H200上“拼裝芯片”的思路,採用統一內存架構+雙芯配置,將2枚GPU Die(裸晶)拼接到一個GPU上,實現192GB HBM3e內存及8TB/s顯存帶寬。
相較於前代產品Hooper架構GPU,Blackwell結構GPU單芯片訓練性能(FP8)是Hooper架構的2.5倍,推理性能(FP4)是Hooper架構的5倍。
Blackwell架構的能耗表現也異常優秀,在GTC大會現場,黃仁勳曾提到過一個舉證:
“訓練一個1.8萬億參數的模型,需要8000個Hopper GPU和15MW的電力,而2000個Blackwell GPU就能完成這項工作,耗電量僅爲4MW。
除了性能與功耗外,Blackwell架構真正的殺手鐗是其使用了“第二代Transformer引擎”以及“第五代NVLink網絡技術”。
前者通過對每個神經元使用4位而不是8位的精度,使得計算能力、帶寬和模型參數規模翻倍。後者則是大幅提升了GPU集群的通信效率,最高支持多達576個GPU間的無縫高速通信,解決了萬億參數混合專家模型通信瓶頸的問題。
在科技巨頭們重金押注AI、自建數據中心的今天,Blackwell架構芯片所展示出的特性,讓他們實在沒有理由拒絕。
不過,就是這樣一個具有劃時代意義的平台,很可能存在設計缺陷。
正如上文所提到的,英偉達的設計思路是將兩枚Die封裝在一個GPU上,來實現性能的大幅度提升,但這也帶來了隱患。根據《The Information》援引知情人士的爆料,最近幾周當台積電的工程師爲量產做准備工作時,發現這個架構的連接處設計存在缺线,會導致芯片的良率和產能受到較爲嚴重的影響。
因此,原定的量產計劃被終止,英偉達需要重新對Blackwell進行版圖設計,而在此之後,台積電也不得再進行一輪試生產工作。
誰會受傷?
同樣受這一設計缺陷影響的,可能還有同樣採用Blackwell架構的英偉達RTX50系列顯卡。
根據最新曝料,原本預計在今年第四季發布的Blackwell RTX 50系列,將在明年1月7-10日舉辦的CES 2025大展上才會發布。與B100/B200這類用於AI的高性能GPU顯卡不同,RTX系列是英偉達面向遊戲玩家开發的顯卡序列,如果不同如期發布,所帶來的負面影響同樣不容小覷。
當然,最受傷的還是硅谷的互聯網巨頭們。
在AI熱潮下,科技巨頭動輒豪擲數十億美元購买高性能計算卡也屢見不鮮,而在Blackwell問世後,這些公司似乎爲其准備了更多的”彈藥“。
據最新季度財報顯示,微軟、Alphabet、亞馬遜和Meta在2024年前六個月的資本支出大幅增加。不僅如此,爲了在AI軍備賽中保持領先地位,這些巨頭還紛紛上調了支出指引,預示着對GPU的採購需求有增無減。
而這些熱錢,大部分都流向了“賣鏟人”英偉達。
作爲英偉達最大客戶之一,微軟內部定下了到 2024 年底囤積 180 萬塊 AI 芯片的目標,計劃在明年 1 月向 OpenAI 提供採用 Blackwell 芯片的服務器。金融服務公司 DA Davidson 的分析師估計,去年微軟在英偉達芯片上花費了 45 億美元(325.6 億元人民幣),並計劃在 2024 年將擁有的 GPU 數量增加兩倍。
同樣摩拳擦掌的還有Meta,在Blackwell於GTC大會上亮相的第二天,扎克伯格就發布聲明表示,Meta計劃將使用Blackwell來訓練Llama模型。另據扎克伯格在今年年初的披露,Meta計劃在年底錢儲備約60萬枚高性能GPU,其中採用Hopper架構的H100芯片將佔35萬枚,而剩下的25萬芯片,大概率會把位置留給Blackwell架構芯片。
值得一提的是,號稱要自行研發AI芯片的馬斯克,也對Blackwell展現出了極大的興趣,他計劃在2025年購买30萬塊 B200 GPU,金額高達90億美元(652億元人民幣)。這批新GPU將升級X現有的 AI GPU 集群,該集群目前由10萬塊上一代H100 GPU組成。
隨着下一代大模型所需算力的翻倍提升,各巨頭間的算力軍備競賽又卷上了新高度,也讓AI巨頭對Blackwell B200的需求與日俱增,而這次英偉達出乎意料的延期,讓這場看不到盡頭的战爭變得更加撲朔迷離。
(Tips:我是虎嗅科技醫療組的王欣,關注AI及創投領域,行業人士交流可加微信:13206438539,請注明身份。)
標題:英偉達攤上大事兒了
地址:https://www.utechfun.com/post/406524.html