AI時代，服務器廠商能否打破薄利的命運？

2024-09-19 18:40:11 編輯： robot

導讀文｜劉俊宏編｜王一粟 AI大模型正在引發新一輪的“算力焦渴”。近日，OpenAI剛發布的o1大模型再次刷新了大模型能力的上限。對比上一次迭代的版本，o1的推理能力全方位“吊打”了GPT-4o。更...

文｜劉俊宏

編｜王一粟

AI大模型正在引發新一輪的“算力焦渴”。

近日，OpenAI剛發布的o1大模型再次刷新了大模型能力的上限。對比上一次迭代的版本，o1的推理能力全方位“吊打”了GPT-4o。更優秀的能力，來自與o1將思維鏈引入進了推理過程。在o1對問題“一邊拆解一邊回答”的過程中，“環環相扣”的思維鏈讓答案也變得更加“靠譜”。

思考模式的升級，也意味着更大的算力需求。由於模型原理是在LLM訓練額外添加了RL（強化學習）的Post-Training（後訓練），這意味着一次推理和訓練所需的算力將再次增加。

“AI研究中遇到的最大困難就是缺少算力——AI本質就是暴力計算。”華爲副董事長、輪值董事長徐直軍此前總結道。

於是，近幾年科技大廠對AI基礎設不斷加大投入，除了英偉達股價不斷升高，賣“AI鏟子”的AI服務器廠商們也在本季度迎來了翻倍的業績增長。

並且，隨着AI算力下一步的需求增長和基礎設施下放，服務器廠商們有望憑借AI賺得越來越多。

廠商們業績的“高歌猛進”，是服務器與AI深度結合的結果。

其中在AI訓練環節，服務器大廠們紛紛採用不同方式加速整個AI訓練過程，讓異構計算的AI服務器，成爲一台高效的AI訓練任務“分發機”。另一邊，在解決算力硬件緊缺的問題中，AI服務器廠商也結合大型服務器集群的運營經驗，落地了各種讓英偉達、AMD、華爲昇騰、Intel等廠商GPU混訓大模型的平台。

伴隨着對AI從訓練到硬件優化的深入理解，越來越了解AI的服務器廠商也在從原本賣硬件組裝的身份，提升着在AI產業鏈的價值。

其中，聚焦到智算中心建設層面，不少服務器廠商已經根據AI需求調整了AI服務器集群的硬件基礎設施。並且，隨着對國產算力芯片的深度結合，基於AI服務器廠商自己定制的解決方案正在廣泛落地。

另一邊在軟件層面，更懂AI的服務器廠商也在开始挖掘AI在基礎設施中的生產力屬性。伴隨着服務器廠商推出的AI大模型、Agent，服務器廠商與AI應用客戶業務的結合也愈發緊密，從而進一步獲得更多軟件層面的解決方案收入。

毫無疑問，AI時代的變革也改變了整個算力載體的行業邏輯。

AI服務器廠商們正在以各種方式爲用戶帶來更密集、更高效的算力供應。在當下的“算力焦渴”時代，AI服務器廠商正在成爲愈發重要的“賣水人”。

AI行業，“賣鏟子”的先賺錢了

AI大廠們的加速投入，讓“賣鏟子”的AI服務器廠商开始賺錢了。

根據IT桔子數據顯示，截止到9月1日，AI相關上市公司整體還是虧損居多。其中，15家盈利的AI上市公司累計淨利潤爲27.8億元，虧損的19家累計淨額爲62.4億元。

AI尚不能讓行業實現整體盈利，一個原因是AI巨頭們仍處於加速投入階段。

據統計，今年上半年，國內三家AI巨頭（BAT）在AI基礎設施上的資本支出總額高達500億元人民幣，比去年同期的230億元人民幣，增長了一倍多。全球範圍，隨着亞馬遜在上季度增長了18%的固定資本开支，再次進入了資本擴張周期。微軟、亞馬遜、谷歌、Meta等美股“Mag7”們，也達成了繼續加碼AI的共識。

“對AI投資不足的風險，遠超投資過度風險。”谷歌母公司Alphabet首席執行官Sundar Pichai顯然非常激進，並不認爲目前是投資泡沫。

而借着加大投入的風口，提供AI基礎設施的AI服務器玩家們“大賺特賺”。

其中，全球老牌服務器廠商惠普和戴爾在AI時代迎來了“第二春”。根據惠普最新披露的業績（2024三季度）顯示，其服務器業務同比增長35.1%。戴爾上季度財報顯示（對應2024年5月—2024年7月），其服務器和網絡業務營收同比增長80%。

同樣在國內廠商中，聯想在最新一季財報中提到，受AI需求增長，其基礎設施方案業務集團季度收入首次突破30億美元，同比增長65%。浪潮的中報數據顯示，公司實現歸屬於上市公司股東的淨利潤爲5.97億元，較去年同期增長90.56%。神州數碼這邊，其歸屬於上市公司股東的淨利潤爲5.1億元，同比增長17.5%，旗下神州鯤泰AI服務器實現收入5.6億元，同比增長273.3%。

業績超過50%以上的增長，是AI服務器大規模落地的結果。

除了雲廠商，運營商是AI服務器的主要需求方。自2023年开始，運營商們加大了對AI算力的布局。其中，電信和移動對AI服務器的需求增長了一倍以上。

同時，基於智算中心的需求也在快速推動AI服務器落地。根據Intel旗下AI芯片公司Habana中國區負責人於明揚在2024全球AI芯片峰會上的分享，近三年來大約有50多個政府主導的智算中心陸續建成，目前還有60多個智算中心項目正在規劃和建設。

旺盛的AI服務器需求，改寫了整個服務器行業的增長結構。

根據TrendForce集邦咨詢近期發布的一份報告顯示，在今年大型CSPs（雲端服務供應商）對AI服務器的採購下，以產值估算，預計2024年AI服務器產值將達1870億美元，成長率達69%。作爲對比，一般服務器的預計年出貨量增長僅爲1.9%。

未來，隨着CSP逐步完成智算中心的建設，AI服務器還將會隨着更廣泛的邊緣計算需求，進一步加速增長。AI服務器的銷售環節，也將隨着CSP大批量集中採購切換至企業邊緣計算的小批量購买。

換句話說，AI服務器廠商的議價權和盈利能力，將隨着採購模式的變化進一步提升。

服務器廠商接下來還會靠AI賺的越來越多。如此趨勢，跟AI服務器客戶漫長的回本周期拉开了巨大差距。

以算力租賃的商業模式作爲參考，行業內早就合計出了一筆账。算上智算中心配套的設備（存儲、網絡），在不考慮算力價格每年下降的前提下，採用英偉達H100作爲算力卡的投資回報周期長達5年，採用性價比最高的英偉達4090顯卡，回報周期也在兩年以上。

如此一來，如何幫客戶用好AI服務器，成了整個服務器行業最核心的競爭方向。

加速、穩定，AI服務器廠商各顯神通

“大模型落地過程復雜，涉及分布式並行計算、算力調度、存儲分配、大規模組網等多種先進技術和流程支持。”對於AI服務器落地應用中需要解決的問題，新華三集團智慧計算產品线高級產品經理馮良磊曾總結道。

上述難題，對應着AI服務器落地的兩大類問題——算力優化和大規模使用。

一位銷售人員對光錐智能也介紹到，“常見的客戶需求，其一是硬件指標，第二是AI訓練的支持能力，最後還有大規模集群的能力。”

其中，算力優化部分主要對應着AI服務器的異構計算問題。目前，行業提供的解決方案主要分爲優化算力分配和異構芯片協作的兩個大方向。

由於AI服務器的運作模式不再是CPU獨立處理任務，而是CPU與算力硬件（GPU、NPU、TPU等）的協作。當前行業的主流解決模型，是用CPU把計算任務拆解到專用算力硬件。

這種算力分配模式，與英偉達CUDA的基本原理相同。CPU同時“帶動”的算力硬件越多，整體算力就越大。

異構計算算力分配原理

對應到服務器硬件層面的改變，是AI服務器成了可以堆疊算力硬件的“積木”。AI服務器的體積开始“加大加粗”，從通用服務器的1U（服務器高度基本單位）升級至目前常見的4U、7U。

針對算力進一步優化，不少服務器廠商提出了自己的方案。例如新華三的傲飛算力平台支持對算力和顯存按1%和MB的細粒度切分，並按需調度。聯想的萬全異構智算平台則是以知識庫的形式，自動識別AI場景、算法和算力集群。客戶只需輸入場景和數據，即可自動加載最優算法，並調度最佳集群配置。

在另一邊的異構芯片協作上，主要解決的是不同算力硬件服務器之間的協同問題。

由於英偉達GPU長時間將處於供不應求的狀態，不少智算中心會選擇將搭載了英偉達、AMD、華爲昇騰、Intel等廠商GPU混用，或多種GPU混訓一個AI大模型。如此一來，整個AI訓練環節就會出現通信效率、互聯互通、協同調度等一系列問題。

AI服務器搭載不同廠商AI芯片佔比來源：TrendForce

“服務器集群訓練AI的過程，可以簡單理解成‘一輪一輪’的進行。一個任務先被拆解到所有算力硬件，結果匯總後再更新至下一輪計算。如果過程配合不好，比如有的GPU算的慢，或者通信不暢，相當於其他算力硬件要‘一起等’。輪數多了，整個AI訓練時長就被極大拖延。”對於異構算力硬件協作解決的實際問題，一位技術人員對光錐智能舉了一個形象的例子來解釋。

目前，解決該問題的主流方案是利用雲管系統（包括調度、PaaS和MaaS平台）對整個AI訓練（和神經網絡）進行精細拆分。

例如，新華三的方案是建設一套異構資源管理平台，通過开發統一的集合通信庫實現對不同廠商GPU的納管，從而屏蔽不同廠商之間的差異。百度百舸異構計算平台的多芯混合訓練方案，是將各類芯片融合成一個大集群，再支持整個訓練任務。

大同小異的解決方案，其目標正如無問芯穹聯合創始人兼CEO夏立雪總結，“打开水龍頭前，我們不需要知道水是從哪條河裏來的。”

異構計算問題解決後，意味着智算集群可選擇的硬件種類得以徹底解放。服務器、算力芯片、AI Infra等廠商之間的配合，也有了協同效應，共同維護着AI服務器組建大規模算力集群的穩定性。

參考Meta公司使用算力集群的經驗，AI大模型訓練並非“一帆風順”。據統計，Meta 16K H100集群的同步訓練中，曾在54天內出現了466次作業異常。如何讓服務器集群在出現問題後快速回到運行狀態，主流的解決方案是在訓練過程中加一道“防火牆”。

例如，聯想的解決方案是“用魔法打敗魔法”。通過使用AI模型預測AI訓練故障的方式，聯想的解決方案能在斷點前優化備份。超聚變和華爲昇騰則採用了簡單直接的對策。當檢測到節點故障時，自動隔離故障節點後，從最近的Checkpoint點恢復訓練。

整體來看，AI服務器廠商在了解AI，實現算力優化和穩定性升級的過程中，提升自己的附加值。

借助AI對行業的改造，AI服務器的玩家們正在以垂直一體化的姿態，讓服務器這個經典ToB行業煥發出新的價值。

AI讓服務器廠商更有價值？

復盤歷史，服務器廠商們一直被“困在”微笑曲线的中間地帶。

第三次工業革命之後，隨着服務器市場空間越來越大，一批又一批的服務器廠商誕生。

在PC時代，Wintel聯盟的X86架構，催生了戴爾和惠普兩家國際服務器巨頭。在雲計算時代，大量的數字化需求催生了浪潮、工業富聯等一系列OEM廠商。

然而，就在服務器廠商在每年幾百、幾千億營收的華袍下，淨利潤率卻常年爲個位數。在浪潮开創的JDM（聯合設計制造）模式下，極致的生產制造帶來的是淨利率僅爲1-2個點。

“微笑曲线形成的原因，並不是因爲制造環節本身的問題。是不能掌握產業鏈核心技術和專利，只能標准化生產，無法具備不可替代性的結果。”對於服務器廠商的困境，一位國泰君安電子分析師對光錐智能如此解釋道。

在AI時代，服務器廠商的價值正在隨着AI重新定義算力應用而改變。對AI的垂直整合能力，成了當下服務器廠商角逐的中心。

聚焦到硬件層面，不少服務器廠商已經深入到了智算中心的建設環節。

例如針對PUE（電源使用效率），新華三、浪潮、超聚變、聯想等廠商紛紛推出了液冷整機櫃的解決方案。其中，新華三除了推出了硅光交換機（CPO）來降低整個機房的能耗外，還對整個網絡產品线都進行了AI優化。另一邊，在突破英偉達算力芯片限制層面，神州數碼、聯想等廠商在積極推進國產算力芯片的落地，共同實現中國芯片產業彎道超車。

在軟件層面，服務器廠商還在積極挖掘AI的生產力屬性，讓業務不局限於賣硬件。

最常見的，是服務器廠商推出的AI賦能平台。其中，神州數碼在神州問學平台上就整合了模型算力管理、企業私域知識和AI應用工程模塊。神州數碼通過原生AI平台的方式，將Agent能力融入到服務器的使用環節，讓用戶的使用過程“越用越好用”。

神州數碼副總裁李剛對此評價稱，“我們需要有這樣一個平台，用於內嵌企業被環境驗證過的Agent知識框架，同時還可以不斷地去積澱新的Agent框架，這個就是神州問學AI應用工程平台的價值所在。”

新華三則是充分結合網絡產品已有的優勢，利用AIGC實現了通信領域的異常檢測、趨勢預測、故障診斷和智能調優。除了運維環節，新華三還發布了百業靈犀AI大模型，試圖用通用大模型“帶動”行業大模型的方式，進入到不同行業客戶的業務環節，進而擴張原本ToB硬件的業務範圍。