通用算力會向高密、液冷的整機櫃形態演進。
文|趙豔秋
編|牛慧
2023年初,一家互聯網大廠找到浪潮信息,想解決一個業務中遇到的新問題:客戶的應用場景非常多元,在實際應用中,他們發現每個場景最佳匹配的處理器平台並不同。比如,輕量級容器場景,通常對性能需求適中,但對功耗和密度要求較高;高性能的計算場景,則更傾向於具有更強並行處理能力,有更多高頻核心的處理器平台。客戶提出一個訴求,我怎么在各種業務中,快速上线不同處理器的服務器?
此前,通用服務器系統都圍繞着某一個處理器的平台爲核心,進行“定制”开發。現在,面對客戶對多元處理器平台的“既要”、“也要”,服務器怎么去快速覆蓋?這對幾乎數十年不變的通用服務器架構,提出了變革訴求。
與這個問題幾乎同時出現的是,雖然大模型的訓練和推理大都由AI服務器承擔,但人工智能也對通用服務器提出了新要求,比如大模型訓練需要的數據存儲。而通用服務器也具備了智能加速能力,可以運行大模型推理服務。從長遠來看,正在快速演進的十萬卡乃至百萬卡智算集群,對數據中心的顛覆和重構,也牽引着通用服務器,像AI服務器那樣,走向高密度部署。
市場出現的這兩個新變量,也讓已進入產業成熟期的通用服務器,再次站到了新變革的起點上。
通用服務器未來的出貨量增幅預計保持在5%~6%
01
新標准的變革和博弈
面對這家互聯網大廠提出的多元算力訴求,浪潮信息與客戶展开了“頭腦風暴”,解耦思路浮出水面。此前,AI服務器也曾面臨多個加速芯片競爭的局面,浪潮信息參與並推動的OAM標准,採用了解耦和標准化模組方式,讓不同廠商的芯片能夠快速應用和上量。
“OAM的思路給了我們啓發。”浪潮信息服務器產品线總經理趙帥說。通用服務器如果能打破市場慣例,不再以某一處理器爲核心做系統架構設計,而是拆分爲處理器、硬盤、IO、電源等標准化模塊,那么,客戶就可以像拼樂高一樣拼接不同模塊,滿足自己的多元需求。
這個想法提出的一年多之後,經過產業鏈多方的努力,解耦思路得以落實。开放標准組織OCTC發起了开放算力模組(OCM,Open Computing Module)規範,建立了標准化算力模組,實現了“一機多芯”。按照規範的定義,未來一台服務器中,英特爾、AMD、ARM更多CPU平台可隨意切換,甚至可以同時支持。這也是國內首個服務器計算模組設計標准規範。
开放算力模組(OCM,Open Computing Module)規範啓動
浪潮信息也完成了首個符合OCM規範的產品設計。數智前线獲悉,首款基於OCM規範的元腦服務器NF3290G8目前已進入送測階段,預計2025年Q1進行批量部署。
這一標准之所以能在此時打破過去幾十年通用服務器的設計慣例,也與產業鏈各方正在尋求的破局相關:
最強勢的處理器芯片環節“松動”了。最近兩年,多元算力起勢,不僅X86體系,RSIC-V體系、ARM體系都在積極布局算力市場,芯片的競爭趨於白熱化——誰先抵達用戶側、實現業務快速上线,誰就能佔領市場。強勢的芯片廠商也不能再固守陳規,有了可協商的空間。
終端用戶企業也提出急迫需求。互聯網大廠需要靈活多變的算力單元,通信企業則有多元算力快速部署上量的壓力。
服務器企業面對這么多芯片平台,开發工作量成倍攀升、成本高企。他們也有迫切提升多元算力服務器研發效率的動力。
而對於國家標准制定單位,算力模塊產業標准一直是個空白,他們有意愿去構建相關標准,促進國內服務器產業對標國際水平。
這些推力,讓產業鏈各方走到了一起。於是,在2024年OCTC發起开放算力模組規範時,人們看到首批成員包括了中國電子技術標准化研究院、百度、小紅書、浪潮信息、英特爾、AMD、聯想、超聚變等各方代表。
不過,標准出台的過程並非一帆風順,大家有各自的需求,也因此有一些衝突點。
比如,互聯網大廠和芯片廠商,互聯網大廠更關注領先芯片平台在標准中獲得落實,一些國內外芯片廠商則更關注平台的兼容性,以及能否將各自的優勢得以展現。最終,標准組將這些算力平台都納入進來,做標准化評估和兼容。
不同服務器廠商也有自己的訴求,都期望標准多向自己傾斜一些。最終,標准組通過主板標准+托盤方法,快速耦合不同機箱或技術架構平台,化解了這一矛盾。
浪潮信息服務器產品线產品規劃經理羅劍回憶這次標准發起和制定過程時說,各方能走到一起,一個大前提是有利於整個產業的健康發展。在這個前提之下,OCM提供了一個相對公平的平台。通過這一平台,大家可以共同促進算力產業的高質量發展。
02
產品化呈現三大重要趨勢
OCM標准出台之後,業界开始了產品化工作。
浪潮信息緊鑼密鼓推出了首個基於OCM架構的通用服務器——元腦NF3290G8。首代服務器支持兩種CPU新品,英特爾®至強®6處理器,以及第五代AMD EPYC™ 9005系列處理器。前者在AI推理與計算、生成式AI、科學研究等場景,表現出較高的性能提升,後者則在全閃存儲、高網絡帶寬、金融高頻交易、大數據分析等場景,性能提升不錯。
而在這次系統廠商對OCM標准的產品化過程中,有三大趨勢也值得業界關注:其一是解耦化;其二是產品智能化管理中,對大模型技術的引入;其三是硬件开放、軟件开源的潮流。
在第一個大趨勢上,OCM採用的解耦趨勢,代表了服務器系統架構的未來演進方向。“從系統效率來看,系統分爲通用算力、內存、異構算力等標准模塊之後,提供一致性的供電、散熱和調控,就可以針對不同硬件資源,進行相應的供電、散熱優化,才能實現極致的能效比。”羅劍說,採用OCM標准的元腦NF3290G8,已呈現了雛形。
爲了實現解耦和模塊化設計,工程師們聚焦解決了計算模塊的供電、管理、對外高速互連等歸一化問題。如在管理上,由於每個處理器芯片的管理接口、協議等均不同,要求管理系統BMC,要掌握各家處理器的“密碼本”,將不同的信息翻譯成“明文”後,進行統一管理。此前,這一技術掌握在獨立BMC固件提供商(IBV)手中。而2023年,浪潮信息通過开源路线OpenBMC,掌握了固件研發的技術能力,爲這次實現處理器管理的歸一化,奠定了基礎。
在第二大趨勢產品管理智能化上,針對通用服務器中的高故障部件,如內存和硬盤,新一代服務器平台,利用了大模型可對海量數據進行學習訓練的優勢,基於浪潮信息推出的大模型“源”,對以往服務器的故障日志數據,進行了針對性訓練,形成故障預警模型,集成到BMC管理引擎中。目前,系統實現了提前7天的故障預警,將客戶的非計劃停機時間縮至更短,以減少業務損失。
在第三大趨勢开源开放上,硬件的產品設計,尤其是與OCM產品化相關的設計,都在OCTC开放社區中進行貢獻,讓客戶可獲得相關資料。在軟件开源上,從OpenBMC社區而來的开源技術,幫助浪潮信息解決了解耦中的關鍵問題,並再次回饋給开源社區。开源开放是一個不斷積累和匯聚技術力量的過程,最終爲自身和產業鏈發展提供強大的支撐和動力。
在這三大重要趨勢之外,通用服務器功耗攀升帶來的散熱問題,也是業界極爲關注的。根據介紹,散熱也是這次產品化過程中,遇到的最大挑战。
我們可以在通用服務器上看到,處理器平台的未來功耗大約在500~600瓦之間。同時,服務器中還有四個350瓦的GPU。而智能網卡已成爲雲業務的標配,隨着帶寬的攀升,它的功耗也不容小覷。這些部件的功耗加起來,整機功耗已接近3000瓦。如何解決如此大功耗的散熱?羅劍透露,工程師們採用的方法之一是散熱風道分離,CPU、GPU以及智能網卡,都有單獨的散熱通道。這讓散熱效率提升5%以上,對數據中心的PUE來說極爲重要。
而接下去,當通用服務器的功耗進一步攀升,風冷可能就走到盡頭了,OCM標准可能將向液冷方向演進。
採用OCM標准後,服務器的研發成本大幅降低。因爲解耦,減少了很多重復性的开發工作,加快了芯片從研發、測試驗證到落地的速度,浪潮信息的產品开發周期從原來的18個月,壓縮到6到8個月。另外解耦和模塊化過程中,因爲可靠性標准,包括信號、電源、結構、系統穩定性要求的提高,架構的改變,並未降低服務器的可靠性。
圖說:OCM算力模塊,可支持多處理器平台
03
通用服務器處於變革起點
OCM是一個重要的裏程碑,用解耦思路,改變了通用服務器的設計慣例,但從長遠來看,未來一段時間,智算對通用服務器帶來的影響,將更爲劇烈。
當下,智算正在引領整個產業的演進。大模型對算力的需求,讓智算算力高速攀升。根據市場調研公司的IDC的分析預測,2023年和2024年,AI服務器市場連續翻番。如在中國市場,AI服務器2023年翻倍到100億美元;2024年又翻倍增長到近200億美元。AI服務器即將佔據整體服務器市場的半壁江山。服務器市場也因而有了一句話,市場好不好,就看AI服務器。
在AI服務器中,GPU的旗艦芯片實現了Chiplet化,多個芯片裸片被互聯封裝在一起,以提供極致的算力,但也讓芯片功耗迅速攀升到1200瓦甚至1600瓦,並進一步拉動了整個算力基礎設施的供電需求。
過去10年,數據中心基礎設施的變化並不大。現在,大多數數據中心供電能力爲10千瓦~12千瓦。隨着智算的演進,未來數據中心整體供電能力將達到100千瓦向上,甚至200千瓦。現在,一些AI整機櫃服務器甚至可能達到400千瓦。
“在這一大前提下,我們判斷未來通用算力可能也會出現大變革。” 羅劍說,因爲當下通用服務器的部署方式,與高供電能力的數據中心相比,收益和效率都較低。“我們判斷通用算力也會向高密、液冷的整機櫃形態做長期演進。”
如果通用服務器採用高密整機櫃部署形態,其中的節點將基於分層解耦理念進行設計。而OCM的解耦理念,也是將算力單元變成一個個小模塊。因此,OCM可能會成爲實現數據中心服務器高密部署的起點。未來可能再通過液冷方式,將部署密度提升上去。
羅劍分析,在朝着高密、液冷方向演進的過程中,產品設計將發生翻天覆地的變化。如內存可能將平鋪在主板或貼在主板正反面,或以一種更易於液冷部署的方式來構建。
而爲了實現這樣的變革,現有的產業鏈也將延伸,液冷、內存、供電等環節的企業也將加入進來。“OCM會是一個好的开始。”羅劍說,“它將推動算力產業面向未來的需求去演進、升級。”
原文標題 : 千億通用服務器市場,出現兩大新變化
標題:千億通用服務器市場,出現兩大新變化
地址:https://www.utechfun.com/post/459432.html