本文由半導體產業縱橫(ID:ICVIEWS)編譯自nextplatform
“El Capitan”超級計算機开創了融合 CPU-GPU 計算的先河。
從勞倫斯利弗莫爾的專家處所知,從許多指標來看,El Capitan 可以與超大規模企業和雲構建者爲 AI 訓練運行而啓動的大型機器相媲美。El Capitan 是一台專門爲運行有史以來最復雜、最密集的模擬和建模工作負載而定制的機器,它恰好在 GenAI 革命的核心——新型大型語言模型方面表現相當出色。
而且得益於 Cray 設計的“Rosetta” Slingshot 11 互連和惠普企業銷售的 EX 系列系統的核心組件,El Capitan 已經採用了 HPC 增強型可擴展以太網,這與超級以太網聯盟 (Ultra Ethernet Consortium) 試圖推進的技術路线類似,因爲超大規模企業和雲構建者厭倦了爲他們的 AI 集群支付 InfiniBand 網絡的高昂費用。
勞倫斯利弗莫爾將獲得一台極其強大的 HPC/AI 超級計算機,而其價格比如今的超大規模計算公司、雲構建商和大型 AI 初創公司支付的價格要低得多。很難准確地說出兩者之間的差異,但筆者初步粗略計算得出,El Capitan 每單位 FP16 性能的成本是 Microsoft Azure、Meta Platforms、xAI 和其他公司正在構建的大型“Hopper”H100 集群的一半。
國家安全至關重要,而某些技術突破和創新有着積極意義。以 El Capitan 爲例,突破系統設計的架構極限意義非凡。同時,要有勇於在設計混合 CPU - GPU 計算引擎方面展現自身能力的決心,而且將超快的 HBM 內存接入到這些融合設備之間的共享內存空間,這一系列舉措都能帶來好處。最後,El Capitan 和超大規模企業、雲構建者以及 AI 初創公司正在打造的強大機器之間存在着巨大的差異。
2019 年 8 月,惠普 (Hewlett Packard Enterprise) 獲得了價值數百萬美元的 El Capitan 合同,當時用戶只知道這台機器將使用 Slingshot 互連,成本約爲 5 億美元,並提供至少 1.5 百億億次浮點運算的持續性能。就在幾個月前,HPE 表示將以 13 億美元收購 Cray。
無論如何,彼時El Capitan 的持續性能預計至少爲 IBM 爲實驗室構建的 “Sierra” 混合 CPU - GPU 系統的 10 倍,功率範圍達 30 兆瓦。2020 年 3 月,勞倫斯利弗莫爾宣稱其正與 AMD 合作开發 El Capitan 的計算引擎,並進一步指出,該系統的峰值理論 FP64 性能將超 2 百億億次浮點運算(實際系統能夠以 64 位分辨率進行計算),功耗約爲 40 兆瓦,成本不超過 6 億美元。
El Capitan 混合 CPU - GPU 系統已在勞倫斯利弗莫爾完成安裝且近乎滿負荷運行,人們公認這是世界上針對傳統模擬和建模工作負載性能最優的系統,這其中包括中國 “天河三號”(2.05 百億億次浮點運算)和 “海洋之光”(1.5 百億億次浮點運算)超級計算機的峰值性能。
2022 年 6 月,勞倫斯利弗莫爾和 AMD 宣布將採用融合的 CPU - GPU 設備(AMD 數十年來一直將其稱爲加速處理單元或 APU)作爲 El Capitan 系統的主要計算引擎。自那時起,衆人皆在猜測 “Antares” Instinct MI300A 設備的時鐘速度、設備中 GPU 計算單元的數量以及其運行時鐘速度。事實證明,筆者認爲 MI300A 的時鐘速度會更高,因此只需較少的時鐘周期即可達到相應性能。勞倫斯利弗莫爾所獲得的機器性能比預期更優,因此其性價比甚至超出了預期水平。
勞倫斯利弗莫爾國家實驗室利弗莫爾計算部門首席技術官 Bronis de Supinski透露,El Capitan 系統中總計有 87 個計算機架,另有數十個額外機架用於容納其 “Rabbit” NVM - Express 快速存儲陣列。
El Capitan 在液冷 Cray EX 機架中總共擁有 11,136 個節點,每個節點配備四個 MI300A 計算引擎,整個系統共有 44,544 個設備。每個設備都有 128GB 的 HBM3 主內存,由 CPU 和 GPU 芯片共享,運行頻率爲 5.2GHz,能夠爲 CPU 和 GPU 芯片提供總計 5.3TB / 秒的總帶寬。
根據 11 月份 Top500 排行榜的數據,MI300A CPU 芯片組的運行頻率爲 1.8 GHz,而 AMD 規格表顯示 GPU 芯片組的峰值運行頻率爲 2.1 GHz。該芯片組包含三個 “Genoa” X86 計算復合體,每個復合體具備八個核心,總計 24 個核心,系採用台積電的 5 納米工藝蝕刻而成。MI300A 設備上的六個 Antares GPU 芯片組擁有 228 個 GPU 計算單元,總共包含 912 個矩陣核心和 14,592 個流處理器。在矢量單元方面,MI300A 的峰值 FP64 性能爲 61.3 萬億次浮點運算,在矩陣單元上,其 FP64 性能爲矢量單元的兩倍,即 122.6 萬億次浮點運算。
每個 El Capitan 節點的峰值 FP64 性能可達 250.8 teraflops,當將所有節點連接在一起時,FP64 總性能可達 2,792.9 petaflops,前端配備 5.475 PB 的 HBM3 內存。在 CPU 和 GPU 計算芯片下方設有四個 I/O 芯片,用於將這些元件整合並連接至 HBM3 內存,這些芯片是採用台積電的 6 納米工藝蝕刻而成。
值得注意的是,MI300A 封裝上仍有六個計算芯片(在 AMD 術語中爲 XCD),其與六個 GPU 芯片完美匹配。橡樹嶺的 “Frontier” 超級計算機定制的 “Trento” CPU XCD(單個芯片中每個節點八個)與四個獨立的雙芯片 “Aldebaran” MI250X GPU 的比例亦爲一比一。這種一比一的封裝形式在多代 Cray 超級計算機的 CPU 和加速器之間一直得以延續,這或許並非偶然。從某種意義上講,MI300A 是一個六路 X86 CPU 服務器,與六路 GPU 系統板交叉耦合。
以下是一個匯總表,展示了 El Capitan 系統及其位於勞倫斯利弗莫爾的 El Capitan 區塊的 “Toulumne” 和 “rzAdams” 芯片以及位於桑迪亞國家實驗室的 “El Dorado” 系統的相關參數:
El Capitan 服務器節點的示意圖如下:
如您所見,存在四個 Infinity Fabric x16 端口,其總帶寬達 128 GB / 秒,以內存一致性方式將四個 MI300A 設備相互連接。
此外,還有四個端口,這些端口可配置爲 PCI - Express 5.0 x16 插槽或 Infinity Fabric x16 插槽,在此情形下,它們被設置爲前者,以便插入 Slingshot 11 網絡接口卡,這些接口卡實際上通過 Slingshot 11 架構將整個系統中的 APU 相互連接。
最後,關於 El Capitan 系統有一個饒有趣味的觀點,從技術層面而言,該系統用於運行對超級計算機進行排名的高性能 Linpack 基准測試的那部分機器,其性能可達 2,746.38 千萬億次浮點運算。(若物理機器上總計有 44,544 個 APU,此部分機器激活了 43,808 個 APU,佔機器容量的 98.3%。)額定性能末尾的 46 千萬億次浮點運算(性能的第三和第四位有效數字)比 2024 年 11 月 Top500 榜單上除 34 台機器之外的所有機器都要大。當提及 “2.7 百億億次浮點運算” 時所舍棄的那些四舍五入數字,其規模幾乎與巴塞羅那超級計算中心的 “MareNostrum 5” 超級計算機相當。
若勞倫斯利弗莫爾讓 HPL 在系統中的所有 APU 上運行,El Capitan 的性能將再提升 1.65%,並且我們認爲,計算、內存和互連相互作用的改進可使其性能再提高約 5%。倘若勞倫斯利弗莫爾能夠將軟件和網絡調優性能提高 7.5%,那么該機器的峰值 HPL 容量將突破 3 百億億次浮點運算,我們期望實驗室能夠達成這一目標,畢竟這極具意義。這將是五年前項目啓動時 El Capitan 最初預期性能的兩倍 —— 且是按時按預算推進的。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅爲分享與討論,不代表我方贊成或認同,如有異議,請聯系後台。
原文標題 : TOP500超算榜出爐:El Capitan以1.742 EFlop/s居榜首
標題:TOP500超算榜出爐:El Capitan以1.742 EFlop/s居榜首
地址:https://www.utechfun.com/post/446309.html