一個GPU需要多少個光模塊?
市場上對於光模塊與GPU數量的比例存在不同的版本,各個版本的數字並不一致,主要是因爲不同組網架構下所需的光模塊數量不一樣。實際使用的光模塊數量主要取決於以下幾個方面。
1、網卡型號
主要包括兩種類型的網卡,ConnectX-6(200Gb/s,主要配合A100使用)主要使用的光模塊有MMA1T00-HS(200G Infiniband HDR QSFP56 SR4 PAM4 850nm 100m)和ConnectX-7(400Gb/s,主要與H100配套使用)。
2、交換機型號
下一代ConnectX-8 800Gb/s交換機型號主要包括兩種類型的交換機,QM9700系列(32端口OSFP(2*400Gb/s),400Gb/s傳輸速率下共有64個通道,總計51.2 Tb/s吞吐率)和QM8700系列(40端口QSFP56,總共40個200Gb/s通道,總計16Tb/s吞吐率)。
3、單元數量(可擴展單元SU)
單元數量影響交換架構的層次,單元數量較少時僅採用兩層架構,單元數量較多時採用三層架構。
H100 SuperPOD:每個單元由32個節點(DGX H100服務器)組成,最多支持4個單元組成集群,採用兩層交換架構。
A100 SuperPOD:每個單元包含20個節點(DGX A100服務器),最多支持7個單元組成集群,超過5個單元需要三層交換架構。
小結:
(1)A100+ConnectX6+QM8700三層網絡:1:6比例,均採用200G QSFP56光模塊
(2)A100+ConnectX6+QM9700二層網絡:1:0.75 800G OSFP光模塊+1:1 200G QSFP56光模塊
(3)H100+ConnectX7+QM9700二層網絡:1:1.5 800G OSFP光模塊+1:1 400G OSFP光模塊
(4)H100+ConnectX8(尚未發布)+QM9700三層網絡:1:6比例,均採用800G OSFP收發器
假設2023年H100+A100出貨量爲30萬+90萬,將產生315萬200G QSP56+30萬400G OSFP+78.75萬800G OSFP需求,AI市場增量空間爲13.8億美元。
假設2024年H100+A100出貨量爲150萬+150萬,將產生75萬片200G QSFP56+75萬片400G OSFP+675萬片800G OSFP需求,AI市場增量空間爲49.7億美元,約等於2021年數字直通光模塊市場規模。
下面是針對上述每種場景的詳細測量過程。
場景一:A100+ConnectX6+QM8700三層網絡。
A100共有8個計算接口,左側4個,右側4個(如下圖)。目前A100出貨主要搭配ConnectX6進行外部通信,接口速率爲200Gb/s。
在第一層架構中,每個節點有8個接口,每個節點連接8個葉型交換機,每20個節點組成一個單元(SU),因此第一層共需要8*SU葉子交換機、8*SU*20根线纜,以及2*8*SU*20個200G光模塊。
在第二層架構中,由於無阻塞架構,上行速率等於下行速率。第一層總單向傳輸速率爲200G*线纜數量。由於第二層也採用單纜200G傳輸速率,因此第二層的线纜數量應與第一層相同,需要8*SU*20线纜(Cable)和2*8*SU*20 200G收發器。所需的脊型交換機數量是電纜數量除以葉交換機數量,即(8*SU*20)/(8*SU)脊型交換機。但當葉型交換機的數量不夠多時,葉型與脊型之間可以建立兩個以上的連接,以節省脊型交換機的數量(只要不超過40個接口的限制)。因此,當單元數分別爲1/2/4/5時,所需脊型交換機數量爲4/10/20/20,所需光模塊數量分別爲320/640/1280/1600。脊型交換機數量不會按相同比例增加,但光模塊數量會按相同比例增加。
當單元數量達到7時,需要第三層架構,由於是非阻塞架構,因此第三層架構所需的電纜數量與第二層的數量相同。
推薦配置SuperPOD:7台單位進行組網,需要增加第三層架構並增加核心交換機,各種不同數量的單位每層交換機數量、連接電纜數量如圖所示。
140台服務器,共140*8=1120個A100,共56+56+28=140台交換機(QM8790),1120+1120+1120=3360根线纜,3360*2=6720個200G QSFP56光模塊,之間的映射A100和200G QSFP56光模塊爲1120/6720=1:6。
場景二:A100+ConnectX6+QM9700二層網絡
目前推薦配置中還沒有該方案,但未來越來越多的A100可能會選擇QM9700組網,這會減少光模塊的使用數量,但帶來800G OSFP光模塊需求。最大的區別在於,第一層連接由8根外部200G電纜轉換爲QSFP轉OSFP接口,有2個和1對4。
第一層:對於7台單元,140台服務器有140*8=1120個接口,總共1120/4=280根1-tow-4线纜對外連接,得到280個800G OSFP和1120個200G OSFP56光口模塊要求。總共需要12個QM9700交換機。
第二層:僅800G連接,需要280*2=560個800G OSFP收發器,需要9台QM9700交換機。
因此,140台服務器和1120台A100需要12+9=21台交換機、560+280=840個800G OSFP光模塊和1120個200G QSFP56光模塊。
A100與800G OSFP光模塊的映射爲1120:840=1:0.75,A100與200G QSFP56光模塊的映射爲1:1
場景三:H100+ConnectX7+QM9700二層網絡
H100設計的特別之處在於,雖然網卡是8個GPU,帶有8個400G網卡,但接口合並爲4個800G接口,這將帶來大量800G OSFP光模塊需求。
在第一層,根據推薦配置,建議在服務器接口連接1個【2*400G】800G OSFP光模塊:MMA4Z00-NS(800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF)或MMS4X00-NM(800Gb/s雙端口OSFP 2x400G PAM4 1310nm 500m DOM雙MTP/MPO-12 MMF),通過雙端口。),兩條光纖電纜(MPO)通過雙端口連接並插入兩個交換機中的每一個。
那么對於第一層而言,一個單元包含32個服務器,一個服務器連接2*4=8個交換機,SuperPOD包括4個單元,第一層總共需要連接4*8=32個葉子交換機。
因此,建議需要預留一個節點用於管理目的(UFM),由於對光模塊的使用影響有限,只按照4台128台服務器簡略計算。
第一層共4*128=512個800G OSFP光模塊,2*4*128=1024個400G OSFP光模塊:MMA4Z00-NS400(400G OSFP SR4 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12)或NVIDIA MMS4X00-NS400(400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m)。
第二層交換機之間採用800G光模塊直連,向下連接一台葉型交換機,單向速率爲32*400G。爲了保證上下行速率相同,因此上行連接需要16*800G單向速率,需要16台脊型交換機,總共4*8*16*2=1024個800G光模塊。
因此,在該架構下,兩層總共需要512+1024=1536個800G OSFP光模塊和1024個400G OSFP光模塊,總共4*32*8=1024個H100。因此,GPU與800G OSFP光模塊的映射關系爲1024/1536→1:1.5,GPU與400G OSFP光模塊的映射關系爲1024/1024→1:1。
場景四:H100+ConnectX8(尚未發布)+QM9700三層網絡
假設H100升級到800G網卡後,外部接口應該從4個OSFP接口升級到8個OSFP接口。每層之間的連接均採用800G連接,整個網絡架構與第一種場景類似,只是將200G光模塊更換爲800G光模塊。因此,該架構中GPU與光模塊的比例也是1:6。
綜上,將四種場景整理成下表。
假設2023年H100+A100出貨量爲30萬+90萬,將產生315萬片200G+30萬片400G+78.75萬片800G OSFP需求。
假設2024年H100+A100出貨量爲150萬+150萬,將產生75萬片200G+75萬片400G+675萬片800G OSFP需求。
*A100一半使用200G交換機,一半使用400G交換機。
**H100一半使用400G交換機,一半使用800G交換機。
上述對A100 H100數量的估計僅是假設,並不代表未來的預期。
按照2023年平均價格1美元/GB、2024年0.85美元/GB簡單計算,預計AI將爲光模塊帶來13.8/49.7億美元的AI增量市場空間。
相關推薦:
如何選擇光模塊?
什么是400G光模塊?
800G光模塊有哪些分類
光模塊/AOC/DAC技術門檻低?
千兆光模塊和萬兆光模塊?它們有什么區別?
CIBIS峰會
由千家網主辦的2023年第24屆CIBIS築智能化峰會即將正式拉开帷幕,本屆峰會主題爲“智慧連接,‘築’就未來”, 將攜手全球知名智能化品牌及業內專家,共同探討物聯網、AI、雲計算、大數據、IoT、智慧建築、智能家居、智慧安防等熱點話題與最新技術應用,分享如何利用更知慧、更高效、更安全的智慧連接技術,“築”就未來美好智慧生活。 歡迎建築智能化行業同仁報名參會,分享交流!
報名方式
成都站(10月24日):https://www.huodongxing.com/event/6715336669000
西安站(10月26日):https://www.huodongxing.com/event/3715335961700
長沙站(11月09日):https://www.huodongxing.com/event/7715337579900
上海站(11月21日):https://www.huodongxing.com/event/9715337959000
北京站(12月23日):https://www.huodongxing.com/event/3715338464800
廣州站(12月07日):https://www.huodongxing.com/event/6715338767700
更多2023年CIBIS峰會信息,詳見峰會官網:http://summit.qianjia.com/
標題:一個GPU需要多少個光模塊?
地址:https://www.utechfun.com/post/267759.html