前言:本文作者爲西蒙資深數據中心專家Gary Bernstein,他深入探討了人工智能的最新發展,並指出了IT網絡基礎設施該如何應對這些新的需求。
人工智能技術的最新發展幾乎沒有一天不成爲頭條新聞。早在2022年11月,OpenAI就推出了ChatGPT大型語言模型,2023年4月,微軟Azure OpenAI服務的GPT-4發布,而就在今年5月,谷歌推出了與之競爭的全新Bard AI聊天機器人。毫無疑問,人工智能擁有改變我們日常生活的巨大力量。從聊天機器人到人臉識別,再到自動駕駛和早期疾病診斷,人工智能的應用似乎永無止盡。
根據Statista的數據,2023年全球人工智能市場價值將達到1423億美元,其中金融、醫療保健和高科技/電信市場將率先採用人工智能。在最新的數據中心內,人工智能已被廣泛用於監控數據中心資產、主動檢測故障以及通過更好地管理PUE(能源利用效率)來提高能效。我們今天能夠看到的是,不僅是那些超大型獨角獸企業,許多大型企業公司也都在利用人工智能。
“InfiniBand”和“以太網”
如今,許多支持人工智能的網絡都在使用InfiniBand技術。這是一個有趣的發展,因爲以太網是大多數數據中心的全球標准,而InfiniBand目前只佔市場的很小一部分,傳統上只用於HPC網絡。現在,InfiniBand市場的領導者Nvidia與思科、Arista和Broadcom等衆多領先的以太網交換機和芯片制造商之間的競爭已經展开。博通公司最近推出了 "Jericho3-AI "StrataDNX™ 芯片,將使用以太網而不是InfiniBand來構建人工智能集群。無論採用哪種協議,InfiniBand和以太網都有高帶寬和低延遲的要求,都需要高質量和高性能的光纖布线解決方案。
對電力和帶寬的需求激增
數據中心面臨的兩個主要挑战與極端的電力需求和相關的設備冷卻要求以及GPU (圖形處理器) 過高的帶寬需求有關。
帶有運行人工智能應用的GPU的超級計算機(如 Nvidia 的 DGX 平台)耗電量巨大,並且需要多個高帶寬連接。Nvidia 有 DGX A100、H100,並且剛在2023年5月的Computex大會上推出了GH200。這些GPU平台需要爲每個6U機箱提供6.5kW到11kW以上的功率。如果將這些數據與以往滿載數據中心機櫃的整櫃7或8kW平均功耗,以及15至20kW的最大功耗相比,你就會明白人工智能到底有多耗電。
在帶寬方面,這些GPU超級計算機通常需要多達8 x 100Gb/s (EDR) 或 200Gb/s (HDR) 的連接。每個GPU提供8個連接,總帶寬可達8x200G。
Nvidia首席執行官Jensen Huang最近在datacenterfrontier.com上表示,“生成式人工智能正在推動計算需求的指數級增長”,“你會看到一個10年過渡期的开始,基本上是回收或再利用世界上的數據中心,並將其構建爲加速計算”。
IT基礎設施如何應對?
極端的供電和冷卻要求迫使數據中心管理者重新思考基礎設施的設計並實施變革。這通常包括改變網絡設計和更多地分散GPU超級計算機機櫃,可能使用列末(EoR)拓撲結構,以更好地應對溫度上升。這意味着交換機到GPU的物理距離必須增加。爲了延長交換機到GPU的連接,數據中心運營商可能需要使用更多的光纖布线,而不僅僅是傳統的交換機到交換機之間的結構化光纖布线。由於連接距離較長,直連銅纜(DAC)可能不是一個好的選擇,因爲在這種速度下,這些线纜組件的最大連接距離被限制在3至5米。除了光纖布线外,有源光纜(AOC)也是一種可行的選擇,因爲與DAC相比,它們可以覆蓋更長的距離。有源光纜的優點包括其功耗要比收發器(光模塊)低得多,並且能改善延遲。西蒙提供的有源光纜可以以0.5米爲單位遞增,從而對线纜管理更爲友好。
數據中心主幹網的交換機到交換機連接需要並行光纖技術來支持不斷增長的帶寬需求。目前的許多並行光纖技術方案都採用8芯光纖與MPO/MTP光纖連接器相連接。這些Base-8 MPO/MTP解決方案可採用多模或單模光纖,並能夠輕松遷移到更高速度。企業數據中心在向100Gb/s和400Gb/s升級時應考慮使用Base-8 MPO/MTP OM4布线解決方案,而雲數據中心在向400Gb/s和800Gb/s遷移時應選擇Base-8 MPO/MTP單模布线解決方案。
市場上的創新光纖配线系統可以靈活地支持不同的光纖預端接模塊,包括MTP- LC的Base-8和Base-12模塊、MTP直通模塊和熔接模塊。這些系統便於接入、易於升級並改進了光纜管理。
由於延遲在人工智能應用中變得非常重要,西蒙推薦使用超低損耗 (ULL) 性能和MTP/APC連接器的“支持人工智能”解決方案。在部署新短距離單模應用(支持100、200和400 Gb/s速率,傳輸距離可達500米)時,應考慮採用超低損耗光纖布线。超低損耗布线可支持人工智能應用所需的更爲嚴格的插入損耗要求,從而提升整體網絡性能。西蒙還建議使用APC(斜面物理接觸)光纖連接器,如MTP/APC連接器,APC除了常用於單模連接,還可以用於某些多模布线應用。APC(與UPC連接器相比)的端面幾何形狀經過斜面研磨處理,可提高反射率,從而改善光纖性能。
人工智能是一種顛覆性技術,它也有可能徹底改變我們的生活和工作方式。數據中心運營商需要爲人工智能的需求做好准備,現在就應該开始規劃。他們應該考慮能快速、輕松地遷移到更高數據傳輸速度的解決方案,同時考慮如何提高數據中心的能效。爲人工智能需求做好准備的數據中心將處於有利地位,能夠隨着人工智能的發展和應用,充分擁抱人工智能帶來的機遇。
標題:AI如何推動網絡基礎設施的變革
地址:https://www.utechfun.com/post/254705.html