作者:Phil Burr 是 Lumai 的產品負責人
盡管光學技術已經在數據中心使用了幾十年,但現在它正越來越深入數據中心的核心——運行數據中心工作負載的處理器和加速器。那么,我們是如何走到這一步的?未來會是什么樣子?
光通信具有高帶寬、低延遲和低能量損耗的優勢。雖然它最初用於促進往返數據中心的流量,但後來它被用於數據中心本身——通常是在機架頂部 (TOR) 上,以在機架頂部交換機之間創建高速鏈路。人工智能中使用的大數據流,其中低延遲和高帶寬互連至關重要,這只會加速光通信的使用。
作爲光學重要性的一個例子,谷歌甚至开發了自己的光交換機,它利用自由空間光學元件來降低其網絡的延遲和功耗。通過使用自由空間光學,谷歌避免了在每個交換機上在光域和電域之間轉換信號的需要。
谷歌聲稱,其定制網絡可將吞吐量提高 30%,功耗降低 40%,資本支出降低 30%,流程完成率降低 10%,網絡停機時間減少 50 倍。這意味着,如果節點發生故障或需要維修,可以快速切換。
光互連的興起
最近,在機架內部使用光互連的趨勢日益增長。受人工智能的高帶寬、低延遲要求(因爲人工智能模型分布在數十個處理節點上)的推動,光互連正在幫助這些多節點系統盡可能快地運行。速度一如既往地至關重要。
光互連是一個充滿創新的領域。一些初創公司正在开發全光分組交換——避免在電域和光域之間轉換信號的需要,從而大大節省了功耗和延遲。
其他公司正在將光學技術應用到下一層,正在开發全光芯片到芯片甚至硅片到硅片的互連。在這裏,通信帶寬甚至更高。爲了實現這一進步,共封裝光學器件至關重要。代工廠和芯片封裝公司正在大力投資這一功能。
從切換到處理
光學不僅僅用於切換——它也可以用於處理。它具有提供速度、功率和效率的類似優勢。
爲什么要使用光學進行處理?人工智能處理需求正在以驚人的速度增長,而硅片路线圖無法跟上。硅片开發商正在追逐收益遞減;投入越來越多的時間、精力和金錢來實現邊際性能提升。
目前業界的答案是增加硅片面積,在芯片內使用多個硅片,並使用復雜的封裝來解決由此帶來的挑战。但這需要付出巨大的代價,包括金錢和功耗。
巨大的貨幣成本是由購买最新和最好的人工智能加速器的巨額資本支出,以及供應和冷卻這些耗電設備所需的增加的基礎設施所驅動的;這還沒有考慮到能源消耗的增加成本。
光學非常適合人工智能,特別是因爲人工智能的核心使用矢量矩陣乘法,這在光中可以非常有效地解決。過去幾年,人們一直希望將集成光子學應用於人工智能處理,然而,由於集成光子學在現代人工智能所需的大規模矩陣處理方面存在局限性,該技術目前主要集中於互連或交換應用。
使用 3D(自由空間)光學器件進行處理克服了這些挑战——它只使用一小部分功率,卻實現了性能飛躍。使用 3D 光學器件意味着可以使用非常寬的矢量,從而最大限度地提高性能和能源效率。與當今的 GPU 解決方案相比,使用 3D 光學器件的人工智能加速器有望以極低的資本和運營成本提供低功耗、高性能的解決方案。
隨着數據中心對光學器件的使用日益增多,用於人工智能處理的 3D 光學器件將不可避免地成爲下一步。
標題:光互連和光處理如何改變數據中心
地址:https://www.utechfun.com/post/410019.html