生成式人工智能時代已經真正到來。據 JLL 稱,它是預計對房地產產生最大影響的三大技術之一,2022 年人工智能房地產技術 (PropTech) 的投資額已達到創紀錄的 40 億美元。
JLL 的 2024 年報告還發現,人工智能能源需求(範圍從 300-500MW 以上)將需要大量更節能的數據中心設計。
從行業角度來看,這些數字確實令人震驚。TD Cowen 的分析師表示,人工智能浪潮已導致美國數據中心租賃量增加約 2.1GW,而 CBRE 的《2024 年歐洲房地產市場展望》發現,數據中心提供商將看到與人工智能 (AI) 需求相關的容量請求增加,其中大部分預計來自服務提供商和 AI 初創公司,而不是超大規模和雲社區的成員。
現在,隨着人工智能滲透到技術產品、服務和解決方案的各個方面,許多人都在問數據中心行業是否真正准備好滿足其要求。對於許多運營商來說,答案是否定的。
冷卻未來的 AI 工作負載
如今,作爲高性能計算 (HPC) 和 AI 領域的全球領先權威機構,Nvidia 估計負責超過 95% 的機器學習工作負載,並且仍然是 GPU 加速技術的主要制造商。
去年,該公司分享了獲得 500 萬美元資助的消息,用於重新設計數據中心格局並構建先進的液體冷卻系統,以解決傳統數據中心(包括本地、企業和較舊的主機托管設施)面臨的許多挑战。
COOLERCHIPS 計劃由美國能源部資助,被定位爲業界有史以來最雄心勃勃的項目之一,此時,隨着摩爾定律和數據中心設計達到物理極限,處理器的發熱量和功率能力正在飆升。
一些人預計,傳統的風冷數據中心技術可能很快就會過時,尤其是隨着人工智能的採用和超級計算的進步,Nvidia 的冷卻系統可能比風冷方法成本降低約 5%,運行效率提高 20%。該公司還預計,冷卻技術可能开始達到其極限,因爲超過 40 瓦/平方釐米的熱負荷將在未來面臨重大挑战。
這不足爲奇,最新的 Nvidia SuperPOD 每個系統最多可容納 8 個 H100 GPU,並且全部通過 Nvidia NVLink 連接。每個 DGX H100 預計將提供高達 32 petaflops 的 AI 性能,大約是其前身 DGX A100 的六倍,而 DGX A100 已經限制了傳統數據中心的功能。
從設計和能源的角度來看,Nvidia SuperPOD 最多可以包含 32 個 DGX H100 系統以及相關的 InfiniBand 連接基礎設施,每個機架最多可消耗 40.8kW 的電力。按照今天的標准,這可能被認爲是驚人的處理能力和 AI 能力,但機架和功率密度預計只會增加。
有趣的是,Nvidia的新Blackwell GPUs將使企業能夠構建和運行實時生成的人工智能應用程序和大型語言模型,成本和能耗比其前身低25倍,爲人工智能數據中心鋪平了新的道路。問題仍然是,數據中心需要如何發展才能適應人工智能的冷卻要求,以及哪些組織將在這場比賽中獲勝?
數據中心冷卻的未來
關於冷卻方法的討論仍然是業內最具爭議的話題之一。 一方是那些提倡空氣冷卻系統的人,他們認識到自由空氣冷卻優於液體冷卻方法——後者通常需要大量資本支出,對傳統數據中心架構進行改造。
另一方是已經在進行概念驗證 (POC) 項目並部署混合環境的所有者和運營商——他們正在开發高性能基礎設施系統,這些系統經過精心設計,可以適應工業規模的計算密集型應用程序。
液體冷卻的好處
隨着機架密度現在有望超過100千瓦,液體冷卻顯然將越來越受歡迎。
對於那些接受這項技術的人來說,好處是顯著的。當今的許多液體冷卻解決方案利用水和其他液體的高傳熱特性來冷卻高密度機架,比傳統措施更加高效和有效。
Iceotope和Meta等組織的研究也加強了此類方法,這些研究證實了精確液體冷卻在滿足超大規模飛行器冷卻要求方面的實用性、效率和有效性,其中液體冷卻在社區成員中已經獲得了某種偏見。
對於DTC液體冷卻,70-75%的機架設備產生的熱量通過水排出,其余25-30%通過空氣排出。因爲從傳熱角度來看,直接到芯片冷卻更有效,因此它能夠支持更高的CPU和GPU密度,同時提供顯著的熱量再利用能力。
行業內的組織還預測,液體冷卻的效率比使用空氣冷卻高3000倍,所有這些都表明液體冷卻有可能成爲未來的首選冷卻架構,並且對於滿足數據中心可持續發展要求至關重要。
生成式人工智能的未來既令人興奮又未知,但如果摩爾定律達到其物理極限,那么所有道路都將走向液體冷卻,這是未來GPU驅動計算的唯一選擇。
作者:Paul Finch 是 Kao Data 的首席技術官兼首席運營官
標題:在生成式人工智能時代,數據中心冷卻的下一步是什么?
地址:https://www.utechfun.com/post/405014.html