在如今“智算”屬性不足的大背景下,建設智算中心不單純是一項資金遊戲,更是一個思維觀念、企業架構轉化的新模型。
作者|思杭
編輯|皮爺
出品|產業家
過去12個月,英偉達市值飆升了238%。這已經算是商業史上的現象級事件。
成爲熱點的不止有英偉達,還有站在英偉達背後的“人物”黃仁勳。就像當年的馬斯克一樣,現在的黃仁勳幾乎每次發言都是科技界的“頭條”。
“AI工廠”便是黃仁勳近期頻繁提到的詞語。在2月的英偉達2024財年第四季度財報電話會上,黃仁勳將一種專注於AI生成的新型數據中心定義爲“AI工廠”。其中,爲AI工廠輸送“能源”的正是讓英偉達市值上漲萬億美元的GPU芯片。
而黃仁勳口中新型的數據中心“AI工廠”也正是國內近兩年異常火熱的智算中心。
那么,究竟什么是智算中心?以及,黃仁勳口中的AI工廠到底是什么?
簡單來理解,智算中心就是爲如今的AI大模型、AI應用,以及未來所有的人工智能項目提供計算力的新型“發電廠”。它是專爲AI而生的。
與傳統計算中心不同的是,智算中心所需要的算力是由GPU提供,而前者則是由CPU提供。在過去,GPU的用處則更多是在遊戲行業,而到了今天的AI時代,GPU芯片則變成了一種“必需品”。
2023年10月前,阿裏、騰訊、字節跳動、百度等國內大型科技公司都是從英偉達手裏獲取AI芯片。但伴隨着美國禁止英偉達等本土企業向中國出售A100/H100等AI芯片,這也一定程度上導致了國內的算力短缺。在過去的2023年,“缺卡”也更在成爲一衆大模型企業的普遍現狀。
但實際上,早在之前,國內的AI算力軍備競賽早已打響。從國家啓動“東數西算”工程开始,傳統IT企業、雲廠商和電信運營商就已經在緊鑼密鼓地布局智算中心。
早在2022年已有相關動作。1月,商湯科技智能計算中心在上海市臨港區啓動運營;8月,阿裏雲張北超級智算中心在張家口張北縣;9月,百度智能雲(鹽城)智算中心在江蘇省鹽城市落地,以及包括華爲晟騰系列、昆侖芯、寒武紀等越來越多中國廠商也都在2022年甚至之前已經在穩步布局。
在過去的一年中,智算中心的建設在中國大地上可謂如火如荼。
縱觀2023年的整個算力產業發展上,在智算中心之外,AI芯片、AI服務器、數據訓練中台等等,如今也更在成爲雲廠商、傳統IT企業和電信運營商的一塊兵家必爭之地。而在2024的今年,這些節奏更在進一步提速。智算中心,飛奔在路上。
一、2024,歡迎來到智算中心「元年」
國家隊的入場無疑是最引人注目的。
2023年,超30座城市搶建智算中心。這是國家信息中心與相關部門聯合發布的《智能計算中心創新發展指南》中給出的一組數據。
而2024年,智算中心則更是迎來它的“元年”。
在剛剛結束的兩會,一個產業界最關注的話題便是,政府工作報告提出开展“人工智能+”行動。而在這其中,據《證券日報》的記者了解到,不少企業界人士都認爲,“人工智能+算力基礎”會率先“動起來”。
事實也的確如此。從2024年初开始盤點:1月8日,中國移動智算中心(武漢)在武漢未來科技城开放運營,預計成爲華中地區規模最大的智算中心;1月22日,上海電信在上海點亮“大規模算力集群暨人工智能公共算力服務平台”,預計成爲國內首個超大規模國產算力液冷集群;1月30日,中國聯通人工智能創新中心成立儀式在京舉行。此外,北電數智承建的北京數字經濟算力中心達產後將實現1000P智能算力供給。
從中可以看到一個明顯的信號,包括互聯網廠商、通信廠商、電信運營商在內的一衆企業都正在加大力度建設智算中心。
判定算力資源的最直觀指標便是看服務器規模。後者規模越大,前者算力資源就更多。
而在2024年初中國移動發布的一份供應商信息核查公告中透露,2024年~2025年,中國移動將採購特定場景AI訓練服務器6000台。如果按照中國移動《2023年至2024年新型智算中心(試驗網)招標》中第12個標包——1250台(包括風冷和液冷)中標價24.7億元粗略估算,這筆投資將超過120億元。
實際上,與電信運營商相比,雲廠商和傳統IT企業的投入其實佔比更大。
國際數據公司IDC的一位中國分析師對《財經》記者表示,從服務器採購量佔比來看,互聯網雲廠商等科技公司佔比約40%,電信運營商佔比超過15%,數據中心服務商、地方大數據產業園以及其他IT服務公司佔比約10%。
實際上,再往前追溯,在這種強投入的背景下,互聯網雲廠商則在更早之前已經便开始投入到智能計算當中。從一組雲廠商的動態中即可窺見出這一趨勢:
2019年,百度智能雲提出ABC战略(AI,Big data,Cloud Computing),致力於智能計算、智能應用、智能生態的全面發展;
2021年7月,騰訊在合肥設立的騰訊智慧產業總部基地正式揭牌;
截至2021年上半年,華爲雲的“南貴北烏”智算中心已經全面建設完成,並於2022年進入年度國家綠色數據中心名單;
2023年9月,京東雲發布數智算力矩陣;
2023年,火山引擎與理想汽車合作,在山西省建設智算中心;
...
這種對於智能計算的強調對大模型廠商而言也更是自然趨勢。此外,在如今國外GPU芯片困難的背景下,互聯網廠商和傳統IT企業也都在加速“追趕”,力爭自研能應用於AI大模型及其他AI應用的芯片。比如華爲的昇騰、阿裏巴巴的含光和百度的昆侖等等。
而在AI服務器的供應上,這部分的市場份額目前主要還在傳統IT企業手中。據IDC數據,2022年中國AI服務器市場(按銷售額),浪潮以46.6%份額佔據首位,新華三、寧暢分別以11%和9%佔據第二、第三名。
在如此AI算力軍備競賽打響的背後,實際上隱藏起來的是如今國內巨大的算力缺口。
據不完全統計,過去一年單單是中國大模型創新企業就超過250家,而中國更是凝聚了1070萬名开發者,服務23.5萬家企事業單位。更不用說,伴隨着如今的產業落地,這種需求更將會加速湧現。
首次提出“智算中心”的浪潮認爲,未來人工智能計算需求佔比將在80%以上。而且未來對一個大模型訓練所需的算力,可能每3~4個月就翻一番,這意味着一年就要增加10倍。阿裏雲智能解決方案首席架構師鄭海超也曾公开提到,大模型帶來的算力需求爲每兩年275倍的增長。
在如此巨大的算力缺口下,智算中心在國內的大規模建設也成爲了一種必然。
而對於像“智算中心”這種基礎設施而言,政策的推動則起到了加速的作用。2017年,《新一代人工智能發展規劃》提出“建立人工智能超級計算中心”,自此智算中心也被提高到國家战略的高度。
從2020年开始至今,智算中心更是多次出現在“十四五”報告、新型數據中心發展三年行動計劃、數字中國建設整體布局規劃等等白皮書中。战略地位被一再提高,直到2024年3月的兩會上,“人工智能+”行動被寫入政府工作報告,相關產業都將得到高度重視。
根據IDC圈不完全統計,截至2023年底,全國帶有“智算中心”的項目有128個,其中83個項目有規模披露,超過7.7萬P。這也正是企業與國家隊共同努力得到的一份成績單。
然而,在傳統IT廠商、雲廠商和電信運營商“搶建”智算中心的當下,一些問題也正在被看見。
二、建一個智算中心,難在哪?
2024年哈爾濱平房區批復了4.6億元的哈投智算中心;2023年長春公布了4.8億元長春新區智算中心的建設計劃,青島市公布了17.7億元的元宇宙智慧算力中心建設計劃,南昌市公布了4.5億元的江西人工智能計算中心建設計劃。
地方城市正在市場和政策的驅動下積極響應,投入建設智算中心。
然而,這種異常高漲的熱情背後,對應的並非是實際的算力需求。一方面,據《財經》了解,一些城市投資智算中心的邏輯是,希望以此擴大基建、招商引資、吸納人才,推動本地產業升級。很多地方政府還會爲企業發放算力券,進行市場補貼。
而在沒有合理規劃和試驗的情況下,盲目建設智算中心的行爲則會導致極大的資源浪費。
全國政協委員、中科院計算所研究員張雲泉也在《算力經濟發展趨勢分析與展望》中分析道,“有些地方只是爲了追求排名、追求規模效應,運營過程不透明、缺乏監管,建成之後發現需求不足,沒有大的應用,出現了很多智算中心直接空轉、關機的現象,造成很大浪費。”
實際上,建一個智算中心需要更爲合理的規劃和實驗驗證。對此,張雲泉給到的第一點建議便是,“對新增建設類算力網工程技術裝置進行實驗驗證,在驗證的基礎上再放大。”
尤其是大型算力網的構建則更需要通過原型實驗,進行嚴格論證。一個正常大型項目的邏輯是,在應用場景確定下來的基礎上,再衡量項目建設的投入產出比。但如今在算力的架構、調度、測量、交易、安全技術等方面都尚不成熟。
嚴格意義上講,目前國內的智算中心還並不能稱之爲真正的“智算”,在運營模式、服務等方面都還深受傳統IDC行業影響。
北電數智首席战略官楊震告訴產業家,AI時代,企業需要的,除了能夠精准匹配需求、極具性價比的智能算力服務,還要有端到端的人工智能全棧服務。
除了算力,企業應用人工智能還涉及數據、模型开發和調優、AI應用等多個環節。每個環節對於傳統企業都存在技術門檻高、人才缺失、开發周期長等難題。據了解,北電數智的做法是聯合生態夥伴提供底座大模型、豐富的行業垂直大模型、一棧式AI工具鏈,企業可以靈活調用各種能力,加工出所需要的AI應用;此外,其也圍繞數據要素打造賦能工具,幫助擁有豐富數據的企業挖掘數據價值。
楊震告訴產業家,事實上,具有全智算屬性的AIDC,是在提供從底層算力到頂層應用使能的全棧能力。在他看來,北電數智承建的北京數字經濟算力中心就是在打造新型的AIDC,也就是黃仁勳說的“AI工廠”。
實際上,智算中心與傳統數據中心的區別一方面在於能夠幫助AI企業提供AI算力;另一方面則在於改變運營方式。
而提供AI算力的前提除了需要AI芯片,更重要的則是如何發揮“平台”作用,爲企業提供配套的算力服務。尤其是在如今的大模型時代,一個參數規模達千億甚至萬億級的大模型, GPU卡的需求就高達數萬張。
因此,於企業而言,“算力服務除了提供算力外,還要有底座大模型、豐富的行業垂直大模型、一棧式AI工具鏈等。而這些都是智算中心應該做到的。”楊震表示。
但從目前的智算中心建設情況來看,整體的現狀是只注重“量”,而忽視“質”。在智算中心的華麗外殼下,卻裝着傳統數據中心的“裏子”。
此外,在如今智算中心佔領高地的當下,一個更新的問題也在被放到台面上:傳統IDC將如何轉型?
“過去,雲廠商和傳統IDC企業存在競爭關系,而未來將是互補,甚至是合作的關系。”在2月末的阿裏雲战略發布會上劉偉光曾公开表示。與此同時,AIDC企業北電數智也同樣認爲,傳統IDC實現轉型則要避免“單打獨鬥”,要和生態合作夥伴共同發揮各自優勢,聯合創新。
換言之,如果實現智算中心的“AI工廠”的平台價值,在算力之外,還需要關於數據的訓練、標注以及後期的微調等等。能夠預測的是,在2024年將會有越來越多圍繞智算中心的生態出現。這裏面不僅包括晟騰、寒武紀等芯片企業,更多的也恰是整個大模型生產鏈上的企業,比如標注企業、大模型isv开發者等等。
此外,從ChatGPT到Sora,大模型應用不僅僅帶動了算力需求的爆發,能耗也在急劇增長。比如最近ChatGPT爆出日消耗電力超50萬度,相當於美國家庭每天用電量的1.7萬多倍。而在此背景下,智算中心的綠色節能也被提上日程。
這也恰是如今越來越多的智算中心开始選擇液冷配置的原因。但相較於傳統的水電模式,液冷需要的硬件配備以及對應的成本都將會更大,對不少算力規模較小的智算中心而言,這也更是一項難覆蓋的成本。
但在單點上,國內企業也有突破。比如在2023中國算力大會期間,聯想問天發布的AI大模型訓練服務器便實現了相比同級別服務器功耗降低約10%,恰是基於液冷對服務器的加持。
不難看出,在種種難題下,不論其算力規模大小,智算中心的建設實際上都並非容易,一方面是如何實現技術突破,這些包括和芯片的兼容、適配等等,另一方面是如何打通生態,开闢新的運營方式。
對智算中心而言,這不單純是一項資金的遊戲,更是一個思維觀念、企業架構轉化的新模型。
換句話說,這是一個基於AI時代的新IDC企業模型。如果要做好,在資金和技術之外,更要有兼容和共創。
三、算力,狂飆在大模型時代
在越發強烈的市場需求下,行業本身的問題也更在加速浮現。
過去一年,ChatGPT發生過多次宕機事件,最長宕機時間甚至達到16小時21分鐘。盡管OpenAI所用到的芯片都來自於全球生產GPU芯片最厲害的企業英偉達,但算力依然捉襟見肘。
從AI芯片的架構來分析,目前最爲核心的架構是GPU、FPGA、ASIC。其中,GPU通用性較強,適合大規模並行計算,且設計及制造工藝較成熟,目前佔據AI芯片市場的主要份額。
而FPGA則可以更好地解決當下AI時代所出現的暗硅效應,其中,暗硅效應(Dark Silicon)指由於芯片工藝和尺寸的限制,芯片上只有一小部分區域可以同時運行,其余的區域被闲置或關閉,這些闲置或關閉的區域被稱爲“暗硅”。
能看到的是,國內的大型科技企業都在嘗試FPGA架構,如阿裏、華爲等等。
從全球範圍來看,智算中心的軍備競賽早已拉響。首先是美國,斥資3000億美元重點投資數據中心和智算中心;接下來是出資50億歐元支持人工智能研究的德國。而在日本,NTT(日本電報電話公司)2023年宣布,未來5年內向人工智能、數據中心等領域投資590億美元。另外,Meta甚至叫停部分在建數據中心,轉而打造智算中心。
張雲泉在《算力經濟發展趨勢分析與展望》中寫道,“工業互聯網、自動駕駛、全息通信等業務對網絡時延、帶寬和確定性等條件的要求遠遠高於消費互聯網。如L3~L5級別的自動駕駛要求端到端的時延不超過3毫秒,而傳統的集中式的雲服務時延一般會超過50毫秒。在這樣的情況下,把海量數據上傳到雲計算中心進行集中處理的模式難以爲繼。”
這些都將是算力狂飆的最直接需求。面對這些更爲廣泛的需求,圈內更多的觀點是算力分布式理念。即從單一的CPU走向CPU、GPU、NPU、FPGA等多架構,進而滿足需求。
未來,“算力會像水、電一樣通用”。這是如今大模型時代裏一個美好的暢想。
那么,今天距離這樣的暢想還有多遠?
二十年前,“十五計劃”提出了電信網、互聯網、有线電視網三網融合的概念。此後的八年一直到2008年北京奧運會,中國已經完全實現讓居民接入高速寬帶傳輸網絡的愿景。
二十年後的今天,這樣的場景也在重新上演。在如今的算力時代,“算網融合”被提升到重要位置,其主要模式恰是讓居民和企業使用算力像使用網絡一樣方便、便捷。
想象一下在個人移動端,某天你可以在手機上辦理“算力套餐”,直接購买算力,像現在購买流量一樣;而在企業端也是如此,比如教育、能源、工業、交通等等領域都可以更廉價地購买算力。未來,隨着智算中心的規模擴大、技術提升,以及算力訂閱式、分布式的普及,有理由相信,這些都將會一一實現。
按照這樣的速度,“算力像水電一樣通用”這樣的暢想也許不需要第二個“八年”。
原文標題 : 智算中心元年:如何理解“AI工廠”
標題:智算中心元年:如何理解“AI工廠”
地址:https://www.utechfun.com/post/345724.html