這可能是國內一些科技公司代價最大的一段彎路。
作者|李小東
直到現在,算力仍然被看作是制約國內AI發展的主要因素。
爲了解決這一問題,尤其是ChatGPT出現後,智算中心被視爲AI時代如同水和電一般的新基建,在全國各地落地开花。截至今年上半年,全國建成和在建的智算中心超過250個,有媒體報道,僅今年前七個月,就湧現出了140個新的中標項目。
建設這些智算中心背後涉及的公司和機構,除了城投、運營商、金融企業和一些央國企,大型的互聯網雲計算公司,比如華爲雲、阿裏雲、騰訊雲,甚至還有些從房地產等行業跨界過來的公司。
但另一組數據同樣值得關注:IDC指出,以企業爲主要用戶的通用算力中心利用率,目前僅爲10%-15%;之前有中科院院士公开表示,一些重量級的智算中心,現在大多甚至都處於闲置狀態。
從算力不足,到所謂的算力“過剩”,核心問題實際上並沒有完全解決。這就意味着,動輒投資數十億甚至過百億的大項目,不僅沒有發揮出應該有的價值,還成了這場AI熱潮中代價最高的新難題。
01
算力供給風起雲湧
不少人對“智算中心”這個詞可能還感到陌生。但它其實不算個新詞,可以理解爲更高階的“計算中心”。
在計算機科學興起之初,由於計算設備昂貴且稀缺,許多機構和組織會建立專門的計算中心,來集中提供高性能的計算資源和服務。隨着計算機技術的不斷進步和普及,從最初的大型機時代到如今的雲計算、邊緣計算,計算中心的形式和功能也發生了變化。
相較於傳統算力中心,智算中心在硬件層面使用GPU替代CPU,GPU並行處理在面對大規模數據集運算時計算效率更高;另一方面,智算中心在軟件層面部署了AI框架,能將計算任務調配給不同的計算平台,從而實現最大的效率。
按應用角度來看,傳統計算中心更多地以存儲數據和提供互聯網服務爲主;而智算中心是專門給AI應用提供算力和數據存儲。
三年前,在推動產業數字化轉型的背景下,國內首個智算中心落地武漢,總投資約4.6億元,由於這類項目的建設過程中,通常會採用預制模塊化機房和整櫃交付的方式,所以實際建設周期很短,僅僅6個月就能夠建成。
當時一期的建設規模爲100P FLOPS的AI算力,由數千顆昇騰AI處理器組成,算力峰值性能相當於5萬台高性能PC機。這是個怎樣的概念呢?以天文探索的場景爲例,普通算力需要169天才能找到的特定星星,智算中心只用不到100秒。
新眸統計2021以來建成的智算中心,從以地方主導的項目,如武漢、合肥、南京、京津冀等,到後來以商湯、阿裏雲、百度雲等大廠爲主开始投資運營,投入資金、算力規模整體呈現出明顯逐階上漲的趨勢。
比如2022年投入運營的“商湯科技人工智能智算中心”,一期投入56億元,機櫃數量5000個,峰值訓練算力達到3740P FLOPS;同年後來阿裏雲的張北智算中心上线,算力規模達到12000P FLOPS,總投入180億元。
過去的一年裏,智算中心以量出圈。
具體表現在,一些四五线城市的智算中心拔地而起,比如甘肅慶陽、安徽宿州、山東棗莊等。相比大城市,這些城市土地資源豐富且價格低廉,渴望經濟轉型,並帶動周邊產業發展,因此對智算中心給予如稅收優惠和資金補貼等支持,並且審批流程更簡化,建設進度更快。
另一方面,智算中心需要實現算力的標准化、服務化,達到隨用隨取,類似於傳統公有雲服務。這意味着智算中心不僅僅是提供硬件資源,而是要轉型爲提供算力服務,因此很多企業,甚至是傳統企業都湧入了跨界做算力租賃的賽道。
同花順數據顯示,截至目前,算力租賃概念股已經多達108家。例如,主營彩票印刷業務的鴻博股份,是A股首家宣布跨界算力的上市公司;蓮花健康主業是做味精的,也採購了大量英偉達GPU开展算力租賃業務。
02
算力租賃,一個新的風口賽道
簡單來說,算力租賃就是當你在需要強大算力來完成某個項目時,不去自己購买昂貴的計算設備,而是去租用。服務商根據需求,搭建好所需的計算環境或系統,然後通過籤訂合同的方式,把這套計算能力租給你用。
客戶付的是租金,用完之後這套設備的所有權還是歸服務提供方,也不需要自己去維護或者买下這些設備。通常情況下,算力租賃有四種收費方式,按小時、按算力規模、按使用量和套餐計費。
具體來看,一般小型科創公司在做一些科研項目、短期的數據處理任務等,對算力的使用時間不確定,按小時計費就可以靈活控制成本。比如SFCompute公司提供按小時計費的服務,用戶可以根據自己的需求租用H100 GPU,價格還很便宜。
按算力規模計費,通常涉及到服務器性能、GPU數量等方面的評估,性能越好、效率越高,服務租金也更高。其次還有按照數據處理量、網絡流量的使用情況來計費的方式。針對一些大型企業或有特殊需求的客戶,提供商可以根據客戶的具體要求定制個性化的套餐。
爲什么要租?
衆所周知,這兩年大模型訓練、微調、推理需求急劇增加,但關鍵在於,AI應用在不同的开發階段,對算力的需求也不同。在开發周期中,需要大量的訓練算力;當模型开發完成上线後,就不再需要訓練算力而是推理算力。
當下算力租賃下的迫切需求,更多是源於模型訓練。至於需要多少,參考GPT-4訓練過程中A100卡數量達到萬張量級。考慮到服務器採購與租金成本,以及對算力的彈性需求,調試、維護成本,工程師研發時間成本,算力租賃成爲大多數大模型廠商的最佳選擇。
然而,在目前的算力租賃市場,競爭格局呈現戶參與者衆多,但格局分散的特點。傳統的雲服務提供商,高端算力資源相對充足,但對外租賃的比例較少。具備IDC建設運營能力的企業,比如浪潮信息、中科曙光,以及跨行過來做算力的企業也越來越多。
另一個問題,國內在近幾年的算力投入下,與國外的差距不斷縮小,甚至單從規模上看,已經到了全球頂尖的水准,尤其是智算中心的儲備,也遠非供不應求的狀態。
那么,在這種情況下,爲什么還會有那么多公司爭相做租賃生意?
事實上,在供需方面,國內的算力規模雖然增長,但面向AI、高性能計算的算力缺口一直存在。根據賽迪顧問的數據,2023年國內智能算力需求達123.6EFLOPS,但供給僅有57.9EFLOPS,不到一半。
另一方面,算力需求未被雲計算大廠承接住。據業內人士指出,主要是因爲大模型訓練需高性能GPU集群,而大廠提供的多是單節點服務,缺乏節點間超高帶寬互聯基礎設施,無法滿足需求。
再加上建設新集群成本高,現有基礎設施又無法重復利用,並且大廠更關注在單節點可用性與可靠性,在高性能集群業務上並無優勢,要不然也不會有其他算力租賃公司的發展機會。
據東吳證券研報,算力租賃公司的毛利率約爲40%左右,淨利率約爲20%左右,最大的一個門檻就是資金——用來硬件採購、場地租賃、運維團隊組建;但技術門檻並不高,企業可以通過與技術供應商合作、引進專業人才等方式快速搭建和運營大規模的算力中心。
對於一些主業經營承壓、急於尋找新盈利增長點的企業來說,這個新賽道的吸引力巨大。
03
智算中心的背後邏輯
2023年,蓮花控股成立蓮花紫星开展算力租賃業務。公告顯示,算力項目預計總投入約 2.9 億元。今年前8個月,蓮花紫星營業收入超過3515萬元,但淨利潤爲-398.13萬元。整體仍處於虧損,主要原因是設備的折舊及利息費用影響金額較大,人員成本支出佔比較高,尚未發揮出規模效應。
短時間內賺不到錢,並不是說這不是一門好生意。通過梳理开展算力租賃的A股公司的財務數據發現,大部分的確都處在增收不增利的狀態,極少數實現盈利,但這些與“算力”概念相關的企業,最直接的收獲,可能就是短期內幾乎都出現過明顯上漲的股價。
如果要問算力租賃還有哪些不確定性,市場需求、政策變化、技術水平,以及交付和供應鏈、國產替代等等,都是重要的影響因素。不過對於當下涉足這個賽道的企業來說,更關鍵的問題是真正的know how。
智算中心並非买了一堆GPU後就能靠租售躺賺。單就硬件部署,要解決的就包括:高性能的AI芯片、異構架構設計、高速低延遲的網絡、存儲系統、安全配置、監控管理、液冷裝置等等復雜步驟。
除此以外,訓練算力的租賃對象主要是大模型公司,那么租賃公司,尤其是跨行的企業,怎么獲取這些客戶資源,獲取穩定的客戶支持?這些問題在實操的過程中更難解決。截至目前,已經陸續有幾家上市公司放棄了算力租賃業務。
那回到开頭的話題,智算中心的ROI過低,什么原因?
除了供給與需求的不匹配,地區間的經濟發展水平和產業結構差異,比如東部地區算力需求旺盛而供給相對不足之外,最早撇下的泡沫,是那些在缺乏充分市場調研的情況下,盲目投入智算中心建設的公司。
其次,結合算力租賃市場當下的窘境,智算中心的高效運行不僅依賴於高性能的硬件,還需要軟件層面的優化和協調。智算不僅僅是卡的問題,而是一個軟硬件協調的系統。當軟件能力不夠時,卡自身的發揮也會受限,導致用卡效率不高。
智算中心不景氣,直接影響了算力租賃市場的低迷,反過來,算力資源無法得到有效利用,一些企業因缺乏應用場景而闲置算力資源,造成浪費,如此循環。
值得注意的是,囿於國內外技術差距以及芯片卡脖子,國產替代越發的被反復提及。但在這個過程中,最難解決的是應用生態的問題。
打個比方,如果國內芯片廠商在技術上採取封閉式模式,廠商通過高價設備銷售、輔助運營服務等方式實現了商業利益的最大化,雖然能夠集中力量辦大事,實現端到端的控制。
但封閉性也會導致可用的开源軟件、商用軟件極少,用戶自有軟件的遷移適配成本極高,一些用戶的軟件無法適配,依此建立的智算中心只能處於闲置狀態。
本文系新眸原創
原文標題 : 有多少AI公司,如今困在智算中心?
標題:有多少AI公司,如今困在智算中心?
地址:https://www.utechfun.com/post/443382.html