➤強調應用實效並不意味機器性能不重要,只是不以機器性能爲唯一指標,而是把更多的力量放在軟硬結合、應用優化上,以取得應用實效爲硬道理
➤算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬件加速器,高效支持AI的特徵操作
➤推動超算互聯網服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一調度,而芯片多樣、體系異構、全局存儲、高速互連等難題直接或間接影響算力調度系統的設計,需要發力解決
文 |《瞭望》新聞周刊記者 扈永順
超級計算能力是衡量一個國家或地區科技競爭力和綜合實力的重要標志,是國之重器。近年來我國研發的高性能計算機支撐了系列重要科學研究和工程建設項目,無論在核聚變裝置設計和高能物理計算,還是國產大飛機C919的空氣動力學分析和海洋石油鑽井平台的研制,以及模擬人類大腦能力的類腦智能和創新藥物研發方面,都有超算的協助。
步入數字經濟時代,算力成爲新型生產力。AI和大模型的發展對算力提出了前所未有的新需求,但急劇變化的國際環境對我國超算的可持續發展提出了嚴峻挑战。“以應用成效論英雄,從機器性能世界領先轉向應用成效世界領先,應該成爲我國高性能計算發展追求的新目標。”中國科學院院士、北京航空航天大學計算機學院教授錢德沛向《瞭望》新聞周刊記者表示,超算互聯網正是在這個背景下提出的重要任務。
4月11日,國家超算互聯網平台上线,聚焦降低算力使用門檻,提高資源利用效率,爲數字中國建設、數字經濟發展等提供堅實支撐。“基於互聯網發展理念,超算中心提供超級算力,在超算互聯網上構建領域應用平台,把各種應用軟件提供給用戶,使得更多用戶能方便獲得需要的計算應用資源,讓超算的使用更爲普及。”錢德沛介紹。
超級計算發展面臨新形勢
《瞭望》:我國超算經歷了怎樣的發展歷程?
錢德沛:過去30年,在我國科技人員的努力下,高性能計算事業取得了長足進步。性能也即運算速度是衡量超算水平的世界公認指標,按計算機性能劃分,我國經歷了4個階段,每個階段計算機性能提高1000倍,即從G級(每秒10億次)到T級(每秒萬億次),再到P級(每秒1000萬億次),再到E級(每秒百億億次)。相對應的典型計算機系統是早期的曙光1000(G級),20世紀末的曙光3000(百G級),本世紀初的聯想深騰6800和曙光4000A(T級),接着是天河一號、曙光6000和神威·藍光(P級),神威·太湖之光和天河二號(百P級)等。“十三五”規劃提出要突破E級(1000P級)計算機核心技術,也已實現了研究目標。
自主研發的神威、天河、曙光系列超級計算機已11次位居世界超算TOP500排行榜第一,大氣模擬、地震模擬、量子模擬等關鍵領域大規模並行計算應用三次獲得世界高性能計算應用最高獎“戈登·貝爾”獎。全國範圍建成由14個國家超級計算中心支撐的國家高性能計算環境(中國國家網格)等战略性信息基礎設施。
《瞭望》:當前超算發展面臨哪些新的挑战?
錢德沛:當前超算發展遇到瓶頸,TOP500的數據說明,超算性能增長從過去每10~11年增長1000倍降到了增長100倍以下。
首先,能效指標約束下不能依靠擴大系統規模來提高性能。2022年,美國橡樹嶺國家實驗室研發的超級計算機Frontier成爲世界上第一台百億億級的E級超級計算機。該機是此規模系統世界最好水平,但每小時仍耗電2萬多度,相當於數十萬台筆記本電腦的耗電量。在我國雙碳指標約束下,計算機系統研制和數據中心建設必須考慮能耗因素。
其次,計算架構師們一直信奉的摩爾定律已經接近其極限。體系結構變化緩慢,量子計算機等顛覆性技術距離實用尚有距離,新原理的計算和存儲器件缺少突破,算法、軟件和硬件之間匹配不良等問題,導致超級計算機性能的提升放緩。
再者,我國後E級計算機的研制面臨挑战。目前用於研制後E級系統的高性能處理器/加速器需進行進口替代;克服“存儲牆”壁壘的HBM內存及新型存儲器件方面我國與世界最先進水平仍存差距;自主高端處理器的研發和制造仍受制於人。
此外,我國超算應用軟件對外依賴度較高,多數並行的科學與工程計算軟件依靠進口。
《瞭望》:爲什么說我國超算追求的新目標要從機器性能世界領先轉向應用成效世界領先?
錢德沛:如前所述,超算技術和國際形勢正在發生變化。大模型等AI應用的興起使得算力需求急劇上升。AI需要更多的是半精度浮點運算和整數運算,而不是傳統衡量性能的雙精度浮點運算。而且隨着機器規模的不斷擴大,發揮系統全機能力的並行計算變得更加困難,能否使應用軟件充分發揮並行硬件的優勢成爲必須解決的難題。再者,當前依靠自主技術,在不是採用最高性能處理器實現的系統上,取得世界領先的應用成效,是贏得主動的關鍵。
強調應用實效並不意味機器性能不重要,只是不以機器性能爲唯一指標,而是把更多的力量放在軟硬結合、應用優化上,以取得應用實效爲硬道理。
AI帶來機遇
《瞭望》:智算與超算有什么區別?
錢德沛:超算提供的是超強雙精度浮點運算能力,主要用於解決數值模擬和第一性原理計算等科學與工程計算問題,如氣象數值預報、材料計算、流體動力學計算等。通過用數學物理方程建立待研究對象的數學模型,在初始和邊界條件下求解方程,得到待研究對象的特徵和性態,這是开展預測性科學研究的經典手段。
隨着大數據和深度學習技術的出現,出現了新的問題求解模式,即AI賦能的模式,對應的計算稱之爲智算。在智算模式下,採用人工神經網絡作爲被研究對象的模型。在訓練階段,使用大數據反復訓練模型。在求解或者說推理階段,將待解問題的數據送入模型,得到結果輸出。模型的訓練和推理主要使用半精度浮點數或整數運算,這是智算不同於傳統超算之處。
《瞭望》:AI的快速發展對超算帶來哪些機遇與挑战?
錢德沛:傳統的超級計算機也可以完成模型訓練和推理的任務,但是其超強的雙精度浮點運算能力得不到充分利用,反而消耗了更多的電力,而智算所需要的半精度浮點數和整數運算性能又不足,這是智算給傳統超算帶來的新挑战。
伴隨AI的快速進步,超算也迎來新的發展機遇。AI催生了前所未有的巨大算力需求,AI大模型通常擁有千億以上參數,其訓練依賴大算力,例如若使用每秒1000萬億次的超級計算機訓練一次GPT-3模型,需要連續運行3600余天。算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬件加速器,高效支持AI的特徵操作。
此外,機器學習、深度學習等AI技術具有解決高維數學問題的強大能力,催生了一種新的科研範式,即AI For Science,或稱科學智能。目前AI方法在蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等方面取得了突破性進展,正在改變這些領域依賴數值模擬的傳統局面,推動了超級計算與AI的融合發展。一方面,超算的並行計算能力是AI for Science的基礎。AI算法通常涉及大量的並行計算,而超算的多處理器架構和並行計算能力能夠充分滿足這一需求。另一方面,AI for Science所產生的新方法和新軟件將極大豐富傳統超算的軟件資源,提高其解決復雜挑战性問題的能力。
抓住AI發展的契機,能夠帶動超算領域硬件、算法、軟件、應用和系統的協同創新。
構建支撐AI應用的超算互聯網
《瞭望》:超算互聯網是如何提供快捷算力服務的?
錢德沛:超算互聯網是一種基於互聯網理念,借鑑互聯網應用的成功經驗而發展的超算基礎設施。它追求應用資源的互通共享和高效利用,开拓應用开發和服務的新模式,力求改善用戶體驗,幫助用戶更好地解決應用問題,同時也爲資源提供者,服務運營者創造更大的價值。
首先,超算互聯網提供更多樣的資源部署模式,用戶可以根據自身業務需求選擇合適的資源部署模式,並可動態調整。例如,同時使用公共算力和私有算力的混合雲部署模式,使用多個算力中心資源的多雲部署模式,支持中心訓練與邊緣推理一體部署的雲邊端協同模式等。
其次,超算互聯網提供更多元的應用服務,爲用戶帶來多樣、便捷、場景化的算力使用模式。用戶既可直接訪問超級計算機來運行自己的軟件,也能通過應用服務平台使用應用服務,或通過應用場景APP獲取算力服務。該模式下,用戶按需使用應用軟件,按使用量付費,無需關注其使用的算力類型和地理位置,甚至無需關注使用了什么應用軟件,從而大幅降低用戶的算力使用門檻。
第三,提供更良性的算力中心競合模式。相比單個算力中心獨立爲用戶提供服務,超算互聯網通過一體化算力服務平台,允許用戶選擇最合適的算力中心或同時享受多個算力中心的服務。算力中心之間也將從競爭走向競合,從而彌補自身資源與能力不足,更好滿足用戶需求。
第四,提供更緊密的產業生態協作模式。在超算互聯網上,活躍的不僅是算力的提供商和消費者,更有大量的應用軟件商、應用服務商、數據提供商、代算商、技術與信息提供商、居間服務商等多元角色。超算互聯網平台通過在线一站式配齊算力、軟件、數據、模型、技術服務、技術資料、培訓等各類要素資源,促進供需高效對接,從而形成算力產業的生態大協作平台。
《瞭望》:推動超算互聯網服務AI應用,還需解決哪些難題?
錢德沛:要推動超算互聯網服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一調度,而芯片多樣、體系異構、全局存儲、高速互連等難題直接或間接影響算力調度系統的設計,需要發力解決。
芯片方面,隨着應用需求和芯片技術的發展,計算芯片呈現多樣化發展趨勢。算力中心的計算芯片主要包括通用處理器和AI處理器,提供不同精度的計算能力。目前國產AI芯片發展快速,如百度昆侖芯、華爲昇騰、寒武紀等,還需大力完善國產AI芯片的應用生態,解決應用便捷开發和運行穩定性等問題。
體系異構方面,異構計算已成爲算力中心的主流架構。全球超級計算機超三成使用異構架構,智算中心中異構系統更加普遍,如CPU+英偉達GPU、CPU+深度學習處理器/加速器等結構。多種異構架構及加速硬件的出現,增加了並行編程的復雜性和算力調度的難度。要解決AI應用與異構硬件的適配問題,在改善應用性能的同時提高資源利用率。
高效存儲方面,要在超算互聯網、多雲互聯的環境下,建立跨域虛擬數據空間,構建覆蓋多中心的全局數據資源視圖,實現數據全局可視、跨域數據訪問與調度、跨中心智能化數據管理等必要功能,更好地滿足數據遷移、存儲布局優化、故障預測、數據保護等需要。
高速互連方面,要充分考慮AI應用對計算節點內、計算節點間的互連需求,在保證更高數據傳輸速率、更大數據傳輸帶寬和更低數據傳輸延遲的同時,提高互連的穩定性和可靠性,以保證大模型訓練等AI應用的長時間穩定運行。此外,還要提高算力中心內部和算力中心之間的網絡性能,以支持更大範圍的資源共享和協同工作。□
海量資訊、精准解讀,盡在新浪財經APP標題:中國超算另闢捷徑
地址:https://www.utechfun.com/post/367011.html