專題:2023科技風雲榜
新浪科技訊 12月21日下午消息,由新浪財經客戶端、新浪科技聯合主辦的“2023科技風雲榜”年度盛典今日开幕,今年活動主題爲“智湧·進躍”。中國工程院院士、清華大學教授鄭緯民發表題爲《支持大模型訓練的三種算力系統》的演講。
他指出,第一個系統是基於英偉達公司的GPU系統,這個硬件性能好,編程生態好,大家喜歡用,很多人都用這個系統。但是問題是人家不賣給中國了,價錢從去年12月份以來漲了一倍、兩倍,一卡難求,买不到了。
第二個是國產AI芯片的系統,現在我們國內有超過30家公司做AI芯片,芯片取得了很大的成果,硬件做出來了,但是狀況是用戶不喜歡用,原因在哪?國產卡的生態系統不好。什么叫生態系統好還是不好?如果原來一個軟件基於英偉達編的,現在很容易移植到國產系統上來,這就是生態好。如果新寫一個軟件,在我們國產系統下寫的比較順當,這個系統生態就好。問題現在狀況是,生態系統不好,要改變國產大模型系統相對不好的局面。就是做好十個軟件:編程框架、程加速、通信庫、算子庫,AI編譯器、編程語言、調度器、內存分配系統、容錯系統、存儲系統,這十個系統做好了編程比較容易,大家就喜歡用。
“國產AI芯片只要達到國外芯片60%的性能,如果生態做好了客戶也就滿意了。這十個軟件做好了生態好了,客戶會滿意,如果你的硬件性能是人家的120%,這十個軟件沒做好,照樣沒人用,別人也不喜歡用。我們大家要一塊努力把這十個軟件做好,把生態做好,這是我們非常重要的一件事情。”
第三個基於超級計算機的系統。我們國內有14個超級計算機系統國家掛牌的,不是國家掛牌的更多,現在是什么狀況?機器不是用的非常滿,有的是有富余,你這個機器這么大,還有點富余能不能做大模型訓練?是行的,不是簡單的行,要做軟硬件協同設計。
他總結稱,我們要大力开展基於國產系統的大模型基礎設施的研究工作,要改變國產卡的生態系統不好的局面,做好軟硬件協同,而且要把國產卡做好。
以下爲演講實錄:
各位專家、各位朋友,非常高興來參加這個會,我先說我對大模型是不懂的人,但是我是做系統的,今天在這裏討論計算機系統長成什么樣來支持大模型訓練。因此我講《支持大模型訓練的三種算力系統》,基於英偉達公司的GPU系統,基於國產芯片的系統,第三個超級計算機系統,先說說第一個。這個硬件性能好,編程生態好,大家喜歡用,很多人都用這個系統。但是問題是人家不賣給中國了,價錢從去年12月份以來漲了一倍、兩倍,一卡難求,买不到了。我們就說說第二個。
第二個系統,國家產生AI芯片的系統,現在我們國內有超過30家公司做AI芯片,這幾天來芯片取得了很大的成果,硬件做出來了,但是狀況是用戶不喜歡用,用戶對這個卡不太喜歡。原因在哪?國產卡的生態系統不好。什么叫生態系統好還是不好?如果原來一個軟件基於英偉達編的,現在還容易移植到國產系統上來,並且很容易,這就是生態好。如果新寫一個軟件,在我們國產系統下寫的比較順當,這個系統生態就好。問題現在狀況是,生態系統不好,不好怎么辦?就改變,要改變國產大模型系統相對不好的局面。就是做好十個軟件。哪十個軟件?
第一編程框架、第二編程加速、第三通信庫、算子庫,還有AI編譯器、編程語言、調度器、內存分配系統、容錯系統、存儲系統,共十個系統,這十個系統做好了編程比較容易,大家就喜歡用,現在這30多家廠商很多這十個系統都有的,但是用起來做的不夠齊,或者做的不夠好。那么怎么辦?把這十個軟件做好了,我有一個說法,國產AI芯片只要達到國外芯片60%的性能,如果生態做好了客戶也就滿意了。這十個軟件做好了生態好了,客戶會滿意,如果你的硬件性能是人家的120%,這十個軟件沒做好,照樣沒人用,別人也不喜歡用。我們大家要一塊努力把這十個軟件做好,把生態做好,這是我們非常重要的一件事情。也是某種程度上來支持國產芯片的一個行動。國產芯片如果這十個軟件沒做好,沒人用,相當於你白生產,一定要把這十個軟件做好,大家都會用了,那么系統也就好了。
第三個基於超級計算機的系統。我們國內有14個超級計算機系統國家掛牌的,不是國家掛牌的更多,現在是什么狀況?機器不是用的非常滿,有的是有富余,你這個機器這么大,還有點富余能不能做大模型訓練?是行的,不是簡單的行,要做軟硬件協同設計。
軟硬件協同設計指的是硬件變化很大,過去都是CPU,現在除了CPU有GPU、DPU、SSD等很多硬件、芯片出來了。軟件也是,原來就是一般的軟件,現在有人工智能軟件、有大數據軟件,硬件變了,應用軟件也變了,兩者之間怎么做匹配?也就是,編軟件的人除了專業知識知道以外,還得知道這個機器硬件結構長成什么樣?我聽到一個說法,一個大學,學大氣物理,學天氣預報專業的,十年以前他要懂一門編程語言和數據結構就可以編出很好的天氣預報軟件。天氣預報軟件都是他們這些人編的運行的很好,那時候機器CPU加存儲器加硬盤,就這樣一個結構,就這些東西編的就挺好,我們都用他的。
現在仍然是這位老師,這位研究者,他是學大氣的,他也知道數據結構,但是他不知道怎么還有DPU、還有CPU、還有GPU還有SSD,編程他只知道有CPU,編出來的東西要么轉起來很慢,要么根本轉不起來。什么叫軟硬件協同?編軟件的時候要把硬件充分利用起來,編起來要把GPU用起來,把DPU用利用起來,SSD利用起來,才能編好。
舉個例子,我們在一台輕薄大機器上,做了一個八卦爐大模型,算力要轉起來,轉起來之前先試試這個圖,軟硬件協同要知道它長成什么樣子的。最左邊8×8,64個核,加黑的組合,共65個核,這是一組。中間CG0、CG2、CG3、CG4、CG5,共六組共390個核,封裝在一個CPU,中間一個CGU裏有390個核,把這個CPU乘以256就是256個這么多東西連在一塊,是一個超級點。這個超級點256個CPU兩兩之間有直接一條路,通信很快。這個256,兩兩之間很快,另一個256兩兩之間也很快,兩個256之間速度就慢了,通訊往上走幾步才能下來,不是一步能到的,大概是這樣的情況。
我們的大模型有很多處理的方式,比如數據並行,數據並行什么意思?把一種軟件比如裝在100個機器上,每台機器裝一套,把訓練的數據放在100份每個至少100/1,這一百台機器做訓練,這一百台機器兩兩之間交換數據很頻繁,這是因爲數據並行造成的,以至於我們馬上想到這一百台機器兩兩之間通信很頻繁,就希望它兩兩之間通信能一步到位就好了。
模型並行,把整個軟件分成100分,每一個機器裝100/1軟件,數據是整個的,這個模型訓練起來兩兩之間通信量少,以至於我們碰到這個問題想辦法放到機器上,通信慢一點的地方也行。簡單回顧一下,碰到一個大模型軟件,第一段是數據並行的,我們要把這個並行想辦法放到通信很快的一堆機器裏去。
下面是模型並行,把這個軟件放到通信慢一點的地方也沒事。如果你不知道瞎放,就完了,協同就是這樣。
第二個要知道內存。一個CPU裏有390個核,每一個核都要放一個內存,請求有390個,請求就堵塞了。如果訪問的內存的地方都是一個地方,也麻煩了。怎么請求不堵塞負載均勻這是我們要考慮的,沒有考慮這個事情也麻煩。
第三個很重要,大規模檢查點存儲性能優化。我們知道一個大模型一訓練,訓練到半年一年的都有,時間比較長。我們不要長,一個禮拜,訓練一個禮拜,要求這一個禮拜裏這個機器最好不要出問題。否則訓練還是訓練,五個鐘頭出錯了要重來,然後又出錯又重來,因此我們過去都用檢查點。如果是1萬塊卡,組成的一個系統,平均3個小時出一次錯,這是世界先進水平,怎么辦?开始訓練,到2個半小時的時候我們就停下來了,不訓練了。幹什么?2個半小時停下來以後就把當前的環境、硬件、軟件、數據把這些一堆的東西計到硬盤裏面去,然後开始再訓練。碰到出錯,過去出錯是從頭來,現在不用,把剛才硬盤裏的東西拿出來從這個地方重新开始就行了,2個半小時這個叫檢查點,檢查點的時候把當時的環境計到硬盤,然後出錯了從這個地方开始進行。大模型訓練這個事情量很大,也不好弄,要幾十個鐘頭,2個半小時把一堆東西計到硬盤裏要幾十個鐘頭,怎么辦?一種辦法加SSD,硬盤慢,SSD快。還有就是軟件也要想辦法。
這裏講的是在青島這台機器,我們把我們自己的大模型在上面進行了訓練。第二個,把LLama也做了訓練了,超級計算機做訓練也是可以的。在這個情況下訓練價錢比英偉達的卡還要便宜,我們說买一台超算專門來做大模型訓練,這一點不核算。十億、二十億的錢,我們說租人家的用,超算機器國家出錢的,有的地方電費還有補助,因此記次費相對便宜,這也是一條路。
有四件事情要注意,不管你做計算機還是买計算機。第一半精度運算性能與雙精度運算性能的平衡。也就是說你這個機器64位計算能力是多少,16位計算能力是多少,最好1:100,或者1:64比較合適。也就是說64位本身很大,有本事,16位的本事更大,1:100左右比較合適。
第二個,你把另外一塊卡买來了,就連在一塊,怎么連?一種辦法是全連,兩兩之間都是一條路,那樣太貴了,每台機器要插999塊卡,價錢比买英偉達的還貴,而且還沒有地方插,怎么辦?一種方案128台機器全連,128台全連的,兩兩之間,是多條路。
第三個內存。第四個io子系統平衡設計。就是硬盤要支持到檢查點,別做十個鐘頭,20分鐘就要能做完。
這幾件事情做好了,別人用1萬塊卡,我們用9000塊卡就可以了。
小結:我們要大力开展基於國產系統的大模型基礎設施的研究工作。要改變國產卡的生態系統不好的局面。做好軟硬件協同,而且要把國產卡做好。
我就講這些,謝謝!
海量資訊、精准解讀,盡在新浪財經APP責任編輯:韋子蓉
標題:鄭緯民院士:國產AI芯片只要達到國外芯片60%性能,如果生態做好了客戶也就滿意了
地址:https://www.utechfun.com/post/307248.html