導讀大家好!AI大模型超級工廠英偉達在一年一度的英偉達GTC技術大會上,CEO黃仁勳宣布要成爲制造AI大模型的超級工廠,同時也證實了已經向中國提供一種特制的GPU H800,阿裏巴巴、騰訊和百度等中國廠商...
大家好!AI大模型超級工廠英偉達
在一年一度的英偉達GTC技術大會上,CEO黃仁勳宣布要成爲制造AI大模型的超級工廠,同時也證實了已經向中國提供一種特制的GPU H800,阿裏巴巴、騰訊和百度等中國廠商,運營商已經用上了。
而在大模型的軍備競賽中,真正的重器是A100和H100。
大模型代工廠
就像台積電向芯片廠商輸出先進制程的產能,英偉達一直向AI廠商輸出先進算力的產能。英偉達的GTC技術大會,是它向全球AI客戶推廣其硬件的舞台。有點不同的是,這次英偉達直接下場了,除了硬件,它還提供面向生成式人工智能的雲服務,旨在成爲大模型的代工廠。
ChatGPT是算力暴力美學的產物。2012年,英偉達的GTX 580,幫助AlexNet贏下了ImageNet的圖像分類競賽冠軍。這是深度學習技術的奇點時刻。當時,AlexNet團隊寫了一篇論文,作者之一的Ilya Sutskever,就是現在OpenAI的聯合創始人之一。10年後,OpenAI同樣靠着英偉達的DGX,訓練了ChatGPT背後的GPT-3模型。
大模型湧現出新的能力,讓巨頭展开軍備競賽,創業者加速湧入。生成式AI的算力負載,呈階梯式增長。GPT-3動用的算力,是10年前的100萬倍。目前,在雲上可以實際處理ChatGPT的GPU,只有HGXA100。
在這次大會上,黃仁勳介紹了3款全新推理GPU,分別擅長AI視頻設計、圖像生成、ChatGPT等大型語言模型的推理加速。一台搭載4對H100及雙GPU NVLink的標准服務器的速度,要比HGX A100再快上10倍。
不是所有的創業者都需要購买硬件。他們是新的AI應用的程序員,不必自己制造計算機。“生成式AI是一種新型計算機,一種可以用人類語言進行編程的計算機。”黃仁勳稱,“人人都可以是程序員。”
在會上,英偉達發布了AI超級計算服務DGXCloud,只要一個瀏覽器,客戶就能快速獲得算力支持。
英偉達還提供NVIDIA AI Foundations的服務。這能加速企業創建自己的大模型,以及生成式AI的應用。這讓英偉達從算力的代工廠,一躍成爲大模型的代工廠。
目前,英偉達用自己的算力,爲三大領域的AI廠商代工:文本生成模型構建服務的NeMo,視覺語言模型構建服務的Picasso,生命科學服務的BioNeMo。
中美算力落差
算力正在左右中國與美國的人工智能競賽。3年前發布的A100,是重要的分水嶺。最新的H100,則加大了中美算力的落差。
去年,美國宣布對中國限售A100與H100等先進算力芯片,市場還只是擔心中國的超算與自動駕駛。今年,大型語言模型與生成式人工智能技術,頂替了仍然虛幻的元宇宙與崩潰中的Web3,成爲下一個“iPhone時刻”,讓人們看到了兩國在最前沿技術上的實際差距。
英偉達的GPU是大模型的標配。到目前爲止,1萬美元的A100,以及建議價格20萬美元的DGX A100,是生成式AI的算力的主力。
投資者Nathan Benaich的報告發現,英偉達佔據了可用於機器學習的GPU市場的95%。大多數研究人員發表的人工智能相關的論文,都提及了英偉達的V100,這是2017年的算力硬件;2020年發布的A100,近兩年越來越多地被人工智能相關論文提及。H100很快就會趕上了。在截至今年1月的財季中,英偉達H100芯片的收入已經超過了 A100。
各家一邊搶購英偉達,一邊尋找替代品。從相關論文提及的數量來看,谷歌自行研發的專用AI芯片TPU排名第三。新興的半導體領域的挑战者Graphcore、SambaNova Systems、Cerebras、Habanal和Cambricon,以及中國的華爲Ascend 910,也有一定市場份額。
搶購算力,關乎生死。去年,Stability AI擁有32個A100,更新後的StableDiffusion 2,是在256個A100上訓練的,到了今年3月,該公司差不多可以支持5400個A100的算力訪問。
算力是AI競賽的軍備,沒有人公开自己的武器庫。上周,在發布Microsoft 365 Copilot前,微軟在自己的博客上稱,模型越大,擁有的數據越多,可以訓練的時間越長,模型的准確性就越高。它自我表揚了如何從2019年起,幫OpenAI搭建算力基礎設施,並透露了自己正在爲AI工作負載部署H100。
彭博推算,訓練OpenAI的模型,微軟用上了數以萬計(tens of thousands)的A100芯片;模型投入使用後,回答用戶提出的所有查詢,也就是推理環節,微軟部署了數十萬個(hundreds of thousands)GPU,它們分布在60多個數據中心。訓練和推理,應對的算力場景不同,需要的算力資源與算力分配的架構也不同。不過與谷歌相比,還是小巫見大巫。
沒有人能給出中國目前有多少A100的確切數據。一說是在3萬個左右。這與另一種說法裏OpenAI一家公司用了3個月訓練GPT-4時用到的A100數量相近。
中國擁有的H100可以忽略不計。在限售令前,A100已經發布2年,中國企業還有時間補充庫存,H100則尚未正式發布。Semianalysis作者迪倫帕特爾(Dylan Patel)稱,目前,甲骨文有32000個H100,亞馬遜大概20000個,谷歌比亞馬遜多,微軟比它們都多。
硅幕正在落下。在要求限售先進算力芯片後,美國政府還限制了先進制程代工產能,並要求日本與荷蘭停售用於制造先進制程芯片的光刻設備。
中國與美國的算力差距是不是正在拉大,有沒有可以趕超的另一條路?我們和谷歌的Bard,探討了這個問題。相比ChatGPT,Bard數據最新。它安慰說,中國還有機會。
Bard提到了中國“特供版”的A800與H800。“英偉達遵守新的出口法規,目前尚不清楚何時能夠獲得向中國出口H100的許可。與此同時,據報道,英偉達已經开發了H100的中國專用版本,稱爲H800,已獲准出口。”
我們找到了這則新聞。阿裏巴巴、百度和騰訊等公司的雲計算部門,正在使用這款名爲H800的新芯片。H800 的芯片到芯片通信速率爲H100 的一半左右。當問及中國能否基於特供版GPU訓練自己的大模型時,Bard給出了肯定的答復。
更大算力的供給,可能需要新型舉國體制。Bard認爲,“中美之間的算力差距很大,但並非不可逾越……近年來,中國在發展自己的高性能計算基礎設施方面取得了重大進展。2020年,中國的超級計算機天河二號A被評爲世界上最快的超級計算機。……未來幾年,中國和美國之間的計算能力差距可能會繼續縮小。”
它還詳細地介紹了中國的超算的架構。“中國的超級計算機是由CPU和加速/推理芯片混合構建的。CPU通常是中國的,例如基於64位RISC架構的神威太湖之光;加速/推理芯片通常是美國的,例如基於CUDA架構的Nvidia Tesla V100。”
最終,Bard折中地給出建議,“中美之間的算力差距是一個復雜的問題,受很多因素的影響。重要的是要了解差距,並採取措施解決它。”
也許人工智能比很多人更懂中美人工智能競賽。它能指導人類制造出更強大的它。
最後祝大家年年有余幸福安康!
追加內容
本文作者可以追加內容哦 !
標題:大家好!AI大模型超級工廠英偉達在一年一度的英偉達GTC技術大會上,CEO黃仁勳
地址:https://www.utechfun.com/post/215871.html