近一周來,大模型領域重磅產品接連推出:OpenAI發布“文字生視頻”大模型Sora;Meta發布視頻預測大模型 V-JEPA;谷歌發布大模型 Gemini 1.5 Pro,更毫無預兆地發布了开源模型Gemma......
難怪網友們感嘆:“一开年AI發展的節奏已經如此炸裂了么!”
但更令人意想不到的是,AI芯片領域處於絕對霸主地位的英偉達,竟然也遇到了挑战,而且挑战者還是一家初創公司。
在這家名叫Groq的初創芯片及模型公司官網上,它號稱是世界最快大模型,比GPT-4快18倍,測試中最快達到破紀錄的每秒吞吐500 tokens。
這閃電般的速度,來源於Groq自研的LPU(語言處理單元),是一種名爲張量流處理器(TSP)的新型處理單元,自然語言處理速度是英偉達GPU 10倍,做到了推理的最低延遲。
“快”字當頭,Groq可謂賺足眼球。Groq還喊話各大公司,揚言在三年內超越英偉達。
事實上,在這一波AI熱潮中,“天下苦英偉達久矣”。英偉達GPU芯片價格一再被炒高,而Groq的LPU架構能“彎道超車”,顯然是衆望所歸。
因此,不少輿論驚呼Groq要顛覆英偉達,也有業內人士認爲Groq想要“平替”英偉達還有很長的路要走。
但無論持哪種觀點,Groq的出現不僅是對現有芯片架構和市場格局的挑战,也預示着AI芯片及其支撐的大模型發展方向正在發生變化——聚焦AI推理。
Groq LPU:快字當頭
據介紹,Groq的芯片採用14nm制程,搭載了230MB大靜態隨機存儲器(SRAM)以保證內存帶寬,片上內存帶寬達80TB/s。在算力方面,該芯片的整型(8位)運算速度爲750TOPs,浮點(16位)運算速度爲188TFLOPs。
Anyscale的LLMPerf排行顯示,在Groq LPU推理引擎上運行的Llama 2 70B,輸出tokens吞吐量快了18倍,優於其他所有雲推理供應商。
據網友測試,面對300多個單詞的“巨型”prompt(AI模型提示詞),Groq在不到一秒鐘的時間裏,就爲一篇期刊論文創建了初步大綱和寫作計劃。此外,Groq還完全實現了遠程實時的AI對話。
電子郵件初創企業Otherside AI的首席執行官兼聯合創始人馬特·舒默(Matt Shumer)在體驗Groq後稱贊其快如閃電,能夠在不到一秒鐘的時間內生成數百個單詞的事實性、引用性答案。
更令人驚訝的是,其超過3/4的時間用於搜索信息,而生成答案的時間卻短到只有幾分之一秒。
Groq之所以“快如閃電”,其創新的核心在於LPU。
據官方信息顯示,LPU推理引擎是一種新型的端到端處理單元系統,它爲計算密集型應用提供最快的推理能力,這些應用具有序列組件,例如AI語言應用程序(LLM)。
LPU旨在克服LLM的兩個瓶頸:計算密度和內存帶寬。
就LLM而言,LPU比GPU和CPU具有更大的計算能力。這減少了每個單詞的計算時間,從而可以更快地生成文本序列。
同時,與利用高帶寬內存(HBM)的GPU不同,Groq的LPU利用SRAM進行數據處理,比HBM快約20倍,從而顯著降低能耗並提高效率。
GroqChip的獨特架構與其時間指令集相結合,可實現自然語言和其他順序數據的理想順序處理。
消除外部內存瓶頸,不僅使LPU推理引擎能夠在LLM上提供比GPU高幾個數量級的性能。
而且由於LPU只進行推理計算,需要的數據量遠小於模型訓練,從外部內存讀取的數據更少,消耗的電量也低於GPU。
此外,LPU芯片設計實現了多個TSP的無縫連接,避免了GPU集群中的瓶頸問題,顯著地提高了可擴展性。
因此,Groq公司宣稱,其LPU所帶來的AI推理計算是革命性的。
在AI推理領域挑战GPU
盡管Groq高調喊話,但想要“平替”英偉達GPU並不容易。從各方觀點來看,Groq的芯片還無法與之分庭抗禮。
原Facebook人工智能科學家、原阿裏技術副總裁賈揚清算了一筆账,因爲Groq小得可憐的內存容量,在運行Llama 2 70B模型時,需要305張Groq卡才足夠,而用英偉達的H100則只需要8張卡。
從目前的價格來看,這意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
但跳出單純的價格對比,Groq LPU的解決方案依然展現出了不小的應用潛力。
根據機器學習算法步驟,AI芯片可以劃分爲訓練AI芯片和推理AI芯片。
訓練芯片是用於構建神經網絡模型,需要高算力和通用性,追求的是高計算性能(高吞吐率)、低功耗。
推理芯片是對訓練好的神經網絡模型進行運算,利用輸入的新數據來一次性獲得正確結論。
因此完成推理過程的時間要盡可能短、低功耗,更關注用戶體驗方面的優化。
雖然現階段GPU利用並行計算的優勢在AI領域大獲全勝,但由於英偉達GPU的獨有架構,英偉達H100等芯片在推理領域算力要求遠不及訓練端,這也就給Groq等競爭對手留下了機會。
因此,專注於AI推理的Groq LPU,得以在推理這個特定領域挑战英偉達GPU的地位。從測試結果上看,Groq能夠達到令人滿意的“秒回”效果。
這也在一定程度上顯示了通用芯片與專用芯片的路徑分歧。
隨着AI和深度學習的不斷發展,對專用芯片的需求也在增長。
各種專用加速器如FPGA、ASIC以及其他初創公司的AI芯片已經不斷湧現,它們在各自擅長的領域內展現出了挑战GPU的可能性。
相比於英偉達通用型AI芯片,自研AI芯片也被稱作ASIC,往往更適合科技公司本身的AI工作負載需求且成本較低。
比如,雲巨頭AWS就推出了爲生成式AI和機器學習訓練而設計全新自研AI芯片AWS Trainium2,性能比上一代芯片提高到4倍,可提供65ExaFlops超算性能。
微軟也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia,後者是微軟首款AI芯片,主要針對大語言模型訓練,預計將於明年初开始在微軟Azure數據中心推出。
谷歌雲也推出了新版本的TPU芯片TPU v5p,旨在大幅縮減訓練大語言模型時間投入。
無論是大廠自研的AI芯片,還是像Groq LPU這樣的專用芯片,都是爲了優化特定AI計算任務的性能和成本效率,同時減少對英偉達等外部供應商的依賴。
作爲GPU的一個重要補充,專用芯片讓面對緊缺昂貴的GPU芯片的企業有了一個新的選擇。
AI芯片聚焦推理
隨着AI大模型的快速發展,尤其是Sora以及即將推出的GPT-5,都需要更強大高效的算力。但GPU在推理方面的不夠高效,已經影響到了大模型業務的發展。
從產業發展趨勢來看,AI算力負載大概率將逐步從訓練全面向推理端遷移。
華爾街大行摩根士丹利在2024年十大投資策略主題中指出,隨着消費類邊緣設備在數據處理、存儲端和電池續航方面的大幅改進,2024年將有更多催化劑促使邊緣AI這一細分領域迎頭趕上,AI行業的發展重點也將從“訓練”全面轉向“推理”。
高通CEO Amon也指出,芯片制造商們的主要战場不久後將由“訓練”轉向“推理”。
Amon在採訪時表示:“隨着AI大模型變得更精簡、能夠在設備上運行並專注於推理任務,芯片制造商的主要市場將轉向‘推理’,即模型應用。預計數據中心也將對專門用於已訓練模型推理任務的處理器產生興趣,一切都將助力推理市場規模超越訓練市場。”
在最新的財報電話會上,英偉達CFO Colette Kress表示,大模型的推理場景已經佔據英偉達數據中心40%的營收比例。這也是判斷大模型行業落地前景的重要信號。
事實上,巨頭們的一舉一動也在印證這一趨勢的到來。
據路透社報道,Meta將推新款自研AI推理芯片Artemis。預計Meta可於年內完成該芯片在自有數據中心的部署,與英偉達GPU協同提供算力。
而英偉達也通過強化推理能力,鞏固自身通用GPU市佔率。
在下一代芯片H200中,英偉達在H100的基礎上將存儲器HBM進行了一次升級,爲的也是提升芯片在推理環節中的效率。
不僅如此,隨着各大科技巨頭、芯片設計獨角獸企業都在研發更具效率、部分替代GPU的芯片,英偉達也意識到這一點,建立起了定制芯片的業務部門。
總的來說,以現在AI芯片供不應求的現狀,GPU的增長暫時還不會放緩。但隨着AI發展趨勢的快速變化,英偉達不可能是永遠的王者,而Groq也絕對不是唯一的挑战者。
相關閱讀
“存算一體”是大模型AI芯片的破局關鍵?
不堪忍受英偉達霸權,紛紛自研AI芯片
爭奪算力話語權,雲計算廠商迎來自研芯片“覺醒時刻”
GPU受限,國內AI大模型能否交出自己的答卷?
【科技雲報道原創】
轉載請注明“科技雲報道”並附本文鏈接
原文標題 : 黑馬Groq單挑英偉達,AI芯片要變天?
標題:黑馬Groq單挑英偉達,AI芯片要變天?
地址:https://www.utechfun.com/post/337932.html