英偉達推TensorRT-LLM庫:AI性能提升4倍

2023-09-10 18:33:05    編輯: robot
導讀 近日,英偉達推出了一款名爲TensorRT-LLM的开源庫,該庫能夠深度優化AI GPU(如Hopper)的推理性能,加速所有大語言模型的推理過程。目前,英偉達已經與开源社區合作,利用SmoothQ...

近日,英偉達推出了一款名爲TensorRT-LLM的开源庫,該庫能夠深度優化AI GPU(如Hopper)的推理性能,加速所有大語言模型的推理過程。目前,英偉達已經與开源社區合作,利用SmoothQuant、FlashAttention和fMHA等尖端技術,對AI內核進行優化,使其能夠在GPT-3(175B)、Llama Falcom(180B)和Bloom模型上運行更高效。 TensorRT-LLM引入了名爲In-Flight batching的調度方案,該方案允許工作獨立於其他任務進入和退出GPU,使得同一GPU在處理大型計算密集型請求時,能夠動態處理多個較小的查詢,從而提高GPU的處理性能。在性能測試中,以A100爲基礎,對比了H100以及啓用TensorRT-LLM的H100,發現啓用TensorRT-LLM的H100在GPT-J 6B推理中,推理性能比A100提升4倍,而啓用TensorRT-LLM的H100性能是A100的8倍。 此外,在Llama 2中,啓用TensorRT-LLM的H100推理性能是A100的2.6倍,而啓用TensorRT-LLM的H100性能是A100的4.6倍。感興趣的用戶可以深入閱讀報告原文。



標題:英偉達推TensorRT-LLM庫:AI性能提升4倍

地址:https://www.utechfun.com/post/260406.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡