高效訓練 LLM，GaLore 登上 Hugging Face 整合 Transformers 程式庫

2024-03-22 12:31:00 編輯：陳冠榮

導讀研究人員日前提出一種新的模型訓練策略 GaLore（Gradient Low-Rank Projection），在大型語言模型高效訓練方面向前邁出重要的一步，尤其可用消費級硬體，例如家用電腦的高階顯...

研究人員日前提出一種新的模型訓練策略 GaLore（Gradient Low-Rank Projection），在大型語言模型高效訓練方面向前邁出重要的一步，尤其可用消費級硬體，例如家用電腦的高階顯卡訓練數十億參數的模型，減少優化器狀態下的記憶體佔用，為無法取得高階運算資源的研究人員開拓新視野。

GaLore 被提出後，目前開始與 Hugging Face 平台的 Transformers 程式庫整合，以升級大型語言模型訓練功效。

Hugging Face 近日部落格文章展示 Galore 整合 Transformers 程式庫的完整運作範例，用在 imdb 資料組預訓練 Mistral-7B 模型。GaLore 不久後將會納入 BitsandBytes 程式庫，BitsandBytes 則是 CUDA 自定義函數的輕量級封裝。

日前發表的《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》論文顯示，GaLore 在優化器狀態下將記憶體使用量減少多達 65.5%，同時在 LLaMA 1B 和 7B 架構下使用最多 19.7B token 的 C4 資料組進行預訓練，依然保持良好性能，及在 GLUE 任務上微調 RoBERTa 的效率和性能。與 BF16 基準相比，8 位元的 GaLore 進一步減少優化器記憶體多達 82.5%，總訓練記憶體則減少 63.3%。

透過 GaLore 還能透過家用電腦的高階顯示卡（例如 NVIDIA RTX 4090）訓練大型語言模型，研究人員已證明在具有 24GB 記憶體的 GPU 預訓練 70 億參數模型是可行的。

隨著大型語言模型的規模越來越大，若對所有模型參數進行訓練，成本勢必非常高昂，研究人員設法減少記憶體使用量，於是 GaLore 這套方法獲得高度期待。

（首圖來源：）

延伸閱讀：

關鍵字: , , ,

標題：高效訓練 LLM，GaLore 登上 Hugging Face 整合 Transformers 程式庫

地址：https://www.utechfun.com/post/349440.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：

上一篇:中國 Kimi 智慧助理爆紅，機構：助更多複雜 AI 應用落地

下一篇:輝達身兼 AI 軟體商，分析師喊：市值上看 10 兆美元

您現在的位置：首頁人工智能

高效訓練 LLM，GaLore 登上 Hugging Face 整合 Transformers 程式庫

延伸閱讀：

猜你喜歡

您現在的位置： 首頁 人工智能

延伸閱讀：

猜你喜歡

您現在的位置：首頁人工智能