對大型語言模型(Large Language Models,LLM)而言,大小固然重要,會影響模型運作方式。各家 AI 公司有朝向小型語言模型趨勢加以開發,降低硬體運算門檻。
AI 新創 Stability AI 以圖片生成軟體 Stable Diffusion 而聞名,近日新發表一款參數量較小的模型 Stable LM 2 1.6B。
Stable LM 是 Stability AI 在 2023 年 4 月首次推出的文字生成模型,擁有 30 億參數和 70 億參數兩種版本,以 16 億參數訓練而成的 Stable LM 2 1.6B 是 Stability AI 繼上週推出 Stable Code 3B 之後,在 2024 年推出的第二款模型。
緊湊而高效的 Stable LM 2 1.6B 目的在於降低門檻,讓更多開發者能夠使用包含 7 種語言資料(英語、西班牙語、德語、義大利語、法語、葡萄牙語、荷蘭語)的生成式 AI。
「一般而言,使用相似數據和訓練方法來訓練大模型,往往比小模型表現更好」,Stability AI 語言模型團隊負責人 Carlos Riquelme 向國外媒體 VentureBeat 表示,「隨著時間演進,新模型開始做到更好的演算法並接受更多、更高品質的數據訓練,我們有時會看到最近小模型表現優於舊的大模型。」
Stability AI 指出,Stable LM 2 1.6B 在大多數基準測試都優於其他參數量低於 20 億的模型,包括、TinyLlama 1.1B、Falcon 1B。較小的 Stable LM 甚至能夠超越一些大模型,包括自家早期的 Stable LM 3B。
不過,較小的 Stable LM 2 1.6B 因為模型大小確實存在一些缺點。Stability AI 提醒開發者,由於規模小、低容量等特性,Stable LM 2 1.6B 同樣可能會出現高幻覺率或不真實、有毒內容等常見問題。
Stability AI 會員已能存取Stable LM 2 1.6B 用於商業和非商業用途,並且能在 Hugging Face 平台測試這款模型。
(首圖來源:)
標題:Stability AI 發表 1.6B 輕量新模型,測試表現勝過微軟 Phi-2
地址:https://www.utechfun.com/post/321778.html