“可以解決99%的使用場景！”微軟、英偉達紛紛押注小模型，大模型不香了？

2024-08-24 18:10:58 編輯： robot

導讀每經記者文巧每經實習記者岳楚鵬每經編輯高涵在人工智能發展的道路上，科技巨頭們曾經競相开發規模龐大的語言模型，但如今出現了一種新趨勢：小型語言模型（SLM）正逐漸嶄露頭...

每經記者文巧每經實習記者岳楚鵬每經編輯高涵

在人工智能發展的道路上，科技巨頭們曾經競相开發規模龐大的語言模型，但如今出現了一種新趨勢：小型語言模型（SLM）正逐漸嶄露頭角，挑战着過去“越大越好”的觀念。

當地時間8月21日，微軟和英偉達相繼發布了最新的小型語言模型——Phi-3.5-mini-instruct和Mistral-NeMo-Minitron 8B。這兩款模型的主要賣點是它們在計算資源使用和功能表現之間實現了良好的平衡。在某些方面，它們的性能甚至可以媲美大型模型。

人工智能初創公司Hugging Face的首席執行官Clem Delangue指出，高達99%的使用場景可以通過SLM來解決，並預測2024年將成爲SLM之年。據不完全統計，包括Meta、微軟、谷歌在內的科技巨頭們今年已經發布了九款小型模型。

大模型訓練成本攀升，性能提升卻有限

SLM的崛起並非偶然，而是與大模型（LLM）在性能提升與資源消耗方面的挑战密切相關。

AI初創公司Vellum和Hugging Face今年四月份發布的性能比較表明，LLM之間的性能差距正在迅速縮小，特別是在多項選擇題、推理和數學問題等特定任務中，頂級模型之間的差異極小。例如，在多項選擇題中，Claude 3 Opus、GPT-4和Gemini Ultra的得分均超過83%，而在推理任務中，Claude 3 Opus、GPT-4和Gemini 1.5 Pro的准確率均超過92%。

Uber AI 前負責人Gary Marcus指出，LLM的最新研究論文都指向同一個方向，十幾個LLM都與GPT-4在一個領域，“其中一些性能比GPT-4略好一些，但並沒有質的飛躍。我想每個人都會說GPT-4比GPT-3.5領先了一步，但此後的一年多沒有任何質的飛躍。”

與有限的性能提升相比，LLM的訓練成本卻在不斷攀升。訓練這些模型需要海量數據和數以億計甚至萬億個參數，導致了極高的資源消耗。訓練和運行LLM所需的計算能力和能源消耗令人咋舌，這使得小型組織或個人難以參與核心LLM开發。

國際能源署估計，數據中心、加密貨幣和人工智能相關的電力消耗到2026年，會大致相當於日本全國的用電量。

OpenAI首席執行官Sam Altman曾在麻省理工學院的一次活動上表示，訓練GPT-4的成本至少爲1億美元，而Anthropic首席執行官Dario Amodei預測，未來訓練模型的成本可能達到1000億美元。

此外，使用LLM所需的工具和技術的復雜性也增加了开發人員的學習曲线。從訓練到部署，整個過程耗時漫長，減緩了开發速度。劍橋大學的一項研究顯示，公司可能需要90天或更長時間才能部署一個機器學習模型。

LLM的另一個重大問題是容易產生“幻覺”——即模型生成的輸出看似合理，但實際上並不正確。這是由於LLM的訓練方式是根據數據中的模式預測下一個最可能的單詞，而非真正理解信息。因此，LLM可能會自信地生成虛假陳述、編造事實或以荒謬的方式組合不相關的概念。如何檢測和減少這些“幻覺”是开發可靠且可信賴語言模型的持續挑战。

圖片來源：視覺中國

擴展參數並非提高性能的唯一路徑

對LLM巨大能源需求的擔憂，以及爲企業提供更多樣化AI選項的市場機會，讓科技公司將注意力逐漸轉向了SLM。

《每日經濟新聞》記者注意到，不管是Arcee、Sakana AI和Hugging Face等AI初創公司，還是科技巨頭都在通過SLM和更經濟的方式投資者和客戶。

此前，谷歌、Meta、OpenAI和Anthropic都發布了比旗艦LLM更緊湊、更靈活的小型語言模型。這不僅降低了开發和部署的成本，也爲商業客戶提供了更便宜的解決方案。鑑於投資者越來越擔心AI企業的高成本和不確定的回報，更多的科技公司可能會選擇這條道路。即便是微軟和英偉達，如今也先後推出了自己的小型模型（SLM）。

SLM是LLM的精簡版本，具有更少的參數和更簡單的設計，它們需要更少的數據和訓練時間——只需幾分鐘或幾小時。這使得SLM更高效，更易於在小型設備上部署。例如，它們可以嵌入到手機中，而無需佔用超算資源，從而降低成本，並顯著提升響應速度。

微軟在小型模型技術報告中指出，Phi-3.5-mini-instruct是一款爲手機本地部署設計的高性能語言模型。

SLM的另一個主要優勢是其針對特定應用的專業化。SLM專注於特定任務或領域，這使它們在實際應用中更加高效。例如，在情緒分析、命名實體識別或特定領域的問答中，SLM的表現往往優於通用模型。這種定制化使得企業能夠創建高效滿足其特定需求的模型。

SLM在特定領域內也不易出現“幻覺”，因爲它們通常在更窄、更有針對性的數據集上訓練，這有助於模型學習與其任務最相關的模式和信息。SLM的專注性降低了生成不相關、意外或不一致輸出的可能性。

盡管規模較小，SLM在某些方面的性能並不遜色於大模型。微軟最新推出的Phi-3.5-mini-instruct僅擁有38億個參數，但其性能優於Llama3.18B和Mistral 7B等參數遠高於它的模型。美國東北大學語言模型研究專家Aaron Mueller指出，擴展參數數量並非提高模型性能的唯一途徑，使用更高質量的數據訓練也可以產生類似效果。

OpenAI首席執行官Sam Altman在4月的一次活動中表示，他相信當前正處於巨型模型時代的末期，“我們將通過其他方式來提升它們的表現。”

不過，需要注意的是，雖然 SLM 的專業化是一大優勢，但也有局限性。這些模型可能在其特定訓練領域之外表現不佳，缺乏廣泛的知識庫，和 LLM相比無法生成廣泛主題的相關內容。這一限制要求組織可能部署多個 SLM 來覆蓋不同的需求領域，這可能會使 AI 基礎設施復雜化。

隨着AI領域的快速發展，小型模型的標准可能會不斷變化。東京小型模型初創公司Sakana的聯合創始人兼首席執行官David Ha表示，幾年前看似龐大的AI模型，現在看來已經顯得“適中”。“大小總是相對的，”David Ha說道。