大模型新史:春秋將逝,战國啓闔

2024-03-20 18:40:10    編輯: robot
導讀 國內外頭部廠商紛紛加入這場“开源熱”,意味着“加速快跑”已成爲行業共識。大家都希望跑在前面,成爲李彥宏口中那剩下的1%。而留給後來者的機會窗口也正緩緩關閉。因爲在競爭空前激烈的大模型賽道上,所有參賽...

國內外頭部廠商紛紛加入這場“开源熱”,意味着“加速快跑”已成爲行業共識。大家都希望跑在前面,成爲李彥宏口中那剩下的1%。而留給後來者的機會窗口也正緩緩關閉。因爲在競爭空前激烈的大模型賽道上,所有參賽者都明白,這不是一場排位賽,而是一場淘汰賽。

作者/李長懷  

兩千多年前,中國迎來第一次全國性大分裂,諸侯連年徵战,天下格局也隨之動蕩不定。

但正如常言所道,“天下大勢,分久必合”,經過近300年的兼並战爭,數百個諸侯紛紛覆滅,最終只剩下少數幾個主要國家,歷史進入七國爭雄的战國時期。

歷史不會簡單重演,但總會飛來幾只似曾相識的燕子。這一次的“燕子”,名叫大模型。

從被稱爲AIGC的“iPhone時刻”的ChatGPT誕生以來,正如智能手機的iPhone時刻不只屬於蘋果公司,而是帶來了一大批智能手機品牌的崛起一樣,大模型也迎來了“百模大战”。

據GitHub的統計數據,到2023年底,僅國內已經發布的大語言模型數量,即已接近300個。加上海外企業,全球大模型數量已超過400個。

巧合的是,當初東周王室分封的諸侯數量,也是400多個。

盡管大模型空前廣闊復雜的應用場景,以及不同廠商在細分領域優劣勢的客觀存在,決定了大模型不會像PC一樣出現Windows一統天下的格局,也不會像智能手機一樣僅由iOS、Android兩個主要玩家壟斷市場;但大模型本身超強的適應能力,也決定了百度李彥宏所說的“99%陪跑”,更有可能成爲行業的未來景象。

新的歷史正在上演,而在敘事上,大模型研發者們,似乎已經選擇了當初谷歌打下Android江山的劇本。

去年12月,阿裏雲正式發布並开源“業界最強开源大模型”通義千問720億參數模型Qwen-72B。

1月17日,商湯科技與上海AI實驗室聯合香港中文大學和復旦大學發布的新一代大語言模型書生·浦語2.0宣布开源。

1月29日,Meta發布的“Code Llama家族中體量最大、性能最好的模型版本” Code Llama70B,也選擇了开源。

1月30日,科大訊飛發布首個基於全國產化算力平台”飛星一號”的开源大模型——星火开源-13B。

公开信息顯示,Meta的LLama、OPT,谷歌的T5、MT5、FLAN-T5以及UU2,Big Science的BLOOM、T0、BLOOMZ等國內外主流大模型,均走上了开源道路。

艾倫人工智能研究所等5機構最近公布的开源模型OLMo,更是將模型權重、完整訓練代碼、數據集和訓練過程全部予以公开,玩起了大模型的“真·完全开源”模式。

國內外頭部廠商紛紛加入這場“开源熱”,意味着“加速快跑”已成爲行業共識。大家都希望跑在前面,成爲李彥宏口中那剩下的1%。而留給後來者的機會窗口也正緩緩關閉。因爲在競爭空前激烈的大模型賽道上,所有參賽者都明白,這不是一場排位賽,而是一場淘汰賽。

大模型的“战國時代”,似乎已經遙遙在望。

01

推开“战國”的大門//

Android的發展歷程,堪稱互聯網行業底層操作系統开源的教科書。

作爲一個开源系統,Android較之此前佔據優勢的塞班、黑莓、WP,以至同樣出身名門的plam OS(惠普)、BADA OS(三星)、MeeGo(英特爾+諾基亞),本身並沒有多大突破。但是由於开發者可以自由訪問系統底層,通過其源代碼進行二次开發,App的开發門檻、周期都得以大幅縮短,並且可以根據自己的需求和風格定制界面和功能,市場自然更容易接受。

手機廠商也樂得將更多的精力,投入到系統的打磨上,改善用戶的使用體驗。因此,我們所熟知的小米、魅族、vivo、OPPO等手機廠商,基本都是基於Android的深度定制打造的自身操作系統。

回望模型,开源大模型的出現,讓 AI 應用的开發周期和成本大幅降低,加快人工智能的普及。以Meta發布的Code Llama70B爲例,據稱,其API調用成本大約比 GPT-4 便宜了 30 倍。在Llama2 發布兩個月後,通過 Hugging Face 的 Llama 模型下載量就超過 3000 萬次。國內興起的AIGC,不少應用的基礎模型就是 Llama2。

正如Meta 首席科學家、深度學習三巨頭之一 Yann LeCun所說:“閉源證明了大模型路线的可行性,而开源則通過繁榮的生態,讓大模型變得易用、可用。”

而這次大模型的“开源熱”,除了市場推廣邏輯的復刻外,還有更現實的利益考量,那就是算力資源的匱乏。

根據不同的機構測算,GPT-4 的訓練需要的 A100 數量大約在10000-25000 張的區間。“百模大战”所消耗的算力規模可想而知。

更富邏輯性的說法則是,過去4年間,大模型參數量以年均400%的速度增長,AI算力需求增長超過15萬倍,傳統算力基礎設施已無法滿足大模型、生成式AI的訓練需求。

正是在這一背景下,業內早就提出,AI大模型的合理發展路徑,應該是“可能僅有少數企業會开發基礎大模型,其他各行各業將根據自身業務需求、數據量等,接入大模型平台,开發屬於自己的模型”。

國內大模型的先發者百度CEO李彥宏更是直言:“好幾百個基礎模型,這是對社會資源巨大的浪費。”

另一方面,“百模大战”對於技術升級的意義或許也確實不大。盡管目前各家大模型在數據、算法等各個層面千差萬別,但核心的技術路线,事實上都是6年前誕生的Transformer 架構。ChatGPT的名字中,GPT的T,指的就是Transformer。Copilot、 DALL·E 3 、 Midjourney、Runway……這一年不斷刷新我們認知的 AI 產品,背後的核心技術架構都是Transformer。

這也解釋了爲什么ChatGPT之後,新的大模型會如此密集出現。ChatGPT的最大功績,不是創造了新的AI工具,而是讓大家看到了AI革命性突破的確定路徑。這與前文提到的智能手機的iPhone時刻可謂異曲同工。

在同樣的架構之下,訓練出再多再好的大模型,最終意義或許就是刷個榜而已。

1月30日,上海人工智能實驗室推出的大模型开源开放評測體系司南(OpenCompass2.0),發布了2023年度大模型評測榜單,榜單顯示,整體技術能力居於GPT4與GPT3.5之間的大模型數量,已多達7個,其中不乏國產大模型身影。

OpenCompass2.0大語言模型中英雙語客觀評測前十名(採用百分制)。商用閉源模型通過API形式測試,开源模型直接在模型權重上測試。

但在實際應用上,李彥宏表示:“國內數百個大模型調用量加起來,還不如文心一個多。”

既然這樣,把資源集中在幾個更有實力的大模型上,的確是更優選擇。

從政策上來看,开源也是行業大勢所趨。早在2017年,中國發布的《新一代人工智能發展規劃》就將开源、开放作爲基本原則寫入了規劃。2023年,科技部副部長吳朝暉也表示,中國堅持开源協作,加強大模型技術持續創新,協同解決透明性、穩定性等共性問題,加快形成大模型的產業生態。

因此,當下大模型發展的“春秋時期”,是市場、企業、政策多方合力,共同用开源推开了“战國”的大門。

02

“分晉”?“代齊”?//

开源將改變大語言模型的格局已毋庸置疑。如何應對?相信誰也給不出終極答案。

但既然“似曾相識燕歸來”,我們不妨再次將眼光轉向兩千多年前的那個時代。

歷史從春秋轉入战國,有兩個標志性的事件,一是三家分晉,二是田氏代齊。這兩大事件,也爲大模型廠商們面對开源後加快的市場洗牌,提供了兩個有效的應對思路。

三家分晉的最終成行,在於趙、魏、韓三家勢弱的公卿,通過聯合取勝,消滅了勢強的智家,從而各自分得了晉國的部分領土。對於大模型廠商來說,這意味着一種合縱抗敵,各得其利的思路。

海外比較具有代表性的案例當屬Hugging Face开源社區。作爲世界最大的大模型托管平台,Hugging Face近日推出了开源、可定制的AI 助手Hugging Chat Assistants。除了免費之外,其與GPTs和GPT Store另一個重要區別在於:後兩者完全依賴於OpenAI的專有大模型GPT-4以及GPT-4 Vision/Turbo,而前者的用戶可以自由選擇多個开源LLM來驅動AI助手。

Hugging Chat Assistants推出後不久,就受到AI社區許多开發者的稱贊,認爲它在某些方面“超越了GPTs”,成爲其追趕閉源系統競爭對手方面的不二法寶。

在國內,2023年9月5日,由重慶市大數據應用發展管理局牽頭,華爲、阿裏、騰訊、百度、京東、科大訊飛等50多家國內頭部大模型企業加入的,全國首個大模型聯盟智博會正式宣告成立,極大地推動了大模型產業生態發展。這與Android系統發布當天,Google公司宣布聯合摩托羅拉、高通、HTC和T-Mobile在內的30多家公司,共同組建全球性的开放手機聯盟,以推動Android普及,看上去頗有幾分相似。

回顧歷史,田氏代齊中的田氏,則是通過“有德於民”,而使“齊之民歸之如流水”,最終取代姜氏,掌握了齊國的政權。這種給與下遊生態合作夥伴及客戶更多實惠,從而提升其合作意愿的思路,更適合有實力的大模型廠商。

譬如2023年9月5日召开的百度雲智大會上,百度即宣布,推出大模型新生態政策,爲夥伴提供資金、算力、技術、營銷等全方位的強力支持。百度如今能做到“國內數百個大模型調用量加起來,還不如文心一個多”的成績,與此不無關系。

當然,從大模型長期發展的復雜性來說,需要考慮的因素遠不止此。數據安全、許可協議標准、商業模式等等問題,在如今的發展階段,仍然處於未解之中。

但,Android先例在前,無論選擇“分晉”還是“代齊”路线,抑或其他,大模型廠商們通過开源加快搶佔市場的用心,早已堅不可摧。“春秋時代”战事的終結,也早已由此注定。

Android的命名靈感,來自一個充滿野心的科幻作品《未來夏娃》。在這部小說中,作者試圖創造出一個完美的機器生命。正是出於對作者利爾·亞當科學精神的致敬,Android之父安迪·魯賓,將本書女主角的名字,用在了自己开發的操作系統之上。大模型廠商們,誰又將造出AI時代的“未來夏娃”,我們拭目以待。

       原文標題 : 大模型新史:春秋將逝,战國啓闔



標題:大模型新史:春秋將逝,战國啓闔

地址:https://www.utechfun.com/post/348521.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡