拆解AI|“白菜價”始作俑者、大模型 “價格屠夫”DeepSeek是誰?

2024-05-23 18:40:15    編輯: robot
導讀 圖片來源:視覺中國 在衆多AI應用眼花繚亂地湧入市場時,AI公司深度求索(DeepSeek)上周公告DeepSeekChat已通過北京市生成式人工智能服務備案,或將很快向公衆开放服務。 DeepSe...

圖片

圖片來源:視覺中國

在衆多AI應用眼花繚亂地湧入市場時,AI公司深度求索(DeepSeek)上周公告DeepSeekChat已通過北京市生成式人工智能服務備案,或將很快向公衆开放服務。

DeepSeek由知名私募巨頭幻方量化於2023年4月創立。與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創公司不同,DeepSeek與科技巨頭間並無直接關系。但這家公司仍然被視爲一匹可能改變國內AI市場格局的“黑馬”。

5月初,DeepSeek宣布开源第二代MoE大模型DeepSeek-V2。據介紹,該模型在性能上比肩GPT-4 Turbo,價格卻只有GPT-4的僅百分之一,這也讓DeepSeek收獲了“AI屆拼多多”的名號。

而直到本周,阿裏巴巴和百度才爭先恐後加入大模型價格战,DeepSeek的掀桌子舉動甚至比智譜AI和字節跳動對旗下大模型產品的高調降價更早。

高性價比或許是DeepSeek的顯著優勢,但隨着諸多企業紛紛入局AI價格战,已經卷出“白菜價”的大模型很快變得不再稀缺,DeepSeek又該走出怎樣的商業模式來應對呢?

價格战的導火索漸失低價優勢

DeepSeek-V2推出後,DeepSeek一度被AI圈稱作“價格屠夫”。

它的中文綜合能力是目前开源模型中最強的,與GPT-4 Turbo,文心4.0等閉源模型處於同一梯隊。英文綜合能力與最強的开源模型LLaMA3-70B處於同一梯隊,超過最強MoE开源模型Mixtral8x22B。而這些競爭者都背靠科技大廠,或者擁有科技業界明星團隊。

相較於出色的性能,有分析公司直言DeepSeek-V2的價格“便宜得難以置信”。該模型每百萬tokens輸入價格爲1元、輸出價格爲2元,而GPT-4 Turbo每百萬tokens的輸入/輸出價格爲72元、217元。

同爲中國公司,盡管DeepSeek率先定下了大模型的低價,但在過去一周,關於價格战的討論卻更多地圍繞字節跳動、阿裏等行業巨頭。

5月15日,字節發布豆包大模型,其主力模型的定價爲輸入0.0008元/千tokens,當時稱較行業便宜99.3%。阿裏雲周二宣布,通義千問對標ChatGPT-4的主力模型Qwen-Long,API輸入價格從0.02元/千tokens降至0.0005元/千tokens,直降97%。百度隨之公告,文心大模型的兩款入門級主力模型ENIRE Speed、ENIRE Lite全面免費。此前,智譜AI入門級產品GLM-3 Turbo模型的調用價格也從5元/百萬tokens降至1元/百萬tokens。

雖然國外AI公司仍將競賽焦點放在技術的迭代升級和產品的應用場景上,但一些大模型今年也相繼宣布下調價格。2月底,法國人工智能企業Mistral AI發布大模型Mistral Large,其輸入、輸出價格比GPT-4 Turbo便宜約20%,成爲OpenAI的強勁對手。自去年以來,OpenAI已進行4次降價,5月發布的GPT-4o價格較前一代模型降低了50%。

降價有助於大模型快速搶佔市場,爭取更多的用戶。而使用量越大,大模型也能被調用得更好。但並非所有玩家都有資格加入價格战,降價涉及到大模型的研發、訓練、推理等成本的優化,一些中小企業會難以跟上大廠的腳步。

正如字節旗下火山引擎總裁譚待所說,“豆包模型的超低定價,來源於我們有信心用技術手段優化成本,而不是補貼或是打價格战爭奪市場份額。”

對於DeepSeek-V2而言,定出低價的底氣在於其架構的創新。該模型沒有沿用傳統的大模型架構,而是採用新的多頭潛在注意力(Multi-Head Latent Attention)和DeepSeekMoE架構,在處理信息時能夠更智能和高效,降低大模型的推理成本。

DeepSeek-V2具有2360億總參數,但處理每個token時只需激活210億參數。這不僅能夠減少內存使用,也能提高計算效率。一些大模型需要激活所有參數來提供響應,參數越多,計算成本也就越高。

AI明星公司Anthropic聯合創始人、OpenAI前政策主管Jack Clark也關注到DeepSeek-V2的突破,並表示:“DeepSeek組建了一支團隊,他們對訓練雄心勃勃的模型所需的基礎設施有着深刻的理解。中國制造也將成爲AI模型的發展趨勢。”

此外,也有業界人士認爲,DeepSeek可能是中國幾家大廠之外,擁有英偉達高性能GPU最多的公司。

隨着頭部廠商們陸續入局,大模型價格战越發聲勢浩大,創新能力或可成爲DeepSeek參與競爭的資本。

不做應用做研究

除了开始卷價格,國內AI行業還卷起了應用的落地。如果說過去一年上演的還是“百模大战”,2024年則被認爲將會是AI應用落地元年。

今年3月,月之暗面宣布旗下的Kimi智能助手已支持 200 萬字超長無損上下文,隨後拉動Kimi概念股大漲,反映出市場對於AI技術的商業化應用的信心。據AI產品榜數據,4月Kimi訪問量達2004萬,超過百度文心一言的1691萬。

橫空出世的Kimi搶佔風口後,巨頭們也开始加速推出一系列AI應用。百度聯合創始人兼首席執行官李彥宏多次表態,“卷大模型沒有意義,卷應用機會更大。”字節跳動更是一氣推出十多款AI產品,從“App工廠”轉型爲“AI應用工廠”。大廠們在推動大模型落地時大多遵循由內到外的邏輯,先基於AI重構內部產品,再實現對外的輸出。

在一片AI應用浪潮中,DeepSeek卻顯得有些安靜。其母公司幻方量化的創始人梁文鋒去年在接受媒體採訪時表示,公司不會過早地設計基於模型的一些應用,而是會專注在大模型上。幻方的目標是探索 AGI(人工通用智能),認爲語言大模型可能是通往AGI的必經之路,並且初步具備了AGI的特徵,所以會從大模型开始。

梁文鋒也承認,很多風投對於優先做研究、不做應用的策略有顧慮,希望能盡快實現產品商業化,這讓DeepSeek很難獲得融資。但其擁有的算力和工程師團隊相當於“有了一半籌碼”。

有雲計算專家提出,1萬枚英偉達A100芯片是做AI大模型的算力門檻。當中國雲廠商受限於緊缺的GPU芯片時,幻方卻早早押中了大模型賽道的入場券。據報道,除商湯科技、百度、騰訊、字節、阿裏等科技巨頭外,幻方也手握着超1萬枚GPU。

梁文鋒在媒體採訪中表示,幻方對算力的儲備並不突然。在2019年,幻方就已投資2億元自研深度學習訓練平台“螢火一號”,搭載了1100塊GPU。到了2021年,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。一年後,OpenAI發布ChatGPT的公开測試版本,拉开全球新一輪AI熱潮的序幕。

頂着高昂的研發成本,百度、阿裏等頭部玩家已开始大打價格战,搶佔市場,期望有更多的真實使用場景以推進產品訓練。而事實上率先掀起本輪大模型價格战,喊着“不做應用做研究”的DeepSeek,卻並沒有在各家大廠密集召开降價發布會時發聲,顯得無心參战。盡管背後有幻方量化提供研發經費,DeepSeek不計ROI的堅持究竟會導向領先,還是落後的未來呢?

       原文標題 : 拆解AI|“白菜價”始作俑者、大模型 “價格屠夫”DeepSeek是誰?



標題:拆解AI|“白菜價”始作俑者、大模型 “價格屠夫”DeepSeek是誰?

地址:https://www.utechfun.com/post/374804.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡