DBRX達1320億參數,最強开源模型易主

2024-04-02 18:40:08    編輯: robot
導讀 前言: DBRX的誕生標志着全球範圍內开源人工智能語言模型技術的最新巔峰,並預示着人工智能技術的發展已正式進入全新階段。 該模型通過深度學習技術和大規模訓練數據的結合,不僅在自然語言處理領域表現出色...

前言:

DBRX的誕生標志着全球範圍內开源人工智能語言模型技術的最新巔峰,並預示着人工智能技術的發展已正式進入全新階段。

該模型通過深度學習技術和大規模訓練數據的結合,不僅在自然語言處理領域表現出色,更在程序代碼解析與生成、復雜數學計算以及邏輯推理等多個領域展現了前所未有的卓越能力。

作者 | 方文三

圖片來源 |  網 絡 

全球最強开源大模型王座易主

近期,全球开源大模型領域迎來了重大變革,創業公司Databricks推出的新型开源模型DBRX在技術層面已超越先前的領軍者Llama 2、Mixtral和Grok-1,榮登全球最強开源大模型之巔。

這一突破性的成就,無疑爲开源模型領域樹立了新的裏程碑。

值得注意的是,DBRX在訓練成本上實現了顯著降低。Databricks公司僅投入1000萬美元及3100塊H100芯片,便高效地在兩個月內完成了DBRX的訓練。

相較於Meta开發Llama2所需的龐大投入,這一成本展示了Databricks公司在技術效率與成本控制上的卓越能力。

在性能表現方面,DBRX同樣展現出了強大的實力。無論是在語言理解、編程、數學還是邏輯領域,DBRX均輕松超越了开源模型LLaMA2-70B、Mixtral和Grok-1。

更值得一提的是,DBRX的整體性能甚至超越了GPT-3.5,尤其在編程方面,DBRX展現出了超越GPT-3.5的卓越性能。

DBRX大模型,使用MoE架構

Databricks公司最近推出了开源模型DBRX,其參數規模高達1320億。

這款模型採用了先進的細粒度MoE架構,每次輸入僅需使用360億參數,顯著提升了每秒token吞吐量。

DBRX通過細粒度專家混合(MoE)架構,擁有更多的專家模型,從而在推理速度上大幅超越了LLaMA 2-70B,實現了兩倍的提升。

DBRX是一款基於Transformer純解碼器的大模型,同樣採用下一token預測進行訓練。

在MoE中,模型的某些部分會根據查詢內容啓動,有效提高了模型的訓練和運行效率。

相較於其他开源MoE模型如Mixtral和Grok-1,DBRX採用了細粒度設計,使用更多數量的小型專家。

DBRX擁有16個專家模型,每次選擇4個使用,而Mixtral和Grok-1則分別擁有8個專家模型,每次選擇2個。

這種設計使得DBRX提供了65倍可能的專家組合,極大地提高了模型質量。

此外,DBRX還採用了旋轉位置編碼(RoPE)、門控线性單元(GLU)和分組查詢注意力(GQA)等技術,以提高模型質量。同時,DBRX還使用了tiktoken存儲庫中提供的GPT-4分詞器。

在方法層面,DBRX模型(包括預訓練數據、模型架構和優化策略)與上一代的MPT模型相當,但計算效率提高了近4倍。

三大核心能力表現突出

①經過綜合評估,DBRX的“微調版”Instruct在多個基准測試中表現卓越。

在Hugging Face Open LLM Leaderboard這一復合基准測試中,DBRX Instruct以74.5%的得分榮登榜首,顯著領先於第二名Mixtral Instruct的72.7%。

同時,在Databricks Model Gauntlet這一包含超過30項任務、橫跨六個領域的評估套件中,DBRX Instruct同樣以66.8%的得分拔得頭籌,較第二名Mixtral Instruct的60.7%有着明顯優勢。

②DBRX Instruct在編程和數學相關任務上展現出了尤爲突出的能力。

在HumanEval這一評估代碼質量的任務中,其正確率達到了70.1%,比Grok-1高出約7個百分點,比Mixtral Instruct高出約8個百分點,並超越了所有被評估的LLaMA2-70B變體。

在GSM8k數學問題解決測試中,DBRX Instruct同樣取得了最優成績66.9%,超過了Grok-1、Mixtral Instruct以及其他LLaMA2-70B變體。

值得注意的是,盡管Grok-1的參數數量是DBRX Instruct的2.4倍,但在上述編程和數學任務上,DBRX Instruct仍能保持領先地位。

甚至在針對編程任務專門設計的CodeLLaMA-70B Instruct模型之上,DBRX Instruct在HumanEval上的表現依然出色。

③DBRX Instruct在多語言理解能力方面也表現出色。

在大規模多任務語言理解數據集(MMLU)上,DBRX Instruct繼續展示出頂級性能,得分高達73.7%,超過了本次比較的所有其他模型。

綜上所述,DBRX的“微調版”Instruct在多個基准測試中均表現出色,尤其在編程、數學和多語言理解方面展現出了卓越的能力。

Databricks再次攪局,力爭市場破局

Databricks,源於加州大學伯克利分校的AMPLab項目,專注於研發基於Scala的开源分布式計算框架Apache Spark,並首創了“湖倉一體”(data Lakehouse)的概念。

2023年3月,該公司緊跟ChatGPT熱潮,推出了开源語言模型dolly,並在後續2.0版本中提出了“首個真正开放和商業可行的指令調優LLM(大模型)”的口號,這標志着Databricks的“第二次行業革新”。

值得一提的是,Jonathan Frankle,曾是生成式AI初創公司MosaicML的首席科學家。

而Databricks在2023年6月以14億美元成功收購了MosaicML,這一舉措促使Frankle辭去了哈佛大學教授的職務,全身心投入到DBRX的研發中。

就在前些日子,馬斯克宣布了史上最大的开源模型Grok-1的誕生,這一事件無疑引起了業界的廣泛關注。

Databricks之所以能在競爭中脫穎而出,其關鍵在於公司的技術整合能力和專有數據。

這兩項核心優勢將繼續推動新的、更優秀的模型變體的誕生。

DBRX團隊擁有16名專家,並從中選擇了4名進行模型开發,而Mixtral和Grok-1團隊各有8名專家,選擇了2名。

這種選擇爲DBRX提供了超過65倍的專家組合可能性,從而顯著提高了模型質量。

DBRX在模型开發中採用了旋轉位置編碼(RoPE)、門控线性單元(GLU)和分組查詢注意力(GQA)等技術,並使用了tiktoken存儲庫中提供的GPT-4令牌化器(tokenizer)。

這些決策都是團隊經過深入評估和縮放實驗後作出的明智選擇。

透露下一步有關开源模型的計劃

①即將推出RAG工具,這一模式對於其發展具有重大意義。同時,Databricks中已經內置了簡潔高效的RAG方法。

接下來,將致力於將DBRX模型打造成爲RAG的最佳生成器模型,爲用戶提供更爲強大的支持。

②DBRX模型將在所有主流雲環境產品,包括AWS、谷歌雲(GCP)和Azure等平台上進行托管。

作爲一款开源模型,鼓勵用戶根據自身需求自由地使用它,以推動業務的發展和創新。

③DBRX模型預計將通過Nvidia API Catalog進行提供,並在Nvidia NIM推理微服務上獲得支持。

這將爲用戶帶來更加穩定和高效的推理體驗,進一步推動業務的增長和拓展。

讓大模型廠商看到了變現的路徑

Databricks專注於協助企業構建、訓練和擴展符合其特定需求的模型,此舉具有深遠意義。

這支獨角獸團隊高度重視企業的採納情況,因爲這直接關系到他們的商業模式。

作爲LLM發布計劃的一部分,Databricks以开放許可證的形式推出了兩個模型:DBRX Base和DBRX Instruct。

DBRX Base是一個預訓練的基礎模型,而DBRX Instruct則是針對少量交互的微調版本。

值得一提的是,DBRX得到了Azure數據庫在AWS、Google Cloud和Microsoft Azure上的支持,這意味着企業可以輕松地下載模型並在任何他們選擇的圖形處理器(GPU)上運行。

此外,企業還可以選擇訂閱DBRX和其他工具,如檢索增強生成(RAG),通過Databricks的Mosaic AI Model服務產品定制LLM。

Mosaic AI Model服務通過Foundation Model APIs與DBRX相連,使企業能夠從服務端點訪問和查詢LLMs。這一功能爲企業提供了更強大的定制能力和靈活性。

Foundation Model APIs提供兩種定價模式:按Tokens付費和分配的吞吐量。

按Tokens付費的定價是基於並發請求,而吞吐量則是按每小時每個GPU實例計費。

兩種費率,包括雲實例成本,均從每個Databricks單位$0.070开始。

同時,Databricks還爲不同的GPU配置提供了相應的定價區間,以滿足企業在不同場景下的計算需求。

通過穩健的商業模式和开源大模型的結合,這也爲企業提供了進入AIGC領域的門票。

通過使用我們的平台,企業不僅可以降低使用自身企業數據开發生成性AI用例的成本,而且不會受到封閉模型提供商(如OpenAI)對商業用途的限制。

結尾:

隨着2024年AI大模型的迅猛進步,創新與突破呈現出指數級增長。

例如,OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相繼發布並开放使用。

隨着LLM社區的逐漸成熟,我們有理由相信,在不久的將來,每個企業都將有能力在新興的生成式AI領域構建專有的私有LLM模型,並充分發掘和利用企業私有數據的價值。

部分資料參考:機器之心:《开源大模型王座再易主,1320億參數DBRX上线》,新智元:《全球最強开源模型一夜易主,1320億參數推理飆升2倍》,CSDN:《Databricks 开源 1320 億參數大模型強勢攪局,Grok 和 LLaMA 悉數落敗》,編程奇點:《馬斯克剛开源10天的Grok遭吊打,1320億參數DBRX上线》,开源AI項目落地:《DBRX:全球最強开源大模型易主》

       原文標題 : AI芯天下丨熱點丨DBRX達1320億參數,最強开源模型易主



標題:DBRX達1320億參數,最強开源模型易主

地址:https://www.utechfun.com/post/352823.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡