DBRX達1320億參數，最強开源模型易主

2024-04-02 18:40:08 編輯： robot

導讀前言： DBRX的誕生標志着全球範圍內开源人工智能語言模型技術的最新巔峰，並預示着人工智能技術的發展已正式進入全新階段。該模型通過深度學習技術和大規模訓練數據的結合，不僅在自然語言處理領域表現出色...

前言：

DBRX的誕生標志着全球範圍內开源人工智能語言模型技術的最新巔峰，並預示着人工智能技術的發展已正式進入全新階段。

該模型通過深度學習技術和大規模訓練數據的結合，不僅在自然語言處理領域表現出色，更在程序代碼解析與生成、復雜數學計算以及邏輯推理等多個領域展現了前所未有的卓越能力。

作者 | 方文三

圖片來源 | 網絡

全球最強开源大模型王座易主

近期，全球开源大模型領域迎來了重大變革，創業公司Databricks推出的新型开源模型DBRX在技術層面已超越先前的領軍者Llama 2、Mixtral和Grok-1，榮登全球最強开源大模型之巔。

這一突破性的成就，無疑爲开源模型領域樹立了新的裏程碑。

值得注意的是，DBRX在訓練成本上實現了顯著降低。Databricks公司僅投入1000萬美元及3100塊H100芯片，便高效地在兩個月內完成了DBRX的訓練。

相較於Meta开發Llama2所需的龐大投入，這一成本展示了Databricks公司在技術效率與成本控制上的卓越能力。

在性能表現方面，DBRX同樣展現出了強大的實力。無論是在語言理解、編程、數學還是邏輯領域，DBRX均輕松超越了开源模型LLaMA2-70B、Mixtral和Grok-1。

更值得一提的是，DBRX的整體性能甚至超越了GPT-3.5，尤其在編程方面，DBRX展現出了超越GPT-3.5的卓越性能。

DBRX大模型，使用MoE架構

Databricks公司最近推出了开源模型DBRX，其參數規模高達1320億。

這款模型採用了先進的細粒度MoE架構，每次輸入僅需使用360億參數，顯著提升了每秒token吞吐量。

DBRX通過細粒度專家混合（MoE）架構，擁有更多的專家模型，從而在推理速度上大幅超越了LLaMA 2-70B，實現了兩倍的提升。

DBRX是一款基於Transformer純解碼器的大模型，同樣採用下一token預測進行訓練。

在MoE中，模型的某些部分會根據查詢內容啓動，有效提高了模型的訓練和運行效率。

相較於其他开源MoE模型如Mixtral和Grok-1，DBRX採用了細粒度設計，使用更多數量的小型專家。

DBRX擁有16個專家模型，每次選擇4個使用，而Mixtral和Grok-1則分別擁有8個專家模型，每次選擇2個。

這種設計使得DBRX提供了65倍可能的專家組合，極大地提高了模型質量。

此外，DBRX還採用了旋轉位置編碼(RoPE)、門控线性單元(GLU)和分組查詢注意力(GQA)等技術，以提高模型質量。同時，DBRX還使用了tiktoken存儲庫中提供的GPT-4分詞器。

在方法層面，DBRX模型（包括預訓練數據、模型架構和優化策略）與上一代的MPT模型相當，但計算效率提高了近4倍。

三大核心能力表現突出

①經過綜合評估，DBRX的“微調版”Instruct在多個基准測試中表現卓越。

在Hugging Face Open LLM Leaderboard這一復合基准測試中，DBRX Instruct以74.5%的得分榮登榜首，顯著領先於第二名Mixtral Instruct的72.7%。

同時，在Databricks Model Gauntlet這一包含超過30項任務、橫跨六個領域的評估套件中，DBRX Instruct同樣以66.8%的得分拔得頭籌，較第二名Mixtral Instruct的60.7%有着明顯優勢。

②DBRX Instruct在編程和數學相關任務上展現出了尤爲突出的能力。

在HumanEval這一評估代碼質量的任務中，其正確率達到了70.1%，比Grok-1高出約7個百分點，比Mixtral Instruct高出約8個百分點，並超越了所有被評估的LLaMA2-70B變體。

在GSM8k數學問題解決測試中，DBRX Instruct同樣取得了最優成績66.9%，超過了Grok-1、Mixtral Instruct以及其他LLaMA2-70B變體。

值得注意的是，盡管Grok-1的參數數量是DBRX Instruct的2.4倍，但在上述編程和數學任務上，DBRX Instruct仍能保持領先地位。

甚至在針對編程任務專門設計的CodeLLaMA-70B Instruct模型之上，DBRX Instruct在HumanEval上的表現依然出色。

③DBRX Instruct在多語言理解能力方面也表現出色。

在大規模多任務語言理解數據集（MMLU）上，DBRX Instruct繼續展示出頂級性能，得分高達73.7%，超過了本次比較的所有其他模型。

綜上所述，DBRX的“微調版”Instruct在多個基准測試中均表現出色，尤其在編程、數學和多語言理解方面展現出了卓越的能力。

Databricks再次攪局，力爭市場破局

Databricks，源於加州大學伯克利分校的AMPLab項目，專注於研發基於Scala的开源分布式計算框架Apache Spark，並首創了“湖倉一體”（data Lakehouse）的概念。

2023年3月，該公司緊跟ChatGPT熱潮，推出了开源語言模型dolly，並在後續2.0版本中提出了“首個真正开放和商業可行的指令調優LLM（大模型）”的口號，這標志着Databricks的“第二次行業革新”。

值得一提的是，Jonathan Frankle，曾是生成式AI初創公司MosaicML的首席科學家。

而Databricks在2023年6月以14億美元成功收購了MosaicML，這一舉措促使Frankle辭去了哈佛大學教授的職務，全身心投入到DBRX的研發中。

就在前些日子，馬斯克宣布了史上最大的开源模型Grok-1的誕生，這一事件無疑引起了業界的廣泛關注。

Databricks之所以能在競爭中脫穎而出，其關鍵在於公司的技術整合能力和專有數據。

這兩項核心優勢將繼續推動新的、更優秀的模型變體的誕生。

DBRX團隊擁有16名專家，並從中選擇了4名進行模型开發，而Mixtral和Grok-1團隊各有8名專家，選擇了2名。

這種選擇爲DBRX提供了超過65倍的專家組合可能性，從而顯著提高了模型質量。

DBRX在模型开發中採用了旋轉位置編碼（RoPE）、門控线性單元（GLU）和分組查詢注意力（GQA）等技術，並使用了tiktoken存儲庫中提供的GPT-4令牌化器（tokenizer）。

這些決策都是團隊經過深入評估和縮放實驗後作出的明智選擇。

透露下一步有關开源模型的計劃

①即將推出RAG工具，這一模式對於其發展具有重大意義。同時，Databricks中已經內置了簡潔高效的RAG方法。

接下來，將致力於將DBRX模型打造成爲RAG的最佳生成器模型，爲用戶提供更爲強大的支持。

②DBRX模型將在所有主流雲環境產品，包括AWS、谷歌雲（GCP）和Azure等平台上進行托管。

作爲一款开源模型，鼓勵用戶根據自身需求自由地使用它，以推動業務的發展和創新。

③DBRX模型預計將通過Nvidia API Catalog進行提供，並在Nvidia NIM推理微服務上獲得支持。

這將爲用戶帶來更加穩定和高效的推理體驗，進一步推動業務的增長和拓展。

讓大模型廠商看到了變現的路徑

Databricks專注於協助企業構建、訓練和擴展符合其特定需求的模型，此舉具有深遠意義。

這支獨角獸團隊高度重視企業的採納情況，因爲這直接關系到他們的商業模式。

作爲LLM發布計劃的一部分，Databricks以开放許可證的形式推出了兩個模型：DBRX Base和DBRX Instruct。

DBRX Base是一個預訓練的基礎模型，而DBRX Instruct則是針對少量交互的微調版本。

值得一提的是，DBRX得到了Azure數據庫在AWS、Google Cloud和Microsoft Azure上的支持，這意味着企業可以輕松地下載模型並在任何他們選擇的圖形處理器(GPU)上運行。

此外，企業還可以選擇訂閱DBRX和其他工具，如檢索增強生成(RAG)，通過Databricks的Mosaic AI Model服務產品定制LLM。

Mosaic AI Model服務通過Foundation Model APIs與DBRX相連，使企業能夠從服務端點訪問和查詢LLMs。這一功能爲企業提供了更強大的定制能力和靈活性。

Foundation Model APIs提供兩種定價模式：按Tokens付費和分配的吞吐量。

按Tokens付費的定價是基於並發請求，而吞吐量則是按每小時每個GPU實例計費。

兩種費率，包括雲實例成本，均從每個Databricks單位$0.070开始。

同時，Databricks還爲不同的GPU配置提供了相應的定價區間，以滿足企業在不同場景下的計算需求。

通過穩健的商業模式和开源大模型的結合，這也爲企業提供了進入AIGC領域的門票。

通過使用我們的平台，企業不僅可以降低使用自身企業數據开發生成性AI用例的成本，而且不會受到封閉模型提供商（如OpenAI）對商業用途的限制。

結尾：

隨着2024年AI大模型的迅猛進步，創新與突破呈現出指數級增長。

例如，OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相繼發布並开放使用。

隨着LLM社區的逐漸成熟，我們有理由相信，在不久的將來，每個企業都將有能力在新興的生成式AI領域構建專有的私有LLM模型，並充分發掘和利用企業私有數據的價值。

部分資料參考：機器之心：《开源大模型王座再易主，1320億參數DBRX上线》，新智元：《全球最強开源模型一夜易主，1320億參數推理飆升2倍》，CSDN：《Databricks 开源 1320 億參數大模型強勢攪局，Grok 和 LLaMA 悉數落敗》，編程奇點：《馬斯克剛开源10天的Grok遭吊打，1320億參數DBRX上线》，开源AI項目落地：《DBRX：全球最強开源大模型易主》

原文標題 : AI芯天下丨熱點丨DBRX達1320億參數，最強开源模型易主

標題：DBRX達1320億參數，最強开源模型易主

地址：https://www.utechfun.com/post/352823.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：電子工程 DBRX 开源模型

上一篇:農資產品銷售旺季多地开展農資市場專項檢查

下一篇:假如AI圈有世紀大和解

您現在的位置：首頁人工智能

DBRX達1320億參數，最強开源模型易主

猜你喜歡

您現在的位置： 首頁 人工智能

猜你喜歡

您現在的位置：首頁人工智能