阿裏，全球第一！！！

2024-06-28 18:40:45 編輯： robot

導讀近日，全球著名开源平台HuggingFace（笑臉）聯合創始人兼首席執行官Clem在社交平台宣布，阿裏最新开源的Qwen2-72B指令微調版本衛冕冠軍，繼續位列全球开源模型排行榜第一名。在Ope...

近日，全球著名开源平台HuggingFace（笑臉）聯合創始人兼首席執行官Clem在社交平台宣布，阿裏最新开源的Qwen2-72B指令微調版本衛冕冠軍，繼續位列全球开源模型排行榜第一名。

在OpenAI拒絕中國开發者的當口，這個“第一名”來得非常及時。

第一，中國开發者從OpenAI集體“回家”，國內大模型供應商紛紛推出遷移方案迎接。雷科技在《OpenAI拒絕中國开發者，“百模大战”全面進入下半場》一文已盤點，超過10家大模型供應商推出各種服務來“搶客”。

不過，在很多人固有印象中，中國大模型供應商只是“平替版本”，是實在沒得用了，勉強能用的。甚至還有人說GPT是高鐵，國產大模型就是拖拉機，雖然都能跑，但其實不一樣。

其實這是偏見，在很多領域，國內大模型都已經具有世界級競爭力了，特別是开源大模型。

什么叫具備世界級競爭力的大模型？這裏分兩種：

一種是每次發布會都號稱全面碾壓GPT4的玩家，參數沒輸過，評測沒贏過，這是自賣自誇，自吹自擂。

還有一類，是在權威榜單上拿到名次的。HuggingFace是全球最權威的开源模型榜單，它給阿裏雲的Qwen2“正名”，或者說給了“權威認證”。

第二，爲什么HuggingFace能做全球最權威的开源模型榜單？

爲什么HuggingFace能做全球最權威的开源模型榜單？這個定義不是隨便給的，而是跟這個平台的背景有關系。HuggingFace不是大模型供應商，而是全球最受歡迎的大模型和數據集开源社區，开發者可以在這裏獲取大模型开源代碼、獲取數據集進行訓練。可以說，做AI开發，基本繞不過HuggingFace，因此它也被稱爲大模型/機器學習的GitHub。

也就是說，HuggingFace更像是一個大模型的應用、分發、發布平台。包括微軟、Facebook、特斯拉等等巨頭的大模型，都會在HuggingFace主發布。比如在前段時間的微軟Build大會，納德拉就宣布微軟在 Huggingface 上發布了 Phi-3-medium，Phi-3-small，以及 Phi-3-vision 系列模型。其中 Phi-3-medium-128k-instruct 是目前消費級硬件上可用的最好模型。

有海量开源大模型以及數據集，有海量AI开發者以及使用數據，因此HuggingFace可以做出行業最權威的开源模型榜單。這跟媒體或者專門的第三方評測機構做的榜單有本質不同。很多評測榜單源自這樣的“第三方”，姑且不說權威性、客觀性、中立性，恐怕專業性也會大打折扣。

好了，說清楚HuggingFace榜單的權威性後，我們再看阿裏雲的Qwen2有多強？

第三，爲什么HuggingFace 6月兩次發榜？榜單V2意義在哪裏？

其實今年6月7日，HuggingFace也發過一次榜單，當時第一也是Qwen2。爲什么要更新榜單到V2呢？HuggingFace說是，“榜單內的測試集，更難、更好、更快、更強（Harder, better, faster, stronger）。”因此，對模型的考察也更有說服力。

其實對大模型基於測試數據集進行評測的過程，形象點說就是“做題考分”，跟我們考試一樣。但問題是，這個題目是开放的。因此就出現了一種情況：很多大模型會“刷題”，就是讓大模型先訓練幾波，進而拿到好的評測分數，有的公司會僱傭人類“數據標注員”來做題將答案給到大模型，還有的公司會讓GPT-4來答題再將答案用來訓練自家大模型，大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4，玄妙正在於這裏。

也就是說，开源評測數據集相當於高考搞“开卷考試”一樣，除非是特別开放的問題（如職場面試），否則被試者完全可以提前針對性地刷題背答案，最終得分自然完全無法反映出其真實水平。

HuggingFace也在技術博文指出，“過去一年，Open LLM Leaderboard的基准指標已經被過度使用，出現幾個問題：題目對模型來說變得太簡單；一些新近出現的模型出現數據污染跡象；有些測評基准存在錯誤。因此，平台提出了更有挑战性的V2榜單，基於未受污染、高質量數據集的新基准，運用可靠的度量標准。”

好了，現在測試數據集（題目）大更新，最新的試卷、最新的考試，阿裏雲的Qwen2還是第一。也正是因爲此，Huggingface聯合創始人兼首席執行官Clem才會公开發文稱“Qwen2-72B是王者，中國在全球开源大模型領域處於領導地位。”如果沒有嚴格、充分的測試，他不可能公开進行這樣的“點贊”。

期待以後HuggingFace的榜單可以升級更快，測試數據集可以更新更快，阿裏雲的Qwen2以及國產大模型可以繼續擁有更好的名次。

OpenAI不支持中國开發者，开源大模型廠商必須要快速精進，勇敢補位。現在，是國產大模型、國產开源大模型生態被倒逼加速進步的絕佳時機，也是證明自己的好時機。

原文標題 : 阿裏，全球第一！！！

標題：阿裏，全球第一！！！

地址：https://www.utechfun.com/post/390609.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：大模型通義千問 Qwen2

上一篇:揭示高解析力未來：專爲165Hz及以上頻段打造的頂級顯示器選購指南

下一篇:智能音箱“退燒”：天貓精靈、小度、小愛同學都跑不動了？

您現在的位置：首頁人工智能

阿裏，全球第一！！！

猜你喜歡

您現在的位置： 首頁 人工智能

猜你喜歡

您現在的位置：首頁人工智能