今天在朋友圈看到一張圖:國內的“百模大战”已升級成“兩百模大战”,據不完全統計,今年1-7月國內共發布了64個大模型,截至目前叫得出名字的國產大模型已接近200家。這么多大模型,哪些是真能打的?在每天冒出來的各類“榜單”上出現了“家家第一”的情況,甚至已不止一款國產大模型“碾壓”了GPT-4,且很多“世界頂級”大模型是出自剛成立的團隊之手。
然而國產大模型在國外的境遇,卻是冰火兩重天。前段時間《時代周刊》公布2023年AI領域最有影響力100人,中國面孔十分罕見,有媒體評論“百模大战打了個寂寞”;日前,开源AI社區代表Hugging Face發布最受歡迎开源大模型機構TOP15榜單,在大名鼎鼎的Stability AI、Meta AI、Runway、OpenAI、谷歌、微軟等海外機構外,只有一家機構來自中國:KEG實驗室(全稱爲清華大學知識工程實驗室,成立於1996年),其憑借今年开源的模型ChatGLM-6B上榜。
這種反常現象的背後,是大模型行業日益嚴重的“跑分亂象”。在讓人眼花繚亂的大模型榜單上,似乎每一個大模型都曾拿過第一,都可分分鐘碾壓GPT-4。這不禁讓人懷疑,國產大模型技術真的這么強?大模型技術門檻真的這么低?
大模型榜單,家家第一?
如果搜索“大模型,超越GPT-4”可以發現,多家國產大模型號稱在多個維度已超越OpenAI旗下的GPT-4,且有模有樣地曬出對應的大模型評測榜單“跑分”,比如某大模型宣稱“基模型12項性能超越GPT-4”。相對來說,源自頂尖學術機構的大模型對自己的水平更嚴謹一些,它們往往不會過度強調排名數據,而科技巨頭雖然會有一些“包裝”但也不會太離譜,頂多只會宣稱“明年挑战GPT-4”“已達到GPT3.5的水平”。
大模型“家家都是第一”的亂象,跟雙11結束後的品牌战報有些相似。每個品牌都能定制一個讓自己看上去“最厲害”的雙11榜單,GMV不行可以說銷量,兩者都不行可加前綴限定到細分品類如“XX元內XX吋採取XX屏幕的電視之第一”,實在不行還能說自身同比增速行業第一。
大模型是純技術產品,衡量其水准理論上要用專業技術評測體系,“讓專業的歸專業”,當前,在PK技術參數這件事上,大模型榜單存在不少問題。
前些年行業流行“參數規模越大,大模型卻強大”,大模型狂卷參數,最高已過千億。今天大模型不能再單拼參數了,因爲行業都知道,參數大的大模型不一定真強大。大模型要證明實力,離不开“跑分”,就是去跑一些機構的大模型評測體系的測試數據集來“拿分”再排名。
當下,市面上的評測工具(系統)不下50個,既有來自專業學術機構的,也有來自市場運作組織的,還有一些媒體也推出了對應的大模型榜單。
在不同大模型“跑分”榜單中,同一個大模型的表現可能相差甚大,比如前段時間被質疑“基於开源大模型僞原創”的某大模型宣稱超越GPT-4“勇奪全球开源評測雙料冠軍”,在其公布自身第一的榜單上,百度文心一言連TOP20都無法進入,但在8月15日某權威媒體研究機構發布的《人工智能大模型體驗報告2.0》,百度文心一言又能排第二,第一是訊飛星火大模型;在8月28日,SuperCLUE發布的中文大模型8月榜單,GPT-4排名第一,百川智能的Baichuan-13B-Chat排在中文榜單首位;在9月的开源評測榜單C-Eval最新一期排行榜中,雲天勵飛大模型“雲天書”排在第一,GPT-4名列第十。
不同大模型的“智力”表現,在不同榜單相差巨大,明眼人一看就知道其中暗藏玄機。
更離奇的是,就算在同一榜單中,也經常出現多個大模型共同認領第一的情況。比如某手機廠商宣布,其“自研大模型在C-Eval全球中文榜單中排名第一。此前其自研大模型已取得C-Eval百億內大模型榜單第一,CMMLU全球中文榜單第一以及其百億內大模型榜單第一的好成績。”同一時間,某互聯網巨頭旗下的創新業務宣稱其“千億級參數的大模型登頂C-Eval和CMMLU兩大權威評測榜單,多項性能優於GPT-4。”看到這裏很多人肯定會有疑問:爲什么在C-Eval和CMMLU這兩大“權威評測榜單”中,均會同時出現兩個第一?——如果繼續搜索恐怕還能找到更多認領第一的情況。
只要前綴用得好,家家都是大模型王者,國產大模型秒殺GPT-4、碾壓人類智商都不是事兒。
問題在於,當家家都宣稱自己是大模型“王者”後,這樣的“金牌”含金量到底有多少?我們不由要問:大模型評測體系到底出了什么問題?
大模型評測體系,問題在哪?
百模大战如火如荼。不同大模型都有着分出個高低的強烈需求,在這樣的背景下,市面上快速出現了大量的大模型排行榜,它們可被分爲三類:一類是大學等機構主導的學術類榜單,一類是第三方公司運作的市場類榜單,還有一類是媒體等非技術機構推出的評測榜單。
用手機行業來類比,第一類、第二類就像是安兔兔、dxomark這樣的跑分平台,芯片、相機好不好用技術評測數據說話;第三類更像是評測體驗博主,他們站在用戶角度去設計榜單。真正能夠衡量大模型技術實力的是第一類、第二類“跑分”榜單。
不論是學術界還是產業界的大模型榜單,當前的“跑分”原理都是一致的:設計一套評測數據集去讓大模型給出答案,再閱卷打分,本質就是讓大模型“做題”拿分。大模型本質是機器學習技術,其目的是提升機器的智能程度以爲人類所用,因此用衡量人的能力的手段即“考試做題”來評估大模型的水准,本身不存在什么問題。
然而,大模型大規模爆發才不到一年時間,當前的大模型跑分評測體系才剛發展出來,整體很不成熟,這導致了一些大模型玩家投機取巧,靠“刷分”奪冠。
大模型評測基礎體系並不復雜。用最權威的考試體系高考來對標的話:評測數據集相當於“題庫”;評測工具與過程則對應到高考考試工具與過程,比如筆試用的試卷,英語聽力用的廣播;打分體系相當於高考的閱卷體系,比如語文作文會有多名老師閱卷再算平均分,以確保公平。
這樣看的話,當前的大模型跑分評測體系問題有三:
第一、开源評測數據集題目全公开,“刷題”最流行。很多大模型評測榜單的數據集是公开的,針對此出現了普遍的“刷題”現象,有的公司會僱傭人類“數據標注員”來做題將答案給到大模型,還有的公司會讓GPT-4來答題再將答案用來訓練自家大模型,大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4,玄妙正在於這裏。
开源評測數據集相當於高考搞“开卷考試”一樣,除非是特別开放的問題(如職場面試),否則被試者完全可以提前針對性地刷題背答案,最終得分自然完全無法反映出其真實水平。
第二,評測數據不开源、全過程封閉評測,引發了公平性問題。既然將評測數據集开源會引發“刷題”,爲什么評測機構要开源呢?答案在於:評測的公平性。如果機構在評測時用什么問題以及對應什么答案是什么一直不公开,如果機構的評測邏輯與工具、評分方法與過程是封閉的“黑盒子”,得出的任何結果都難免會被質疑。只有公开,才有公平公正,才能讓人信服。因此,評測機構开放與不开放都難。
第三,評測數據集本身存在不夠科學的情況。比如用中文數據集去考核英文大模型,跟讓老外直接來參加高考一樣不靠譜;再比如用通用評測數據集去評測醫療、金融、工業、科學等產業大模型,跟讓體育特長生去參加普通高考一樣,沒太大意義。
更諷刺的是,現在行業出現了一些“隨心所欲的主觀榜單”,排名者不知道是誰,也不會用什么評測數據集來測試大模型,而是“我覺得誰第一誰就是第一”,比如這幾天某大模型榜單,一看排名依據竟然是依據“开放程度”“技術專利”“全平台訪問指數”和“熱度指數”,這並不科學。
有的大模型靠“刷分”去拿第一“碾壓GPT-4”,好歹還是花了點功夫去准備的,比如會讓數據標注員去做題,頂多算考試舞弊“小抄”。但是搞一些排名機構都不知道是誰、連評測數據集都沒有的主觀榜單來宣稱“第一”的玩家,簡直就跟花錢去野雞大學买學歷的差不多——更准確的說法應該是,“辦假證”,就算野雞大學也要去像模像樣學習一番。
沒有任何證據表明有大模型創業者“花錢买榜”的情況,但當前大模型榜單確實存在嚴重問題,市場亟待一套類似於高考一樣的權威的大模型評測體系,在公平公正公开的同時,科學、全面、有效地衡量大模型的綜合水平。
市場需要怎樣的大模型評測體系?
從隋唐時期出現的科舉考試到今天的高考,從中國的四六級英語考試再到國外的GRE、托福、雅思……“考試”讓每個人都可以公平地被衡量,進而得到對應的成長機會。
同理,大模型評測體系對大模型的發展也不可或缺:
一方面,如果評測相對准確、靠譜、權威,可以科學、全面、有效地衡量孰優孰劣,對市場所有大模型玩家來說無疑是好事。如果評測不准確,阿貓阿狗的大模型都可以“第一”“奪冠”“屠榜”,對真正擁有頂尖人才、投入巨大資源、攻堅技術卡點的大模型團隊無疑是十分不公平的。榜單排名不只是決定市場認知,往往也意味着人才、資金等資源的凝聚能力。
另一方面,只有評測結果相對准確,大模型研發者才能知道自己產品的市場水平在哪,優缺點在哪,進而查漏補缺,沿着正確的方向鑽研算法、提升技術、加強訓練,不斷攻克難點不斷升級迭代,這樣的過程就像高中同學們參加“模擬考試”或者“摸底考試”的意義一樣。
那么,大模型評測體系怎樣才能成爲“高考”一樣的權威評測體系呢?
首先,“假學歷”、“野雞大學學歷”這一類“野雞榜單”應該被徹底反對,“买榜單”“买排名”這樣的做法應該被堅決鄙視。讓技術的歸技術,大模型技術實力只能且必須用技術說話,搞一些跟技術沒關系的評估維度來生拉硬套“造榜單”跟“买假學歷證”的行爲沒什么區別,行業對這類榜單應該毫不猶豫地唾棄。
其次,大模型要證明技術水平就要尊重“考試”規則,參加“高考”,當前的大模型“高考”體系有待改進:
1、評測過程全开放,數據應該“开/閉結合”。機構的評測工具、評測過程、評測方法以及評分體系應該毫無保留地开源,確保公平公正公开。評測數據集則應“开/閉結合”,开源歷史題目讓大模型訓練,但正式的評測數據集應該封閉以杜絕“刷榜”,在評測結束後再开放避嫌“暗箱操作”,同時也可以讓大模型研發者有的放矢地去發現問題和改進技術。此外,機構也可以开源類似於面試求職一樣的开放題目,再配套對應的評測體系來衡量大模型表現。
參考高考作文題目打分來看,評測機構甚至可以多家聯合評測,最大化規避主觀問題和隨機因素,盡可能真實地衡量大模型的水平。
2、評測體系更全面,評測方式多元化。除針對大模型在性能與泛化評測等表現設計評估體系外,更多兼顧到大模型的能效、魯棒性、安全性等綜合能力評測。與此同時,針對不同類型的大模型設計對應的評測體系,比如金融大模型強化金融級安全評測,比如工業大模型則要評估其在惡劣環境下的極限表現。
3、評測數據集更專業,不斷豐富評測數據。評測數據集的建立過程本質是“命題”,參考高考來看,這是一個系統而科學的工程。針對大模型的評測數據集應該不斷完善,隨着大模型的迭代而迭代,比如GPT-4強化多模態能力,評測數據集也應該配套強化音視頻等多媒體內容理解與生成相關評測數據集;再比如針對金融等專業大模型,評測數據集應該有對應的專業題庫。每年高考作文命題都會貼合實時,正是因爲相關題目不可能存在歷史題目,大模型評測數據集同樣可與時俱進,結合最新的實時知識去完善,讓大模型不可能靠刷題、刷分得高分。
如何准確測量一個大模型的能力,這實際上還是一個非常有爭議的問題,因爲目前我們其實還並不能確切地指出大模型智能湧現的原因。很多時候,模型運作本身是一個黑箱過程,這就意味着對大模型的測評某種意義上講是管中窺豹——它的完善就如同大模型能力的提升一樣,都將是一個長期的過程。
世界上不會有完美的大模型評測體系,但隨着技術的迭代,當前的大模型評估體系需要升級,貼合市場需求,回歸技術本身,讓大模型开發者們可以沿着正確的方向前進。
對於大模型开發者來說,任何榜單的排名是技術進化的自然結果,而不應該被當成目的。大模型團隊的資源是有限的,如果花心思、資源與精力去定制榜單搞排名追求“虛假強大”,哪怕拿遍行業第一都沒什么意義,這是緣木求魚。不論怎樣證明自己第一都是沒有用的,不斷精進技術,加速技術產品化的步伐,讓技術進入場景才是大模型團隊的大事。有沒有B端客戶买單?真實下載量、用戶數到底如何?行業內的真實口碑如何?學術圈的技術評價怎樣?能不能實現商業化?這些評估體系遠比任何榜單的排名重要得多。
原文標題 : 刷分舞弊、野雞榜單、假“學歷證”……大模型“群模亂舞”何時休?
標題:大模型“群模亂舞”何時休?
地址:https://www.utechfun.com/post/297402.html