倒反天罡!美國名校斯坦福AI團隊抄襲中國大模型

2024-06-05 18:40:19    編輯: robot
導讀 作者:一號 編輯:美美 中國大模型被抄襲,怎么不算是某種層面上的國際認可呢? 5月29日,斯坦福大學的一個AI研究團隊發布了一個名爲「Llama3V」的模型,號稱只要 500 美元就能訓練出一個 S...

作者:一號

編輯:美美

中國大模型被抄襲,怎么不算是某種層面上的國際認可呢?

5月29日,斯坦福大學的一個AI研究團隊發布了一個名爲「Llama3V」的模型,號稱只要 500 美元就能訓練出一個 SOTA 多模態模型,且效果比肩 GPT-4V、Gemini Ultra 與 Claude Opus 。

論文作者一共有三位,分別是Mustafa Aljaddery、Aksh Garg、Siddharth Sharma,其中兩位來自斯坦福,並且集齊了特斯拉、SpaceX、亞馬遜還有牛津大學等各種機構的相關背景,在外人看來,這是典型的業界大牛。所以宣布發布這個模型的推文很快瀏覽量就超過了30萬,這個項目也衝到了Hugging Face的首頁,而且別人試用了一下,效果是真的不錯。

但是這個大模型最近卻“刪庫跑路”了,怎么回事呢?

美國名校居然抄襲中國大模型?

在Llama3V發布後沒幾天,在X平台還有Hugging Face上就出現了一些懷疑的聲音。有人認爲,Llama3V實際上是“套殼”了面壁智能在5月中旬發布的8B 多模態小模型 MiniCPM-Llama3-V 2.5,但並沒有在Llama3V的工作中表達過任何對 MiniCPM-Llama3-V 2.5的致敬和感謝。

面壁智能是一家中國AI大模型公司,其核心團隊成員包括來自清華大學自然語言處理與社會人文計算實驗室 (THUNLP)的成員,如 CEO 李大海、聯合創始人劉知遠等。

對此,這個斯坦福AI團隊回應稱,他們「只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,並「在 MiniCPM-Llama3-V 2.5 發布前就开始了這項工作」。然而求錘得錘,隨着好心網友的深挖,發現這兩個模型的模型結構、代碼、配置文件,簡直一模一樣,只是改了變量名而已。

但是,網友擺出證據質疑Llama3V團隊後,團隊採取的做法卻是刪評刪庫,不少跟這個項目相關的網頁,不管是GitHub還是Hugging Face,統統都變成了404。擺證據不聽,那網友就找到的事件的另一當事方,也就是面壁智能那裏,把一系列的證據都亮了出來。

面壁智能一看,就讓這兩個模型做了測試,發現這兩個模型「不僅正確的地方一模一樣,連錯誤的地方也一模一樣」,這如果還是巧合就有點說不過去了。隨後他們找到了一個關鍵性證據,那就是識別清華簡。這個實際上是MiniCPM-Llama3-V 2.5的特有功能之一。

清華簡是一種非常罕見、在战國時期寫在竹子上的中國古代文字。他們在訓練的時候,使用的圖像是從最近出土的文物中掃描得來的,而面壁智能進行了標注。因此,可以說,除了面壁智能,其他的大模型基本上並不會具備這一功能。況且Llama3V還是美國團隊研發的,按理說應該並不會特意去做這一個功能。但是,實際上,Llama3V和MiniCPM-Llama3-V 2.5的識別情況極其相似,這基本就是實錘了。

證據面前,認錯態度卻很迷

種種證據面前,斯坦福的這個團隊依舊不承認抄襲,而是選擇下架了幾乎所有與Llama3V相關的項目,但卻做了下面的聲明:

非常感謝那些在評論中指出與之前研究相似之處的人。

我們意識到我們的架構非常類似於OpenBMB的“MiniCPM-Llama3-V 2.5,他們在實現上比我們搶先一步。

我們已經刪除了關於作者的原始模型。

但隨後又光速滑跪,項目其中的兩位作者Siddharth Sharma以及Aksh Garg和另一位作者,來自南加利福尼亞大學的Mustafa Aljadery切割,指責其爲項目編寫了代碼,但沒有告知她們有關面壁智能的事,他們兩個人更多只是幫助他推廣這個模型。

這讓不少網友嘲諷,靠發發推文推廣下就能成爲項目作者之一,這名頭來得也太簡單了。因此,斯坦度人工智能實驗室主任Christopher Manning下場开噴,說這是“典型的不承認自己錯誤!”

對此,面壁智能CEO在昨天回應稱“也是一種受到國際團隊認可的方式”,首席科學家劉知遠也表示,“該團隊三人中的兩位也只是斯坦福大學本科生,未來還有很長的路,如果知錯能改,善莫大焉”。

中國大模型缺少國際團隊認可

盡管本次事件具有極大的戲劇性,但實際上,這個事件之所以能引起人們的注意,主要是因爲Llama3V不僅有名校名企的背書,而且確實擁有不錯的實力,但這也引起了人們的反思。

谷歌DeepMind研究員、ViT作者Lucas Beyer提到,Llama3-V是抄的,但成本低於500美元,效果卻能直追Gemini、GPT-4的开源模型確實存在,那就是面壁智能的MiniCPM-Llama3-V 2.5,然而,相比起Llama3V,MiniCPM得到的關注要少得多。主要原因似乎是這樣的模型出自中國實驗室,而非常春藤盟校。

而Hugging Face的負責人Omar Sanseviero也說,社區一直在忽視中國機器學習生態系統的工作。他們正在用有趣的大語言模型、視覺大模型、音頻和擴散模型做一些令人驚奇的事情。

包括Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyunDiT等等。

的確,從大模型競技場上來看,中國的大模型實際上表現並不差,例如來自零一萬物的Yi-VL-Plus在模型一對一PK的視覺大模型競技場中排名第五,超過了谷歌的Gemini Pro Vision,智譜AI和清華合作的CogVLM也躋身前十。而在其他項目的比試中,中國大模型也往往榜上有名。

即使具備這樣的實力,但國產大模型不僅在國際上不受待見,在國內也常常深陷輿論泥淖,被貼上了“別人一开源,我們就自主”還有“套殼”等標籤。而這次事件,可以很好地說明,實際上,中國大模型中也有一些出色的,盡管面對國際領先模型仍有顯著差距,但中國大模型已經從以前的nobody,成長爲了AI領取的關鍵推動者之一,一些關於中國大模型的成見需要被打破。

       原文標題 : 新火種AI|倒反天罡!美國名校斯坦福AI團隊抄襲中國大模型



標題:倒反天罡!美國名校斯坦福AI團隊抄襲中國大模型

地址:https://www.utechfun.com/post/380400.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡