12月谷歌的大語言模型Gemini一經發布就引發行業熱議。在多個大模型評測榜單中,谷歌Gemini Ultra版本超過了GPT-4,已有成爲大模型“新王”的勢頭,這並不讓人意外。2016年Google旗下的AlphaGo战勝李世石讓全世界關注到深度學習的魅力,在大模型這波新浪潮中Google被OpenAI先聲奪人,Gemini的問世讓業界期待Google這一AI領軍者能否“王者歸來”,Google在發布Gemini時也高調宣稱這是迄今爲止“規模最大、能力最強”的大語言模型。
然而隨後發生的一件事卻讓人大跌眼鏡:據“量子位”等多家媒體測試,谷歌Gemini涉嫌“套殼”百度文心。在中文對話時,谷歌Gemini竟坦言自己就是百度文心大模型、創始人是李彥宏。
當測試者進一步問Gemini到底是Gemini-Pro還是文心一言時,Gemini回答:“我不是Gemini-Pro,也不是文心一言,我是百度文心大模型……你也可以叫我小度……我的底層是百度自研的深度學習平台飛槳(PaddlePaddle)。”
這番答案着實有些出人意料,也讓人忍俊不禁。
爲何谷歌Gemini堅稱自己是文心大模型?
Gemini堅稱自己是文心大模型不能用“大模型幻覺”來解釋。使用中文互聯網上的語料,抑或是已發布的AIGC內容,它不至於連“我是誰”“我的創始人”這樣的基礎問題都回答錯誤。強如谷歌,其算法代碼一定是自主研發的,Gemini不大可能是直接“套殼”百度文心大模型,
據一位大模型技術專家分析,Gemini出現這樣的系統性的錯誤,最大可能性是其在中文領域的“監督精調”環節應用了百度大模型輸出的內容。
其實深度學習與大模型的本質都是“機器學習”,即給機器投喂大量數據讓算法學習並積累經驗,不斷變得更聰明。但“學習模式”一直在進化。
最初,深度學習普遍採用的是監督學習模式,开發者使用標記數據集來訓練算法,以便訓練後的算法可對數據進行分類或准確預測結果。在監督學習中,每個樣本數據都被正確地標記過。算法模型在訓練過程中,被一系列 “監督”誤差的程序、回饋、校正模型,以便達到在輸入給模型爲標記輸入數據時,輸出則十分接近標記的輸出數據,即適當的擬合。因此得名爲“監督”學習。
2017年前後,深度學習重心逐步轉移到預訓練模型上,隨之演化出了大語言預訓練模型技術。2018年OpenAI發布GPT-1,GPT橫空出世。GPT-1模型訓練使用了BooksCorpus數據集,其訓練主要包含兩個階段:第一個階段,先利用大量無標注的語料預訓練一個語言模型,這一部分是無監督訓練,直接用算法來分析並聚類未標記的數據集,以便發現數據中隱藏的模式和規律,全程不需人工幹預;第二階段再對預訓練好的語言模型根據下遊任務進行精調,將其遷移到各種NLP任務中,既利用了預訓練模型學習到的特徵和知識,也融入了特定任務的標注數據,等於說是用監督學習的方式進一步提高大模型的泛化能力和對特定任務的適應能力。
GPT的“預訓練(Pre-train)和精調(Supervised Fine-tuning,SFT)”兩部曲,也是大語言模型普遍採取的步驟。預訓練的價值在於海量數據“博覽全書”,但記住了海量知識要更好地應用則需要進一步指導,這就是精調的價值,這一過程本質就是“老師教學生”。
谷歌Gemini堅稱自己是百度文心大模型,極有可能是它在中文的監督精調階段,直接應用了大量百度文心一言的答案,因此會在中文對話時直接使用百度文心一言的回復,出現“我的創始人是李彥宏”“我是文心大模型不是文心一言也不是Gemini-Pro”“我的底層是飛槳”這樣的答案——這些對文心大模型來說都是正確答案。
當測試者用英文跟谷歌Gemini對話,或者與基於Gemini的Google Bard對話並拋出同樣問題時,谷歌Gemini可給出正確答案。這也說明,谷歌Gemini爲了更好地完成中文對話等NLP任務,在精調階段應用了大量的百度文心大模型的答案,在事實上將文心一言當成了自己的“老師”。
(圖源:新智元)
百度文心大模型憑什么教Gemini學習?
在發布Gemini前,谷歌已在大模型技術上布局多時。早在2018年谷歌就發布了擁有3億參數的BERT預訓練模型,成爲緊隨OpenAI的大模型玩家。2019年OpenAI推出擁有15億參數的GPT-2,英偉達發布83億參數的威震天(Megatron-LM),谷歌發布110億參數的T5讓大模型參數進入百億級。2022年,谷歌公布的PaLM 語言大模型擁有的參數已達到驚人的5400 億。
在大模型上,谷歌有足夠強的實力,這跟一些初創公司或者“湊熱鬧、蹭熱點、炒股價”的大公司截然不同。既然谷歌大模型技術如此強大,爲什么Gemini還要師從百度文心大模型呢?核心還是因爲百度文心大模型在中文領域特別是中文NLP(自然語言處理)任務上有着顯著優勢。
首先,在數據集層面,百度有大量中文標注數據。
網絡上的海量數據對所有大模型玩家都是公开的,在“預訓練”環節,只要大模型玩家不“偷懶”或者“省算力”基本可各憑本身獲取數據進行無監督訓練。然而這只能讓大模型“記住”海量知識,真正決定大模型智能程度的環節在於“精調”,這一環節是離不來標注數據的有監督學習。
百度自2013年布局深度學習技術以來,就在積累中文標注數據——前面提到,深度學習在2017年前重心是有監督學習,離不开標注數據,百度一直在布局,在全國投資建設和運營大量的數據標注基地,其中一個在我的家鄉重慶奉節。在數據標注基地,有大量的人在對數據進行標注,比如標記一張圖片中的水果是蘋果。
(百度山西數據標注基地辦公室之一)
大模型預訓練不需要標注數據,但精調階段則依賴標注數據。今年8月百度智能雲在海口啓動運營國內首個大模型數據標注基地,當時其透露其已在全國與各地政府合作,共建了10多個數據標注基地,累計爲當地提供超過1.1萬個穩定就業崗位,間接帶動5萬人就業。
在3月16日百度文心一言的新聞發布會上,百度就曾透露其基於對中國語言文化和中國應用場景的理解,篩選了特定的數據來訓練模型。
谷歌Gemini要進行中文數據精調,沒有標注數據也不可能投入上萬人去做標注,用百度文心大模型的答案無疑是“捷徑”。
其次,在技術層面,百度文心大模型厚積薄發。
在中國的大模型玩家中,像百度一樣投入人力進行中文數據標注的還有不少。不過,大模型的能力不只是取決於數據,還依賴算法與訓練能力。大模型不是平地起高樓,作爲深度學習的全新突破,大模型讓AI技術的通用性大幅提升,成爲AI從作坊式應用邁向工業化生產的關鍵。未來,大模型將與深度學習一起驅動着智能經濟的爆發。
2012 年,深度學習技術嶄露頭角,百度就已在語音、語義和 OCR 文字識別等領域探索深度學習技術應用。2013年百度成立深度學習研究院,开始研發深度學習框架(飛槳PaddlePaddle前身),深耕NLP(自研語言處理)、知識圖譜、機器視覺等AI技術。
在大模型技術方興未艾的2019年,百度就已在積累AI預訓練模型技術並上线文心大模型,當年7月文心大模型升級至2.0,2021年12月正式發布全球首個知識增強千億大模型鵬城-百度·文心,參數規模2600億。深度學習多年的布局讓百度文心大模型可厚積薄發。百度財報顯示從2012年到2022年的十年間其在AI上已投資超過千億,自上而下構建出覆蓋芯片、雲計算平台、飛槳深度學習平台、大模型以及上層垂直AI技術應用在內的全棧AI架構。在AI技術上多年持之以恆的投資,“文心+飛槳”這樣的CP式AI組合,讓文心大模型具備顯著技術優勢,在中文領域表現尤爲突出。
清華大學新聞與傳播學院沈陽團隊發布的《大語言模型綜合性能評估報告》顯示,文心一言在三大維度20項指標中綜合評分國內第一,超越ChatGPT,其中中文語義理解排名第一,部分中文能力超越GPT-4。IDC的評測報告則顯示,文心大模型3.5在其大模型技術評估中拿下7項測試滿分(總共12個測試項目)和綜合評分第一。
最後,在應用層面,百度文心大模型熟悉中文場景。
正如第一部分分析,大模型“監督精調”的目的是爲了更好地適應特定任務、更好地應用預訓練階段掌握的知識。跟OpenAI這樣的研究型機構不同,百度AI技術一直都是與業務互相驅動的,擁有業務場景、理解垂直產業、具備應用經驗。
就大模型而言,百度文心大模型很早就堅持“不卷參數卷落地”,2022年就已在業內首發行業大模型,如聯合國家電網研發知識增強的電力行業NLP大模型國網-百度·文心,聯合浦發銀行研發了知識增強的金融行業NLP大模型浦發-百度·文心。
2023年,文心大模型在應用落地上持續走在行業前列。面向C端用戶,今年8月文心一言率先對外开放體驗,上线獨立APP並於百度搜索等國民級應用融合,極大地降低了大模型應用的使用門檻。百度搜索、地圖、網盤、文庫等自有業務也已在大模型驅動下進行升級;面向B端客戶,今年9月百度智能雲發布千帆大模型平台2.0,覆蓋互聯網、政務、制造、能源、金融、遊戲等主流行業的400多個應用場景。百度執行副總裁、智能雲事業群總裁沈抖在宣布啓動“雲智一體”战略的時候介紹道,千帆大模型平台服務的企業客戶已超1.7萬家。年底,李彥宏提出了大模型落地到“終極解法”:AI原生應用,其將扮演App在移動互聯網技術落地中的角色,推動大模型技術在千行百業落地。
從基礎技術水平、技術產品化與產業化進程,以及开發者生態繁榮度來看,百度文心都堪稱國內AI大模型的絕對領先者。在中文領域,百度文心大模型擁有數據、技術和應用優勢,這足以讓其成爲世界大模型舞台上的中國力量,也確實“有資格”做谷歌Gemini的老師。谷歌Gemini實力不俗,確實可以跟GPT掰手腕,然而在中文領域谷歌並無優勢,畢竟其已退出中國市場10多年了。“師從”百度文心大模型,是谷歌Gemini提升在中文領域表現的最佳捷徑。
(圖源:微博)
大模型研究站在巨人肩上無可厚非
“谷歌Gemini堅稱自己是文心大模型”這樣的事情,在大模型行業不是第一次出現,也不會是最後一次。因爲大模型研究一定要站在巨人肩上才能做得更好。
前幾天,隸屬於字節跳動公司名下的部分GPT使用權限被OpenAI全面封禁。The Verge爆料稱字節跳動正祕密研發一個被稱爲“種子計劃”(Project Seed)的AI大模型項目。據稱該項目在訓練和評估模型等多個研發階段調用了OpenAI的應用程序接口(API),並使用ChatGPT輸出的數據進行模型訓練。但OpenAI的使用協議在API調用和對輸出內容的使用方面已明確規定:禁止用於輸出开發競爭模型。
11月,李开復創辦的零一萬物也曾因“套殼事件”而鬧得沸沸揚揚。事情源起是一位國外开發者在Hugging Face开源主頁上評論稱,零一萬物的开源大模型Yi-34B,完全使用Meta研發的LIama开源模型架構,而只對兩個張量(Tensor)名稱進行修改。對此零一萬物的解釋是:
“GPT是一個業內公認的成熟架構,Llama在GPT上做了總結。零一萬物研發大模型的結構設計基於GPT成熟結構,借鑑了行業頂尖水平的公开成果,由於大模型技術發展還在非常初期,與行業主流保持一致的結構,更有利於整體的適配與未來的迭代。同時基於零一萬物團隊對模型和訓練的理解做了大量工作,也在持續探索模型結構層面本質上的突破。”
飛槳作爲底座支持了文心大模型的訓練、推理與部署。在萬卡算力上運行的飛槳平台,通過集群基礎設施和調度系統、飛槳框架的軟硬協同優化,支持了大模型的穩定高效訓練。正是通過飛槳與文心的協同優化,文心大模型周均訓練有效率超過98%,訓練算法效率提升到3月發布時的3.6倍,推理性能提升50倍。如果沒有百度在深度學習技術上的多年積累,文心大模型不可能在短短三年時間取得如此耀眼的成就。
基於市面上的頂尖大模型以及AI技術成果進行創新研發,似乎已成行業慣例。一方面,市面上不少頂尖大模型是开源的,就算不开源結果被扒走也不難,這給後來者“借鑑”提供了便利;另一方面,大模型技術的本質就是讓機器擁有並應用知識的過程,而知識與經驗是可以傳承的,就像人類一直在基於前人的知識、智慧、經驗向前一樣,大模型开發者基於領先的大模型再創新,比一切從0开始更有機會做出更智能的大模型。
“如果說我比別人看得略遠些,那是因爲我站在巨人的肩膀上。”這句話是偉大科學家牛頓說的。1686年,牛頓將專著《自然哲學的數學原理》交給皇家學會審議,在這次會議上,牛頓的學術前輩胡克提出引力反比定律這一公式是自己告訴牛頓的,牛頓應該在專著的前言指出自己的貢獻。不過,這次會議牛頓並未參加,後來牛頓也沒有同意胡克的要求,在他看來,自己1666年就發現了引力的平方反比定律且寫信告訴了他人,因此自己才是這一定律的發現者。後來牛頓發了一封公开信說了這句話,意思是他的成就是在總結之前很多偉大科學家的傑出成果上形成的,沒有那些科學家所做的學術積累,他是不會成功的,所以他說自己是站在巨人的肩膀上。
今天的大模型“套殼”爭議跟牛頓當年面臨的情況有些類似:大模型研究都難免會以各種方式對市面上的頂尖成果進行借鑑,比如輸出結果,訓練方法,數據集、技術架構甚至算法代碼。不過,只要大模型研究者遵守使用協議,“站在巨人肩上”也就無可厚非。
話說回來,谷歌Gemini師從文心大模型也足以表明,在大模型技術上,我們國家還是有能跟國際巨頭掰手腕的玩家的,這足以扭轉很多人對中國大模型只有跟隨者的刻板印象。至少在中文領域,我們國家是有世界頂尖的大模型玩家的。長期來看,大模型作爲AI關鍵技術關系到國家核心競爭力,影響經濟、文化、社會、科技、軍事等方方面面,在可見的未來將是大國角力的一大技術高地。百度文心大模型以及底層的飛槳深度學習平台,是自主自研的“純血”版本,可確保我國大模型以及AI技術自立自強,在新一輪AI技術競爭中擁有足夠的話語權。
原文標題 : 谷歌Gemini自爆“我是文心”,大模型研發要“站在巨人肩上”?
標題:谷歌Gemini自爆“我是文心”,大模型研發要“站在巨人肩上”?
地址:https://www.utechfun.com/post/309357.html