谷歌 VS OpenAI，大模型Gemini有多拼？

2023-12-12 18:40:47 編輯： robot

導讀前言：爲了與OpenAI和微軟在人工智能領域展开競爭，谷歌採取了果斷的措施。他們從PaLM 2切換到了Gemini上，並決定將谷歌大腦和DeepMind合並，以進一步加強對大模型的研發能力。合...

前言：

爲了與OpenAI和微軟在人工智能領域展开競爭，谷歌採取了果斷的措施。

他們從PaLM 2切換到了Gemini上，並決定將谷歌大腦和DeepMind合並，以進一步加強對大模型的研發能力。

合並後的Google DeepMind將集兩個實驗室的力量，全力攻關Gemini。這充分展示了谷歌在大模型軍備競賽中孤注一擲的心態。

作者 | 方文三

圖片來源 | 網絡

谷歌大模型Gemini正式發布

近日，谷歌公司宣布推出新型大型語言模型Gemini。

Gemini是一個多模態大模型，意味着它可以泛化並無縫地理解、操作和組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。

谷歌表示，Gemini還是他們迄今爲止最靈活的模型，能夠高效地運行在數據中心和移動設備等多類型平台上。

Gemini提供的SOTA能力將顯著增強开發人員和企業客戶構建和擴展AI的方式。

Gemini將作爲首個直接在手機上運行的大型模型，應用於谷歌Pixel 8 Pro智能手機和聊天機器人Bard。

谷歌計劃通過谷歌雲向客戶提供Gemini授權，並將在未來幾個月內將其與其他谷歌服務產品進行集成。

爲了比較Gemini與OpenAI的GPT-4的性能，谷歌運行了32個完善的多模態基准測試，結果顯示Gemini在32項基准測試中的30項中均領先於GPT-4。

在MMLU（大規模多任務語言理解）測試中，Gemini首次在MMLU得分率達到90.0%，成爲第一個在MMLU測試中超越人類專家的模型。

Gemini包括了三種不同規模的模型：

①Gemini Ultra爲最大、功能最強大的類別，定位爲GPT-4的競爭對手；

②Gemini Pro爲中端型號，性能優於GPT-3.5，可擴展多種任務；

③Gemini Nano則適用於特定任務和移動設備。

利用移動手機的算力來運行生成式AI，而不是通過由大型科技公司運營的雲端服務器，這將大大降低運營這類系統的成本。

對於那些希望將私人數據限制在設備上的人來說，這也提供了一層保障。

然後，在面臨有關宣傳方面可能存在誇大的質疑下，谷歌在一篇官方博客文章中，谷歌的回應基本上承認了。

在實現演示視頻中所展示的效果時，必須依賴於使用靜態圖片以及多段提示詞的組合。

以視頻爲例，其中展示了向Gemini系統輪流展示拳頭、剪刀手和張开的手掌，而Gemini系統能夠立刻理解這是在玩猜拳遊戲。

然而，谷歌在文章中明確指出，只有當同時向Gemini系統展示這三個手勢，並給予提示這是遊戲時，系統才會得出猜拳遊戲的結論。

從投資者角度來看，至少這是一個積極的开端。上周四，谷歌的股價出現了暴漲，市值增加了800億美元。

谷歌 VS OpenAI：從失利的首敗走出來

在今年2月的巴黎活動中，谷歌因聊天機器人Bard的一次失誤，導致市值蒸發了1000億美元，引發了外界對Bard准確性的擔憂。

同時，隨着競爭對手OpenAI推出的ChatGPT以及在必應搜索中整合的GPT技術，谷歌在應用程序下載量上被超越，人們开始質疑谷歌是否在人工智能領域落後於競爭對手。

其實谷歌才是提出2017年Transformer模型、爲當今人工智能領域制定規則的先行者。

2021年，谷歌推出了1.6萬億參數的Switch Transformer，強調稀疏多模態結構的潛力。

此外，谷歌還提出了Flan-T5模型，通過更多監督數據降低了模型規模，比GPT-3模型參數更少但性能更佳。

測試結果顯示，谷歌AI在數學問題上表現更佳，但ChatGPT在常識問題上更准確。

谷歌在AI領域取得了不少研究進展，但尚未將這些成果部署和變現，類似於微軟在過去的某些時期。

這可能是因爲谷歌低估了微軟和OpenAI的競爭實力，或者過於自信於自己在搜索引擎領域的主導地位。

在Sam Altman領導下的OpenAI專注於產品爲導向的工作，致力於擴展和優化模型，主要關注細節精調方法。

而谷歌則在技術發展的方向上始終保持着積極和前瞻的態度，不過在整體战略規劃上卻屢次調整。

在谷歌[選擇困難症]期間，OpenAI已經完成了對ChatGPT的訓練。

GPT-4 VS Gemini：多模態的性能優勢凸顯

作爲谷歌應對GPT-4的[重要武器]，Gemini在32個多模態基准測試中取得了30個SOTA（即當前最優效果）的記錄，凸顯了其在多模態任務中的卓越性能。

它是第一個在MMLU（大規模多任務語言理解）測評上超越人類專家的模型，其成績達到了90.0%，相比之下，人類專家的成績爲89.8%，GPT-4的成績爲86.4%。

在多選問題、數學問題、Python代碼任務、閱讀等方面，Gemini的性能都超過了此前最先進的水平。

與GPT-4相比，谷歌提供的數據顯示Gemini Ultra全面超越GPT-4，而Gemini Pro在大多數指標上超越了GPT-3.5。

總體來說，Gemini在運算效能和任務性能方面都展現出了卓越的表現，成功應對了GPT-4的挑战。

Gemini模型最初強調了其生成文本和圖像的能力，以與GPT-4區分开來。

具體而言，Gemini可以理解正式和非正式語言之間的差異，捕捉文本的語氣和情感，並識別其他文本或來源的引用和暗示。

現在，兩者之間的關鍵差異可能在於谷歌豐富的專有訓練數據集。

Gemini能夠處理來自各種服務（包括Google搜索、YouTube、Google Books和Google Scholar等）的數據。

這些服務包含了來自不同領域和語言的大量豐富信息，有助於Gemini從各種來源和語境中學習。

Gemini的培訓數據量是GPT-4的兩倍，這可能使其在從數據集中產生更復雜的見解和推斷方面具有優勢。

當然GPT-4也有其獨特的優勢，GPT-4作爲OpenAI开發的大語言模型，在語言理解和生成方面具有很強的能力。

GPT-4採用Transformer架構和無監督學習技術，能捕捉長距離依賴關系和上下文信息，展現出卓越的語言理解和生成能力。

此外，GPT-4還具有強大的推理能力，適應各種復雜場景並提供更智能高效的服務。

結尾：

與OpenAI的方法不同，谷歌從一开始就構建了一個多感官模型。

多模態是生成式AI下一步的重點方向，有待繼續探索的應用場景非常廣泛。

下一階段的重點攻克方向是多模態技術。

短期來看，Gemini的發布將進一步激發市場對多模態模型的期待，對產業而言，多模態將帶動算力需求的提升。

中長期來看，預計多模態模型的升級將豐富相關產品的使用場景，疊加硬件升級、算法優化帶來的成本優化，2C產品的進展值得期待。

部分資料參考：機器之心：《谷歌大殺器終於來了，最大規模Gemini震撼發布》，甲子光年：《優等生歸來，谷歌最強大模型Gemini能否打敗GPT4？》，財經E法：《Gemini發布僅一天就遭質疑，谷歌追趕OpenAI太過心急？》