Gemini vs GPT,誰輸誰贏?

2023-12-08 18:10:27    編輯: robot
導讀   來源:未盡研究©   Gemini(英文名雙子座)推出,國內媒體標題上各種“王炸”“殺器”“碾壓”之外,其實它展示的各種功能,已經很難再激起人們一度熟悉的神奇感和令人驚喜的效果了。   和所有的...

  來源:未盡研究©

  Gemini(英文名雙子座)推出,國內媒體標題上各種“王炸”“殺器”“碾壓”之外,其實它展示的各種功能,已經很難再激起人們一度熟悉的神奇感和令人驚喜的效果了。

  和所有的人一樣,我首先關心的是,它超過GPT-4了嗎?

  昨天看到Gemini發布的消息,第一件事,是把Gemini測試的表格,直接上傳到Bard,它果然能對圖表進行比較詳細准確的解讀。如與GPT-4相比,認爲明年初推出的Gemini Ultra勝出,已經面世的Gemini Pro遜色,各自在多項指標上的表現如下:

“根據這張圖的數據,GPT-4在大多數基准測試中都優於Gemini Pro。例如,在MMLU、GSM8K、MATH、BIG-Bench-Hard、HumanEval、Natural2Code、DROP、HellaSwag和WMT23等基准測試中,GPT-4的准確率都高於Gemini。”

“根據谷歌提供的數據,Gemini Ultra在32個廣泛使用的學術基准測試中有30個都表現出了超越當前時代的‘先進結果’,而這些基准測試也是當前LLM領域最常用、最泛用的測試。其中,它以90.0%的得分成爲第一個在MMLU(大規模多任務語言理解)上超越人類專家的模型(該測試結合了數學、物理、歷史、法律、醫學和倫理等57個學科)。Gemini Ultra還在新的MMMU基准測試上表現出了59.4%的領先級性能,該測試涵蓋了“需要深思熟慮的”不同領域的多模態任務。

相比之下,GPT-4在MMLU基准測試中的得分爲87.29%,在MMMU基准測試中的得分爲52.9%。因此,Gemini Ultra在大多數基准測試中都優於GPT-4。”

  不過,與許多熟悉大模型測評江湖的專家一樣,我也要問一句,這些測評的參考價值有多大?

  例如,最受關注的是所謂的Gemini對語言的理解力首次達到(而不是超過)了人類專家的水平,而且在這一項上的學霸級的90分,是尚未發布的Gemini Ultra“碾壓”GPT-4的最重要依據。

  但是,這個說法很快就引發了一些爭議,認爲在MMLU這項指標上有點人爲拔高。只有CoT(思維鏈)達到32個例子時,Gemini才能達到90分,超過GPT-4;當例子數量減少到5個,Gemini Ultra得分83.7%,不如GPT-4得分86.4%,高於GPT-3.5的70%。

  谷歌在5月份發布Palm-2的時候,也挑出了兩個優於GPT-4的指標,但是後來這個大模型怎么樣,大家都清楚了。

  Gemini發布的喧囂中,值得注意的是谷歌雲發布了TPUv5p,訓練大模型每刀效率提升2倍以上。不管Gemini是否碾壓了GPT-4,但有一點是肯定的,谷歌擁有比微軟更強大的大模型訓練和推理平台。谷歌研究負責人Jeff Dean特意從技術報告中拎出了這些亮點:

  大家比較公認的是,Gemini趕上了GPT-4,其多模態能力甚至超過了GPT-4V。META的PyTorch聯合創始人Soumich Chintala認爲:

“似乎在基准測試上不讓GPT-4。谷歌擁有現有的客戶和平台可以开始建立反饋閉環,無需擔心模型採納問題。而且谷歌將使用TPU進行推理,因此不必像OpenAI和微軟那樣支付給Nvidia 70%的利潤(直到他們的芯片准備好並投入生產)。這是令人興奮的轉變。”

  Gemini以後將成爲谷歌所有產品與服務的基礎模型。從技術報告中可以看出,开發這個大模型,由Google DeepMind牽頭,幾乎所有的主要研發部門、基礎設施部門與數據內容部門都參與了,後面列出了約800名貢獻者名單,與目前OpenAI公司的人數相當。

  今年3月份GPT-4發布之後,谷歌很快把DeepMInd和Google Brain合並,由哈薩比斯擔任CEO,主要使命,就是牽頭研發多模態大模型Gemini。

  谷歌擁有最大的AI人才庫,包括Transformer論文在內的最重要研究成果,幾乎都出自谷歌。谷歌還擁有最強的AI基礎設施、最大的數據庫、最強的搜索以及最豐富的應用場景。哈薩比斯的愿景也是實現通用人工智能。谷歌沒有任何理由一直跟在OpenAI的後面追趕。

  許多人認爲谷歌動作遲緩,是因爲大公司病。這肯定是一個原因,也導致谷歌今年以來的人才流失。

  另外還有一個重要原因,作爲一家已經擁有AI全棧技術與頂級應用的科技巨頭,谷歌的行爲肯定與初創公司OpenAI有所不同。

  谷歌最重視的仍然是搜索。它並不想用語言大模型來顛覆搜索,而是用它來加強搜索,谷歌稱之爲生成式搜索。它也需要考慮生成式搜索的成本。大模型每次query的成本已經大幅度下降,但仍然比搜索的每次query昂貴。谷歌必須要考慮的,是每年爲全世界數十億用戶提供的數萬億次免費搜索的成本。

  所以對於谷歌來說,它的AI計算基礎設施非常重要。它希望能在訓練、推理、能耗等方面的成本降下來,既能支持生成式搜索,同時又加持其他的業務,包括硬件業務。

  谷歌這次推出用於Pixel手機的兩款Nano模型,會進一步推動生成式人工智能向設備端部署。同一天,蘋果悄悄公布了基於M芯片的大模型訓練和部署框架MLX,Mac筆記本電腦將會更加AI化。

  谷歌推出Gemini已經晚了嗎?似乎並不晚。正如哈薩比斯所說,發布了Gemini之後,就回到了他當初在DeepMind所熟悉的節奏,會迅速地迭代出更好的產品,從1.0版本到2.0版本。

  Gemini推出,給Claude、Inflection,也包括开源的Llama2等大模型帶來新的壓力,這種壓力會傳遞到國內。目前國內最好的大模型,綜合水平基本上處於GPT-3.5這一檔。進入2024年,大模型的競爭,可能會形成真正的雙子座:GPT-5與Gemini-1。



標題:Gemini vs GPT,誰輸誰贏?

地址:https://www.utechfun.com/post/300969.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡