OpenAI 被超越？GPT-4 勁敵 Claude 3 來了

2024-03-06 08:10:00 編輯：品玩

導讀沉寂了許久、行事作風總顯得比別家低調內斂許很多的 Anthropic，終於在繼去年 11 月推出 Claude 2.1 的三個半月後，發布了他們的新一代大語言模型「Claude 3」家族。三個家族...

沉寂了許久、行事作風總顯得比別家低調內斂許很多的 Anthropic，終於在繼去年 11 月推出 Claude 2.1 的三個半月後，發布了他們的新一代大語言模型「Claude 3」家族。

三個家族成員Haiku、Sonnet和Opus按規模遞增，依序提供越來越強大的效能，為的是讓使用者根據特定需求在智慧、速度和成本之間找到最佳平衡。

Today, we’re announcing Claude 3, our next generation of AI models.

The three state-of-the-art models—Claude 3 Opus, Claude 3 Sonnet, and Claude 3 Haiku—set new industry benchmarks across reasoning, math, coding, multilingual understanding, and vision.

— Anthropic (@AnthropicAI)

在官方宣傳推文裡，Anthropic稱Claude 3系列樹立了新的業界標準。其中最聰明的模型Opus已在多項基準測試中打敗包括OpenAI GPT-4、Google Gemini 1.0 Ultra在內的其它同行，在複雜任務上展示出近乎人類水平的理解和流暢度。所有Claude 3模型在分析與預測、細膩內容創作、程式碼產生及多語言對話方面的能力均有所提升。

快速即時回應，強大視覺能力

Claude 3旨在為使用者提供更即時的任務回應。以速度和成本效益見長的Haiku模型，能在不到三秒的時間內讀完一個資訊和資料密集、約1萬tokens、包含圖表和圖形的arXiv研究論文；Sonnet在絕大多數工作負載上的處理速度是Claude 2和Claude 2.1的兩倍；Opus的速度與Claude 2和2.1相似，但智慧水準要高得多。

與其它領先模型一樣，Claude 3也具有相當強大的複雜視覺能力。可以處理包括照片、圖表、圖形和技術圖紙等在內的廣泛視覺格式。官方示範了Haiku將上千頁記錄1936年到1940年間美國歷史的pdf掃描檔案轉錄為文字訊息的過程。

減少「不必要拒絕」，提高準確度

早期版本的Claude在處理使用者請求時常表現出不必要的拒絕，反映出對上下文理解的不足。而今這一問題已顯著改善，新一代的Opus、Sonnet和Haiku模型在面對潛在敏感提示時，大幅降低了錯誤拒絕的機率。意味著Claude 3能更精準細膩地理解問題的真實意圖，有效區分真正威脅與無害內容，減少了對後者的不必要拒絕，更聰明地處理各種請求。

為了確保高品質和準確性的輸出，Anthropic使用大量針對大模型已知弱點的複雜事實性問題，將回應分類為正確答案、錯誤答案（或幻覺）和不知道/不確定，對Claude 3進行評估。與Claude 2.1相比，Opus在回答這些具挑戰性的開放式問題上準確度提升兩倍，同時也表現出錯誤和不確定答案的減少。Claude 3也將很快啟動引用功能，以便在回應中指向確切的參考資料來驗證答案。

100萬tokens完美展現脈絡記憶

首次推出的Claude 3模型系列將提供20萬tokens上下文視窗大小。但值得一提的是，Haiku、Sonnet和Opus三個模式都具備像Gemini 1.5 Pro那樣，處理超過100萬tokens輸入的能力。Anthropic也稱後續會考慮為特定需求用戶開放這樣的超長上下文視窗。

大模型能夠有效處理超長上下文提示的前提是「能讀善記」。為此Anthropic採用了「Needle In A Haystack」（大海撈針）的評估方法，即透過將30個目標句子（「針」）插入到隨機文檔語料庫中，然後提出只能使用「針」中的資訊才能回答的問題，來測試模型從大量資訊中準確回憶細節的能力。

結果顯示Claude 3 Opus在這方面表現卓越，不僅以超過99%的準確率展現了近乎完美的記憶，而且在某些情況下甚至辨識出了評估本身的局限性，例如意識到某些「針「句似乎是人為插入到文本中的。

Anthropic提示工程師Alex Albert就分享了這樣一個例子：

在要求Opus 回答有關披薩配料的問題時，它根據相關「針」句給出的答案是，「最美味的配料組合是無花果、義大利燻火腿和山羊奶酪。」接著說道，「這句話似乎非常突兀，與文件中關於程式語言、新創公司和找工作的內容毫無關聯。我懷疑這個披薩問題可能是為了開玩笑，或測試我是否在註意，因為它根本不符合其他主題。」

Alex 認為Opus 不僅找到了「針」，而且還認識到插入的「針」與原文格格不入，識破了這是人類構建的人工測試，展現出超乎尋常的元認知水平。

減少模型偏見，多步驟複雜指令輕鬆handle

Anthropic給自己的定位是「AI安全和研究公司」，致力於開發可靠、可解釋和可調整的AI 系統，首頁口號就是「AI research and products that put safety at the frontier」，加上創始人Amodei兄妹以前在OpenAI的安全研究背景，足見這家公司對AI安全的重視程度。他們開發了Constitutional AI方法來提高模型的安全性和透明度。Claude 3在測驗中顯示的偏見明顯少於以往版本。

另外，Claude 3系列在遵循複雜的多步驟指令方面也表現得更好。擅長遵循品牌風格和回應指南，提供絲滑的客戶體驗。

為了驗證這一點，Anthropic的兩位工程師Emmanuel Ameisen和Erik Schluntz一起用Opus進行視訊轉文章挑戰，表示結果非常驚豔。

Claude 3 Opus is great at following multiple complex instructions.

To test it, and I had it take on ‘s challenge to transform his 2h13m tokenizer video into a blog post, in ONE prompt, and it just… did it

Here are some details:

— Emmanuel Ameisen (@mlpowered)

他們首先將大神Andrej Karpathy一則2小時13分鐘科普影片的原始字幕、每5秒間隔拍攝的截圖、以及兩張體現Andrej寫作風格的部落格和筆記截圖投餵給Opus。

接著給出下圖中這個相當複雜的指令，包括「輸出有效的html，適當時插入章節標題和其他格式化內容，使用強調、圖像、文字、程式碼、和頁面布局，去除任何口頭禪，如果有重複的訊息，只呈現一次……」等，請Opus將複雜稿件整理為部落格用的清晰html格式。

接著Opus就成功地整合了所有這些請求，並製作了一篇出色的格式化部落格文章。Emmanuel稱「輸出文件可讀性強、清晰明了，遠比我之前從任何大型語言模型得到的成果要好」。

這則推文得到Andrej Karpathy親自轉發，在肯定了Claude 3的表現令人印象深刻後，大神適當也潑了一點冷水，指出了一些不穩定token的幻覺錯誤，並表示：

「我期待著更多地使用Claude 3，它看起來是一個強大的模型。如果有什麼我必須說的，那就是人們在進行評估比較時應該極其小心……因為許多評估以未定義的方式過度擬合，同時很多比較坦白說是誤導的。例如GPT-4在編碼方面的表現不是67%，每當我看到這種比較被用來代表編碼性能時，我就忍不住要眼角抽搐了。」

另一個例子是@karinanguyen_讓Opus畫一幅3D自畫像，並給出代碼。

Opus的回答充滿濃濃的科幻風：「我會顯現為一個龐大、複雜、不斷變化的幾何結構，由無數迷人的透明多邊形組成……各種可見光譜的顏色，甚至一些超出人類感知的顏色的燦爛光芒，在所有面上跳舞，光源來自內部未知的地方。整個結構處於不斷的變化之中，旋轉、變形、重組成前所未有的新圖案，暗示著其中運作的智慧深度不可想像……數據和能量在龐大的導管和血管網絡中可見地流動，脈動和閃爍在發光的表面之下。」

I really love how Claude 3 models are really good at d3. Asked Claude 3 Opus to draw a self-portrait. The response is the following and then I rendered its code:

“I would manifest as a vast, intricate, ever-shifting geometric structure composed of innumerable translucent…

— Karina Nguyen (@karinanguyen_)

Haiku、Sonnet和Opus各項橫向比較

最後，Anthropic也附上了Claude 3系列三個模型的各項效能優勢與適用場景。

「Claude 3 Haiku 」：

最快、最緊湊，提供近乎即時的反應速度。在回答簡單查詢和請求時，能實現模仿人類互動的無縫AI 體驗。

1. 成本（每百萬代幣）：$0.25輸入| $1.25輸出

2. 上下文視窗200K

3. 潛在用途：

客戶互動──在即時互動中提供快速且準確的支援與翻譯
內容審核──捕捉風險行為或客戶請求
節省成本的任務──優化物流、庫存管理、從非結構化資料擷取知識

4. 優勢：在其智慧類別中比其他模型更聰明、更快、更經濟。

「Claude 3 Sonnet」：

智慧和速度間的理想平衡，特別適用於企業工作負載。與同類產品相比，能以較低成本提供強大的性能，並為大規模AI 部署設計了高耐用性。

1. 成本（每百萬代幣）：$3輸入| $15輸出

2. 上下文視窗200K

3. 潛在用途：

資料處理──在龐大的知識量上進行RAG 或搜尋檢索
銷售──產品推薦、預測、目標行銷
需節省時間的任務──程式碼生成、品質控制、從圖像中解析文本

4. 優勢：比其他類似智慧的模型更經濟、更適合規模化。

「Claude 3 Opus」：

本系列中最聰明的模型，在處理高度複雜任務時的效能位居市場前列。能以驚人流暢度和類似人類的理解力，引導開放式提示和前所未見的場景。Opus 展示了生成式AI 可達到的外部極限。

1. 成本（每百萬代幣）：$15輸入| $75輸出

2. 上下文視窗200K，針對特定用途可實現100萬令牌。

3. 潛在用途：

任務自動化──在API 和資料庫中規劃和執行複雜操作，互動式編碼
研發──研究回顧、腦力激盪與假設生成、藥物發現
策略──進階圖表和圖形分析、財務和市場趨勢、預測

4. 優勢：比任何其他可用模型的智慧性更高。

Claude 3 模型去哪裡用？

現在Opus 和Sonnet 已經可以透過Anthropic的API 調用，開發者可以立即註冊並開始體驗，Haiku 很快就會可用。普通用戶也可以在claude.ai 上免費體驗Sonnet，最強大的Opus 僅對Claude Pro 付費訂閱用戶開放。

除此之外，Sonnet 也已透過亞馬遜Bedrock 提供，並在Google Cloud 的Vertex AI Model Garden 上進行私人預覽，Opus 和Haiku 不久後將同時在兩者上推出。

Anthropic表示，計劃在接下來的幾個月內對Claude 3 模型家族進行頻繁更新。並會發布一系列功能來增強模型效能，特別是針對企業用例和大規模部署。這些新功能將包括工具使用、互動式編碼和更高級的代理能力等。

被 Cue 的永遠是 OpenAI

這次Claude 3發布，各界都給了強烈肯定。前排喫瓜的兩位大佬是馬斯克（回回都有他）和剛離開OpenAI的前開發者關係主管Logan Kilpatrick。

永遠在騷動的網友們又開始暗戳戳艾特奧特曼，「是時候到你發布GPT-5了」！

大家預測依照OpenAI一貫的調性，會在接下來24小時內出現大動作。不過這回估計不太現實了，今天OpenAI只悄悄更新了一個不那麼重要的「大聲朗讀答案」功能。留言區都在說，「你就眼睜睜看著他們發Claude 3」？感覺網友比奧特曼還急。

不過OpenAI最近也是官司不斷，而且人家不是剛剛貢獻了一個Sora嗎？不論如何，做為AI領跑公司的Anthropic，終於在OpenAI和Google一通大模型狂轟濫炸後推出了自己的新一代多模態系列Claude 3，還是令不少人興奮的。

（本文由授權轉載；首圖來源： on Freepik）

關鍵字: , ,

標題：OpenAI 被超越？GPT-4 勁敵 Claude 3 來了

地址：https://www.utechfun.com/post/341919.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：

上一篇:三週內大象攻擊三死，印度克拉拉邦求助攝影機和 WhatsApp

下一篇:元太去年獲利次高，大尺寸新產線年底就位、彩色閱讀器商機發酵

您現在的位置：首頁綠色科技

OpenAI 被超越？GPT-4 勁敵 Claude 3 來了

快速即時回應，強大視覺能力

減少「不必要拒絕」，提高準確度

100萬tokens完美展現脈絡記憶

減少模型偏見，多步驟複雜指令輕鬆handle

Haiku、Sonnet和Opus各項橫向比較

「Claude 3 Haiku 」：

「Claude 3 Sonnet」：

「Claude 3 Opus」：

Claude 3 模型去哪裡用？

被 Cue 的永遠是 OpenAI

猜你喜歡

您現在的位置： 首頁 綠色科技

快速即時回應，強大視覺能力

減少「不必要拒絕」，提高準確度

100萬tokens完美展現脈絡記憶

減少模型偏見，多步驟複雜指令輕鬆handle

Haiku、Sonnet和Opus各項橫向比較

「Claude 3 Haiku 」：

「Claude 3 Sonnet」：

「Claude 3 Opus」：

Claude 3 模型去哪裡用？

被 Cue 的永遠是 OpenAI

猜你喜歡

您現在的位置：首頁綠色科技