Meta 推出 Llama 2 Long 模型，處理長指令表現更佳

2023-10-05 08:10:00 編輯： Unwire Pro

導讀 Meta 加緊開發 AI 技術，Llama 2 就是主力大型語言模型產品，最近推出 Llama 2 Long，以 Llama 2 為基礎提升長文本處理效能，據稱部分應用表現甚至比 Anthropic...

Meta 加緊開發 AI 技術，Llama 2 就是主力大型語言模型產品，最近推出 Llama 2 Long，以 Llama 2 為基礎提升長文本處理效能，據稱部分應用表現甚至比 Anthropic Claude 2 和 OpenAI GPT-3.5 Turbo 更優秀。

Meta 最近於 arXiv 發表，提及新模型 Llama 2 Long，據稱是「透過 Llama 2 持續預訓練，並在向上採樣（Upsample）長文本資料庫用更長訓練序列改善」版本，可接受高達 32,768 個 Token 指令輸入。以長文本指令測試，表現比 GPT-3.5 Turbo（最多 16,000 字）及 Claude 2（最多 100,000 字）更佳。

Meta 論文表示，透過真人回饋的強化學習（RLHF），也就是真人監督下獎勵正確答案，並使用 Llama 2 chat 自己產生的合成數據，提升 Llama 2 Long 於常見 LLM 應用的表現，包括編碼、數學、語言理解、常識推理及回答用戶問題等。不過架構與 Llama 2 沒有太大不同，只是對應更長指令做必要小修改。結果是，以開源大型語言模型來說，表現已相當優秀，難怪開源 AI 開發社群對這沒有大肆宣傳的消息拍手叫好。

Meta introduces LLAMA 2 Long

– context windows of up to 32,768 tokens
– the 70B variant can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks

— AK (@_akhaliq)

（本文由授權轉載；首圖來源：）

關鍵字: , , ,

標題：Meta 推出 Llama 2 Long 模型，處理長指令表現更佳

地址：https://www.utechfun.com/post/272069.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：

上一篇:液冷技術搶攻 AI 伺服器、汽車市場！法人看好台散熱廠今後表現三星 4 奈米備受肯定！與 AI 晶片新創 Tenstorrent 合作生產下一代 AI 晶片

下一篇:Pixel 8、Pixel Watch 2 發表會懶人包，Google 助理進化支援 Bard AI 技術

您現在的位置：首頁人工智能

Meta 推出 Llama 2 Long 模型，處理長指令表現更佳

猜你喜歡

您現在的位置： 首頁 人工智能

猜你喜歡

您現在的位置：首頁人工智能