蘋果的研究人員建構一個包含多達 300 億參數的多模態模型 MM1,由稠密模型和混合專家模型(Mixture of Experts Models,MoE)變體所組成,可在視覺任務類型與 OpenAI GPT-4V、Google Gemini 競爭。
上週一篇主題為《》的論文上傳至 arXiv.org,展示如何仔細組合不同類型的訓練資料和模型架構,在一系列 AI 基準測試實現最先進的性能。
「我們證明,對於大規模多模態預訓練,使用圖像-標題、交錯的圖像-文字和純文字資料的混合組合,對於在多個基準測試實現最先進的少量樣本學習結果相當重要」,研究人員表示,透過涵蓋視覺和語言資訊的多樣化資料組訓練模型,MM1 模型在圖像字幕、視覺問題回答和自然語言推理等任務上能有出色表現。
研究人員還發現,圖像編碼器的選擇和輸入圖像的解析度對模型性能有重大影響。「研究表明,圖像編碼器以及圖像解析度和圖像 token 計算具有重大影響,而視覺語言連接器設計相比之下微不足道」,研究人員表示,繼續擴大和改進這些多模態模型的視覺成分將是進一步釋放性能的關鍵。
多達 300 億參數的 MM1 模型表現出強大的上下文學習能力,能夠使用少量的關聯思考(chain-of-thought,CoT)提示對多個輸入圖像進行多步驟推理,這也代表多模態模型可望解決需要基礎語言理解以及複雜、開放形式的問題。
面對重大科技變革,蘋果一向是追隨者,而非先行者。MM1 研究發表之際,蘋果持續增加 AI 投資,試圖追趕微軟、Google、亞馬遜等競爭對手,這幾家公司將生成式 AI 整合至產品,在現今 AI 發展處於領先地位。
據傳蘋果正在開發一個名為「Ajax」的大型語言模型框架,以及一個內部稱為「Apple GPT」的聊天機器人,希望將這些技術整合至 Siri、訊息、Apple Music 以及其他應用程式和服務中。比方說,與 AI 進行對話並完成任務,自動產生個人化音樂播放清單,或者協助開發者編寫程式碼。
包含 MM1 以及近期研究成果可見,蘋果擁有取得領先進展的人才和資源,但在 AI 軍備競賽不斷升級,蘋果如何追上競爭對手,有待深入觀察。值得一提的是,今年全球開發者大會(Worldwide Developers Conference,WWDC 2024)將是重要觀察點,市場預期蘋果將會公開 AI 計畫。
(首圖來源:shutterstock)
標題:蘋果 AI 研究再現成果,發表 30B 參數多模態模型 MM1
地址:https://www.utechfun.com/post/347182.html