OpenAI首批“王炸”來了!上线滿血版o1大模型,速度提升近50%,錯誤率降低了34%,支持圖片輸入

2024-12-06 18:10:08    編輯: robot
導讀   北京時間12月6日凌晨,OpenAI在其“12天12場直播”活動的首場直播中,正式推出了推理大模型o1的滿血版本及其進階模式,以及全新的ChatGPT Pro訂閱服務,月費高達200美元(約14...

  北京時間12月6日凌晨,OpenAI在其“12天12場直播”活動的首場直播中,正式推出了推理大模型o1的滿血版本及其進階模式,以及全新的ChatGPT Pro訂閱服務,月費高達200美元(約1450元人民幣)。新版本的o1模型在處理復雜問題時速度提升了近50%,錯誤率降低了34%,並且首次支持圖片輸入功能。

  每經編輯 杜宇

  北京時間12月6日凌晨,OpenAI舉行了“12天12場直播”活動的首秀,如預期一樣帶來了推理大模型o1的滿血版本和進階模式,以及每月收費高達200美元(約合人民幣1450元)的ChatGPT Pro訂閱服務

  OpenAI稱,該套餐的訂閱用戶可以大規模訪問OpenAI旗下最佳的模型和工具,包括無限制訪問OpenAI最智能的模型OpenAI o1以及同系列較小模型o1-mini、GPT-4o、類人的ChatGPT高級語音模式Advanced Voice。

  此外,ChatGPT Pro的套餐中還可以包括名爲o1 pro mode的新o1版本,也是ChatGPT Pro獨有的o1版本。OpenAI稱,這個新版本使用更多的計算,能更深入地思考,並爲最困難的問題提供更好的答案。希望未來爲ChatGPT Pro添加更強大的計算密集型生產力功能。

圖片來源:視覺中國

  OpenAI表示,與預覽版本相比,現在的o1模型“思維已經被訓練得更加簡潔”(大概快50%),同時在回答困難現實問題時,出現重大錯誤的概率減少了34%。

  在演示中,在回答“列出2世紀羅馬皇帝的名字、任期和主要成就”時,o1模型“思考”了14秒,而o1預覽版花了34秒。順便一提,能力更差的GPT-4o在回答這個問題時會犯錯。

  o1模型的另一個重要更新在於支持圖片輸入,現在可以在詢問模型“太空數據中心散熱問題”時,附上一張手繪的示意圖。OpenAI表示,計劃在未來幾個月裏增加網頁瀏覽、文件上傳等功能的支持

  在數學、科學和編碼等具有挑战性的機器學習(ML)基准測試中,o1 pro mode的表現均勝過o1 和 o1-preview。在數學方面,o1 pro mode得分86,o1 和 o1-preview分別爲78和50,在編碼方面,o1 pro mode得分90,o1 和 o1-preview分別爲89和62,在問答博士級別的科學問題方面,o1 pro mode得分79,後兩者分別爲76和74。

  爲了突出o1 pro mode的主要優勢——可靠性更高,OpenAI還提高了評估門檻,要求只有在四次嘗試中四次全部能夠正確回答問題、而不是僅一次答對時,才能算作模型解決了問題。即使在這種高標准要求下,o1 pro mode的表現也明顯強於o1和o1-preview。

  下圖可見,在以上四次答問都必須正確的標准下,o1 pro mode相比o1和o1-preview的優勢更大。數學方面,o1 pro mode得分80,o1和o1-preview分別爲67和37,在編碼方面,o1 pro mode得分75,o1和o1-preview分別爲64和26,在問答博士級別的科學問題方面,o1 pro mode得分74,後兩者分別爲67和58。

  值得注意的是,ChatGPT Pro是OpenAI推出的最新訂閱檔次,比ChatGPT Plus貴上10倍。

  花費1個月200美元後,用戶可以無限量地使用o1模型(Plus用戶目前的限制是每周50條信息),以及無限量使用o1 mini和高級語音模式,同時也能用上o1 pro模式。

  官方的定義稱,o1 pro會使用更多的計算資源進入深入思考,並爲“最難的問題提供最好的答案”。OpenAI未來也會給這個訂閱檔次,添加更多更強大、計算密集型的功能。

  在演示中,OpenAI演示了通過設定一系列苛刻的條件,讓o1 pro篩選出符合條件的蛋白質。

  在OpenAI的公告中,也提到向10名醫學研究人員贈送了免費的ChatGPT Pro,研究領域涵蓋孤兒病、癌症、癡呆等。這大概也是使用這個訂閱服務的人群畫像。

  在整場發布會的最後,奧爾特曼也提到明天的演示會有“對开發者很棒的東西”。

  每日經濟新聞綜合公开資料

責任編輯:劉鵬林



標題:OpenAI首批“王炸”來了!上线滿血版o1大模型,速度提升近50%,錯誤率降低了34%,支持圖片輸入

地址:https://www.utechfun.com/post/451669.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡