北京時間12月6日凌晨,OpenAI在其“12天12場直播”活動的首場直播中,正式推出了推理大模型o1的滿血版本及其進階模式,以及全新的ChatGPT Pro訂閱服務,月費高達200美元(約1450元人民幣)。新版本的o1模型在處理復雜問題時速度提升了近50%,錯誤率降低了34%,並且首次支持圖片輸入功能。
每經編輯 杜宇
北京時間12月6日凌晨,OpenAI舉行了“12天12場直播”活動的首秀,如預期一樣帶來了推理大模型o1的滿血版本和進階模式,以及每月收費高達200美元(約合人民幣1450元)的ChatGPT Pro訂閱服務。
OpenAI稱,該套餐的訂閱用戶可以大規模訪問OpenAI旗下最佳的模型和工具,包括無限制訪問OpenAI最智能的模型OpenAI o1以及同系列較小模型o1-mini、GPT-4o、類人的ChatGPT高級語音模式Advanced Voice。
此外,ChatGPT Pro的套餐中還可以包括名爲o1 pro mode的新o1版本,也是ChatGPT Pro獨有的o1版本。OpenAI稱,這個新版本使用更多的計算,能更深入地思考,並爲最困難的問題提供更好的答案。希望未來爲ChatGPT Pro添加更強大的計算密集型生產力功能。
圖片來源:視覺中國OpenAI表示,與預覽版本相比,現在的o1模型“思維已經被訓練得更加簡潔”(大概快50%),同時在回答困難現實問題時,出現重大錯誤的概率減少了34%。
在演示中,在回答“列出2世紀羅馬皇帝的名字、任期和主要成就”時,o1模型“思考”了14秒,而o1預覽版花了34秒。順便一提,能力更差的GPT-4o在回答這個問題時會犯錯。
o1模型的另一個重要更新在於支持圖片輸入,現在可以在詢問模型“太空數據中心散熱問題”時,附上一張手繪的示意圖。OpenAI表示,計劃在未來幾個月裏增加網頁瀏覽、文件上傳等功能的支持。
在數學、科學和編碼等具有挑战性的機器學習(ML)基准測試中,o1 pro mode的表現均勝過o1 和 o1-preview。在數學方面,o1 pro mode得分86,o1 和 o1-preview分別爲78和50,在編碼方面,o1 pro mode得分90,o1 和 o1-preview分別爲89和62,在問答博士級別的科學問題方面,o1 pro mode得分79,後兩者分別爲76和74。
爲了突出o1 pro mode的主要優勢——可靠性更高,OpenAI還提高了評估門檻,要求只有在四次嘗試中四次全部能夠正確回答問題、而不是僅一次答對時,才能算作模型解決了問題。即使在這種高標准要求下,o1 pro mode的表現也明顯強於o1和o1-preview。
下圖可見,在以上四次答問都必須正確的標准下,o1 pro mode相比o1和o1-preview的優勢更大。數學方面,o1 pro mode得分80,o1和o1-preview分別爲67和37,在編碼方面,o1 pro mode得分75,o1和o1-preview分別爲64和26,在問答博士級別的科學問題方面,o1 pro mode得分74,後兩者分別爲67和58。
值得注意的是,ChatGPT Pro是OpenAI推出的最新訂閱檔次,比ChatGPT Plus貴上10倍。
花費1個月200美元後,用戶可以無限量地使用o1模型(Plus用戶目前的限制是每周50條信息),以及無限量使用o1 mini和高級語音模式,同時也能用上o1 pro模式。
官方的定義稱,o1 pro會使用更多的計算資源進入深入思考,並爲“最難的問題提供最好的答案”。OpenAI未來也會給這個訂閱檔次,添加更多更強大、計算密集型的功能。
在演示中,OpenAI演示了通過設定一系列苛刻的條件,讓o1 pro篩選出符合條件的蛋白質。
在OpenAI的公告中,也提到向10名醫學研究人員贈送了免費的ChatGPT Pro,研究領域涵蓋孤兒病、癌症、癡呆等。這大概也是使用這個訂閱服務的人群畫像。
在整場發布會的最後,奧爾特曼也提到明天的演示會有“對开發者很棒的東西”。
每日經濟新聞綜合公开資料
責任編輯:劉鵬林
標題:OpenAI首批“王炸”來了!上线滿血版o1大模型,速度提升近50%,錯誤率降低了34%,支持圖片輸入
地址:https://www.utechfun.com/post/451669.html