導讀 隨着今年高考落幕,上海人工智能實驗室推出的“司南”大模型开源开放評測體系迅速行動,選取了六個前沿的开源模型以及備受矚目的GPT-4o,針對高考“語數外”三科進行了全卷能力測試。此次評測嚴格遵循全國新...
隨着今年高考落幕,上海人工智能實驗室推出的“司南”大模型开源开放評測體系迅速行動,選取了六個前沿的开源模型以及備受矚目的GPT-4o,針對高考“語數外”三科進行了全卷能力測試。此次評測嚴格遵循全國新課標I卷的出題標准,確保所有參與評測的模型在“閉卷”條件下接受挑战。
值得一提的是,所有參與評測的开源模型,其开源時間均早於高考,有效避免了“作弊”的可能性,確保了評測的公正性和有效性。更爲關鍵的是,本次評測的成績由具備豐富高考評卷經驗的教師團隊進行人工評判,確保了評分的准確性和貼近實際閱卷標准。
評測結果令人矚目,前三甲的模型得分率均超過70%,顯示出這些大模型在高考模擬測試中的強大實力。在語文和英語科目中,大部分模型均表現出色,其中英語科目的平均得分更是高達81%,充分證明了大模型在理解和應用自然語言方面的能力。
然而,數學科目成爲了這些“大模型考生”的軟肋。盡管其中一些模型在數學單科上取得了不錯的成績,但整體而言,數學仍是這些大模型需要進一步加強的方面。這也提示我們,在未來的大模型研發中,需要更加注重對數學等抽象思維能力的訓練和提升。
此次“大模型高考”評測不僅爲大模型技術的研發和應用提供了寶貴的實踐經驗和數據支持,也爲我們展示了人工智能技術在教育領域應用的巨大潛力和挑战。隨着技術的不斷進步和應用的不斷拓展,我們有理由相信,未來的人工智能將能夠在更多領域展現出其獨特的優勢和價值。
標題:AI高考測試出分:數學全不及格
地址:https://www.utechfun.com/post/387318.html