C114通信網(wǎng)  |  通信人家園

人工智能
2024/6/20 09:03

上海人工智能實(shí)驗(yàn)室發(fā)布首個(gè)AI高考評(píng)測(cè)結(jié)果:最高303分,數(shù)學(xué)全部不及格

IT之家  清源

上海人工智能實(shí)驗(yàn)室 19 日公布了首個(gè) AI 高考全卷評(píng)測(cè)結(jié)果。據(jù)介紹,2024 年全國(guó)高考甫一結(jié)束,該實(shí)驗(yàn)室旗下司南評(píng)測(cè)體系 OpenCompass 選取 6 個(gè)開(kāi)源模型及 GPT-4o 進(jìn)行高考“語(yǔ)數(shù)外”全卷能力測(cè)試

評(píng)測(cè)采用全國(guó)新課標(biāo) I 卷,參與評(píng)測(cè)的所有開(kāi)源模型開(kāi)源時(shí)間均早于高考,確保評(píng)測(cè)“閉卷”性。同時(shí),成績(jī)由具有高考評(píng)卷經(jīng)驗(yàn)的教師人工評(píng)判,更加接近真實(shí)閱卷標(biāo)準(zhǔn)。

該機(jī)構(gòu)表示,Qwen2-72B、GPT-4o 及書生 浦語(yǔ) 2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過(guò) 70%。大部分模型“考生”語(yǔ)文、英語(yǔ)科目表現(xiàn)良好,但數(shù)學(xué)方面仍有很大提升空間。

具體來(lái)看,InternLM2-20B-WQX 取得了數(shù)學(xué)單科的最高分,超越包括 GPT-4o 在內(nèi)的所有模型。

IT之家注:此次參與“大模型高考”評(píng)測(cè)的產(chǎn)品包含 GPT-4o 及其他 6 個(gè)模型。為公平起見(jiàn),此次評(píng)測(cè)沒(méi)有納入商用閉源模型。

Mixtral 8x22B:法國(guó) AI 創(chuàng)業(yè)公司 Mistral 于 2024 年 4 月 17 日開(kāi)源的對(duì)話模型。

Yi-1.5-34B:零一萬(wàn)物公司于 2024 年 5 月 12 日開(kāi)源的 Yi-1.5 系列最大的模型。

GLM-4-9B:智譜 AI 于 2024 年 6 月 4 日推出的最新一代預(yù)訓(xùn)練模型 GLM-4 系列的開(kāi)源版本。

InternLM2-20B-WQX:上海人工智能實(shí)驗(yàn)室于 2024 年 6 月 4 日開(kāi)源的書生 浦語(yǔ) 2.0 系列文曲星大語(yǔ)言模型。

Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日開(kāi)源的 Qwen2 系列 MoE 對(duì)話模型。

Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日開(kāi)源的 72B 稠密模型。

語(yǔ)數(shù)外三科加起來(lái)的滿分為 420 分,此次高考測(cè)試結(jié)果顯示,阿里通義千問(wèn)2-72B 排名第一,為 303 分,OpenAI 的 GPT-4o排名第二,得分 296 分,上海人工智能實(shí)驗(yàn)室的書生 浦語(yǔ) 2.0排名第三,三個(gè)大模型的得分率均超過(guò) 70%。來(lái)自法國(guó)大模型初創(chuàng)公司的 Mistral 排名末尾,僅拿下 185 分。

數(shù)學(xué)是所有大模型的短板,平均得分率僅有 36%,參與測(cè)試的大模型無(wú)一及格。

此外,閱卷教師也對(duì)大模型表現(xiàn)進(jìn)行了整體分析,為模型能力提升策略提供參考。

語(yǔ)文

模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但是不同模型的文言文閱讀理解能力差距較大。

大模型作文更像問(wèn)答題,雖然有針對(duì)性但缺乏修飾,幾乎不存在人類考生都會(huì)使用舉例論證、引用論證、名人名言和人物素材等手法。

多數(shù)模型無(wú)法理解“本體”“喻體”“暗喻”等語(yǔ)文概念。語(yǔ)言中的一些“潛臺(tái)詞”,大模型尚無(wú)法完全理解。

數(shù)學(xué)

大模型的主觀題回答相對(duì)凌亂,且過(guò)程具有迷惑性,甚至出現(xiàn)過(guò)程錯(cuò)誤但得到正確答案的情況。

大模型的公式記憶能力較強(qiáng),但是無(wú)法在解題過(guò)程中靈活引用。

英語(yǔ)

英語(yǔ)整體表現(xiàn)良好,但部分模型由于不適應(yīng)題型,在七選五、完形填空等題型得分率較低。

大模型英語(yǔ)作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況,而人類考生多因?yàn)樽謹(jǐn)?shù)不夠扣分。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141