天天干天天日让人工智能大模型做K12学科试题，能赶上人类水平吗？

天天干天天日 2024-05-22 06:36:00 来源: 原创

第1 天天想你在线观看完整版电影2023 江西高考分数线公布，理工一本 518 文史一本 533，如何评价今年的分数线？

第2 伊人春色窦靖童王传君新剧开机

第3 综合一区中豆瓣8.7！四起罪案复杂交错，凶杀嫌疑人竟高达13个！悬疑英剧《伯特伦旅馆之谜》

第4 夜夜草辽宁营口一钢铁厂发生烫伤事故，造成4人死亡5人受伤

第5 鲁啊鲁不是每个人都适合结婚

第6 大地资源在线观看免费高清汶川地震中的“敬礼娃娃”郎铮高考637分：准备报考北大

第7 天天弄马上评｜健美女运动员扔鞋：调查要直面“性交易”传言

第8 一嘟噜一嘟噜乌克兰宣布从多方向发起反攻

　　中新网北京5月21日电(中新财经记者宋宇晟)记者了解到，近日，在北京市海淀区教委支持下，智源研究院联合与海淀区教师进修学校对齐学生测验方式，考察大模型与人类学生的学科水平差异，其中，答案不唯一的主观题，由海淀教师亲自评卷。

　　评测发现，模型在综合学科能力上与海淀学生平均水平仍有差距，普遍存在文强理弱的情况，并且对图表的理解能力不足，大模型未来有很大的提升空间。

　　北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出，在语文、历史等人文学科的考试中，模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时，模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题，模型反而更擅长复杂的英语题。解理科题目时，模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时，模型依然存在明显的“幻觉”。

　　此外，智源研究院还发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

　　评测结果显示，在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。在多模态理解图文问答任务上，开闭源模型平分秋色，国产模型表现突出。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小。多模态模型的文生视频能力上，对比各家公布的演示视频长度和质量，Sora有明显优势，其他开放评测的文生视频模型中，国产模型PixVerse表现优异。

　　据介绍，本次用于评测的评测体系依托科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目，智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发。

　　评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集 CUC T2V prompts。其中，主观题4000余道，均来源于自建原创未公开并保持高频迭代的主观评测集，严格校准打分标准，采取多人独立匿名评分、严格质检与抽检相结合的管理机制，降低主观偏差的影响。此外，为了更准确地评测语言模型的各项能力，智源专门对所有客观数据集的子数据集进行了能力标签映射。(完)

精彩推荐

百变马丁（原《马丁的早晨》）第一季第1集-大侦探马丁

探秘大唐秦王陵，这里有杀伤力最强的古墓机关。

22.4万热度
广东高考查分
小白

4.4万热度
直播间卖律师
天天干天天日

68.6万热度
《中国奇谭》获最佳动画剧本奖

宁静说赵丽颖也是从横店街上出来的

51.4万热度
莫斯科等地可能暂时限制互联网

六月份游戏版号下发

8.4万热度
江苏高考分数线

校长接到学生高考成绩喜报哭了

3.8万热度
宝剑嫂

宁静说赵丽颖也是从横店街上出来的

11.1万热度
外国人一般是怎么给自己取中文名的？有没有什么比较奇葩的中文名？

2023 LPL 夏季赛 Uzi 不敌老东家，RNG 2:0 击败 EDG，如何评价这场比赛？

8.7万热度
如何评价《奔跑吧》第七季第十期《人参争夺战》？

普京指责普里戈任\

1.8万热度
莫迪在美国国会上表示「印度很快将是世界第三大经济体」，这一目标可能实现吗？

小龙坎

6.3万热度

天天干天天日让人工智能大模型做K12学科试题，能赶上人类水平吗？

推荐内容

精彩推荐

产品推荐

最新评论