AI阅卷“翻车” 人工评价和机器评价为何有如此大的出入?
开学季,美国一款号称服务两万所学校的AI阅卷系统遭到质疑,学生们只要借助系统漏洞,输入相应关键词,即使关键词之间并无关联,也能轻易获得高分。
随着人工智能的发展,不少教育App都应用了智能评分系统,评分系统阅卷迅速,及时出分,受到不少师生的欢迎。但同时,也有不少家长吐槽智能评分系统,像英语跟读App的评分系统,有时候即使拥有英语专业八级水平的人,测试得分也只有80分。
除了应用于英语口语的智能评分系统,人工智能还被应用于判卷上。不过这种智能阅卷系统也时有“翻车”现象。据报道,在开学季,一款号称服务于美国两万所学校的AI阅卷系统就受到了质疑,学生们借助它的漏洞,“裸考”就能轻松及格。之所以被学生们钻了空子,是由于该系统只是通过关键词进行评分,学生们只要输入相应关键词,即使几个关键词之间没有关系,也能顺利过关甚至获得高分。
阅卷前需先设定评判标准
“自动测评打分系统一般需要先设定评测的标准,而后根据设定的标准去设计合适的评测算法与模型。”天津大学智能与计算学部教授、博士生导师熊德意介绍,比如像口语测评打分,就需要机器去评判人的发音是否标准,所读句子的重音是否正确,读出的语句是否连贯流畅,连读部分是否准确等。
AI阅卷系统则涉及到对语言文字的评判,涵盖很多方面,如语法、语义等,会大量运用到自然语言处理技术。
“自然语言处理技术是人工智能的一个重要分支,研究利用计算机对自然语言进行智能化处理,基础的自然语言处理技术主要围绕语言的不同层级展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级。”熊德意强调,这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务(如机器翻译、对话、问答、文档摘要等)中,自动阅卷中的语言文字评测通常涉及这7个层级的若干层。
设计自动评测指标的方法有多种,通常会根据不同的评判类型去选择适合的方法。“比如阅卷系统若要进行翻译题的自动评判,可以让老师事先写好多个参考译文答案,然后把学生的答案和参考答案进行类比,计算它们的相似度作为学生答案好坏的评测指标。”熊德意举例说,机器翻译常用的评测指标BLEU,就是基于参考译文和机器译文之间的N-grams(N元)匹配度计算相似度的。
一个单词是一元,两个相连的单词是二元,还有三元、四元,如果答案中有一个单词与参考答案中的单词一致,那么就会给出一个一元评分,类似的可以计算二元、三元、四元的评分。研究人员为不同元设置不同权重,然后把得分统筹起来变成一个客观值,得分越高就说明两者之间的相似性越高。
不同AI评分系统结果相差甚远
此次AI阅卷系统“翻车”的导火索是一位美国历史系教授的儿子在进行历史考试的时候只得到了50%的分数,而她对儿子的答案进行评测后,觉得孩子的回答基本没有问题。
同样的答案,人工评价和机器评价为何有如此大的出入?
“这就是基于AI算法的自动评测面临的最大挑战:如何与人工评价保持一致。应对这个挑战需要解决的问题很多。比如如何制定合适的评测标准,主观题进行自动评测必须要有合适的评测标准和规范;比如如何应对语言的千变万化,语言的多样性是自然语言处理技术的主要挑战之一,语言的自动测评和自动处理都要面对多样性的挑战;比如如何设计一个综合性的评测指标,虽然目前有各种各样的指标,但是很少有指标综合考虑语言文字的方方面面,例如作文自动阅卷,可能要考虑用词是否合理(词汇)、句子是否流畅(句法)、段落组织是否有条理(篇章)、内容是否扣题(语义、语用)等。”熊德意说,上面提到的BLEU就是只考虑了单词形式的严格匹配,没有考虑单词的形态变化、语义相似性、译文的句法合理性等因素。
“遵循的评测规则、评判的出发点不同,相应的算法模型都不一样,因此最后的结果也会相差甚远。”熊德意说。
因此仅仅利用一种评测方法显然是不全面的,这也就解释了当孩子的母亲尝试在答案里加入“财富、商队、中国、印度”等题目中的关键词时,即使这些关键词之间没有任何串联,她也得了满分。“可能这个AI阅卷系统只使用了简单的关键词匹配,因此会出现‘关键词沙拉’也能蒙混过关的情况。”熊德意解释。
此外,口语的人工测评与机器测评也存在较大出入。“近年来,语音识别性能虽然在深度学习技术的推动下取得了显著的提升,但是在开放环境、噪音环境下,这种识别率就会下降很多。”熊德意解释,如果机器“听”错了一个单词,而后机器进行测评,就会形成一个错误传播,也就是上游系统的错误会导致下一系统错误,错上加错,越错越离谱,测评结果也会大相径庭。
“目前有很多设计评测指标的方法,还有很多改进的方法,如在计算准确率的同时也计算召回率等。另外,还有对评测指标进行评测的,即评测的评测,看看哪个评测指标更完善,更和人的评价一致。”熊德意感叹,很多时候,自动评测的难度和对应的自然语言处理任务的难度,从技术层面来说是一样的,比如用机器评价一个译文的好坏与用机器生成一个译文的难度类似,用机器评判一个文档摘要的好坏与用机器生成一个摘要的难度也差不多。
可结合人工评测让系统更智能
“传统的自动评测指标通常是基于符号进行计算的,现在深度学习等AI技术也越来越多地应用于测评工具中。”熊德意介绍,使用深度学习,可以把语言符号映射到实数稠密向量的语义空间,利用语义向量计算相似度。哪怕说的词语和计算机原本学习的不一样,但只要语义是一致的,机器就可以进行精准的评价。因此,基于深度学习的自动评测某种程度上可以应对语言的多样性挑战。不过深度学习也有一个问题,就是需要大量的数据让机器进行学习。
基于自监督学习的预训练语言模型,近几年,在语言表示学习中,取得了突破性的进展。“OpenAI的预训练语言模型GPT-3,在5000亿单词的海量语料上训练了一个带有1750亿个参数的神经网络,通过大量学习网络上各种语言的文本,GPT-3形成了强大的语言表示能力,可以进行多种任务,比如自动翻译、故事生成、常识推理、问答等,甚至可以进行加减法运算,比如其两位数加减法正确率达到100%,五位数加减法正确率接近10%。”熊德意介绍,不过,这么庞大的神经网络,如果用单精度浮点数存储,需要700G的存储空间,另外模型训练一次就花费了460万美元。因此,即使GPT-3具有较好的零样本、小样本学习能力,其高昂的成本使其离普遍可用还有很远的距离。
但是AI作为阅卷评测“老师”,其又有人工不可比拟的优势。比如AI自动批阅卷系统相比人工批阅速度更快,老师不可能一次记住所有的多项选择题答案,需要不断检查标准答案,这是很费时的,自动批阅系统帮助老师大大提高了效率;另外,自动批阅系统更加理性,不受外界条件干扰,不会因疲劳等原因导致误判。即使在复杂的干扰环境中,仍然可以得到正确的结果;AI阅卷系统还可以在评分后直接做好学情分析,统计出考试数据、错题数据等教学材料,帮助老师减负增效,帮助学生提高学习效率。
“将主观题合理地客观化,可以降低自动阅卷的难度。”熊德意表示,对无法客观化的主观题,虽然设定全面的评测标准比较难,但是设定某一方面的评测标准还是可行的,比如针对单词词法、句子语法的评判,目前准确率还是挺高的,这类技术可以从实验室走向产品应用。
也可以引入人工评测,对AI阅卷系统打分进行复核与修正,通过这种反复的修正,累积大量的评测训练数据,让机器评分变得更加智能。
“利用自然语言处理等人工智能技术,进一步完善主观智能评分系统,将是未来教育领域的一个非常重要的课题。”熊德意说,以后的AI自动批阅系统肯定会越来越“聪明”,人工智能与教育的结合也会越来越紧密。
精彩推送
- 迟福林:合力建设全球最大自由贸易区
- 银保监会明确2022年工作重点
- 金融风险报告2021:宽松政策对冲经济下行的效果有待观察
- 社论:加大税收对收入分配的调节作用
- 国家中医药管理局与柬埔寨卫生部签署合作协议
- 香港破产程序首次获得内地法院认可
- 多地重大项目集中开工 年内投资总额逾4.2万亿元
- “地方两会”绘制稳增长“施工图” 资本市场需进一步促进投融资协同发展
- “氢”情助力“绿色冬奥” 氢能产业化发展有望提速
- 境内美元流动性充裕“撞上”刚性结汇 人民币汇率节前强势连连
- 降准、结构性降息接连落地之后 货币政策工具箱空间还有多大
- 财政部将实施更大力度组合式减税降费
- 商务部拟实施四项行动提高外贸竞争力
- 多地试水检验试剂集采:为何大范围进行带量采购难?
- 2021年广东省全社会用电量同比暴涨13.58%
- 官宣!首破3万亿 深圳GDP超首尔 挑战世界前十
- 私募大佬遇“李鬼” 这次骗到美国去了!但斌辟谣 拿到0元年终奖
- 天津:做好服务 稳就业促发展
- 六部门联袂畅通优质涉农企业直接融资渠道 北交所农林牧渔“后备军”亟需扩容
- 湖北:第二批新组建省属国企今日揭牌
- 支付备付金突破2万亿 第三方支付行业前景可期
- 北京证监局:2022年将聚焦退市新规 杜绝会计调节规避退市
- 江苏江阴科技镇长团:赋能产业转型升级
- 先进制造引领“世界工厂”东莞突围升级
- 商务部:贡献率达65.4% 消费重新成为经济增长第一拉动力
- 保障性租赁住房土地规划细则公布 明确户型朝向、日照时间、容积率等标准
- 养老金体系将向零售为中心转变 险企如何打通“老有所养”最后一公里?
- 3天可赚12天利息!春节理财最佳操作攻略来了
- 珠江啤酒王志斌:以产业升级推动“双主业”高质量发展
- 中国银行取消个人借记卡年费和小额账户管理费
- 3,000,000,000,000+!深圳GDP站上新台阶 图说成绩背后的上市公司力量
- 钱大妈、美菜网、叮咚买菜 社区生鲜接连败北 2022年投资人的第一个难题来了?
- 六方面入手!财政部明确2022年积极财政政策“路线图”
- 山东玻纤:数字化智能化赋能 实现高质量发展
- 487项 内蒙古机场集团“五小”创新结硕果
- 财政部答一财:对专项债券项目实行穿透式监测
- 首个数字人民币疫后复工专项补贴在西安落地
- HPE全球副总裁、中国区董事总经理朱海翔:将高质量可持续发展作为系统性工程来考量
- 南昌交出2021年“经济答卷”:GDP迈上六千亿新台阶
- 补链成群 巴南一季度集中签约项目24个总投资238亿元
- 人行南宁中心支行:2021年末广西本外币存款余额3.69万亿元 同比增长6.39%
- 2022年春节档新片预售票房破2亿元
- 工信部调整享受车船税优惠的节能、新能源汽车产品技术要求
- 湖北南漳:提交亮丽答卷 开启新年新篇
- 有“亿”点犀利!绿色石化成为湛江首个超千亿产业集群
- 四川内江资中县:三孩家庭购房最高奖励14000元/套
- 增速获客赛道 激活年轻属性——兴业银行信用卡“圈粉”90后
- 四个中外航班收熔断令 涉东航、国航等
- 7年10轮融资 新能源城配“最后十公里”跑出独角兽
- 2022房企收并购再起 优质资产插标
- 坚持创新引领行业发展 新华睿思拓展互联网服务新空间
- “年终奖”如何提高投资收益 银行理财师为市民支招
- 上海自贸区临港新片区:努力完成2022年1000亿元前沿产业招商工作任务
- “火炉之城”重庆“点燃”冰雪运动热情
- 2022年职工医保个人账户改革 这些变化您知道吗?
- 春节期间 津冀地区高速公路禁止危险物品运输车辆通行
- 四川出台7条措施积极扩大有效投资
- 河北省逾10万户企业以简易注销方式退出
- 樊登读书子公司注册资本增至2.6亿元,增幅25900%
- 深圳宝安区与腾讯签署战略合作协议
- 中国石油广东石化项目建设完成总进度84%
- 春节送礼送什么?醉品茶集:要新意更要健康
- 时尚大气还耐看 新捷途X70S亮相
- MAKUKU麦酷酷宣布完成新一轮战略融资,融资金额或高达3000万美金
- 内容平台联手卫视探索春节晚会新形式
- 惠东单日3宗地块顺利出让 平山商住地近4.5亿元成交
- 武汉企业推出翻译领域团体标准
- 深度|中部市值500强企业全扫描:双碳“来袭” 六省风口产业链“变局”
- 2021年完成建筑业总产值1.73万亿元 居全国第五、西部第一
- 中央网信办:集中整治网络暴力、散播谣言等问题
- 2022年 四川城镇新建建筑中绿色建筑面积占比将达到80%以上
- 天津至潍坊段高铁获批 兼顾城际功能 建设工期五年
- 时间银行来了!攒1万个时间币可入住公办养老机构 996得存20年
- 每月几百元涨到七八千!村民不再要求工资日结
- 未保价快递包裹丢失 媒体介入后顺丰全额赔偿
- 农业农村部:1月25日“农产品批发价格200指数”比昨天上升0.50个点
- 2021年我国软件业务收入94994亿 从业人员规模不断扩大
- 2021年十大消费维权舆情热点公布 这些消费你被“套路”过么?
- 深圳“湾区之窗”智慧办税厅启用 为高质量推进深圳经济发展贡献力量
- 吉林省以“冬奥在北京 体验在吉林”为主题 驱动冰雪经济火热发展
- 2021年甘肃省经济稳中有进 全省地区生产总值突破一万亿元
- 全国碳市场第一个履约周期顺利收官 累计成交额76.61亿
- 1月24日央行开展1500亿元14天期逆回购操作
- 废旧物资循环利用体系示范城市建设将在60个城市开启
- 交通运输部:引导绿色交通发展 加大地方各级财政资金支持力度
- 交通运输部:推动内河老旧码头升级改造 建设绿色交通基础设施
- 支付备付金交存再创历史新高 进一步推动支付机构聚焦支付主业
- 我国将创建100个左右绿色出行城市 提升城市轨道交通服务水平
- 麦当劳缺土豆引发日本“薯条战” 多个日本商家趁机抢占市场份额
- 银保监会:规范定价要求与校准机制 规范银行服务市场调节价管理
- 2022年经济工作要稳字当头 积极的财政政策将更加精准可持续
- 1月中旬32种产品价格上涨 92#汽油价格较上旬上涨3.9%
- 海南省市场监管局:多举措加强重点领域信用监管 强化企业信用意识
- 海南自由贸易港政策效应进一步扩大 原辅料“零关税”增补清单的落地实施
- 商务部:2021年实现引资规模和质量“双提升”
- 商务部回应“机构预测2022年外贸难”:有信心开门稳
- 把握“工业小时代”促进制造业大发展
- 以“实效”实现“稳字当头”
- 住建部:推行工程担保制度
- 中国移动实控人拟增持30亿元-50亿元公司股份 全球折叠屏智能手机销量有望达1569万部