“人工智能在普通高考网上评分中应用研究成果公告”
标识
安徽省招生考试院《 2017年全国教育考试研究计划》重点项目负责人
(何宜松,高级工程师)主持完成了“人工智能在高考网上评分中的应用研究”(项目号GJK2017017)。研究团队的主要成员是徐飞。 ,刘辉,孙媛媛,朱波,楚琳琳。
身体
一、内容和方法
1、概述“人工智能在普通高考论文在线评估中的应用”是国家教育考试研究计划
2017年重点项目(项目号GJK2017017)。自2017年12月4日项目获批以来,研究团队以设定的目标为中心,通过深入详细的研究,参与了系统的研究。在技术实施,应用创新等方面取得了重大进展,特别是在人工智能辅助的网络评审质量监控模型创新,人工智能评分和在线评分系统集成应用,标定方法研究等方面其他方面均取得了重要的阶段性成果,在2019年安徽省高考在线评估中[201]取得突破性进展。
2、主要研究内容传统的在线评分是基于扫描答卷的分段图像并组织评分老师的
它是通过在线标记进行的。计算机智能评分技术是一种崭新的应用程序,它使用人工智能基于扫描的答案内容的转录识别,内容分析和关键特征提取,自动对应试者的内容进行评分。该主题的主要研究目标包括:
(1)根据文本分析的结果,回答中文作文,英语作文,综合性文科短答案,数学填空题,英语更正题等,发现并报警异常文本答案,实现空白答案和复制,发现和检测相同答案,结合评分结果分析,突出了计算机智能评分的质检辅助功能。
(2)加强人工智能评分技术的方法研究,建立针对标定集专家评分样本的科学选择机制,建立和完善智能评分结果的评价机制,使计算机智能评价结果可以达到与人类专家同等的水平,并且可以真正地代替评论或手动评论的一部分。
(3)结合图像和文本识别,自然语义理解,智能评估技术等最新研究成果,综合性的教育考试理论研究和评估方法,形成了完整,实用,人机结合的智能在线评估试卷解决方案最初实现了“改进评分方法,加强评分管理,完善评分报告”的既定目标,为将来大规模考试评分系统的升级提供了有益的尝试。
(4)探索人机结合的智能在线阅卷系统标准化流程的实现。在千兆位局域网的情况下,通过相关的数据接口,可以实现对千万级扫描的访问图像和计算机智能评估结果,不仅在学科指导,教师评审,专家仲裁和社会认可中充分利用了人工评分的特点,而且充分利用了计算机的高效率,高精度和高可靠性人工智能,并结合了人机结合智能检具,全面加强评分过程的大数据分析,进一步保证了打标质量。
3、主要研究方法致力于通过实验验证,数据分析等方法,重点研究人工智能技术和在线标记技术
融合应用程序的总体目标,以年度普通高考论文为重要的时间节点,逐步推进学科研究工作,解决接口定义,网络和硬件系统部署以及软件系统升级在申请过程中需要面对的问题。等一系列技术问题。同时,加强对字符,公式,图形,转录识别,智能评分等核心算法的研究,提高人工智能在识别准确率和评分准确性上的能力,扩大人工智能在多学科多问题中的应用类型。预期处理能力将形成可在实际应用过程中得到巩固和促进的应用结果。
二、结论与对策
2016年初,教育部考试中心与科大讯飞建立了联合实验室,安徽省招生考试院积极参与了前瞻性课题研究,如人工模拟的应用。考试中的智力评估技术。 2016年10月下旬,我省首次进行了基于英语作文扫描图像的计算机智能评分实验,用于2016年高考,对人工智能和在线评分工作的结合有了直观的理解。随后,在2017年至2019年的高考连续三年在线评分中,我省将人工智能评分作为一种重要的在线评分方法,辅助了质量监控,积极实施了相关应用,并取得了良好的期望。
1、智能计分效率极高
在2017年高考论文评估中,我省将同时离线进行中,英文论文的计算机智能评分,并将评分结果应用于在线评估的质量监控。此过程与在线审阅时间同步。中英文构图扫描图像的数据传输将在6月12日进行,专家评分的校准样品的图像和分数将在6月16日上午获得并提交传输。结果和评估数据,在4天内完成了两个主题的手写转录识别(文档)和智能评分,对近850,000个答案进行了评分,并回答了17762个空白答案和235种中文成分中的三种高相似性异常。此外,英语成分中的24455空白答案和1469种3我们会检测出几种类型的高度相似的异常答案,并对一些人机得分差异较大的样本进行测试和反馈。成本低,效率高,智能化程度是人类无法比拟的。
2、智能评分具有良好的评分准确性。人工智能评分的要点可以概括为两个方面:一是编写应试者答案的内容
(包括公式,图形等)识别并转换为文本;第二是基于深度神经网络建模和多维计算机智能评分的评分模型训练。当前,基于全连接卷积神经网络(Fully Connected Convolutional Neural Networks)图像文档的布局分析和理解以及文本识别技术的核心算法,计算机智能评分系统已经形成了一套完整的图像输入到文本输出的系统。通过识别处理方案,汉字和英文字符的识别率可以达到与人工识别相当的水平。在多维评分方面,可以根据特定算法提取待评估样本的特征向量,对校准集数据样本进行相同的特征提取,然后对样本进行专家评分通过基于注意事项的编码和解码机制的循环迭代神经网络(Attention based Encoder-Decoder Recurrent Neural Networks)建模,以当前考试为基础形成准确的评分模型,从而进行计算机智能评分。
根据安徽省2017年至2019年连续三年对中英文论文实施计算机智能评分的实际结果,智能评分结果与最终报告分数之间的一致性约为95%和92%,达到较高级别表示智能计分具有良好的计分准确性。另外,更重要的是,由于在长时间高强度的打标过程中打标师很容易身心疲惫,因此会影响打标师对打标规模的掌握和对整个过程一致性的控制,甚至出现保险计分现象和计算机智能计分系统不会受到诸如情感,身心状态,个人喜好等主观因素的影响,并且始终采用统一的计分标准,从而确保了计分的客观性和公正性。更大程度上。
3、智能评分具有相对完善的辅助质量检查功能。在实际应用中,智能计分可以自动检测空白答案,避免由于打标老师对键盘的错误操作而导致空白问题被打分。对组成内容进行高相似度文本检测,并复制试卷题干内容或无声写作模型库现象,并将其提交给主题组以进行关键验证和质量监控;可以将候选者之间的高相似性回复的文本检测提交给主题组。将对其进行审查和确认,以防止窃或有组织的欺诈行为;智能评分可以作为辅助质量检查的参考,并且可以与人工评分在后台进行比较,差异较大的应试者的回答情况将提交给主题组进行复查。确定分数并确保得分的质量。所有这些都在丰富和形成多元化的标记质量监控系统中发挥了积极作用。
4、智能评分对加强阅卷管理具有非常重要的现实意义。现有的在线标记组织模型很难准确,科学地评估标记结果的质量。计算机智能评分系统的应用很好地解决了这一行业问题。管理部门与主题标记点之间对标记纸质量的监控和评估可以通过人工智能评分系统的第三方质量评估的显着特征,超过基于现有在线标记的统计量技术规格。通过计算机的智能评分,该原理的技术手段和方法已经提高到手动评分计算的准确性。它具有定量评估整个评分过程以及评分老师对评分标准的掌握程度的能力。专业精神和责任感不仅是一种评估,而且是一种约束。
5、智能计分对于改进计分方法具有重要的长期意义。从某种意义上说,计算机智能评分系统可以通过不断的数据挖掘和独立学习而变得越来越智能,从而在一定程度上可以超过一般评分者的评分水平,进而达到专家评分的高度。因此,完全有可能考虑在相对较低的考试中使用计算机智能评分,例如社会考试,以取代多重评估模式中的手动一次评估评分,或者甚至以某些高置信度分数直接替代手动评分部分。 。在高风险测试中,人们更加关注每个评分样本的评分准确性,计算机智能评分是否可以从研究转移到应用,是否可以从后台转移到前景以及是否可以从对替代评估的辅助质量检查,必须回答评分准确性的问题。因此,分析研究人工智能评分的核心算法,分析研究人工智能评分与在线评分组织与管理模式的集成应用机制,分析研究校准集样本选择方法对评分准确性的影响因素。在理论上更科学,在技术上更可操作,在应用程序上更标准化。它的重要性和紧迫性毋庸置疑,它肯定会在学术水平考试和新的高考中使用。它在改革实践中发挥着越来越重要的作用。
三、成就和影响该主题研究是面向应用程序的,并且已经取得了两个重要成果:
1、通过“打标助手平台”实现了计算机智能评分系统与在线评分系统的融合应用。
(1)新一代智能在线阅卷系统技术基于现有的阅卷组织和管理模式,实现了新一代智能在线阅卷系统,包括:答卷扫描系统,智能评分系统和在线阅卷。系统三本节主要讨论智能评分系统和在线评分系统的集成,集成系统的结构图如下:
该计划的核心是通过“打标辅助平台”升级系统,同时保留原始的在线打标系统和人工智能评分系统。在原系统中,以平稳过渡的方式构建了新一代智能在线阅卷系统,为以后的应用扩展和系统的进一步集成与升级奠定了基础。
计分辅助平台是一种WEB架构,并使用JAVA面向对象语言开发。关键业务数据的传输和存储都经过加密。在硬件方面,它主要由数据库服务器,文件服务器,应用程序服务器和网络设备组成。在线标记系统和人工智能系统之间没有直接访问。他们需要连接标记辅助平台以完成数据交换。计分辅助平台包括两个部分:“数据交换子系统”和“监视,统计,处理子系统”。其中:数据交换子系统通过Web服务接口技术提供数据交换服务;监视,统计和处理子系统监视交换过程,执行数据处理,统计,分析和决策。
对应于评估助手平台,需要对原有的在线评估系统进行升级,以满足新一代智能在线评估系统的应用需求。基于上述技术方案,以服务引擎的形式设计新功能。服务引擎主要完成在线阅卷系统与阅卷辅助平台之间的交互,包括上载候选人的扫描图像信息,从人工智能系统接收辅助校准样本文件和分数,上载人类评估的最终分数以及接收评论。数据(包括人与计算机评估得分之间差异很大的候选数据,窃问题词干,窃模型文章,在空白纸上得分的候选数据,相似的候选数据等),上传评论反馈结果等。服务引擎设计遵循这样的设计思想:新模块不会影响原系统的主体结构,新功能不会修改或少修改原功能,这不仅保证了原在线打标系统的稳定运行智能检具,而且确保了新服务(例如人工智能)辅助在线标记质量控制)可以在实时在线模式下应用。
([2)新一代智能在线标记系统的技术特征
新一代智能在线标记具有五个特征:首先,系统的独立性。通过定义数据接口和控制网络访问,标记辅助平台可确保其自身的独立性,从而使其不依赖于特定的人工智能系统,也不会附加至特定的在线标记系统,并且可以兼容与目前国内主流的在线评分系统和人工智能评分系统相通,开放,兼容。第二个是数据交互的灵活性。扫描的图像数据通过评分辅助平台提供给人工智能评分系统,人工智能评分系统的计算机自动评分结果通过评分辅助平台提供给在线评分系统。数据导入和导出交换功能安全高效,并且可以跟踪过程。日志可以被审核。第三是在线控制的实时性。 2018年,安徽省在2018年高考在线评估中实现了高考中英文试题评分结果的定点和定点比较。手动评分和计算机智能评分的结果可以随时在系统控制端进行动态分析。对机器范围差异样本和覆盖问题等异常答案样本进行准确的质量检查反馈,大大提高了质量监控的针对性。第四是离线方法的容忍度。 2018年,安徽省增加了中文短答案问题的智能评分和实验验证,文科综合能力测试中的短答案问题以及数学证明。该方法是通过评估助手平台将机器评估的结果导入在线评估系统。经过监视,统计,处理子系统和服务引擎进行质量检查反馈,结果表明,对多个主题和多个问题的辅助质量监视是有效而有序的。第五是系统的可伸缩性。通过评分辅助平台的中间双向干预模式,可以将人工智能评分系统的评分结果直接提交给在线评分系统进行审核,从而为智能评分提供了更好的解决方案,而不是人工评估;也用于手动评估。智能评分技术在非关键性试卷的组织和管理中的推广应用提供了思路。
2、采用“人机组合+分段补充”标定集选择策略,以提高人工智能评分的准确性。
在实施计算机智能评分时,由于校准样本的选择不同,因此要评估的样本的评分结果通常会有所不同。这种差异可能是整体的,也可能是个体的,其实质反映了评分结果的可信度和准确性。如何建立一套符合智能评分需求的科学的标本选择机制是考试管理机构必须考虑的问题。 2019年,安徽省运用最新的标定集选择方法研究成果,采用“人机结合+分段补充”标定集选择策略,提高了评分结果的准确性,特别是对于高分论文。得分一致性。
手动选择校准纸的最初方法是在随机抽样的基础上,主题评分专家选择一定数量的评分样本,由专家进行评估,并将其用作校准集。由于样本数量不足以及无法保证所选样本得分的分布,该方法通常仅作为参考。
实际上,通常使用人为选择校准卷的方法,即基于主题评分专家对样本卷的选择,结合人工智能研究和判断来选择样本卷,样本数增加卷以形成一组收集样本并由专家评分。应该注意的是,在选择用于人工智能研究和判断的样本论文时,预设了某些选择原则。该原理是在计算机完成对所有待评估样本的机器识别和转录后,对待评估样本进行分类,并同时考虑根据候选对象的地理覆盖范围和水平等因素,从中选择代表性样本所有要评估的样品,以形成校准数据集。这种人为选择校准辊的方法比手动选择校准辊更具代表性。所得的校准集将更具代表性,但仍然存在相同的问题,即无法保证足够的数字和分数分布时。与最终报告分数相比,在同一文件中的达成率和样本数量等绩效指标方面,评分结果仍有改善的空间。
最新的研究结果是使用“人机组合+分段补充”校准集选择策略,即:在原始人机组合的基础上选择了500篇论文,专家评分是基于相应的分数段设置根据校准样本比例的原理,使用基于聚类的方法从经过手动双重评估以补充的足够数量的论文中选择代表性的校准样本,从而使样本总数校准集达到1000个(或1500份),以使校准集样本的得分分布更具代表性。这种聚类使用基于变压器的双向编码器表示(BERT)方法将构成的内容抽象为语义向量,然后基于语义向量作为聚类的基础来计算不同样本之间的相似度。该方法采用k均值聚类算法(K-means)。经过多轮迭代计算和更新,形成K个聚类中心(K的值通常在20-30之间),然后计算每个对象。每个种子聚类中心之间的距离,将每个对象分配给最接近的聚类中心它。然后从K个类别中,每个类别平均选择500 / K(或1000 / K)论文,并确保补充样本的得分分布与预设的补充目标比率相同。这种对标本进行细分和补充的方法,可以更具体地扩大标本采集范围,充分体现标的覆盖率,不同水平的标本覆盖率等诸多因素,最大程度地满足实际需求。在这里,我们对中文成分进行了校准,并给出了相应分数段的参考值及其比率:
得分间隔:[0,30](30,36](36,40](40,45](45,50](50,60)
抽样比例:6%10%14%24%24%22%
四、改进和改进
1、加强对人工智能技术本身的研究及其在评分和标记工作中的应用。现有的蓬勃发展的图像识别技术和字符识别技术使人工智能能够参与各种检查。
可以评估应用程序,但是一旦涉及到应用程序级别,人们不仅会关注结果,而且会关注新技术涉及的所有内容。例如,经过比较,我们发现,在回答问题,候选人在方格中写文章和在开放区域中写文章,在带下划线的区域中回答问题以及在开放区域中回答问题方面,转录识别的准确性都不尽相同,前者将高于后者。在开放区域中,公式,符号,数学证明,计算和其他答案的识别率仍有提高的空间。这些是经理们需要考虑的问题。在评分准确性方面,我们通过比较发现,在人机评分差异较大的样本中,尤其是在机器评分大于手动评分的样本中,手动评分的准确性高于智能评分。复习和评分后,向下修正诸如干副本问题和类似答案之类的异常样本的分数。因此,在人工智能全面参与高考卷的过程中,还有更多关键技术需要突破。
2、加强结合在线标记的人工智能规范研究。现行的在线评分技术标准一直遵循2008年颁布的“国家教育考试在线评分的临时技术规范”和“国家教育考试在线评估”。数量统计测量的临时规范。随着人工智能技术和其他新技术的突破,越来越多的公司将参加教育考试及其标记工作,并对现有的在线标记技术服务提供商提出越来越高的要求。作为管理部门,我们的重点是应用,即标记方法的改进及其改进的意义,以增强对标记质量,效率,成本和科学性的全面控制。为此,克服现有在线评估系统的固有缺陷,加强对人工智能辅助在线评估的规范研究将成为一个非常重要的研究课题。在2018、2019年高考论文阅卷过程中,安徽省积极探索人机集成智能在线阅卷的实施过程。首先增加的是人工智能辅助的在线标记质量监视功能。第二步将实现。它动态地提醒了被测者在评分过程中的异常反应信息,包括对教师评分界面的调整等。第三步是研究人为整合后在线评分组织和管理方式的变化。和机器。努力形成成功的经验,可以通过不断的实践和创新来复制和推广这些成功的经验。
3、加强对应试者分数分析和评估的研究。人工智能评分是在转录和识别应试者原始图像答案信息后分析应试者的分数,并以文件形式保存应试者答案的基础。同样,我们可以使用人工智能方法介绍课程标准,知识结构,答案,解决问题的思路,参考等级,专家结论等,以构建考生的绩效分析和评估模型,并采取更具针对性的方法给每个应试者。分析,清楚地告知应试者哪些科目具有能力和存在哪些学习问题,然后将考试分数更改为分数报告,以在更高级别反映考试的价值和功能。在此基础上,还可以通过对所有应试者的回答信息进行大数据分析,为教学和考试研究提供更多的材料,对促进教育改革发挥积极作用。
五、成就统计列表
研究小组的结果清单