李俊娴
(陕西交通职业技术学院 轨道交通学院, 陕西 西安 710018)
为提高工作效率,面对英语机考作文评分,设计了许多功能性质不同的自动评分系统。其中,文献[1]提出,基于智能推荐模型,设计一款可以自动评分的系统;而文献[2]通过探析英语作文的语句语义,选择自动评分系统的实现路径。两个传统设计下的自动评分系统,都可以对机考英语作文进行自动评分。但在实际使用时,发现传统的自动评分系统存在识别缺陷,因此结合多特征融合技术、机器学习理论,设计全新的英语机考作文自动评分系统是有必要的。多特征融合就是发现英文词汇之间的隐性特征,将隐性特征与显性特征融合使用,以此实现研究目的。机器学习理论就是根据机器智能学习的特点,利用其中的算法获取文章语义,以进行文章的评分工作[3]。此次设计的自动评分系统,充分利用多特征融合和机器学习理论,实现对传统评分系统的优化。
英语机考作文自动评分系统,在原有系统硬件的基础上,重新设计ZigBee接收机的控制电路,因为ZigBee接收机具有低数据率、低功耗和低成本等特点,应用其数字自动增益模式,可以实现系统对英语作文评分的实时反馈。ZigBee接收机设计过程如下。
已知该电路包含增益放大器、峰值检测器、环路滤波器以及数字自动增益控制器。原有控制电路在动态范围内,用数字控制信号调节评分结果。设计的自动评分系统控制电路[4],如图1所示。
图1中,LNA表示低噪声放大器,利用该硬件转换英语作文扫描信号;R[1:0]表示数字控制信号,由数字模块AGC控制产生,当R[1:0]为“00”时,则LNA增益为-2 dB;当R[1:0]为“01”时,则LNA增益为14 dB;当R[1:0]为“11”时,则LNA增益为30 dB。峰值检测器将该设计中的模拟电路和数字控制模块进行连接,提取输出电压幅度VGA,当峰值检测器输出5位字长的结果时,该结果经过环路滤波器后,此时信号进入DAGC模块,该模块集成在数字基带处理器中,根据检测器提供的结果,输出9位长的控制信号,其中7位控制VGA,剩余的2位则用来控制LNA。至此基于原英语机考作文自动评分系统硬件,设计全新的控制电路[5]。
图1 ZigBee接收机控制电路示意图
目前多特征融合技术可以用于跟踪目标,当英语作文内的语句或词汇具有一定程度的相似性时,可利用该技术跟踪与评分标准相似的英文词汇。假设单个标准评分词汇的特征为xi(i=1,2,…),由于语义的变化,特征xi对跟踪目标的描述能力也在实时变化,为度量特征xi对目标词汇的描述能力,引入度量函数Ω(*),对每个特征xi进行特征权重计算,该权重可用ωi表示[6-7]。对指定的英文作文评分阈值β0进行多特征融合,并利用融合策略C构建多特征融合目标集合K。已知目标跟踪过程中,通过度量不同特征的描述能力,获悉不同特征英文词汇之间的互补状态,同时剔除某个待评分词汇跟踪目标的可靠性,得到一个与评分标准相似的英文词汇目标集,重复上述过程,多特征融合技术应用下,自动评分系统跟踪英文词汇的状态图[8],如图2所示。
图2 多特征融合跟踪
图2中,K表示在机考英文作文中,对词汇的多特征融合跟踪结果,该值计算式为式(1)。
K=(Y∪X)fi
(1)
式中,Y={y1,y2,…,yi}表示与X={x1,x2,…,xi}相对应的英文作文跟踪问题;f1,f2,…,fi表示与跟踪数据一致的多特征融合跟踪系数[9]。
利用多特征融合技术,令自动评分系统中的自动评分模块跟踪作文中的英文词汇,实现对全篇文章的数据跟踪。
(2)
式中,similarity表示词汇之间的相似度;n表示形成映射关系的英文词汇量;i表示词汇数[11]。
自动评分系统中,对于相似度不同等级的词汇,有不同程度的评分标准,此次设计的自动评分系统,如表1所示。
表1 词汇使用评分标准
当该计算结果similarity≥0.6时,说明机考作文中使用的英文词汇,与评分标准词汇之间的相似度较高;当similarity的值越接近1时,则证明文中的词汇越高级,可按照满分标准给分;当0.5≤similarity<0.6时,说明使用的词汇虽然较为低级,但在进行总体评分时,可以按照IV等级酌情给分;当similarity<0.5时,说明文中使用的英文词汇并不符合语义或语境,词汇评分时,该词汇不给分[12]。
根据上述计算过程,实现多特征融合技术跟踪英文词汇条件下,对机考英文作文词汇的相似度计算,根据该值,设计自动评分系统的评分逻辑。
为设计英语机考作文自动评分系统,依据机器学习理论,设计系统的自动评分逻辑。机器学习理论中,逻辑回归算法作为复杂度较低的机器学习算法,可用于设计自动评分逻辑[13]。
已知该算法的一般控制步骤如下。
(1) 初始化权重w;
(2) 依据映射关系,判断评分逻辑复杂度;
(3) 依据评分逻辑与词汇使用评分标准,计算评分结果,判断结果是否满足度量函数,是则收敛,否则不断重复第3步;
(4) 计算算子,并更新权重w;
(5) 返回最后的权重w。
已知逻辑回归算法的条件概率分布,如式(3)。
(3)
(4)
联立式(3)和式(4),根据式(2)得到方程,如式(5)。
(5)
式(5)中,输出Y的对数几率,可以由输入值x的线性组合表示,考虑对输入值x的线性函数wx,其值域为实数域。此时可知,当wx→+∞时,则概率P→1;当wx→-∞时,则概率P→0[15]。至此根据多特征融合和机器学习理论,实现对英语机考作文自动评分系统的设计。
根据已经设计出的英语机考作文自动评分系统,测试并分析该系统的评分性能。为了令实验结果更具说服性,同时引入另外两种传统的自动评分系统,比较三个分组的评分差异。
选取了某省某中学高二A班的58名学生为实验对象,随机平均分为三组,其中高二A班1组为实验组,高二A班2组、高二A班3组为对照组,实验周期为一学期,这些学生的基本信息如表2所示。
表2 测试对象基本信息
根据表2中信息可知,该班级内学生的英语水平参差不齐,统计这些学生在英语作文板块的得分情况,已知有一部分学生的英语作文成绩相对偏低。因此以学生不同的英语水平为测试背景,随机给出一个英文题目,让班内的学生在规定时间内,上机作答,学生的英语考试机考登录界面,如图3所示。
图3 英语考试机考登录界面
按照上述要求填入学生基本信息,注册成功后打开考试板块,开始测试。学生在规定测试时间内,将考卷提交,等待评分。将此次设计的评分系统、两个传统的评分系统下载到三台评分计算机内,同时载入此次英文考试的58份试卷,分别利用3个分组,自动为58份考卷进行评分。已知所有系统的评分标准一致,其中英语作文的分值为30分,其评分要求如表3所示。
表3 系统评分要求
表3中是未跑题、跑题两个类型英语作文的评分标准,系统进行评分时,按上表中的要求打分。实验将此次设计自动评分系统的打分结果作为实验组;将两个传统设计下,自动评分系统的打分结果,分别作为对照A组和对照B组。已知人工评分得到的未跑题英语作文数量为47篇,跑题作文数量共8篇,其余3篇由于学生答题速度较慢,并没有写英语作文,因此本次实验测试以55篇文章为标准。55篇英语作文的人工评分结果,如图4所示。
图4 英语作文人工评分结果
图4中,未跑题的英语作文得分人数,分别为0人、1人、14人、19人、8人和5人。根据图4中的数据比较不同评分系统的测试结果。
3个分组对同一英文试卷未跑题作文的评分结果,如图5所示。
图5 未跑题作文结果分析
根据图5可知,3个分组都能按照设定的评分要求,得到与人工评分较为相似的结果。3个分组的评分结果统计,如表4所示。
表4 系统评分结果统计
由于系统之间的差异性,可能导致学生的得分有些许出入,但并不会影响过大,可以忽略不计。根据表中结果可知,3个分组都能按照评分标准,得到与之相似的评价分数。再对剩余的8篇跑题作文得分情况进行分析,结果如图6所示。
图6 跑题作文结果分析
根据图6可知,3个评分组对跑题作文的评分存在巨大差异。
统计3个分组对每一篇跑题英语作文的评分结果,如表5所示。
表5 跑题作文的系统评分统计
根据表5可知,实验组严格按照系统评分标准,其结果也与人工组无太大差异。而两个对照组中的数据,得分未按照未跑题评分标准给分,完全忽略8篇英语作文的跑题问题。由此可见,此次设计的系统,可以充分区分跑题与未跑题英语作文,得到准确的评分结果。
在英文作文中,关键性词汇的使用情况影响到评分的高低,因此,对系统的关键性词汇识别的准确率提出更高的要求。采用9篇英文作文作为实验对象,通过测定3种系统对各组作文的关键性词汇识别的误码率,结果如图7所示。
图7 关键性词汇识别的误码率对比
通过图7可以看出,对照组的关键性词汇识别的误码率均在4%以上,本研究的误码率在2%左右,较传统方法对关键性词汇识别的准确性更高,可以更有效地对英文作文做出评价。
综上,本研究系统可以准确区别英文作文的跑题情况,严格按照评分标准给分,结果较传统方法与人工组更相近。在对英文作文的关键性词汇识别中,本研究系统的误码率较低,整体给分的准确性更高,具有更好的应用效果。
(1) 英文词汇与中文词汇的差异极大,因而在进行机考时,系统难以准确判断其是否跑题,从而得到实际分数,对此,进行多特征融合和机器学习理论的英语机考作文自动评分系统的设计。
(2) 在参考传统自动评分系统的基础上,计算目标词汇和评分标准词汇之间的相似度,设计系统的自动评分逻辑,实现对于写作主题差异极大的英语作文的精确评分。
(3) 但该系统在硬件设计上并没有很大改进,今后的设计与优化可针对评分系统硬件进行改善,例如,将整体硬件结构分为多个模块,如主界面模块、用户登录模块、电源电路模块、指令接收、转发模块等。