基于文本挖掘的主观类型电子作业智能辅助评分方法研究

2023-11-09 10:50张大为王琦菲

微型电脑应用 2023年10期

张大为, 王琦菲

(辽宁师范大学,计算机与信息技术学院,辽宁,大连 116000)

0 引言

提高教学质量是高等教育发展的核心任务,也是建设教育强国的基本要求[1]。为了提高教学质量,必须在教学环节中正确认识课程作业的重要性。课程作业的布置和批改是教学过程中的基本环节:一方面有助于学生巩固所学知识、了解阶段性学习效果、提高学业成绩、修正日后的学习规划;另一方面还可以帮助教师了解教学成果、调整教学进度,是改进教学和开展教学活动的重要依据[2]。由此可见,客观合理的作业评价是提高教学质量的必要条件。

主观类型作业在教育测量方面具有以下两个优点:一是有利于考察学生更深层次的能力;二是方便检验学生对课堂知识的综合掌握程度。但主观类型作业具有文档特征:一方面该类型作业开放性更强,写作排版风格统一困难,完成质量差距更大;另一方面易受评阅人知识水平、心理活动等主观因素影响,难以保证评分的客观准确性[3]。教师长时间高强度地评阅作业,很容易产生视觉和精神疲劳,进一步影响评价结果的准确性。教师为作业的评阅付出大量的时间和精力,势必会对教学和科研产生影响,故将评阅工作智能化、自动化、便捷化是当前的趋势,也是亟待解决的问题之一[4]。

随着人工智能的发展,自动评阅技术逐渐成为研究热点。文本挖掘技术是从诸多复杂的非结构化文本数据中获取隐形、有用的数据信息,进而实现文本数据自动化处理的技术[5]。利用文本挖掘技术处理文本数据的能力,设计实现自动化文本作业评价方法,辅助教师给出客观合理的评价结果是充分利用主观作业帮助提高教学质量的关键,具有重大研究意义。

1 相关工作

国外对主观题的自动评分研究早于国内,包括使用浅层文本分析方法的PEG作文评分系统[6];通过解析候选答案,设计并匹配对应评分模板,实现开放型自动批改系统Auto Mark[7]等。受中文的复杂性和独特性等因素影响,现有的国外研究成果不能直接应用,且对于答案开放的主观题自动评分的研究较少。陈贤武等[8]以语义为核心,建立多特征语句的相似度模型,设计一个面向主观题的自动评阅系统。吴芳颖[9]采用双向Bi-LSTM和CNN-LSTM对文本进行建模得到两个向量,并对其进行相似度计算预测文本质量。

上述评分方法效果较好,但大多为有标准答案的简答题或无参考答案的作文,且应用成本较高,无法运用于开放型主观作业的在线评阅。本文提出的ASM评分模型及其软件实现不需要提前预设答案或评分模板即可实现自动评阅,提高评阅效率和客观性。通过近10年的实践表明,自动作业评价结果在教师和学生两个维度的满意程度均达到98%以上。

2 相关技术

2.1 文本预处理

作业文本需要进行预处理,将其标准化和格式化,即数据清洗[10]后,才能对各项评价指标评分。首先要对每份作业(以下简称样本)进行读取并分词处理,然后建立学科领域停用词库,过滤停用词,最后统计词频,生成“文档-词频”矩阵,记作D:

(1)

其中,D的每一行表示一个样本,即第i行表示第i个样本,记作doci。D的每一列为特定词语的词频,例如docij表示第i行的第j列,也就是指第i个样本的第j个词语的词频。m为样本的总数,n为所有样本词语集合的大小。

2.2 余弦相似度

余弦相似度指的是在向量空间中通过计算两个向量之间夹角的余弦值来度量其相似程度[11]。本文使用余弦相似度计算两个样本之间的相似性,计算公式为

(2)

其中,docik和docjk分别为样本doci和样本docj在“文档-词频”矩阵D中第k列对应的词频。当余弦相似度值越接近1时,两个向量之间的夹角越接近0°,其相似度越大。

2.3 TextRank主题词提取

TextRank本质是一种基于词图模型的排序算法,具有较好的关键词提取效果,在一定程度下接近有监督方法的效率。TextRank算法将文本抽象为词图模型记作G=(E,V),其中V为节点集,即由候选关键词矩阵组成,E是利用共现窗口构建图中两节点之间的边,迭代计算每个顶点的权值,收敛时权值排名在前的点即为文本关键词[12]。每个顶点权值的计算公式为

(3)

其中,d为阻尼系数,vi和vj均为词语节点,ln(vi)是指向词语节点vi的词语节点集合,Out(vj)是词语节点vj指向的词语节点集合。

3 主观文本类型作业智能辅助评分模型

主观文本类型作业智能辅助评分模型Automatic Scoring Model(ASM)的基本内容是构建核心评价指标,并给出不同作业的合理的评价方法,流程如图1所示。首先对所有作业进行预处理,得到词频矩阵。然后根据作业类型组织适用的评价指标,最后生成评分公式并计算成绩。

该模型的合理性前提是每份作业所具有的独立性。所谓作业独立性,就是我们在布置作业时要求的每份作业必须由作业完成人独立完成。如果某份作业不具备独立性,可以通过相似度指标和主题贴合度指标进行识别和排除。当所有作业具有独立性时,几乎不可能出现所有作业工作量相同的情况。作业独立性是工作量指标和篇幅结构指标能对作业进行合理评价的前提和基础。工作量和篇幅结构指标(量化指标)与主题贴合度和相似度指标(决定性指标)形成互相制约的评价体系。也就是说,某作业完成人(个人或团队)希望通过突出某项评价指标而获得高分的行为在现实中很难实现。

3.1 相似度评价指标

通过相似度评价指标Similarity Index(SI)可以有效地检测出一次提交的所有作业中是否存在过度雷同的作业。首先采用式(2)计算doci与其他作业的余弦相似度S(doci,docj),取最大值作为doci的相似度值,计算公式为

JSi=max{S(doci,docj)},1≤i,j≤n,i≠j

(4)

其中,doci为第i份作业,docj指与doci同组的不同作业。JSi表示第i份作业的相似度值。相似度指标值的计算公式如下:

(5)

其中,SIi为第i份作业的相似度指标值,0或1的取值使该指标具有决定性,k为判定SI取值为1或0的阈值,k值的大小根据作业的特点和对作业的要求不同而不同,需要根据经验做适当的尝试和调整。如主题发散型作业的k值取0.98左右,主题聚焦型作业的k值取0.95左右。

3.2 主题贴合度评价指标

通过主题贴合度评价指标Theme Index(TI)判断一份作业是否存在“张冠李戴”或“滥竽充数”的情况。首先采用式(3)计算所有作业的核心关键词,取一定比例的词频排名靠前的词作为本次作业的核心词AC。然后根据式(3)计算每份作业doci的核心词DCi,同时根据式(2)计算DCi与AC之间的余弦距离作为作业doci的主题相似度值TSi。相似度指标值TIi的计算公式如下:

(6)

其中,TIi为第i份作业的主题贴合度指标值,0或1的取值使该指标具有决定性,t是判定TIi取值为1或0的阈值,t值的大小根据作业的特点和对作业的要求不同而不同,需要根据经验做适当的尝试和调整。如主题发散型作业的t值取0.2左右,主题聚焦型作业的t值取0.5左右。

3.3 工作量评价指标

通过工作量指标Workload Index(WI)来判断作业完成工作量的多少,是最终成绩的重要组成部分。首先利用正则表达式统计作业doci的中文、英文和其他字符数量,将过滤停用词后的中英文词数之和作为有效字符数Wi。然后去掉集合{Wi}中一定比例的最大值和最小值,计算剩余部分的平均值Wa作为所有作业的工作量修正平均值。最后按下面公式计算工作量指标值:

(7)

其中,WIi为第i份作业的工作量指标值。当Wi小于Wa时,WIi成绩随着Wi减少而减少,即WIi值取Wi和Wa的比例。当Wi大于或等于Wa时,WIi的值为1,表示该作业达到平均工作量的基本要求。

3.4 篇章结构评价指标

篇章结构评价指标包括图片指标Figure Indicator(FI)和中英文比例指标Ratio Index(RI),其目标是评价作业中图表、程序代码等内容组织的合理性。首先利用正则表达式统计作业doci中的图片数量Fi、中文词数Ci和英文词数Ei,并计算中英文比例Ri=Ci/Ei。然后计算Fi和Ri的修正平均值Fa和Ra(具体计算方法参考Wa)作为评价基准值。篇章结构评价指标FI和RI的计算公式如下:

(8)

(9)

其中,FIi为第i份作业的图片指标值。当Fi大于Fa或Fi小于Fa时表示该作业的图片数量过多或者过少,FIi值变小。只有Fi接近Fa时,表示该作业的图片数量符合平均数量,FIi值接近1。

中英文比例指标RI作为可选指标,主要用于评价以中文为主的作业。RIi为第i份作业的中英文比例指标值。当Ri小于Ra时表示该作业的英文过多,此时RIi=Ri,即RIi成绩随着Ri减小而减少。当Ri大于或等于Ra时表示该作业主要以中文描述为主,取值为1,表示作业内容符合文字比例要求。

3.5 综合成绩计算

上述评价指标依据其评价方式和性质,分为决定性指标和量化指标两个类别。其中,决定性指标采用乘法原则,量化指标采用加法原则。第i份样本的成绩SC(Score)计算公式如下:

SCi=Total×SIi×TIi×(a×WIi+b×FIi+

c×RIi),0≤a,b,c≤1,1≤i≤n

(10)

其中,Total为评分分值,n为样本数量,a、b、c均为指标所占总分值的比例,根据作业要求不同,可以做适当的组合调整,符合a+b+c=1即可。

4 实验与结果分析

本研究工作已经在我校计算机科学与技术专业的软件工程、软件工程课程设计、JavaWeb高级编程等3门课程的作业评价中尝试应用和改进多年。实验选取我校2015级至2018级上述课程的作业作为实验数据,作业详细信息以及实验所采用的评价参数如表1所示,每组作业在40～60份之间,一共20组,合计1049份。

表1 作业类型及其评分参数表

为了验证ASM模型的评分有效性,每份作业由5人评价,取平均值作为人工评价结果,并从指标得分相关性、个人成绩标准差、人机评分结果分布图、人机评分相对误差等4个方面进行分析论证。评价系统及实验分析可以参考网站:https://willow.net.cn/score。

4.1 指标得分相关性分析

最终成绩由指标SI、TI、WI、FI和RI共同参与计算完成,使得最终评分结果的合理性与上述指标的综合贡献有着直接关系,这意味着各项指标与最终成绩的相关性越强,评价结果越合理。对SI和TI的识别正确率进行统计,所得结果见表2。

政府作为国家组织的具体形式，对一个专业社会地位的确立发挥了极为重要的法权作用，离开了政府赋权以及与此相关的外部保障条件，专业工作者及其专业组织就很难争取到自身合理的利益，正是由于政府行动的渗透，使得某些不具有专业地位的职业不断提升自主权，取得合法性专业资格[18]。政府作为专业化框架的实施主体，最重要的作用体现在政府的顶层设计上，将指导和规范体育教师教育专业化体系建设。只有当国家规定了所有主体的角色时，建立在社会合作关系的原则基础上的体系才能运转起来[19]。因此，需要政府来进行整体的规划，完善有关法规制度，建立合理的配套机制并提供一定的财政支持来促进专业化框架的构建。

表2 识别正确率情况统计报表单位:%

由表2可知,随笔、需求、实验报告1、实验报告2的SI正确率均为100%,课程设计SI的正确识别率为99.53%。即针对同组作业大篇幅抄袭现象能够有效地识别,存在少量的误判是由于课程设计的文本内容相对集中造成的。全部作业的TI正确率为99%以上,即总体表现良好。存在少量误判现象是由于部分样本主题较为分散造成的。例如需求的作业中,可能包含“订餐管理系统”,也可能有“图书管理系统”。随笔作业看似要求发散,但学生提交的作业内容非常相近,通过其TI正确率100%也可得到体现。严格设定SI和TI的阈值k和t可以有效防止漏判,对于误判作业可以通过人工复查加以纠正。

针对指标WI、FI和RI检验是评价指标值与最终成绩之间的相关性是否合理,结果见图2。

图2 WI、FI和RI指标值与其对应成绩关系图

由图2可知,WI和RI的机器评分与对应的指标值并不完全呈线性增长关系,其成绩分布受到样本内部修正平均值的影响,反映样本内相对成绩,即当指标值超过修正平均值时,纵坐标趋于水平不再增长,表示该指标成绩为满分。这种非完全线性的指标成绩相关性与理想的评价预期更为接近。

4.2 个人成绩标准差分析

对个人所有作业成绩标准差进行分析。例如,A同学学习成绩稳定,每次提交作业的评分趋于平稳,则A同学所有作业成绩的标准差趋于合理。如果B同学提交作业自动评分的标准差过大,表明每次作业的得分偏差较大。标准差过大的原因可能有两种:一是该同学学习成绩不够稳定;二是自动评分存在误差。个人成绩标准差RMSE计算方法如下:

(11)

其中,Pi和P分别为该学生第i份作业成绩和全部作业平均成绩。统计所有学生RMSE的分布情况见图3。

图3 所有学生个人成绩标准差分布图

由图3可知,RMSE在20以下的学生占82.18%。对于RMSE在20以上的学生,经过人工复查均存在描述型作业分数较高,实验类型作业分数偏低这一现象,即反映出学生综合实验能力的不足,教师需要在教学过程中着重培养学生的实验分析能力。综上所述采用ASM模型的评分结果合理有效,可以很好地反映出学生的综合水平和学习效果。

4.3 人机评分对比分析

主观类型作业即使人工评分也会存在一定误差。统计人机评分在不同分数段上的样本数量见图4。分析二者的趋同性,如果二者的趋势有很大不同,说明各个分数段上的人数差距过大,表明人机评分结果的分歧较大,反之同理。

图4 人机评分在不同分数段上的作业数量对比图

由图4可知,描述型作业如随笔、需求,仅考察SI、TI和WI三项指标,故大部分学生可以拿到较高的分数,且人机评分结果分歧较小。而针对实验报告类型作业,对比机器评分增加的篇章结构指标FI和RI,人工评分对这两个指标的判别更加模糊,易受到各种因素的干扰,无法做到像机器评分一样的精准性。因此采用ASM模型得到的评分结果在主要分数段基本呈线性分布,在全部分数段趋于正态分布,即两边分数段的作业数量较少,中间分数段的作业数量较多。因此,本文提出的ASM模型自动评分结果更具客观性。

4.4 人机评分相对误差分析

(12)

其中,Ai和Pi分别为第i份作业的人机评分结果,n为样本大小,s为作业分值。计算20组样本的MAE见表3。

表3 20组样本人机评分的平均相对误差表

由表3可知,部分人机评分的结果具有一定的差距。分析MAE较大的原因有下几点。

(1) 文本主观类型作业比其他短文本主观作业具有开放性更强、篇幅更长、写作元素更多等特点,人工评阅过程中难以统一评分标准,导致评分结果主观性过强。

(2) 针对抄袭或偏离主题的作业,教师可能会根据具体写作情况给予一定分数,而ASM模型的评分结果直接为零。

(3) 人工评阅时容易受到字体、格式、排版风格等因素影响,评分结果存在一定主观性,ASM模型通过对篇章结构的评分结果更加客观合理。

5 总结

本文针对人工方式评阅文本主观作业时存在的问题,提出了一种基于文本挖掘的智能辅助评分模型,可针对不同类型作业组织适用的评价指标。通过实验分析表明,ASM模型评分更加客观公正、准确高效,弥补了以往人工评分存在的局限性。作为主观类型电子作业的辅助评价方法,本系统具有推广应用价值,对提高教学质量有着重大意义。