崔荣一, 赵亚慧, 崔 旭, 尹哲峰, 张振国
(延边大学 a. 工学院; b. 教务处, 吉林 延吉 133002)
现代数量统计方法已在高校教学质量评价中使用并在不同程度上取得了一定效果[1,2], 但这些方法仍然存在很多不完善的地方, 在确定各项评价指标的权重方面有一定困难, 通常凭借专家经验的评估, 导致评估主观随意性大, 评价结果的客观性与合理性欠佳。传统的评价方法是[3-5]: 给定评价指标体系, 其中每个评价指标被赋以确定的权重, 以表现该指标对结果的重要程度。评价者通过观察和分析给被评价者的各项指标打分, 各指标的分值与权重相乘后累加作为总的分值, 最终按事先确定的划分规则由总分推定评价结果。这种评价模式存在以下两方面的固有缺陷。
1) 线性。传统评价模型的本质是: 评价结果为各项评价因素的线性组合。但因素的线性组合是体现结果最简单的方法, 不能解释因素与结果之间的复杂联系。教学活动中各因素对结果的作用远超过线性关系所能表示的简单机制。
2) 静态。传统评价模型中对各因素的权重是根据经验设定的固定值, 不随时间、 数据而变化。通常不同阶段各因素之间的相对重要程度是不同的, 传统模型无法从收集的数据中发现因素重要性的变化, 也无法自动确定不同时期各因素的权重。另外, 静态方式无法克服确定权重时人为因素影响。
人工神经网络是实现任意函数的映射功能的非线性机制[6-9], 它利用训练算法(如, 经典的BP算法)匹配给定的训练数据。因此人工神经网络是解决非线性和动态性的有力工具; 而Boosting是一种提高任意给定学习算法准确度的有效方法[10-12], 可用于产生准确的评价结果。
笔者研究教学质量的智能评价方法, 通过引入人工神经网络技术打破上述两方面的限制, 并利用Boosting法集成多个子评价器, 构建准确率高的评价器, 揭示因素与结果之间的复杂关系以及这种关系随给定时期训练样例集的变化而变化的动态性质, 使评价器产生的结果客观、 合理、 鲁棒, 同时可以评估各项评价指标的有效性。
在教育理论和实践经验指导下, 经过调研、 分析和归纳, 可构建影响教学效果的若干因素, 在评价体系中称为指标, 笔者中称为评价因素。由n个因素构成质量评价关键因素集
F={f1,f2,…,fn}(1)
关键因素集F中各因素具有相同的最大得分值M, 即
0≤fi≤Mi=1,2,…,n(2)
评价系统采用百分制时:M=100, 每个指标所得分值范围为0~100。
传统的教学质量评价方法是让评价者针对被评价教师评价关键因素集F中的各因素打分, 最后进行加权平均, 以此作为对教学质量的评价结果。
各项评价指标具有确定的权重, 组成权向量
W=(w1,w2,…,wn)T(3)
归一化条件为
(4)
其中wi为关键因素集F中指标fi的权重, 表示该指标的相对重要程度。对评价实例j, 教师的各项指标得分值形成得分向量
Xj=(xj1,xj2,…,xjn)Tj=1,2,…,J(5)
其中xji为该实例中指标fi所得分数, 取值范围为[0,M];J为评价实例总数。传统评价模型是一种线性评价模型, 即实例j的评价结果是各项指标得分值的线性组合
sj=WTXj(6)
上述结果的取值范围为[0,M](M为各项指标得分上限, 见式(2))。
定义映射函数E将评价得分值(6)映射到[0,3]
E(x)=min([4x/M],3)x∈[0,M](7)
其中[·]表示取整。上述函数值0~3分别对应于4个区间: [0,M/4),[M/4,M/2),[M/2,3M/4),[3M/4,M], 分别对应于定性评价结论: “不合格”、 “合格”、 “良好”、 “优秀”。因此, 传统评价模型下实例j对教师的评价结果
ej=E(sj)(8)
ej在[0,3]中取值, 分别对应于评价结果“不合格”、 “合格”、 “良好”、 “优秀”。笔者将ej作为实例j的人工评价值。
为实现智能评价功能, 必须通过以下措施克服传统评价模型的缺陷。
1) 引入因素到结果的非线性映射机制。为在评价机制中引入人类所具有的智能特性, 需以非线性变换模拟人类智能行为, 这样可反映因素与结果之间的复杂关系。同时, 非线性能保证评价结果对个别因素的局部微小变化(包括不恰当的量化评定)和噪声数据具有一定的抵抗能力, 保证评价系统具有良好的稳定性。
2) 实现因素集与评价结果之间关系的动态性。根据每学期发生的学生对教师的评价数据、 教师同行之间的评价数据, 通过机器学习方法确定当前阶段各项评价因素对评价结果的作用参数, 使动态权重能够适应不同时期的评价取向。同时, 动态性能够有效地克服人为主观因素局限性, 实现评价体系良好的自适应能力。
这种智能化评价模型具有以下优点:
1) 揭示因素与结果之间的复杂关系, 使得评价结果更加客观、 合理;
2) 因素与结果之间关系的动态特性, 一方面能够更准确地匹配当前教师与学生的评价数据, 另一方面能分析发现不同时期各项评价因素对评价结果的重要程度;
3) 经过训练后获得的评价模型能根据当前数据对教师教学行为进行预测性评价, 其结果反映当前阶段师生的评价趋势;
4) 对各项因素测量值的微小误差具有一定的抗干扰能力, 保证评价系统的稳定性。
笔者采用人工神经网络实现智能评价模型, 称之为评价器。该评价器包括结构相同的3个BP(Back Propagation)神经网络, 称为子评价器(见图1), 因此评价器由子评价器集成而成。评价教师教学质量时3个子评价器同时工作, 并采用Boosting协同判决规则决定最终评价结果。
图1 集成评价器示意图Fig.1 Diagram of ensemble evaluator
每个子评价器BP神经网络有n个输入节点, 对应于评价指标F;m个隐层节点和4个输出节点(见图2)。
输入层的作用是接收对某教师教学质量评价的各项评价因素的分值, 这些分值由评价人员确定(同行或学生)。隐层的作用是提取各项评价因素的特征, 反映给定评价分值所包含的内在特征, 并采用sigmoid函数进行非线性变换后输出。输出层对每个隐单元输出进行线性组合之后产生评价结果。按照前馈网络的表征能力, 这种网络结构可逼近任意有界连续函数。
图2 子评价器BP神经网络结构图Fig.2 BP-ANN structure of sub-evaluator
隐单元的个数m没有理论上的结论, 可根据特定算法或经验值确定[13-15], 而4个输出单元对应于不同评价结果。4个输出单元的输出yi(i=1,2,3,4)按以下方式进行处理得到归一化输出
(9)
(10)
(11)
当4个输出单元中只有一个单元的输出为1(或接近于1)而其余单元的输出为0(或接近于0)时, 输出1对应评价结果, 即图2中4个单元中输出为1 的单元对应的结果即为评价结果(“优秀”、 “良好”、 “合格”和“不合格”)。如果有多个单元输出值较大且接近, 就无法断定结果, 此时评价器的输出为无效输出。
归一化输出构成输出向量
(12)
有效输出向量中有且仅有1个分量为1, 其余3个分量为0。对实例j, 式(12)表示的归一化输出构成目标输出向量
(12)′
有效输出向量与式(8)所示实例j的目标值之间的关系如表1所示。
表1 实例j的目标输出向量
训练阶段按上述对应关系设置目标输出向量值。
笔者通过采集和整理学生与同行教师评价的基础数据, 并利用传统评价模型构造评价器的训练样本集。评价实例j提供的训练样例为
(13)
D={d1,d2,…,dJ}
(14)
其中J为训练样例总数。
由于归一化输出(9)具有概率性质式(10)和式(11), 因此, 可通过以下输出熵判定评价器输出是否有效
(15)
其中log为以2为底的对数。由熵的性质可知
0≤H≤2
(16)
当输出熵很小时, 即H<ε
(17)
输出分布趋于确定, 即只有一个单元输出接近于1, 而其余单元输出接近于0, 评价器给出有效输出, 对评价结果进行确定性判定。当输出熵H接近于最大值2时, 4个输出相互接近, 评价结果完全不可确定。根据对数函数性质可以给出表2所示的输出熵与输出分布之间的关系。其中典型输出分布模式是指某些单元的输出较大且相互一致而另一些单元的输出很小的输出情况, 其中不考虑输出值的排列顺序; 典型输出单元个数是典型输出分布中输出值较大的单元数。
表2 输出熵与输出分布之间的典型关系
由表2可见, 当式(17)中的ε远小于1时典型输出单元个数趋近于1, 4个单元输出中的有1个输出明显大于其他单元的输出, 从而进行确定性判定。
评价器训练策略如下。
Step1
从样本集D中不放回地随机选取JA≈J/3个样本组成样本集DA, 根据DA训练子评价器A(记为EA); 只要求EA是弱分类器, 错误率小于50%即可。
Step2
产生0~1随机数R
1) 若R=1: 随机选取DDA中的样本连续送入EA进行测试, 当遇到第1个被错判样本时, 把它加入训练集DB, 并重复本步骤。
2) 若R=0: 将把被EA正确判定的样本加入训练集DB。
3) 产生的样本数JB≈J/3时停止, 按此方法构建的DB中的50%被EA正确判定, 而50%被错判。
Step3
利用DB训练子评价器B(记为EB)。
Step4
在(DDA)DB中选取样本, 并用EA和EB进行测试: 若EA和EB的判决结果不同, 就把该样本加入DC, 否则忽略该样本, 然后利用DC训练出子评价器C(记为EC), 这一策略的目标是提高准确率。集成效果增强了准确率, 每个子评价器的训练都选择已有的其它各子评价器所给出的最富信息的样本进行。
评价教师教学质量时, 对新的评价实例x, 3个子评价器按以下Boosting规则运行并给出评价结果。
1) 若EA和EB判定结果相同, 则x的评价结果就是这个判定结果。
2) 若EA和EB判定结果不同, 则x的评价结果就是EC判定的结果。
利用某高校2013年度至2015年度全校期末成绩和学生与教师同行的评估数据, 进行了3年的实践应用和验证测试, 并收集评估结果达不到满意度的样例, 作为进一步训练的样本数据反复训练评价器。所获得结果的合理性和客观性符合教师、 专家分析结果, 达到了预期目标, 有效补充与验证了人工评估工作, 其智能评估方法为该领域的进一步深入研究奠定了坚实的基础。
所采集的数据如表3所示。
表3 评价数据规模
将学生评价数据和教师同行评价数据中的2/3作为训练数据, 1/3用于测试分析。
BP网络采用有监督学习策略, 然而对给定的评价因素得分向量, 其目标输出并不是轻易确定的, 需经专家级的人工判定, 甚至是专家-教师-学生集体判定, 造成训练数据构造的极大困难。为解决工程上的问题, 在2.3节中采用传统评价方法的结果作为目标输出向量值。这里隐含的假设是: 所采集的数据中传统方式下对教师教学质量的评价没有显著异常结果存在。如果存在原因与结果关系反常的数据, 必须予以剔除。
训练过程如下。
1) 构造得分向量。利用训练数据中教师各项评价因素得分值构造得分向量(见式(5))。
2) 确定目标输出值。利用评价体系中设定的各项评价因素的权重, 计算传统模式下的评价结果(见式(6)), 并通过定性评价映射(见式(8))确定人工评价值后, 通过表1中的对应关系, 确定目标输出向量。
3) 制备训练样本。通过上述两步, 构造如式(13)~(14)所示的训练样本集。
4) 训练子评价器。利用上述训练样本集, 按照2.5节给出的评价器训练策略训练子评价器。测试阶段, 对子评价器的输出有效性需进行判定, 测试过程如下。
①子评价器输出的有效性检验。对给定测试数据, 将得分向量输入到子评价器, 并计算输出熵, 当输出熵不满足式(17)时, 即H≥ε时, 测试失败, 该数据无法判定评价结果, 将该数据放入富信息数据集D′中; 否则进入决策判定环节。
图3 富信息数据反馈训练效果Fig.3 Effect of training withfeedback of informative data
② 决策判定。按照2.5节给出的Boosting规则判决评价结果。
由-0.9log0.9-3×(1/30)log(1/30)≈0.6(输出模式为(9/10,1/30,1/30,1/30))可知, 式(17)中ε取0.6, 能为输出有效性提供良好的判定界限。
测试过程中发现最初约50%的测试数据的输出结果是无效的。将这些数据放入富信息数据集D′后对子评价器重新训练(富信息数据反馈训练), 能进一步提高评价器的判决能力。随富信息数据集反馈训练次数的增加, 无效输出数据比例总体趋于下降(见图3)。这说明对困难的数据加强学习, 是提高子评价器有效性的重要途径。
经过富信息数据反馈训练手段完成训练后, 测试结果如表4所示。其中有效数据百分比是通过富信息数据反馈训练后对3 个子评价器其输出都满足式(17)的数据所占百分比。
表4 评价测试结果
表4中最右两列传统模式下特定因素对结果影响的百分比和笔者模式下特定因素对结果影响的百分比指的是: 选定某一评价因素fk, 当其值在最小值到最大值之间变化时, 传统模式的评价结果发生变化的百分比和笔者模式的评价结果发生变化的百分比。这一测试是为检验评价结果与评价因素之间的关联特性, 测试中选择的评价因素是课间休息适当, 其得分值在0~100之间变化时, 传统方式下平均90.8%的评价对象的评价结果发生了变化, 而且每年情况差不多; 而在笔者模式下仅有6.4%的评价对象的评价结果发生变化, 而且每年的变化幅度不同, 说明在非线性模式下这一因素对评价结果的影响不很强烈, 而且具有动态特性。当然, 对另一些因素, 笔者模式下的评价结果改变率会明显高于传统模式。总之, 笔者模式充分体现了评价因素到结果之间的非线性映射特性, 而且随机抽样后通过专家人工判读, 笔者方式下的评价结果更加符合人类分析结果。
笔者提出了教学质量评价的智能化方法, 有效地克服了基于线性静态模型的传统评价方法的缺陷, 使评价结果更加客观、 合理。笔者成果的创新点如下。
1) 通过人工神经网络模型建立了因素到结果的非线性映射机制。非线性模型模拟了人类所具有的智能特性, 揭示了因素与结果之间的复杂关系, 使得评价结果更加客观、 合理。同时评价结果对个别因素的局部微小变化(包括不恰当的量化评定)和噪声数据具有一定的抵抗能力, 保证评价系统具有良好的稳定性。
2) 实现了关键因素集与评价结果之间关联强度分布的动态调节。根据每学期发生的学生对教师的评价数据、 教师同行之间的评价数据, 通过机器学习方法确定当前阶段各评价因素对评价结果的作用参数, 使因素与结果之间的动态联系能够反映不同时期的评价取向。同时, 动态特性能有效地克服人为主观因素局限性, 实现评价体系良好的自适应能力。
今后的研究工作尚需解决理论与实践方面存在的问题。主要包括:
1) 决定教学质量因素的完备性问题, 需要在教育理论框架内寻求合理有效的解答;
2) 利用智能信息处理领域的新理论和新方法, 对我国高等教育发展与改革的宏观范围内产生的大数据进行有效的挖掘和处理, 使教学质量的智能化评价趋于完善。