数据挖掘技术在中职教学质量评估中的应用

2014-07-25 01:57张岑
关键词:精确度分类样本

张岑

【摘要】实现教育教学过程中对教师教学水平公正、准确、快速地评价,是学校实施现代化教学管理的重要前提,传统的教学评价方法存在着主观性大、精准度差操作复杂等问题。本文提出了基于支持向量机的数据挖掘算法与学校教师的评价指标相结合的改进方案,利用SVM对样本数据进行分类,通过在评价系统中对样本数据的训练形成训练模型,并进一步利用该模型完成对预测数据的职能分析和评测。实验证明,同传统方法相比,方案具有综合性能优势及应用价值。

【关键词】教学评价SVM惩罚因子核函数

【中图分类号】G71 【文献标识码】A 【文章编号】2095-3089(2014)03-0024-02

教育教学系统的评估已经成为了国内外学者的研究热点。针对教师综合教学的评价体系有了快速发展,而目前大多的研究主要基于传统的数据统计方法,复杂的评估参数及繁重的计算方法无法满足当今科学测量、评价的发展需求。支持向量机通过把非线性分类问题转换成线性分类问题,较好解决了传统算法中训练集误差最小而测试集误差仍较大的问题,且算法具有较高的效率和精度,目前在分类和回归模型中被广泛应用。提出一种基于SVM的教学评价模型,充分利用机器学习方法的分类优势,训练SVM智能、准确反映教师的教学水平。

1.SVM学习算法

SVM从线性可分情况下的最优分类面发展而来:假设训练样本输入为xi(i = 1,2,……n),期望输出yi∈{+1,-1},超平面ωxi+b =0需满足约束条件yi(ωxi+b)-1≥0)以实现样本的正确分类。使最大化分类间隔2/||ω||获得最小值的分类面即为最优分类面,满足|(ωxi)+b|=1的样本点为支持向量。对于非线性的情况,可以将非线性变化转化为另一个高维特征空间的线性问题,然后在这个高维空间中求最优分类面,其分类函数为f(x)=sgn(ωx+b)=sgn(■a■■yiK(xix)+b■■)。

表1 精确度随γ值的变化情况表

2.基于数据挖掘技术的教学评价

2.1评价系统指标标准化

教学系统评价为多层次、多指标的问题[3,4],本文建立了12个评价指标,即每个样本数据的特征向量共有12个属性。281个样本数据来自于对教师教学质量的随机调查评分,并分为3个等级。按SVM指定格式对各指标进行归一化处理,使数据范围为[-1,1]。选取200个数据作为训练样本,其余作测试样本,然后调用SVM分类器进行评价。标准化过程如下:

Function normal = normalization(x, kind)

if margin < 2

Kind = 2;% kind = 1 or 2 for the first class or second class of normalized

End

[m,n] = size(x);

Normal = zeros (m, n);

%% normalize the data x to [0,1]

if kind == 1

for i = 1:m

ma = max( x(i,:) );

mi = min( x(i,:) )

normal(i,:) = ( x(i,:)-mi )./( ma-mi );

end

end

2.2核函数选择与参数确定

图1给出了3种核函数在相同γ值条件下,精确度随C值变化的对比曲线。随着C值的增加3种核函数的精确度随之增长,然而当惩罚因子到达某一特定值时,算法精准度增加缓慢或出现停滞,因此最终确定实验中的核函数为RBF,惩罚因子C=27。γ是影响精确度的重要参数,表1中的实验结果显示精确度在γ∈[0.01,0.09]时,随着γ值的连续增长有所提高,在γ=0.0833(1/n)时获得最大值94.3529%。

2.3基于SVM的训练

提取数据库中其余的样本数据,采用SVM Predict对训练结果进行验证以获得较好的匹配比率。实现代码如下:

load training_scale;

data = training_scale_inst;

label = training_scale_label;

% Build classification model

model = svmtrain (label, data, ' -s 0 -t 2 -c 27 -g

0.0833');

model = Parameters: [5x1 double]

nr_class: 3

totalSV: 281

rho: 0.4951

Label: [3x1 double]

ProbA: []

ProbB: []

SVM: [3x1 double]

sv_coef: [281x1 double]

SVS: [281x12 double]

通过调用database、配置文件中的参数及事先构造的二类分类器对录入数据进行训练和评价。根据评价所得结果判断,如果某个类别拥有的同一数据较多,则认为该数据属于这一类别。如出现不确定结果,则由人工评价结果继续进行判断对比,或重新采集数据样本并训练,直至获得匹配率较高的训练机,得到符合要求的准确结果。

3.实验分析与结论

实验中加入了PLSR模型和神经网络模型,与SVM模型一起进行预测结果与实际值的误差测试,如图2所示。同时考察3种算法的耗时指标,结果如图3所示。

图2 模型最终预测结果

实验结论为:基于PLSR的预测效果最差,平均超过实际值在5%以上,该算法求解时的迭代运算也造成了相当的时间消耗。SVM和神经网络模型的预测误差相对令人满意,平均误差均控制在3%以下,但是神经网络模型的求解算法过于复杂,其耗时分别达到了SVM的15倍及PLSR的90倍。而SVM拓扑结构相对简单,通常只由几个支持向量决定,提高了运算速度。

图3 预测结果耗时对比

4.结语

教学质量与各评价指标之间定量的非线性函数关系难以显示表达,影响了教学评价的公平性和准确性。基于SVM的模型具有逼近任意非线性输入输出关系的能力,具有训练样本量少,预测精度高,学习性强等特点。训练后的SVM评价模型可以代替传统的基于主观的评价机制,有助于提高教师教学能力和学校整体的教学水平。

参考文献:

[1]王冲林,高齐圣.高等学校教师教学质量的统计评价方法研究[J].教学研究,2008,5:33-35.

[2]徐高欢.SVM在教师教学质量评价中的应用[J].浙江水利水电专科学校学报,2007,3(19):66-68.

endprint

【摘要】实现教育教学过程中对教师教学水平公正、准确、快速地评价,是学校实施现代化教学管理的重要前提,传统的教学评价方法存在着主观性大、精准度差操作复杂等问题。本文提出了基于支持向量机的数据挖掘算法与学校教师的评价指标相结合的改进方案,利用SVM对样本数据进行分类,通过在评价系统中对样本数据的训练形成训练模型,并进一步利用该模型完成对预测数据的职能分析和评测。实验证明,同传统方法相比,方案具有综合性能优势及应用价值。

【关键词】教学评价SVM惩罚因子核函数

【中图分类号】G71 【文献标识码】A 【文章编号】2095-3089(2014)03-0024-02

教育教学系统的评估已经成为了国内外学者的研究热点。针对教师综合教学的评价体系有了快速发展,而目前大多的研究主要基于传统的数据统计方法,复杂的评估参数及繁重的计算方法无法满足当今科学测量、评价的发展需求。支持向量机通过把非线性分类问题转换成线性分类问题,较好解决了传统算法中训练集误差最小而测试集误差仍较大的问题,且算法具有较高的效率和精度,目前在分类和回归模型中被广泛应用。提出一种基于SVM的教学评价模型,充分利用机器学习方法的分类优势,训练SVM智能、准确反映教师的教学水平。

1.SVM学习算法

SVM从线性可分情况下的最优分类面发展而来:假设训练样本输入为xi(i = 1,2,……n),期望输出yi∈{+1,-1},超平面ωxi+b =0需满足约束条件yi(ωxi+b)-1≥0)以实现样本的正确分类。使最大化分类间隔2/||ω||获得最小值的分类面即为最优分类面,满足|(ωxi)+b|=1的样本点为支持向量。对于非线性的情况,可以将非线性变化转化为另一个高维特征空间的线性问题,然后在这个高维空间中求最优分类面,其分类函数为f(x)=sgn(ωx+b)=sgn(■a■■yiK(xix)+b■■)。

表1 精确度随γ值的变化情况表

2.基于数据挖掘技术的教学评价

2.1评价系统指标标准化

教学系统评价为多层次、多指标的问题[3,4],本文建立了12个评价指标,即每个样本数据的特征向量共有12个属性。281个样本数据来自于对教师教学质量的随机调查评分,并分为3个等级。按SVM指定格式对各指标进行归一化处理,使数据范围为[-1,1]。选取200个数据作为训练样本,其余作测试样本,然后调用SVM分类器进行评价。标准化过程如下:

Function normal = normalization(x, kind)

if margin < 2

Kind = 2;% kind = 1 or 2 for the first class or second class of normalized

End

[m,n] = size(x);

Normal = zeros (m, n);

%% normalize the data x to [0,1]

if kind == 1

for i = 1:m

ma = max( x(i,:) );

mi = min( x(i,:) )

normal(i,:) = ( x(i,:)-mi )./( ma-mi );

end

end

2.2核函数选择与参数确定

图1给出了3种核函数在相同γ值条件下,精确度随C值变化的对比曲线。随着C值的增加3种核函数的精确度随之增长,然而当惩罚因子到达某一特定值时,算法精准度增加缓慢或出现停滞,因此最终确定实验中的核函数为RBF,惩罚因子C=27。γ是影响精确度的重要参数,表1中的实验结果显示精确度在γ∈[0.01,0.09]时,随着γ值的连续增长有所提高,在γ=0.0833(1/n)时获得最大值94.3529%。

2.3基于SVM的训练

提取数据库中其余的样本数据,采用SVM Predict对训练结果进行验证以获得较好的匹配比率。实现代码如下:

load training_scale;

data = training_scale_inst;

label = training_scale_label;

% Build classification model

model = svmtrain (label, data, ' -s 0 -t 2 -c 27 -g

0.0833');

model = Parameters: [5x1 double]

nr_class: 3

totalSV: 281

rho: 0.4951

Label: [3x1 double]

ProbA: []

ProbB: []

SVM: [3x1 double]

sv_coef: [281x1 double]

SVS: [281x12 double]

通过调用database、配置文件中的参数及事先构造的二类分类器对录入数据进行训练和评价。根据评价所得结果判断,如果某个类别拥有的同一数据较多,则认为该数据属于这一类别。如出现不确定结果,则由人工评价结果继续进行判断对比,或重新采集数据样本并训练,直至获得匹配率较高的训练机,得到符合要求的准确结果。

3.实验分析与结论

实验中加入了PLSR模型和神经网络模型,与SVM模型一起进行预测结果与实际值的误差测试,如图2所示。同时考察3种算法的耗时指标,结果如图3所示。

图2 模型最终预测结果

实验结论为:基于PLSR的预测效果最差,平均超过实际值在5%以上,该算法求解时的迭代运算也造成了相当的时间消耗。SVM和神经网络模型的预测误差相对令人满意,平均误差均控制在3%以下,但是神经网络模型的求解算法过于复杂,其耗时分别达到了SVM的15倍及PLSR的90倍。而SVM拓扑结构相对简单,通常只由几个支持向量决定,提高了运算速度。

图3 预测结果耗时对比

4.结语

教学质量与各评价指标之间定量的非线性函数关系难以显示表达,影响了教学评价的公平性和准确性。基于SVM的模型具有逼近任意非线性输入输出关系的能力,具有训练样本量少,预测精度高,学习性强等特点。训练后的SVM评价模型可以代替传统的基于主观的评价机制,有助于提高教师教学能力和学校整体的教学水平。

参考文献:

[1]王冲林,高齐圣.高等学校教师教学质量的统计评价方法研究[J].教学研究,2008,5:33-35.

[2]徐高欢.SVM在教师教学质量评价中的应用[J].浙江水利水电专科学校学报,2007,3(19):66-68.

endprint

【摘要】实现教育教学过程中对教师教学水平公正、准确、快速地评价,是学校实施现代化教学管理的重要前提,传统的教学评价方法存在着主观性大、精准度差操作复杂等问题。本文提出了基于支持向量机的数据挖掘算法与学校教师的评价指标相结合的改进方案,利用SVM对样本数据进行分类,通过在评价系统中对样本数据的训练形成训练模型,并进一步利用该模型完成对预测数据的职能分析和评测。实验证明,同传统方法相比,方案具有综合性能优势及应用价值。

【关键词】教学评价SVM惩罚因子核函数

【中图分类号】G71 【文献标识码】A 【文章编号】2095-3089(2014)03-0024-02

教育教学系统的评估已经成为了国内外学者的研究热点。针对教师综合教学的评价体系有了快速发展,而目前大多的研究主要基于传统的数据统计方法,复杂的评估参数及繁重的计算方法无法满足当今科学测量、评价的发展需求。支持向量机通过把非线性分类问题转换成线性分类问题,较好解决了传统算法中训练集误差最小而测试集误差仍较大的问题,且算法具有较高的效率和精度,目前在分类和回归模型中被广泛应用。提出一种基于SVM的教学评价模型,充分利用机器学习方法的分类优势,训练SVM智能、准确反映教师的教学水平。

1.SVM学习算法

SVM从线性可分情况下的最优分类面发展而来:假设训练样本输入为xi(i = 1,2,……n),期望输出yi∈{+1,-1},超平面ωxi+b =0需满足约束条件yi(ωxi+b)-1≥0)以实现样本的正确分类。使最大化分类间隔2/||ω||获得最小值的分类面即为最优分类面,满足|(ωxi)+b|=1的样本点为支持向量。对于非线性的情况,可以将非线性变化转化为另一个高维特征空间的线性问题,然后在这个高维空间中求最优分类面,其分类函数为f(x)=sgn(ωx+b)=sgn(■a■■yiK(xix)+b■■)。

表1 精确度随γ值的变化情况表

2.基于数据挖掘技术的教学评价

2.1评价系统指标标准化

教学系统评价为多层次、多指标的问题[3,4],本文建立了12个评价指标,即每个样本数据的特征向量共有12个属性。281个样本数据来自于对教师教学质量的随机调查评分,并分为3个等级。按SVM指定格式对各指标进行归一化处理,使数据范围为[-1,1]。选取200个数据作为训练样本,其余作测试样本,然后调用SVM分类器进行评价。标准化过程如下:

Function normal = normalization(x, kind)

if margin < 2

Kind = 2;% kind = 1 or 2 for the first class or second class of normalized

End

[m,n] = size(x);

Normal = zeros (m, n);

%% normalize the data x to [0,1]

if kind == 1

for i = 1:m

ma = max( x(i,:) );

mi = min( x(i,:) )

normal(i,:) = ( x(i,:)-mi )./( ma-mi );

end

end

2.2核函数选择与参数确定

图1给出了3种核函数在相同γ值条件下,精确度随C值变化的对比曲线。随着C值的增加3种核函数的精确度随之增长,然而当惩罚因子到达某一特定值时,算法精准度增加缓慢或出现停滞,因此最终确定实验中的核函数为RBF,惩罚因子C=27。γ是影响精确度的重要参数,表1中的实验结果显示精确度在γ∈[0.01,0.09]时,随着γ值的连续增长有所提高,在γ=0.0833(1/n)时获得最大值94.3529%。

2.3基于SVM的训练

提取数据库中其余的样本数据,采用SVM Predict对训练结果进行验证以获得较好的匹配比率。实现代码如下:

load training_scale;

data = training_scale_inst;

label = training_scale_label;

% Build classification model

model = svmtrain (label, data, ' -s 0 -t 2 -c 27 -g

0.0833');

model = Parameters: [5x1 double]

nr_class: 3

totalSV: 281

rho: 0.4951

Label: [3x1 double]

ProbA: []

ProbB: []

SVM: [3x1 double]

sv_coef: [281x1 double]

SVS: [281x12 double]

通过调用database、配置文件中的参数及事先构造的二类分类器对录入数据进行训练和评价。根据评价所得结果判断,如果某个类别拥有的同一数据较多,则认为该数据属于这一类别。如出现不确定结果,则由人工评价结果继续进行判断对比,或重新采集数据样本并训练,直至获得匹配率较高的训练机,得到符合要求的准确结果。

3.实验分析与结论

实验中加入了PLSR模型和神经网络模型,与SVM模型一起进行预测结果与实际值的误差测试,如图2所示。同时考察3种算法的耗时指标,结果如图3所示。

图2 模型最终预测结果

实验结论为:基于PLSR的预测效果最差,平均超过实际值在5%以上,该算法求解时的迭代运算也造成了相当的时间消耗。SVM和神经网络模型的预测误差相对令人满意,平均误差均控制在3%以下,但是神经网络模型的求解算法过于复杂,其耗时分别达到了SVM的15倍及PLSR的90倍。而SVM拓扑结构相对简单,通常只由几个支持向量决定,提高了运算速度。

图3 预测结果耗时对比

4.结语

教学质量与各评价指标之间定量的非线性函数关系难以显示表达,影响了教学评价的公平性和准确性。基于SVM的模型具有逼近任意非线性输入输出关系的能力,具有训练样本量少,预测精度高,学习性强等特点。训练后的SVM评价模型可以代替传统的基于主观的评价机制,有助于提高教师教学能力和学校整体的教学水平。

参考文献:

[1]王冲林,高齐圣.高等学校教师教学质量的统计评价方法研究[J].教学研究,2008,5:33-35.

[2]徐高欢.SVM在教师教学质量评价中的应用[J].浙江水利水电专科学校学报,2007,3(19):66-68.

endprint

猜你喜欢
精确度分类样本
分类算一算
用样本估计总体复习点拨
研究核心素养呈现特征提高复习教学精确度
“硬核”定位系统入驻兖矿集团,精确度以厘米计算
分类讨论求坐标
推动医改的“直销样本”
数据分析中的分类讨论
教你一招:数的分类
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本