数据包络分析的模糊综合评判法的应用

2013-11-08 08:06:06赵晓霞谭夏侃
中国考试 2013年2期
关键词:内容效度区分度评判

赵晓霞 谭夏侃

1 引言

试卷质量评价就是“客观、公正、科学地对试卷质量进行分析与评价”。它是评价考试质量,检验考试可靠性、有效性的最基本也最重要的方法,是改进考试工作、提高命题综合质量的基础,是获取教学效果反馈信息的有效途径[1]。

基于数据包络分析的模糊综合评判法是一种科学而有效地评价试卷质量的建模方法。通过将模糊综合评判和数据包络分析方法的结合应用,建立起一个科学的试卷质量评价模型,按照教育测量学的有关理论和方法,通过对试卷考试结果的测量与分析,提供对试题筛选的依据及对命题质量的评价,并由此指导课程的题库或试卷库的建设,做到对学生的学习评价准确、可靠,使考试这一教学环节逐步走上科学化和规范化的轨道。

模糊综合评判法的基本原理是:首先确定被评判对象的因素(指标)集和评价(等级)集;再分别确定各个因素的权重及它们的隶属度向量,获得模糊评判矩阵;最后把模糊评判矩阵与因素的权向量进行模糊运算并进行归一化,得到模糊评价综合结果[2]。

数据包络分析的基本思想是:对一组给定的决策单元,选定一组输入、输出的评价指标,通过输入和输出数据的综合分析,数据包络分析可以得出每个决策单元综合效率的数量指标。之后我们将各个决策单元定级排队,确定有效的决策单元,并可给出其他决策单元非有效的原因和程度[3]。

模糊综合评判法目前在多个领域中应用广泛,但在具体应用中,它的缺陷与不足还是存在的,首先,模糊综合评判法仅能告诉各决策方案的好坏程度,却无法找出较差方案无效的原因。

其次,必须首先确定权重。在模糊综合评判过程中,各因素的权重分配主要靠人的主观判断,而当因素较多时,权重往往难以恰当分配。

还有,模糊综合评判法仅从被评价对象自身的角度进行评价,而事实上各评价对象是有联系的。而同类型单元的这种联系对评价结果与改进是大有帮助的。

数据包络分析方法恰恰可以互补,应用它,决策单元是不是有效是相对于其他所有决策单元而言的。特别是,它把决策单元中各“输入”和“输出”的权重作为变量,通过对决策单元的实际原始数据进行计算而确定,排除了人为因素,具有很强的客观性,从而避免了认为主观确定权重的缺点。

基于以上分析,有必要也有可能将模糊综合评判法和数据包络分析法进行集成。在模糊综合评判过程基础上,引入数据包络分析理论,通过巧妙构造数据包络分析的“输入”和“输出”指标,建立新的综合评价模型方法。

2 新模型方法的机理

下面对基于数据包络分析的模糊综合评判法的机理作介绍[4]:

一个评价对象相对于各因素的评价具有一定的模糊性,那么需要运用模糊集合论来研究。首先确定评价对象集W={w1,w2,…wt},评价因素集U={u1,u2,…um},评价等级集V={v1,v2,…vn}。

2.对每个评价对象,有模糊矩阵R,称为某一评价对象的评价矩阵。

3.数据包络分析模型——C2R模型,即应用最广泛的模型进行讨论。

设某个决策单元在某活动中的输入向量为x={x1,x2,…,xs}T,输出向量为 y={y1,y2,…,ys}T。用(x,y)来表示这个决策单元的整个生产活动。

选取需要评价的对象(针对某因素而言)或因素(针对某对象而言)作为数据包络分析的决策单元,以其评价矩阵R的转置矩阵作为决策单元的“输入”和“输出”矩阵。对于一个决策单元,有t种类型的“输入”以及s种类型的“输出”。s+t=n,n为评价等级的个数。

以评价对象为决策单元时,l=k;以评价因素为决策单元时,l=m.v1,v2,…vt为数据包络分析输入的一种量度(或称权),u1,u2,…us为数据包络分析输出的一种量度(或称权),如图1所示。

图1

记 X=(x1j,x2j,…xtj),Y=(y1j,y2j,…ysj),j=1,2,…l,则可用(Xj,Yj)表第 j个决策单元。

相对应于权系数V={v1,v2,…vt},U={u1,u2,…us},每一个决策单元都有相应的效率评价指数

可以适当地选取权系数V和U,使hj≤1。对于第 j0个决策单元的效率指数为目标,以所有决策单元(包括第 j0个决策单元)的效率指数为约束,构成最优化模型。原始的C2R模型是一个分式规划,当使用Charnes-Cooper变化时,可将分式规划化为一个等价的线性规划(LP)问题。

相应于第 j0(1≤j0≤l)个决策单元的线性规划模型为:

用线性规划的最优解来判断决策单元 j0的有效性。利用上述模型评价决策单元是不是有效是相对于其他所有决策单元而言的。

4.若要评价k个对象,即评价系统的决策单元有k个。对某个评价因素来说,可以得到一共k个线性规划模型。这k个线性规划模型的最优目标函数值,即为这k个评价对象在该因素上的评价结果。对k个对象的m个因素分别进行计算,将每个评价对象的m个结果相乘(或相加),其积(或和)可作为该对象的总的评价结果。

3 建模并求解

本文抽取了四份高等数学的期末试卷进行评价,分别是08级高数上,07级高数上,07级高数下,06级高数下,即上册与下册各两份试卷。获取每份试卷的全部应试者成绩和应试者的各题得分情况.应用基于数据包络分析的模糊综合评判法建模,通过获取的数据,确定评价指标体系,接下来结合教育测量学与统计相关知识确定各指标的统计方法与区分好中差的标准,得出科学评价。

我们取四份试卷作评价,上册下册各两份试卷,便于作比较。设评价对象集为 W={w1,w2,…,wn},n=4,w1=08级高数上,w2=07级高数上,w3=07级高数下,w4=06级高数下。评价等级集为V={v1,v2,…,vt},t=3,v1= 好,v2= 中,v3= 差。

试卷质量评价是指评价试卷的整体质量,影响试卷整体质量的主要因素有:试卷的难度、区分度、信度、内容效度、试题覆盖率、试题及格率以及反映试卷成绩分布正态性的偏度和峰度[5]。可将这8个因素分为两层三组,便于直观了解,如图2所示:

图2

设评价指标集为U={u1,u2,…,uk},k=8,u1= 难度,u2=区分度,u3=信度,u4=内容效度,u5=覆盖率,u6=及格率,u7=偏度,u8=峰度。

通过计算获得各个评价对象的模糊评判矩阵,以下先以“08级高数上”的评判矩阵做说明:

我们选取每份试卷,即评价对象(针对某评价指标而言)作为数据包络分析的决策单元,以其评判矩阵的转置矩阵作为决策单元的“输入”和“输出”矩阵。

本模型中,决策单元个数为l=4,评价等级个数为n=3,则对于一个决策单元,设它有t种类型的“输入”以及s种类型的“输出”,那么t+s=3,即t=1或2,对应s=2或1.

下面以区分度为例进行说明。对于区分度,我们选取好作为输出,以中、差作为输入。由上一小节每个评价对象的模糊评判矩阵,我们可以得到区分度的评判矩阵的转置矩阵,输出的度量以 p表示,输入的度量以q表示,如表1所示:

表1

根据C2R模型,对“07级高数上”来说,可以得到一个线性规划模型,即:

同理可以得到其他3份试卷在区分度指标上的线性规划模型。通过求解得到这4个线性规划的最优目标函数值[6],分别为:

同样我们还可以得到一下结论:

我们可以对每个评价对象的6个因素都相加,可以得到每个对象的总的评价结果。如表2所示:

表2

4 分析与评价

为了便于查看,将它们汇总到表3中:

表3

从表2中我们可以看出,这四份卷子的各项指标数值除了峰度之外,两两之间并没有太大差异,并且我们可以将表3中的数值与表2的评价标准进行对比之后得出结论,整卷难度系数、区分度、信度、及格率、覆盖率基本全都达到“好”的等级,可见本课程命题水平稳定在一个较高水平,达到标准参照性考试的要求;整卷的内容效度略逊,基本处在“中”的等级;偏度的负值较大,即负偏差数值较大,为正偏或者右偏,即长尾巴拖在左边,表明学生成绩偏高的居多,峰度均略大于0,表明比正态分布的高峰更加陡峭,不同程度地呈现尖顶峰。

运用模型求解前的表1的整卷数据所能带来的分析结果有限,并且不能对比出试卷之间的差异,我们通过建模求解后获取的表2来进一步分析评价。

表2中,在难度系数指标上,08上、07上、06下的表现都达到了最优,而07下的偏低;可以看到表3中07下的整卷难度系数最小。可知,07下的总体难度偏难,而另外三份试卷的难度则把握得非常好。

表2中,在区分度指标上,07下的表现最优,表明它的区分度最合适;另外三份卷子的区分度也很接近于最优。可知,这四份卷子的区分度都比较合适。

表2中,在内容效度的指标上,07上的表现最优,具有最高的内容效度,这与07上在表3中有最大的内容效度也是相符合的。另外三份卷子的内容效度相对不理想,都获得了较低的目标函数值。我在分析后认为,普遍的内容效度偏低是受到高数这个学科的特点所影响,高数中有些章节是为了后面的章节做铺垫,占的学时并不少,而在试卷中很少甚至不会单独考察,这造成了该章的吻合率较低,从而影响了总内容效度指标。比如下册的“第7章空间解析几何与向量代数”,可以说是下册的基础,学时分配有18,而试卷中的分数往往只是几分。

表2中,在覆盖率的指标上,07上的获得最大的目标值,这与07上在表3中有最大的覆盖率也是相符合的。08上的覆盖率也达到较高的目标值,07下、06下覆盖率的目标值则相对不理想。覆盖率与内容效度普遍偏低的原因是一样的,都是受到了小部分基础章节的影响,但是从整卷的覆盖率来看,四份卷子都是比较理想的。

表2中,在偏度的指标上,08上表现最好,而出现了一个无效的决策单元06下,剩余的07上、07下则是处于中等。也就是说,06下的成绩分布过于负偏,即成绩偏高的人相对较多,而06下的难度、区分度、及格率均较理想,所以我认为06级学生的掌握水平较好是其中一个原因。

表2中,在峰度的指标上,08上、06下达到了最大的目标值,表明两者成绩的分布与标准正态分布的高峰更接近,而07上、07下的成绩分布的高峰要陡峭些,成绩也相对集中。

总的来看,08上这份试卷获得了最高的总评价分数,其次是07上、06下、07下。客观地说,这四份试卷总体来看都是优秀的教学检测试卷,通过这种新的综合评判方法建模求解,我们可以清晰地了解各份卷子的所长所短,同时可以对该课程的命题提些建议,在目前及格率偏高与偏度负值较大的情况下,稍难题与较难题的数量可以适量增加,细节基础的知识点可以通过客观小题的形式适量增加,使学生对该课程更加重视,学生的成绩分布更加趋于正态,敦促学生不断提高自身学习能力,为今后学习打下坚实的基础。

[1]雷新勇.大规模考试教育-命题与评价[M].上海:华东师范大学出版社.2006.

[2]刘承平.数学建模方法[M].北京:高等教育出版社.2002.

[3]胡运权,郭耀煌.运筹学教程[M].北京:清华大学出版社.2003.

[4]杜栋,庞庆华,吴炎.现代综合评价方法与案例精选[M].北京:清华大学出版社.2008.

[5]张敏强.教育测量学[M].北京:人民教育出版社.2001.

[6]袁新生.LINGO和EXCEL在数学建模中的应用[M].北京:科学出版社.2007.

猜你喜欢
内容效度区分度评判
交流与评判
COSMIN方法介绍:评价患者报告结局测量工具内容效度的评分系统
循证护理(2021年5期)2021-05-28 09:17:26
基于学习的鲁棒自适应评判控制研究进展
自动化学报(2019年6期)2019-07-23 01:18:18
浅谈试卷分析常用的几个参数及其应用
图形推理测量指标相关性考察*
江淮论坛(2018年4期)2018-08-24 01:22:30
英语专八阅读理解部分内容效度的历时对比研究(2009—2017年)
浅观一道题的“区分度”
诗歌评判与诗歌创作
文学教育(2016年27期)2016-02-28 02:35:12
单维参数型与非参数型项目反应理论项目参数的比较研究*
心理学探新(2015年3期)2015-12-27 06:25:14
大学英语新四级阅读理解内容效度研究