基于Matlab的考试数据主成分分析

2015-03-16 11:14刘佳佳刘志杰
电脑知识与技术 2015年1期
关键词:MATLAB软件主成分分析

刘佳佳 刘志杰

摘要:介绍了统计分析方法中的主成分分析法,对考生考试成绩数据利用matlab软件进行了主成分分析,得出了数据的主成分和综合评价函数, 并结合学生成绩进行分析,了解到了每个考生在数学学科学习上有哪些优势和不足,从而为改善学习方法和提高学习成绩方面的提供重要参考。

关键词:主成分分析;考生考试数据;matlab软件

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01-0010-05

Principal Component Analysis of Test Data Based on Matlab

LIU jia-jia, LIU Zhi-jie

(Guizhou Normal University & Laboratory of Information and Computation Science Guizhou Provience, Guiyang 55001, China)

Abstract:This paper introduces the methods of principal component analysis of multivariate statistical analysis method, and use matlab to conduct the principal component analysis on student achievement, concluded that principal components and the comprehensive evaluation function of the data, , and combining the students' test scores to analyze, in order to understand the advantages and disadvantages of each of the students in the subject, as an important reference to improve the learning methods and enhance academic performance indicators.

Key words:principal component analysis; test data of student;Matlab software

1 概述

考试是用来教学评价和检查考生学习情况的基本手段,但每一次考试带给我们的信息,绝不仅仅是每个考生的具体得了多少分数。其实我们还可以了解到更多考生的学习情况,那么我们就需要对批改试卷产生的数据进行统计分析,根据分析结果得到的结论,能够为教学和学习提供参考,从而能不断改进我们教学和学习工作。

对试卷进行统计分析时,我们会发现试卷各试题之问往往存在一定的相关性,即有些题目考察了相似的知识点和考点,对得到的数据不进行任何处理就进行分析,势必会把试卷分析的变得复杂化.就不容易抓住数据的主要规律并对事物的性质做出准确的评价。因此,我们需要把原来的指标转化为一个或少数几个互相独立的综合指标来达到分析的目的。该文讲的主成分分析法就是能达到这种目的的统计分析方法。

2 主成分分析的基本原理

2.1 主成分分析的基本思想[1]

主成分分析首先是Hotelling于1933年时提出的。主成分分析是一种利用数学思想达到降低维数的统计方法,即通过找出几个综合指标来代替众多的原始指标, 并尽可能多的反映原始数据所提供的信息量,而且彼此之间相互独立。主成分分析所要做的内容就是要设法把原来具有一定相关性的众多变量,重新组合成一组新的相互独立的综合变量来代替原来变量,通常数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但这种组合如果不加以限制,就会有很多情况,那么我们如何选择呢?如果将选取的第一个线性组合作为第一个综合变量记为[F1],那么我们自然希望它能尽可能地反应原来变量的信息,这里我们把包含“信息”的多少用方差来测量,即[Var(F1)]越大,表示[Y1]包含的信息越多。

因此所选取的[F1]应该是所有的线性组合中方差最大的,我们把[F1称为]第一主成分。如果第一主成分不能够代表原来多个变量的基本信息,那么就再选取第二个线性组合[F2],为了有效的反应原来信息,[F1]已有的信息就不需要再出现在[F2]中,用数学语言表达就是要求[CovF1,F2=0],我们把[F2称]为第二主成分,依此类推,可以得到出第三、第四……第[p]个主成分。

2.2 主成分分析的基本理论[2]

设研究某一事物时涉及到[p]个变量,我们分别用[X1,X2,…,XP]表示,[X=(X1,X2,…,XP)T为]这[p]个指标构成的[p]维随机向量。设随机向量[X]均值[EX]和协方差阵[DX]分别为[μ]和Σ。对[X]进行线性变换,即可得到新的综合变量,它可由原来的变量线性表示,即满足下式:

[Yi=μTiX=μ1iX1+μ2iX21+…+μpiXpi=1,2,…,p ] (1)

易见 [VarYi=μTiμi,CovYi,Yj=μTiμj,(i,j=1,2,…,p)]

定义1 设[X=X1,X2,…,XPT] 为[P]维随机向量。称[Yi=μTiX] 为[X] 的第[i]主成分[i=1,2,…,p,如果:]

[μTiμi]=[μ21i+μ21i+…+μ21i=1,i=1,2,…,p] (2)

[CovYi,Yj=0],[i≠j, i,j=1,2,…,p,即Yi与Yj不相关] (3)

[VarY1?VarY2?…?VarYp] (4)

从这个定义1,我们可以知道主成分是原来[p]个原始变量进行特殊线性组合构成的. 那么, 我们如何来求主成分呢? 一般地, 我们有:

定理 2 设[X=X1,X2,…,XPT] 为[P]维随机向量。且[D(X)=Σ], [Σ] 的特征值为 [λ1≥λ2?…≥λp>0,] [α1,α2,…,αp]为相应的单位正交特征向量,

则[X]的第[i]主成分为[Fi=αTiX i=1,2,…,p]

从这个定义2,我们了解到要求[X]的第[i]主成分,必须首先求出[X]方差的第[i]大特征值和相应的单位正交特征向量。

2.3 主成分分析的分析步骤[3]

设研究某一事物涉及[到p]个变量,每个变量都有[n]个数据。那么我们就可以得到一个[n×p]阶的矩阵,将其记为

[X=xijnm=x11…x1p???xn1…xnp]=[X1,X2,...,Xp]

1)对矩阵[X]进行标准化处理

[xij=xij-xjσj],[i=1,2,...,n;j=1,2,...,p],

其中[xj=1ni=1nxij],[σj=1ni=1nxij-xij2] ,

得到标准化矩阵仍记为

[X=xijnm=x11…x1m???xn1…xnm]

[Xi=x1i,xni,...xniT,i=1,2,...,p]

2) 求标准化后矩阵的相关系数矩阵:

[R=r11…r1n???rp1…rpn]=[1nXTX]

其中,[rij=1ni=1nxijxik=1nXiTXk],[j,k=1,2,...,p]

3) 求相关系数矩阵[R]的特征值[λi]和相应的特征向量[αi]

4) 确定要选取的主成分个数,我们称[λkk=1pλk]为第[k]个主成分的贡献率,记为[ρk],称[k=1mλkk=1pλk]为前[m]个主成分的累积贡献率。当前[m]个主成分累积贡献率超过[83%]时,取前[m]个主成分代替原来的[p]个指标。

5) 求各主成分载荷[βi=λiαi]以及主成分载荷矩阵,再计算各主成分的得分函数[Fi=αiXi,i=1,2,...,m]

6) 把各变量的原始数据标准化后代入各主成分方程中,求得综合评价值[F=ρ1F1+ρ2F2+...+ρmFm]进行分析评价。

3 应用主成分分析法分析考生成绩[4-5]

3.1 选取主成分和构造综合评价函数

以贵阳某中学的一个班在高三模拟考试中的数学选择题的得分情况的数据为例.运用主成分分析法对考生数学学习情况进行分析。该班一共有50名考生。高中数学选择题共12题,每题5分,将数学选择题每个题目分别用[X1]、[X2]、[…]、[X12]。来表示,用[xij]表示第i个考生在数学选择题第j题上的得分,则这样就得到了一个[X=(xij)50×12]的矩阵,因此我们可以借助matlab主成分分析程序对这个矩阵进行主成分分析,得到下列结果:

根据主成分分析的相关理论,在选取主成分时,只需要将特征值从小到大排列,选取前[m]个累计贡献率超过83%的主成分即可,通过上面表格和图形的显示的累计贡献率可知,我们只需要选取5个主成分,从上面累积贡献率情况可知我们选取的这5个主成分是可以反映全部指标的基本信息,所以可以用这5个新变量来代替原来的12个变量。根据前面讲到的定理2我们可以得到选择题的5个主成分公式,如下所示:

[F1=0.1932X1+0.1359X2+0.3402X3+0.2662X4+0.1254X5+0.2944X6 +0.2828X7+0.2454X8+0.5176X9+0.4098X10+0.2061X11+0.1915X12]

[F2=0.5196X1+0.5343X2+0.4956X3+0.2918X4-0.3985X5-0.4281X6 +0.3391X7-0.1558X8-0.1008X9+0.3771X10-0.3291X11-0.1933X12]

[F3=-0.0117X1-0.1687X2+0.1733X3-0.2693X4-0.3008X5+0.0588X6 +0.3456X7+0.5041X8-0.2919X9-0.2080X10-0.1174X11+0.5090X12]

[F4=-0.0802X1-0.0883X2+0.3429X3-0.0951X4-0.4928X5+0.5271X6 +0.0005X7-0.1161X8+0.1591X9-0.1941X10-0.2019X11-0.2702X12][F5=0.0993X1+0.1617X2+0.2707X3-0.0251X4+0.1000X5+0.1639X6 -0.3226X7-0.4542X8+0.0146X9+0.0011X10-0.4819X11+0.5571X12]

根据主成分分析的分析步骤的第6步可得到选择题综合评价函数:

[F=0.1894X1+0.1578X2+0.3443X3+0.0904X4-0.1792X5+0.0873X6 +0.1840X7+0.0356X8+0.1024X9+0.1524X10-0.1397X11+0.1210X12]

3.2 选择题主成分分析

3.2.1 各题目重要性比较

通过图1,我们可以知道变量[X1]、[X2]、[X3]、[X7]、[X8]、 [X9]、[X12]所对应的题目要高于平均重要性,而变量[X4]、[X5]、[X6]、[X8]、[X11]所对应的题目重要性要低于平均重要性(0.0955)。

3.2.2 模拟考生试卷数学各个选择题对5个主成分影响。

我们可以从[F1]、[F2]、…、[F5]及各个题目变量的载荷的柱状图中清楚直观的观察出各个题目变量对[F1]、[F2]、…、[F5]影响的大小。

3.2.3 各主成分的含义分析

通过表1,我们知道主成分分析结果的前5个主成分的累积贡献率分别为24.31%、46.03%、59.81%、72.77%、83.86%。如果我们选择用这5个主成分变量来替换原来12个题目变量,那么数据信息的损失只有原始信息的16.14%,我们可以根据主成分在题目变量上载荷的大小和所考察知识点的角度来对5个主成分的含义进行解释和命名:

1)对于选择题第一主成分[F1],在其上有较高载荷量的是变量[X9],选择题第9题考察的是利用导数求参数的范围,考察的是考生利用数形结合的思想解题的能力。我们把主成分[F1]含义取名为:“数学思想方法的掌握程度”

2) 选择题第二主成分[F2]没有明显较大的特征向量载荷,就说明了多个因素影响第二主成分[F2],我们发现这些题目分量分别考察的是一元二次不等式、复数、向量、三角形的基本知识和基本题型掌握程度,因此我们可以将其含义命名为“基础知识和基本题型的掌握程度”。

3) 我们都知道任何知识都不是死的,这就要求我们不仅需要掌握知识,还要能够灵活运用所学知识才行,在第三主成分[F3]中,X8、X12的载荷最大,这两题分别考察利用导数研究极值、直线与抛物线的位置关系,考生需要灵活运用所学知识,才能做出来。因此我们取名为“数学基础知识的灵活运用情况”。

4) 对于第四主成分[F4],在其上拥有较高绝对载荷变量是[X5、] [X6],这两题分别考察了立体学科中的几何三视图、空间向量的基本运算,考生不仅需要数学基础知识,还需要凭借良好的数学能力(空间想象能力和画图能力),才能做对并选出答案。因此把F4取名为“数学的基本能力如空间想象能力和画图能力等掌握情况”。

5) 对于第五主成分[F5],在其上绝对载荷量较高是变量[X11、X12],这两题分别考察利用导数研究极值、利用空间向量求线线角,考生需要认真仔细的分析题意,确定考察知识点然后利用所学知识解决问题得出答案,所以,把[F5]取名为“利用数学知识分析和解决问题的能力的情况”。

3.2.4 对考生的评价

首先把每个考生的选择题得分数据标准化,然后将数据分别代入[上面得到的5个主成分]的表达式中,就可得到各考生在[F1]、[F2]、[F3]、[F4]、[F5]及[F]上的得分多少,即可看出每个考生这5个方面的表现。由于考生的人数较多,现列出几名典型考生的计算结果(参见表2)以作分析。

1) 数学学习能力好坏可以通过考生的综合成绩F得分高低来评价,考生的综合成绩F得分越高就说明数学学习能力越好,我们会发现综合成绩F的排列结果和不使用主成分分析法情况基本一致,但也有一些考生不同。例如我们可以看到选择题得分排在第19名的考生,综合成绩却排到了第25名,那是因为在第一主成分[F1](数学思想方法的掌握程度)上他的得分较低,因此该考生对基本数学思想方法掌握比较薄弱需要加强学习。我们再来看看选择题得分排在第35名与第36名的考生,他们的综合得分分别排在了第30名和37名,那是因为在第一主成分上的得分不同,选择题得分排在第22名的考生在第一主成分上稍微高一些。这就说明排名22名的考生比27名考生在解题技巧和方法上学习的要好。

2) 我们还可以对每个考生在主成分及综合函数上的得分情况进行分析,可以比较客观全面地了解每个考生在这5个方面的掌握情况。例如选择题得分排在第一的考生在主成分[F2上有]非常高的得分,说明他对数学科目基础知识的掌握比较好,可其[主成分F5]的得分不太高,处在第六位,说明该考生在分析和解决问题的能力方面比较欠缺,平时应加强这方面的锻炼;还有选择题得分第二的考生,5个主成分分得分排名比较均匀,说明此考生在5个主成分方面的表现比较理想,因而该考生基本掌握了这次试卷选择题部分所考察的知识点。另外我们再来看选择题得分排在第10名和第8名的考生,他们的综合成绩分别排在了第7名和第8名,从上面分析可知,虽然得分在第8名的考生在[主成分F2](基础知识和基本题型的掌握程度)得分比第10名的考生低,但从表中我们可以看出,他在主成分[F3](数学基础知识的灵活运用)和[F1(数学思想方法的掌握程度)]得分却比第10名号考生高,说明更能决定考生学习的优势的是良好的知识运用能力和解题能力。

从以上分析可以看出,在评价和反映考生的学习能力方面,主成分分析法比以往传统方法要更全面、更为具体,可以为今后考生的学习,教师的教学提供了可靠的依据。

4 结论

本文运用通过对模拟考试中数学选择题进行主成分分析法,分析评价了考生的数学学习情况,克服了传统方法中只能笼统反映考生成绩多少的缺点,分析的结果更客观地反映出了考生各方面知识和能力的掌握情况,了解到了考生在学习上的优势和劣势,帮助教学人员和考生,针对具体情况,做到有针对性地指导考生发挥优势,弥补劣势。为教学研究提供科学依据。

参考文献:

[1] 李柏年,吴礼斌.数据分析方法[M].北京:机械工业出版社,2012.

[2] 何亮.主成分分析在SPSS中的应用[J].山西农业大学学报,2007(S1):20-22.

[3] 高惠璇.应用多元统计分析[M].北京:北京大学出版社, 2005.

[4] 李瑞琴.主成分分析在考试成绩综合评定中的应用[J].开放教育研究,2003,4:50-51.

[5] 陆元鸿.数理统计方法[M].上海:华东理工大学出版社,2005.

猜你喜欢
MATLAB软件主成分分析
MATLAB软件在数学模型课程中的应用
基于神经网络对CFRP砼梁的可靠度分析
磁性材料磁化曲线和磁滞回线的Matlab绘制与拟合
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
太阳影长的参数模型研究
服务贸易结构优化路径研究
Matlab符号函数绘图在普通物理教学中的应用