聚类分析在高考成绩研究主题发现中的应用

2017-05-31 19:39曹树贵李文陈军霞

软件导刊 2017年5期

曹树贵　李文　陈军霞

摘要摘要：2006年以来，高考成绩研究的学术关注度呈直线上升趋势，探究该领域研究的主题分布，有助于对高考成绩的深入研究及开发利用。以中国知网（CNKI）高考成绩相关研究文献为数据源，在对关键词进行数据清洗的基础上，构建高頻词共现矩阵，继而对共现矩阵进行聚类分析，从而发现了高考成绩相关研究的10个主题方向。

关键词关键词：高考成绩；共词分析；聚类分析

DOIDOI：10.11907/rjdk.171095

中图分类号：TP319

文献标识码：A文章编号文章编号：16727800（2017）005013503

0引言

利用中国知网（CNKI）对高考成绩相关文献进行指数分析，可以发现2006年以前，高考成绩研究的学术关注度较低，且发展平稳，而2006年以后，高考成绩研究的学术关注度呈现直线增长。探究该领域研究的主题分布，有助于对高考成绩的深入广泛研究及开发利用。

1研究理论与方法

本文以文献关键词为数据对象，采用聚类分析方法对高考成绩相关研究文献进行分析，从而发现该领域的研究主题及分布。这里的关键词指文献中作者指定的旨在反映文章主题内容的词。当两个关键词在同一篇文献中出现时，表明这两个词之间具有一定的内在关系，并且出现次数越多，表明关系越密切、距离越近[1]。聚类分析是数据挖掘的典型方法，该方法根据数据对象的特征对研究个体进行划分，同一类中的个体具有较大相似性，而不同类的个体之间存在不同程度的差异[2]。聚类分析可根据文献关键词的距离，将关键词分成不同类团，从而有助于发现所研究领域的主题分布情况。

具体研究过程如下：①数据准备：包括文献题录数据收集、文献关键词抽取、关键词数据清洗、共现矩阵生成等环节；②聚类分析：对关键词共现矩阵采用SPSS聚类分析方法生成类团，对各类团进行解析，从而确定高考成绩研究的主题。

2数据准备

2.1数据收集

文章以中国知网（CNKI）为文献数据源，以“TI=高考 and主题=（成绩+数据+分数）*（分析+统计+剖析+挖掘+评价+预测+实证+差异）”为检索式，限定时间从2006～2015年，共获得期刊文献530篇，会议文献25篇，博硕论文359篇。在此基础上参照题名、关键词、摘要进行人工筛选，共获得380篇文献的题录信息作为研究的数据对象，其中期刊文献293篇，会议文献19篇，博硕论文69篇。

2.2数据清洗

将采集到的文献题录导入到国内学者刘启元[3]开发的文献题录信息统计分析软件SATI3.2中，抽取到文献关键词994个，累计频次1 640次。这些关键词存在着过于宽泛、主题不相关、不规范、一意多词等问题，因此利用3种方式对数据进行清洗。

（1）舍弃。舍去过于宽泛的词，如 “分析”；舍去与主题无关的词，如“高潮期”。

（2）合并。合并意义相同或相近的词，如将“相关性分析”、“相关分析”合并为“相关分析”。

（3）集中。将一些出现频次较少但反映特定内容的词，集中起来用上位词代替[4]。如将低频词“皮尔逊相关分析”、“偏相关分析”集中到高频上位词“相关分析”。

2.3高频关键词提取

高频关键词是出现频率较高的关键词，能很好地反映领域内的关注点。数据清洗后，取频次大于等于5的42个关键词作为数据对象，表1列举了部分高频关键词。

2.4共现矩阵建立

针对以上高频关键词建立高频词共现矩阵，矩阵数据为两词共现的频次，对角线上数据为该词出现总频次，如表2所示。

为避免关键词共现频次受各自词频大小的影响，采用Equivalence等价系数将共现矩阵转化为元素值在[0，1]区间的相关矩阵。在此基础上，用1与相似矩阵中的各个数字相减，以减小因0值过多带来的计算误差，得到高频词相异矩阵，如表3所示。相异矩阵中元素越接近于1，所对应的行列关键词相似度越小；越接近于0，所对应的行列关键词相似度越大[2]。

Equivalence等价系数计算方式为[5]：

Eij=CijCi×CijCj（1）

其中，Eij为相似矩阵中第i个词与第j个词的等价系数，即相似矩阵中对应的元素值，Cij为共现矩阵中第i个词与第j个词的共现次数，Ci、Cj分别为第i个词与第j个词的频次。

3聚类分析

将相异矩阵导入SPSS20.0，进行层次聚类分析（采用组间连接法，Euclidean区间距离）得到聚类树，根据聚类树可以获得10个分别代表不同研究主题的关键词类团：T1，T2，……T9，T10（见图1）。

现对各类团关键词及其代表的研究主题进行详细解析：

（1）T1类团关键词包括：高考志愿、数据仓库、OLAP、数据挖掘、关联规则、决策树，代表数据挖掘相关技术在高考志愿分析中的应用。数据仓库与OLAP是商务智能领域的重要技术方法，采用数据仓库及OLAP技术可以对大规模高考数据进行有效集成，并进行多维度分析；关联规则挖掘、决策数挖掘是数据挖掘的常用技术，可发现隐藏在高考成绩、报考学校、专业、考生信息等多维度之间的规则，建立基于考生信息、成绩信息、招生学校及专业信息的高招录取预测模型，从而为志愿填报提供知识支撑。

（2）T2类团关键词包括：高考英语、效度、信度，代表高考英语效度和信度研究。效度是衡量考试有效性和正确性的指标，信度是衡量考试可靠性、稳定性和一致性程度的指标[6]。在高考科目中，英语作为高考的重要考试科目，其效度及信度研究倍受关注。

（3）T3类团关键词包括：高中生、自我效能，代表高中生自我效能对高考成绩的影响研究。自我效能指人们对自己实现特定领域行为目标所需能力的信心或信念[7]。在所考察的文献中，高中生的自我效能对高考成绩影响的研究文献只有3篇，但已形成一个新的方向，受到一些学者的关注。

（4）T4类团关键词包括：学业成绩、差异分析、性别差异、城乡差异、教育公平、高考改革，代表高考成绩群体差异研究。该主题关注的是高考成绩中体现出不同群体学生的差异性，如性别差异、城乡差异、区域差异、学校差异（如重点高中、普通高中）等，而群体差异的显著性，引发了学者关于教育公平及高考改革的问题探讨。

（5）T5类团关键词包括：体育高考、影响因素、评分标准，代表体育高考成绩影响因素及评分标准研究。该主题主要探寻体育高考成绩与项目内容之间的关系及其它影响因素。另外，测试项目评分标准的制定及实施如何体现科学、合理、公平竞争的原则，也是研究方向之一。

（6）T6类团关键词包括：模拟考试、预测、线性回归、灰色系统，代表报考预测研究，包括高考成绩预测、分数线预测、命题分布预测、报到率预测等。线性回归模型是经典预测模型之一，在高考成绩预测中得到了较多的应用。灰色系统理论则更适用于部分信息已知、部分信息未知的预测系统。对于高考预测而言，影响因素很多，但可度量的因素不多，解决这样的问题，灰色预测模型具有一定优势。

（7）T7类团关键词包括：教育质量评价、增值评价、教育测量理论、Rasch模型、贝叶斯网络，代表教育质量评价研究。教育测量理论是教育质量评价的理论体系，Rasch测量是具有客观等距量尺的测量，可克服经典测量的测验工具依赖和样本依赖的局限[8]。贝叶斯网络是基于概率推理，并以图论的形式来表达和描述数据实例中的关联或因果关系的方法[9]，可对教育质量评价系统进行建模，从而对教育质量各影响因素进行分析。

（8）T8类团关键词包括：大学成绩、大学英语、高等数学、相关分析、回归分析、SPSS，代表高考成绩与大学成绩的相关性研究。该主题关注的是大学成绩与高考成绩的相关性，尤其是大学英语、高等数学等基础课程与高考成绩的相关性。建立高考成绩与大学成绩的回归模型，可依据高考成绩对大学成绩作出预测，为高校招生或教学管理提供参考。SPSS在该类团出现，说明了该软件在相关分析及回归分析中得到了普遍应用。

（9）T9类团关键词包括：大学生、高等学校、高考招生、录取、生源质量，代表高考招生生源质量研究。高考招生分数在一定程度上代表了学校的生源质量，对它的研究可以得出高校生源质量的规律性认识[10]。因此，基于高考成绩的生源质量分析、评价、规律探索等研究文献近年来呈现增长趋势。

（10）T10类团关键词包括：难度、区分度，代表高考试卷区分度与难度研究。对于高考而言，难度是非常敏感的问题，受到考试设计者、教育考试机构、学校、考生、教研部门的普遍关注[11]，因而是试题分析的重要功能指标。区分度，又称为鉴别力，指试题对不同水平考生的区分程度，同样是选拔性考试的另一个重要指标。

综上所述，根据聚类分析所发现的高考成绩研究主题如表4所示。

另外，从聚类分析所得到的研究主题中，也可以发现目前研究的一些不足，主要表现在：①数据挖掘技术研究主要集中在高考志愿分析上，而在其它方面的研究不足；②高考信度和效度研究，集中在高考英语科目上，而对其它科目的研究不足；③针对体育高考成绩的研究较多，而对艺术类高考成绩研究很少；④高考成绩与大学成绩相关性研究主要体现在高等数学与英语等基础课程上，而高考成绩与专业课成绩的相关性研究则相对较弱。

4结语

文章采用聚类分析方法发现了10个高考成绩研究主题，以及高考成绩研究方向上的不足。需要说明的是，以下因素或对本文结论的严谨性产生一定影响：①检索文献所采用的检索式不能找到所有符合要求的文献；②在对关键词的舍弃、合并、集中过程中带有一定主观性；③剔除低频关键词或共现强度弱的共词对，将不利于探测潜在主题或处于上升期的主题[5] 。

尽管受到以上因素的影响，本文结论或存在一定误差，但总体方向上是正确的。笔者将在此基础上，继续探析高考成绩研究主题的核心边缘分布，从而发现哪些是核心主题，哪些是边缘性主题，哪些是热点主题以及有潜力的主题等。

参考文献参考文献：

[1]朱庆华，彭希羡，刘璇. 基于共词分析的社會计算领域的研究主题[J]. 情报理论与实践， 2012，35（12）：711， 6.

[2]王一博，郭鑫，王继民. 国际大数据研究主题的可视化分析[J]. 数字图书馆论坛， 2014（7）：5257.

[3]刘启元，叶鹰. 文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J]. 信息资源管理学报， 2012（1）：5058.

[4]钱澄，李刚. 国内近十年档案网站研究的核心问题与热点分析——基于2000-2011年学术文献共词分析[J]. 档案与建设， 2012（5）：1317.

[5]唐果媛，张薇. 基于共词分析法的学科主题演化研究进展与分析[J]. 图书情报工作， 2015（5）：128136.

[6]陈亚丽. 关于教育测量的要素分析[J]. 无锡商业职业技术学院学报， 2005（1）：8384.

[7]田常琴. 高三学生自我效能、自我妨碍对高考成绩的影响[D]. 重庆：西南大学， 2011.

[8]王蕾. Rasch测量原理及在高考命题评价中的实证研究[J]. 中国考试：研究版， 2008（1）：3239.

[9]谢斌，刘长建. 基于贝叶斯网络构建的学生成绩评价系统及影响分析[J]. 中国科教创新导刊， 2011（31）：3435.

[10]罗良针，张阳. 普通高校本科生源质量规律研究——基于江西24所高校招生数据的实证分析[J]. 教育学术月刊， 2013（6）：8689.

[11]赵海燕，臧铁军. CTT框架下基于数据分析的高考试题质量评价标准——对20042008年高考北京卷的实证研究[J]. 中国考试：研究版， 2009（8）：316.

责任编辑（责任编辑：黄健）