冯晓林 王岁花
摘要:本研究深入剖析了灰色马尔科夫模型在高校招生中的应用,由于高校生源变动的随机性、波动性以及复杂性,给招生预测工作带来了很多瓶颈。为了更准确地预测招生人数,我们将试图把灰色动态预测与马尔科夫预测模型融为一体,对高校招生人数进行预测。选取河南师范大学部分新生历年录取入学情况为研究对象,采用数据收集法、实验分析法、灰色马尔科夫模型等技术发掘数据中隐藏的规律和模式,从而为高校招生工作提供科学的依据。
关键词:教育数据挖掘;灰色马尔科夫模型;高校招生
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2019)24-0044-03
近年来,随着我国科学技术的高速发展,教育事业步入了新的征程,各类高校都由传统的数字校园向高层次的智慧校园转型。教育信息化也成功应用在了高校的管理、科研、学习、评价等领域,教育数据也随之海量地增长。如何从海量的信息中挖掘出对教育工作者以及学习者有价值的信息,为高校招生提供科学的数据支持?在这种背景下便催生了教育数据挖掘。
教育数据挖掘是从已经生成的数据集中挖掘出隐含在其中的规律。这些数据具有不完全、有噪声、不确定、包含各种存储形式等特点[1]。应用数据挖掘一般要经历以下几个阶段:数据收集、数据筛选、找到目标数据、预处理、已处理数据、数据分析、结果分析、做出决策。具体流程如图1所示。经常用到的数据处理方法有:BP神经网络模型、支持向量机、灰色动态预测、马尔科夫模型等。BP神经网络适应于样本比较大的数据预测,具有精度高、预测准的特点。在应用的过程中,一般分为训练和测试两个阶段。训练阶段的主要目的是从训练样本中提取隐含规律,形成训练集,供测试阶段解决问题使用[2];测试阶段就是用测试数据来验证训练出来的模型,看是否符合训练规律。支持向量机(SVM)是以VC维理论为基础,利用最大间隔算法去近似地实现结构风险最小化原理,是目前比較流行的新型机器学习方法。灰色动态预测模型不适用于长期的、随机性、波动性较大的数据预测,但是它可以揭示事物的发展规律。马尔科夫预测模型可以用于随机性、波动性较大的动态过程,能对随机波动数据列进行中长期的预测[3]。
由于高校招生人数受到生源、政策、师资、管理等众多外界因素的影响,且这些因素难以精准量化,是一种小样本,具有不确定性和非线性变化的特点,因此它的预测不能只靠单一的预测方法,我们试图把灰色动态预测与马尔科夫预测模型融合为一体,取长补短,克服单一预测的弊端,最终达到精准预测。
一、数据采集
数据准备阶段,原始数据采用河南师范大学2012年—2018年在豫理科一批的实际录取人数,从学校招生网站和线下招生宣传获取相关信息,以Excel格式提供,根据数据挖掘主题所需的数据,统计出在豫理科一批考生中的“计划招生数”、“实际录取数”、“省控线”、“最高分”、“最低分”、“平均分”等属性,如图2所示。
二、建立灰色马尔科夫模型
当灰色动态预测结果比实际结果大,则修正式中的分母加减号应为正号;当灰色预测结果比实际结果小,则修正式中的分母加减号应为负号;当灰色预测结果与实际结果基本接近时,则不用修正。
三、灰色马尔科夫预测模型的应用
1.高校招生灰色动态模型。选取2012年—2018年河南师范大学本科理科一批在豫实际招生人数为研究对象(如表1),可以观察出,本科一批实际录取人数从中长期来看,有增加的趋势,但是复杂性、波动性也比较大。
由于实际招生人数受很多外界因素的影响,具有一定的复杂性和波动性,但是它有一定的时间连续性,因此可以依据实际招生人数随时间的变化规律,预测未来实际招生人数。
2.马尔科夫预测原理修正灰色预测值。灰色动态预测从总体上能够反映出高校实际招生人数的发展趋势,但是又受到生源、地方政策、管理等众多外界条件因素的制约,且这些因素具有随机性、非线性、波动性及复杂性的特点,不能如实反映实际预测结果,必须要对相应的预测结果进行修正。依据马尔科夫预测原理,通过对招生人数的增减与灰色动态预测结果相比较,来划分招生人数预测的马尔科夫动态模型,并依据划分的结果计算招生人数的转移概率矩阵,进而修正灰色动态预测结果。按照预测结果与实际结果之间的误差之比,将实际录取人数划分为三种状态:低估(0.2—0.5)、较为准确(0.5—0.8)、高估(0.8—1.1),根据这三种状态确定2012—2018年河南师范大学本科理科一批在豫实际录取人数分布和出现年数(如表2)。
依据2010年—2018年河南师范大学本科理科一批在豫实际录取人数建立转移概率矩阵。以MATLAB7.0软件为平台,按照3*3矩阵排列原始数据,计算转移概率矩阵的结果如下:
在马尔科夫(Markov)预测模型中,转移概率矩阵P可有效地反映随机因素的波动程度,弥补GM(1,1)预测模型带来的局限性[6]。根据马尔科夫预测经验以及2018年河南师范大学本科理科一批在豫实际录取人数所处的状态区间可以得到,2018年处于第二种状态,属于灰色预测值与实际值相比较为准确状态,不用修正,因此2019年的马尔科夫值为2902;由以上转移概率矩阵P的第二行的最大值确定2020年本科理科一批在豫实际录取人数,处于第一种状态区间,选取第一种状态区间的误差中值为修正数,对灰色动态预测结果进行修正,得到2020年本科理科一批在豫实际录取人数马尔科夫修正值3427;再由以上方法,转移概率矩阵P确定2021年本科理科一批在豫实际录取人数的状态,依据转移概率矩阵P第一行中的最大值,判定2021年的误差状态为第一种状态区间,经计算灰色马尔科夫预测值为5267。
四、结论
基于学校招生人数的特点,将GM(1,1)灰色动态预测与马尔科夫预测模型融合为一体,能够取长补短,克服各自单一预测的短板,发挥各自的特长,对一维时间序列模型的中长期预测,具有良好的效果。研究认为,河南师范大学本科理科一批在豫实际录取人数呈指数型增长趋势,整体上来看,学校的招生人数均增长迅猛,根据2012年—2018年的实际招生人数预测值拟合度,预计近几年河南师范大学本科招生还将继续保持增长的态势。
参考文献:
[1]柴艳妹,雷陈芳.基于数据挖掘技术的在线学习行为研究综述[J].计算机应用研究,2018,35(05):1287-1293.
[2]许程.机器学习的主要策略与基本结构[J].科技资讯,2010,(03):185.
[3]陈焕珍.基于灰色马尔科夫模型的青岛市粮食产量预测[J].计算机仿真,2013,30(05):429-433.
[4]盛骤.概率论与数理统计[M].北京:高等教育出版社,2010.
[5]赵素霞,牛海鹏.基于灰色马尔科夫模型的河南省耕地压力状况研究[J].干旱区资源与环境,2015,29(08):46-51.
[6]李克昭,李志伟,赵磊杰.马尔科夫理论的优化灰色模型预测建模[J].测绘科学,2016,41(08):1-5.