贾妮
摘要: 针对传统预测模型在高考分数线预测方面精度不高的问题,在分析出高考分数线的分布规律及主要影响因素后,运用主成分分析法对影响因素降维并归一化数据,建立高考分数线神经网络模型,并运用BP反向传播算法进行学习,计算出最优权值。以西安工业大学为例,用此神经网络对录取分数线进行预测,给出预测结果的精度分析,结果表明了该分数线神经网络模型有效地提高了分数线预测精度,为高考分数线的预测以及学生志愿的填报提供了参考依据。
Abstract: In view of the low precision of college entrance examination scores prediction by traditional forecasting model, the distribution rule and the main influence factors of the college entrance examination scores are analyzed, after that the principal component analysis method is used for the dimensionality reduction of influence factors and data normalization, the college entrance examination scores neural network model is established, and the BP back propagation algorithm is learned to calculate the optimal weights. Taking the Xi'an University of Technology as an example, the neural network model is used to predict the scores and obtain the accuracy analysis of the prediction result. The results show that the neural network model can improve the prediction accuracy of the score line and provide reference for the forecast of college entrance examination scores and the intention for university.
关键词: 数据挖掘;分数线预测;BP神经网络;应用
Key words: data mining;fractional line prediction;BP neural network;application
中图分类号:TP39 文献标识码:A 文章编号:1006-4311(2017)34-0200-02
0 引言
预测是数据挖掘中重要的任务之一。目前大部分的预测研究集中在销售量预测及股票预测上,一般都带有盈利性,而针对分数线这类公益性的预测研究却很少,预测方法也均为传统的预测方法。如何采用适当的模型预测分数线,进而为考生填报志愿提供科学的参考依据是一个问题。传统的预测模型主要有线性回归预测模型、灰度预测模型等,然而在实际中,分数线的影响因素复杂,传统的预测模型并不能较好地拟合原始数据,导致预测的结果精度较低。近年来,随着机器学习技术的不断发展,出现了基于支持向量机、人工神经网络等方法的预测模型。神经网络(neural networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统,能够精确描述非线性系统的变化规律,成为各个领域的主要预测方法。本文将分步骤详细介绍分数线神经网络模型的建立过程,给出预测模型的精度分析。
1 模型可行性分析
分析收集的高考分数线数据,发现存在众多影响分数线的因素,对收集到的因素进行降维处理。观察数据其分布规律,发现该分布没有较好的函数进行拟合,而三层神经网络能够以任意精度逼近任何的非线性连续函数,因此采用神经网络模型来进行拟合并对平均分数线进行预测是可行的。(图1)
2 分数线神经网络建立过程
2.1 输入输出确定
在使用神经网络模型进行分数线预测时,将学校、招生省份作为筛选项,对输入变量个数进行降维,确定输入变量为年份、招生专业、招生人数,将平均分做为输出变量,对于最高分数线与最低分数线的预测与平均分数线的预测方法类似。
2.2 数据清洗及归一化
对输入的数据进行归一化处理,采用线性归一化方法处理,降低数据分布不均匀的情况,如下式:
若不采用归一化处理,算法的收敛速度会变慢,时间较长,如图2左所示,采取归一化后算法的收敛时间会大大缩短,如图2右所示。
2.3 神经网络的建立
对于分数线神经网络的建立,我们构造一个3层的前馈神经网络N来拟合该非线性数据,其中输入不作为一层,隐藏层及输出层的总数为神经网络的层数,过多的层数会影响拟合的效果,如图3所示。
其中每层节点个数的计算公式为:
对于该原始数据分布,经过尝试发现,在第一层和第二层使用双曲正切S形激活函数或者对数S型转移激活函数,第三层使用线性函数拟合的效果最佳。
2.4 学习算法
对于该神经网络采用BP反向传播算法计算神经元之间的权重w的值[3],其主要步骤如下:
1)对样本集合(x(i),y(i))進行归一化;
2)随即初始化权重w,并计算网络的输出h (w,b)(x);
3)构建其代价函数J(W,b;x,y);
4)利用梯度下降算法求解神经网络。
2.5 预测分数线
我们以2013年、2014年、2015年西安工业大学的数据为例,在Matlab中绘制出预测值与真实值的对比图,如图4所示。其中X轴为样本序号,Y轴为分数线,绿色为训练用的原始数据,蓝色为预测的数据,紫色为未用作训练的原始数据,红色为对应的预测数据,即拿出数据的百分之八十用作训练,用剩下的作为检测数据。可以发现拟合的模型和原始数据拟合效果较好。
2.6 模型检验
进一步分析每一次采样的误差分布,如图5所示。其中X轴为样本序号,Y为预测值与实际值差的绝对值。观察发现,在100个样本中,70个样本误差在五分左右,对于其他偏离较远的点是由于样本数据量小所导致,说明该模型在一定误差范围内,能较为实际地预测出平均分数线。
3 结论
为了提高了当前高考分数线的预测精度,在分析当前预测方法的优缺点基础上,提出了一种基于BP神经网络的分数线预测模型,并用近三年的某高校数据为研究对象,对模型的性能进行验证,结果表明,BP神经网络能够较好地预测分数线的变化趋势,在分数线领域预测中值得推广。
参考文献:
[1]罗艳辉,吕永贵,李彬.基于ARMA的混合卷烟销售预测模型[J].计算机应用研究,2015,27(7):2664-2668.
[2]谢星峰.基于神经网络的卷烟销售预测模型的研究及应用[D].昆明:昆明理工大学,2011.
[3]赵云丰,刘万军.人工神经网络在ERP系统中的应用[J].计算机应用,2013,25(4):748-750.
[4]谢东风,邹平.基于CBP的卷烟销售二重趋势时间序列预测模型研究与应用[J].控制理论与应用,2007,24(6):1015-1020.
[5]罗艳辉,吕永贵,李彬.混合卷烟销售预测模型[J].计算机工程与设计,2012,30(20):4744-4747.endprint