魏然 孙全亮 吕震宇
摘 要:由于新高考“6选3”模式不再区分文理科,这使得无法根据院校历史文理分科数据对新高考院校录取分数进行有效预测。鉴于此,提出了一种文理科历史数据归一化方案,以招生人数作为权重将院校文理分科历史数据合并生成虚拟数据,并使用线性回归模型对新高考“6选3”模式下高校录取分数做出预测。实验结果表明,该方法能够整合历史文理分科数据,对实施新高考模式高校的录取分数进行精准预测。
关键词:新高考;分数预测;归一化;线性回归
中图分类号:O223;TP393 文献标识码:A 文章编号:2096-4706(2021)02-0188-04
Abstract:Because the “three out of six” model of the new college entrance examination no longer distinguishes liberal arts and sciences,it is impossible to effectively predict the admission scores of the new college entrance examination colleges according to the historical data of liberal arts and sciences of colleges. In view of this,this paper proposes a normalization scheme for the historical data of liberal arts and sciences,which combines the historical data of liberal arts and sciences of colleges and generates virtual data with the enrollment number as the weight,and uses the linear regression model to predict the admission scores of colleges under the “three out of six” model of the new college entrance examination. The experimental results show that this method can integrate the historical data of liberal arts and sciences,and accurately predict the admission scores of colleges implementing the new college entrance examination model.
Keywords:new college entrance examination;score prediction;normalization;linear regression
0 引 言
高考志愿推薦质量取决于对高校录取成绩的精准预测。高考志愿推荐行业借助精准的高校高考录取预测成绩向考生阶梯性推荐高考志愿填报方案。在国内以往的研究中,王康平等提出了线差法,利用高校录取分与提档线计算差值进行预测[1]。边帅等提出线上百分位法,利用提档线和累计排名计算分数对应的百分位进行预测[2]。徐宗保提出了利用神经网络分析法来预测高校录取分数[3]。陆昌辉等运用等效分法建立高考志愿录取概率模型[4]。这些算法的基本思路都是将院校历史收分数据转换为排名,并根据排名反推高校当年可能的录取分数。新一轮高考招生制度改革正式启动的标志是国务院于2014年9月出台的《关于深化考试招生制度改革的实施意见》。在新高考中也出现不分文理、选课走班等诸多变化[5],新高考采取选科模式,学生可自主从6门课程中选取3门课程作为高考科目。根据选科方式的不同,新高考模式还可分为“6选3”模式和“3+1+2”模式。其中“3+1+2”模式要求学生必须在物理和历史两科中任选其一,这与过去文理分科模式具有较高的相似性。“6选3”模式允许学生任意选择3门课程作为高考科目,相较于“3+1+2”模式具有更高的灵活性,然而其也为高校高考录取预测带来了新的问题。
传统文理分科模式下,文科、理科存在两个“一分一档”表,而新高考“6选3”模式下只有选科一个“一分一档”表,该“一分一档”表与文理分科模式下两个“一分一档”表没有可比性,进而导致传统预测算法失效,无法对首次实施“6选3”模式高校的录取分数做出准确预测。尽管有人尝试将文理科“一分一档”表进行合并,但受制于文理科录取分数的巨大差异,合并以失败告终。为此,有部分学者开始从算法入手解决无法参考以往数据的问题,周凯等人因新高考模式下历年招录数据参考价值受限而提出了一种基于“文理等位分”方法的志愿填报数学模型[6]。赵洁等人提出了利用计划累计曲线预测志愿填报位次[7],根据平行志愿投档规则,理论上各院校位次比率相对稳定。这种方法也可以叫“位次率方法”或“位次占比法”,是对历史文理科数据分别计算。在本文中不再对历史数据分别计算而是尝试将历史数据合并为虚拟数据,那么如何利用新高考模式之前的文理分科历史数据对新高考“6选3”选科录取分数进行预测便成为迫切需要解决的问题。
1 方案设计
1.1 总体设计
“6选3”模式下高校首年录取分数预测方案如图1所示。
首先,使用高校各年文理科录取分数线对高校历史文理分科录取分数进行归一化处理,形成文理分科录取百分位信息,确保文理科数据的可比性。其次,利用高校文理科录取人数百分比作为权重对文理科录取百分位进行合并,形成虚拟选科录取百分位。再次,对历史虚拟选科录取百分位进行线性回归,并根据线性回归模型预测高校当年的录取百分位。最后,根据当年录取分数线和选科“一分一档”表,将预测选科录取百分位转化为录取排名并进一步换算为预测的录取分数。
1.2 文理科录取分数归一化
数据归一化处理(也可以称为“标准化处理”),用以解决数据指标之间的不可比问题[8]。
采用最值归一化的方法对分数和排名这两个原始数据进行归一化处理,目的是理清历年分数和排名的关系,使数据可比。根据各年度某省份招生考试院公布的“一分一档”表,可以查出某一分数所对应的累计人数、本科分数线所对应的累计人数,以本省最低录取控制分数线所对应的累计人数作为参考,按照等百分位等值方式进行归一化转换,求得线上录取百分位,以此来消除考生人数变化对录取分数的影响。需要代入此转换函数的只有排名数据,排名数据为需要归一化的样本数据,转换后的数据为百分位,映射区间为[0,1],数据归一化之后可以使转换数据更直观,也可使样本数据转换为可比数据。
在文理分科模式下,设成绩m对应“一分一档”表的排名为r,则归一化后本科批线上百分位计算公式为:
专科批线上百分位计算公式为:
其中,am为分数m对应的录取百分位,r1为本科批分数线对应的位次,r2为专科批分数线对应的位次,l1为本科批分数线,l2为专科批分数线。
通过归一化处理,可以将不可比的文理科分数信息转换为可比的线上百分位信息,这为后续文理科合并奠定了基础。
1.3 加权平均法合并文理科
加权平均法,是利用同一变量的观测值以过去若干个按照时间顺序并以此顺序变量出现的次数作为权数,计算出某个观测值的加权算术平均数,以这一结果作为预测未来期间该变量预测值的趋势预测方法。考虑到理科(或文科)招生人数占文理科总招生人数的比例直接决定了理科(或文科)录取百分位对最终合并结果的影响,因此将文理科招生人数百分比作为权重指标对文理科录取百分位进行合并,生成虚拟选科录取百分位。具体计算公式为:
其中,aElc为虚拟选科录取百分位,NArt为往年文科的计划人数,aArt为往年文科录取百分位,NSci为往年理科的计划人数,aSci为往年理科录取百分位。
1.4 线性回归预测模型
为了更好地拟合因变量关于自变量,所以对散点图连接成的直线进行一元线性回归[9]。新高考“6选3”模式下的预测录取百分位的一元线性回归分析,是回归分析中一种预测第n年的录取百分位数据,确定两个变量之间关联性的一种统计分析方法。
假设线上百分位a与年份y之间存在线性关系,构建线性回归方程为:
在参数估计上选用最小二乘法对回归函数的系数作出估计,最小二乘法的准则是确定的值,使误差平方和达到最小,最小二乘法是一种数学优化技术,它可以通过最小化误差的平方和来找到一组数据的最佳函数匹配,简而言之就是利用最简单的方法求得一些绝对不可知的真值,从而令误差平方之和为最小,以下就两个变量之间的关系来说明最小二乘法的原理及其应用,由最小二乘法可知:
预测年度线上百分位公式为:
由式(1)或式(2)可反向求得预测排名,进而通过查找“一分一档”表得到预测分数。
2 方案实施
以首都师范大学2020年在山东省的招生录取分数预测为例,本课题中数据来源是山东省各年度公布的“一分一档”表和2017—2019年由山东省教育招生考试院发布的《全国普通高校招生录取分数分布统计》中找出所需代入的数据,根据以上数据确定首都师范大学2017—2019年在山东录取的文理科录取平均分、录取最低分、文理科招生人数。首都师范大学2017—2019年在山东招生分数数据如表1所示。
根据式(1)计算2017年首都师范大学在山东文科录取平均分对应的百分位:
同理可以由表1中数据分别求出各年份文理科的录取平均分百分位和录取最低分百分位,结果如表2所示。
根据式(3)将首都师范大学2017年文理科招生人数百分比作为权重指标对文理科平均录取百分位进行合并,得到首都师范大学2017年虚拟选科平均录取百分位:
同理,其他各年度虚拟选科平均录取百分位与最低录取百分位的计算结果如表3所示。
根据式(4)至式(6),以计算得到的2017至2019年首都师范大学虚拟录取平均分百分位为基础进行线性回归,由最小二乘法可得:
b=0.930 971-0.002 2×2018=-3.508 629
因此最终回归方程为:
a=0.002 2y-3.508 629
以此计算得到2020年预测录取平均分百分位为:
a2020=0.002 2×2020-3.508 629=0.935 371=93.537 1%
山東2020年选科录取分数线为449,通过查找2020年度山东省高考“一分一档”表得到对应排名为272 673,由式(1)可以求出首都师范大学2020年预测平均分排名为:
r2020=r1(1-a2020)=272 637×(1-0.935 371)=17 620.26
在得出2020年度首都师范大学在山东省的预测录取平均分百分位后,通过2020年度山东省高考“一分一档”表,采用线上百分位方法将预测录取百分位转换为录取分数。对于考生来说只有分数才是最直观的,通过反向查找2020年度山东省高考“一分一档”表,得到首都师范大学2020年预测平均分为615。对比首都师范大学2020年度在本校官网公布的录取平均分614.5分,预测结果与实际录取平均分误差只有0.5分,相对误差为0.08%。
3 结 论
本文通过对历史文理科录取数据进行百分位归一化处理,将历史文理科合并构建出虚拟选科历史数据,然后根据虚拟选科历史数据线性回归预测新高考“6选3”模式下高校录取分数,有效解决了无历史数据情况下高校录取分数的预测问题。由于山东省教育招生考试院官方网站仅提供3年历史数据,因此本文仅使用3年历史数据建立线性回归模型。随着数据增加可以考虑使用多年的历史数据进行预测可获得更高的预测精度,未来可考虑通过进一步增加历史数据量来提高预测准确度。
本模型实现了在没有历史数据的情况下通过构造历史数据对首次采取新高考模式院校的录取分数进行预测,这对其他首次采取新高考模式的省份精准预测高校录取分数提供了一条可行的路径,也为新高考模式下志愿推荐填报指明了方向,给考生的志愿填报提供助力。
参考文献:
[1] 王康平,刘艳杰.如何填报高考志愿 [M].厦门:厦门大学出版社,2016:180-191.
[2] 边帅,王宏利,吕震宇,等.基于异常剔除平均排位法的高校录取分预测 [J].经济师,2019(11):179-180+182.
[3] 徐宗保.高考志愿填报关键技术研究及系统实现 [D].镇江:江苏大学,2017.
[4] 陆昌辉,罗永,黄权,等.高考志愿录取概率模型研究 [J].计算机工程与应用,2010,46(21):14-16+24.
[5] 王颖.了解新高考 实施新举措 [J].辽宁教育,2019(18):7-8.
[6] 周凯,邬学军,沈守枫.新高考模式下志愿填报数学模型的研究 [J].电脑知识与技术,2018,14(19):18-19.
[7] 赵洁,吕富蕾.新高考精准化志愿填报策略——以山东省2020年夏季高考为例 [J].济宁学院学报,2020,41(5):88-94.
[8] 汤荣志,段会川,孙海涛.SVM训练数据归一化研究 [J].山东师范大学学报(自然科学版),2016,31(4):60-65.
[9] 李苹,刘昆,徐坚,等.一元线性回归在成绩预测中的应用 [J].电脑知识与技术,2016,12(24):125-126.
作者简介:魏然(1992—),男,河北唐山人,硕士研究生在读,研究方向:工程管理、信息化与管理创新;通讯作者:吕震宇(1976—),男,汉族,河北唐山人,教授,硕士生导师,硕士,研究方向:管理信息系统、数据分析与挖掘。