王 炳 堃
(闽南理工学院 招生就业处,福建 石狮 362700)
随着计算机技术的迅速发展,大数据技术、数据仓库等也得到突飞猛进的发展。且大部分民办高校招生数据管理系统仅仅满足简单的事务管理,如录取库信息的导入、录取学生信息的查看、学生信息的更改、录取通知书的打印等操作,对招生决策也是处于表面层面上。因此,如何把数据挖掘技术更好地应用到民办高校招生工作,这是目前民办高校遇到的新的机遇和挑战。挖掘数据中的潜在信息,为高校招生工作的管理、决策提供有力支持,提高高校招生工作的效率和决策水平[1]。各高校每年都有考生因为各自原因放弃入学资格,不但影响了高校报到率,还对教育资源造成极大浪费。文章以闽南理工学院为例,根据自身特点,结合学校的需要设计出一套行之有效的系统和工具,从学校的招生录取库中提取有效的数据进入数据仓库,应用数据挖掘技术中的多维数据分析预测闽南理工学院招生报到情况,为学校决策者提供参考,有助于学校得出更加合理、有效的预测,有利于学校在开学前开展一些准备工作,统筹安排,为提高新生报到率指引方向。
闽南理工学院创办于1998年,经教育部批准于2008年升格为普通本科高等学校。由于学校的性质、专业、录取分数和所在地区等原因导致学校每年的新生报到率不高。文章利用数据仓库和OLAP等技术对新生录取报到率进行多维分析,分析学校2014-2018近5年的新生报到率情况,为学校当年的录取工作提供数据支撑,为来年的招生工作做指导。
新生录取报到率可以从三个方向进行探索,分别是各专业录取报到率、各专业报到人数情况和各省份录取报到率。利用数据仓库和数据挖掘等技术对新生录取报到率进行分析,了解未报到人数情况,确认闽南理工学院各专业、各省份生源流失的情况,为招生数据分析和招生宣传提供服务。录取报到率分析主题的功能需求维度分析见表1。
表1 录取报到率分析主题的功能需求维度分析
文章采用B/S结构对招生数据智能分析系统进行设计,该系统主要由三部分构成,分别是:客户端、服务器端和数据仓库。具体的招生数据智能分析系统结构如图1。
图1 招生数据智能分析系统架构图
数据仓库里存储着最新的2015-2019年5年的录取数据和报到数据,用到的新生报到数据和录取数据主要来源于“全国普通高校招生网上录取系统”。该系统导出的各省份(除了广东省使用广东版录取系统和实行新高考浙江、上海两省、市外)录取数据文件类型统一,都是dbf格式,文件数量一致,内容比较规范。根据各管理员传来的需求指令,执行SOL语句,将处理结果传递到应用服务器。数据的导入可以分成自动识别导入和手动导入。
服务器端由Web服务器和应用服务器组成。应用服务器中包含查询工具、OLAP工具、数据管理工具和ETL工具等。Web服务器工作原理一般包括四个步骤:连接过程、请求过程、应答过程和关闭连接[2]。
系统管理员和其他管理员等用户通过浏览器向服务器发出请求指令,再把指令传输到WEB服务器、应用服务器,存放数据仓库的系统数据库将管理员请求处理后,把处理结果传输到浏览器,通过图、表等多种直观方式显示给用户,该系统操作简便、准确、直观明了,非常适合非计算机专业教师的使用。
通过数据挖掘模型建立维度时,通常的流程主要是创建空维、级别、层次、进行映射、维护。在维的映射中,ID映射为成员属性[3]。维护维,就是装载、计算汇总数据的过程。文章在数据库服务器中构建11个维度表,分别是:招生年份维、招生省份维、性别维、民族维、考生类别维、学生成绩维、年龄段维、志愿批次维、专业志愿情况维、录取专业维和二级学院系别维度。
立方是多维数据的逻辑展现,建立立方的主要过程为:创建、选择、定义、度量、映射及维护[4]。文章对维度进行了组合后创建多个三维立方,以新生录取报到率分析主题为例,数据立方体的构建表如表2。
表2 数据立方体的构建表
客户端结果展示是通过对数据仓库中保存的海量历史数据进行分析和展示。数据挖掘结果的展现常用方法是采用多维报表的形式[5]。在对二维、三维及多维数据进行展示时,利用饼图、柱状图和立方图等形式,简单、准确地展示出数据的变化趋势,了解不同因素对结果的影响程度,方便学校统筹安排,为提高新生报到率做好数据支撑。
闽南理工学院招生数据智能分析系统的招生录取报到率可以更直观、更清晰地查看出某年份各个专业的报到率情况,以供招生部门工作人员方便、快捷地了解到学校各专业报到情况。以2018年招生数据为例,选取招生年份:2018,度量方式“录取报到率”,维度“专业”,显示结果如图2。
图2 2018年各专业报到率显示界面
从图2可以看出学校各个专业报到率基本都在90%左右。其中,资产评估、审计学、给排水科学与技术等几个专业报到率比较靠前。测控技术与仪器、材料成型及控制工程、光电信息科学与工程、国际经济与贸易和经济学等专业报到率较低。报到率较低的原因分析:测控技术与仪器、材料成型及控制工程、光电信息科学与工程等专业属于工科专业,考生对这几个专业比较陌生,直接填报这几个专业的考生较少,大部分生源是通过专业志愿调剂才完成招生计划,影响了这几个专业的报到率。国际经济与贸易、经济学两专业面向外省计划较多,外省由于学校宣传力度、学费、路途遥远、学生复读等原因,导致国际经济与贸易、经济学这两个经济类专业报到率偏低。
利用闽南理工学院招生数据智能分析系统的录取报到人数能够看到各专业的生源报到情况和未报到情况,查看某年份各个专业生源流失情况。以2018年招生数据为例,选取招生年份:2018,度量方式“录取报到人数”,维度“专业”,显示结果如图3。
从图3可以看出,学校在经济学、土木工程、财务管理等专业未报到的人数较多。结合各专业报到率的分析结果,学校在经济学专业的生源流失情况较为严重。学校可依据此分析结果,适当调减经济学专业的招生计划,并提高该专业招生地区的宣传工作。
图3 2018年录取报到人数显示界面
通过闽南理工学院招生数据智能分析系统的招生省份报到率可以很容易看出某年某省份的报到率情况,以便招生部门工作人员简单、直观地看出学校在各省份的报到率情况。以2018年招生数据为例,选取招生年份:2018,度量方式“录取报到率”,维度“省份”,显示结果如图4。
图4 2018年各省份录取报到率显示界面
从图4可以看出,辽宁、浙江、海南和内蒙古4个省份不是协作省份,报到率达100%,但招生计划较少,来年可以适当增加计划数。安徽、河南2个省份是协作省份,两省考生人数多,报到率在90%左右,招生计划数较多,来年可以保持或适当增加计划数。云南、甘肃和山西3省为协作省份,招生计划数较多,报到率一般,来年可保持计划数。贵州、广西两省为协作省份,报到率较低。分析原因可知:这两省考生因为学校性质、路途遥远、学费等原因选择复读人数较多,来年可加大贵州、广西两省的招生宣传力度,在条件允许的情况下适当减少招生计划。学校2018年首次在江西省招生,考生对学校情况了解不多,报到率较低,来年可加大对江西省的招生宣传力度。
文章结合当前阶段招生数据分析系统存在的不足,以闽南理工学院为例,设计了一套招生数据智能分析管理系统。以招生录取报到率为分析主题详细介绍系统功能的开发,实现了以图、表等表现形式简单、准确、直观地展现多维数据集,从而较好地分析预测出学校招生报到情况,为学校招生工作提供参考,精准发力,使招生宣传更加有目的性,使学校做出更加合理、有效的决策,树立学校品牌。