流程和数据驱动下的高校招生主题数据分析*

2019-11-07 01:47徐楠楠胡晨光

中国教育信息化·高教职教 2019年10期

徐楠楠胡晨光

摘要：数据是学校的核心资产，数据随业务产生，贯穿于业务的全过程。文章对涉及新生报到的10个业务活动进行梳理和再造，形成从招生到新生报到的上下游业务闭环，然后依据信息标准，对各业务活动数据进行采集、清洗、转换、存储的全生命周期管理，消除信息孤岛。最后利用Python程序设计语言，从计划、录取、报到等多个维度对招生数据进行分析，纵向比较近几年招生计划数和录取数，引入Sklearn库中的LinearRegression构建回归模型，并对招生数据进行预测，指导并完善学校的招生决策。

关键词：流程优化;数据治理;数据交换共享;Python;招生主题数据分析

中图分类号：TP315 文献标志码：A 文章编号：1673-8454（2019）19-0048-06

一、引言

随着信息技术的不断发展，教育信息化经历了部门级应用建设、数字校园建设等几个发展阶段，智能化校园建设成为目前研究和实践的焦点。高校信息化建设过程中，各个部门都先后建立了各种业务管理系统，但这些系统是不同时期的不同平台，依据不同的数据模型建立，缺乏统一规划，没有统一的数据标准，各自为政，相互之间无法进行有效的数据共享和数据利用。“项目型”建设模式不仅带来较大的开发和运维成本，建设完成即形成新的信息孤岛，如果不进行数据整合和集成，沉睡的数据将无法发挥价值。

《国家中长期教育改革和发展规划纲要（2011-2020年）》中明确提出，构建国家教育管理信息系统，促进学校管理标准化、规范化，加强动态监测，提高管理效率。教育部按照《教育信息化十年发展规划（2011-2020年）》要求，制定了《职业院校数字校园建设规范》，推动职业院校数字校园建设，促进信息技术与职业教育的深度融合。《教育信息化2.0行动计划》中也提出，建立“覆盖全国、统一标准、上下联动、资源共享”的教育政务信息资源大数据，打破数据壁垒，实现“一数一源”和伴随式数据采集。《中国教育现代化2035》中明确提出，建设智能化校园，统筹建设一体化智能化教学、管理与服务平台。以上这些政策文件为今后高校信息化建设指明了方向。

二、學生业务域业务梳理

1.原业务处理模式问题

学生是学校的主体，在信息化建设中，依据顶层设计，对学生业务域的业务活动、流程、数据进行分析尤为重要。学生相关管理业务在信息化建设之前，原业务处理模式主要存在以下问题：

（1）横向协调困难，效率不高。绝大多数流程需要多个部门配合才能完成，流程的各活动分散于各部门中，各部门缺乏有效信息交流和协作，整个流程处于无法整体控制的分散状态。各部门以维护部门利益为工作标准，任何一个部门提升整个流程效率的设想往往无法得到认同，缺乏整体控制弱化了整个业务流程的效能。

（2）信息交流不畅，数据不准确。缺乏沟通手段，每个活动操作人员只知道自己负责的业务活动，无法了解流程的全貌，不能准确地参与到整个流程处理中，经常出现重复性工作。在这些重复性工作中，原始数据的选择、过滤、处理机制各不相同，所得结果无法共享，缺乏第三方验证，无法形成数据处理的闭环流程，信息失真在所难免。

2.学生业务域业务活动梳理

根据上述问题，对涉及学生主体的招生就业处、学工部、教务处、财务处、二级学院等多个职能部门调研，对学生入校前、入校、在校、离校四个阶段全过程管理进行分析，整理出学生业务域的主要业务活动，如图1所示。

学生入校前，包含的业务活动有自主招生、考务管理、录取管理、招生管理;入校阶段，包含的业务活动有生成新生学籍、收费管理、宿舍安排、绿色通道、新生制卡、新生报到（迎新）;在校阶段，包含的业务活动有学籍管理、学籍异动、教学活动、奖惩贷助、发费管理、收费管理、绿色通道、宿舍管理、一卡通管理、社团活动;离校阶段，包含的业务活动有毕业离校、就业管理、校友管理。

在上述业务活动中，学生在校阶段的学籍管理、学籍异动和教学活动是与教学相关的非常重要的一部分业务，因此，此部分内容也可以划分到教学业务域中进行分析。

3.以新生为主体进行流程优化

确定主要业务活动后，就进入流程分析阶段。业务流程分析的目的是通过对现有流程进行评价，寻找出改进的机会并确定选择业务流程中的哪些活动进行优化。涉及新生的业务活动主要包括入校前和入校两个阶段，在分析过程中，确认具体业务活动描述和业务对应的主责部门，并对这10个业务活动全部进行信息化并建设相关的业务系统，具体如表1所示。

业务系统建设完成后，虽然在一定程度上规范了各业务部门内部的管理工作，提升了管理效率，但是对跨部门间的业务和数据仍存在业务流程不通、数据不一致导致的重复操作情况。因此，需要再次对跨部门业务进行梳理和流程再造，旨在以业务流带动数据流，以数据共享需求推动业务流程梳理和再造，进而打破各部门的系统屏障，实现跨部门业务流转，整合原先各部门分散的数据，统一管理数据资源的目标。

以自主招生为例，对考生报名、考试、录取、生成新生学籍、生成应收、安排宿舍、新生报到、报到结果反馈的全过程进行流程梳理和优化，如图2所示。

流程优化遵循以下原则：

（1）流程便捷化。在分解和诊断原有流程的基础上，实现流程优化，达到便捷化和自动化，从而降低时间成本，提高服务效率。流程便捷化不是某一个部门内部的变革活动，而是众多部门的联动，无需再做重复性工作。

（2）行为规范化。通过信息化技术手段对业务流程进行准确描述并形成标准作业的一系列过程，必然要求业务流程的制度化、标准化、程序化。

（3）过程人性化。以用户需求为导向，业务流相关人员全面参与，建立相互协调、相互监督、相互合作的工作关系。

经过流程优化，达到以下目标：

（1）把非结构化的流程转变为具体的程序化活动，以全局视角将不同部门所负责的活动相互连接构成了有组织的业务活动，破解了各自为政、协调困难的问题。

（2）更多关注活动之间的关系，设计各项活动触发条件、完成时间、输入输出等活动之间的衔接问题，保证流程的整体运动方向，以整个流程的标准化促进部门内各活动处理的制度化、规范化，实现流程的整体协调。

（3）明确了每个部门的职责，上一个活动产生的输出作为下一个活动的输入，下一活动对上一活动提供的数据进行使用、验证和反馈，流程上实现了数据管理的持续过程。这种闭环业务流程既提高了工作效率，又保证了学校所有主数据的准确。

三、数据治理为数据分析夯实基础

业务流程再造使得学生全局业务成为上下贯通、左右协调的闭环流程，但是要保证业务流上所承载数据流的高质量、可用性和一致性，还需要对数据收集、转换、清洗等过程进行规范化治理。

1.规范数据阶段，明确数据职责

数据在业务流程中分为三个阶段：

（1）数据产生阶段。学校的原始数据，大部分源于各业务系统。

（2）数据集成阶段。使用ETL或Web Services接口將数据抽取到数据交换平台中。

（3）数据使用阶段。对上游数据进一步处理，产生增值数据。

数据质量问题主要产生于数据产生阶段，主要问题有数据项缺失、数据不准确;其次在数据集成阶段的数据加工过程，主要问题有数据定义缺失导致的数据理解错误，系统间数据同步时效造成的数据不一致。数据使用阶段和数据集成阶段是数据质量问题暴露最多的两个阶段，因为数据的使用决定了数据质量问题的定义，很多质量问题都是在首次使用时才发现。

针对数据阶段特点和数据质量问题特性，制订数据治理策略：

（1）数据产生阶段。数据质量问题必须在源头得到修正，这是数据治理策略的一项基本原则。数据项缺失、数据不准确和数据集成阶段暴露的数据定义缺失都是在数据产生阶段出现的问题，此阶段数据质量问题的实施策略为：规范《学校信息标准》，系统建设时严格按照信息标准中主数据的标准定义系统数据项，并要求承建商提供数据字典。在数据采集时，既通过技术手段做到数据“应采尽采”，又通过培训等多种形式宣传数据准确的重要性，让各系统操作人员把好数据质量第一道关。

（2）数据集成阶段。各信息系统的主数据在这个阶段进行汇集，数据项缺失和数据定义缺失也是在此阶段暴露的。数据集成是信息中心核心工作之一，通过数据质量暴露的问题，追踪数据质量背后的根本原因，对人员、业务流程、信息系统、集成过程等提出深入优化方案。

（3）数据使用阶段。作为数据的最终使用者，在使用环节评估数据治理的成效，并反馈给信息中心作为下一阶段数据治理的目标依据。

根据上述情况，建立数据责任人体系，分别明确数据所有者、数据管理者、数据使用者的工作职责，如图3所示。数据所有者是数据的产生维护者，一般是业务部门工作人员，需要按照数据标准、数据质量要求提供可信的原始数据，并对缺陷数据进行修复;数据管理者是数据的集成维护者，多为信息中心数据管理员，负责数据集成，推动数据共享，及时做好数据备份，制定数据安全管理策略;数据使用者申请使用数据，发现数据质量问题，并根据需要进行数据分析。全面治理学生数据，以实现“状态数据要准确，过程数据要连续，历史数据可回溯”的目标。

经过数据治理，确定了学生基础数据的权威来源，依据信息标准，规范学生主数据，通过数据交换平台实现异构系统间数据的共享交换。数据使用中发现的数据质量问题及时反馈修复，最终形成数据闭环，如图4所示。学校各环节用户都成为数据的生产者、维护者、使用者和受益者，打造了全量、高质量、标准化的数据生态，服务于人才培养、科学研究和学校运营。

2.新生数据共享交换和治理

为了让数据在业务流上流动起来成为信息流，首先是实现对新生业务的数据共享交换，采用ETL工具实现异构系统间的数据交换，具体共享交换方案如图5所示。

数据共享交换遵从学校信息标准，根据权威数据来源，确保每个数据项只有一个出处，即“数据一次录入多次使用”。信息中心负责数据的一致性，各业务部门负责数据的准确性、完整性、规范性。确定了数据产生的权威部门，数据随着业务处理在业务流中动起来，下游数据使用部门验证数据产生部门的数据质量，形成有效的采集、交换、共享、监督、反馈、沟通、整合数据闭环，不断提升数据质量，为数据分析决策夯实基础。

四、利用Python实现招生主题数据分析

1.数据应用的三个层次

数据经过采集、转换、清洗后，可以进行不同层次的利用和分析。对数据的利用可分为三个层次：

（1）数据报表、可视化：包括师生画像，师生数据一张表，校情数据展示等。

（2）数据挖掘、关联分析：对不同维度的数据进行挖掘应用。

（3）建立数据模型、预测。

对数据的利用，前提和基础是实现数据共享交换。解决数据共享交换，消除信息孤岛是一个持续的过程，新业务系统的建设或者旧业务系统的升级改造势必会影响原有数据的共享交换规则，所以当前和未来一段时期，数据共享交换仍是高校数据工作的重点。目前各高校对数据的综合利用多停留在数据报表可视化阶段，只有个别高校实践了数据的挖掘应用。

2.Python简介

利用Python程序设计语言对数据进行可视化分析的优势在于其强大的集成性和丰富的第三方库，Anaconda和PyCharm可以帮助用户实现Python的高效开发，把数据读取、数据清洗、数据分析和数据展示都集成在PythonIDE，无需添加额外的开发程序。Python具有10万多个第三方库，如Requests、BeautifulSoup用于网络爬虫采集数据;Matplotlib和Seaborn有良好的作图性能;Pandas是基于Series和DataFrame两种数据类型的数据分析库。

3.招生主题数据可视化

本文数据可视化图表均使用Python3.6版本，集成环境使用Anaconda3。

数据采集时，既可以直接通过Python连接数据库，也可以将需要分析的数据从数据库中导出成CSV或Excel格式。本文使用的数据统一在数据库中用SQL脚本执行查询语句，然后导出。

Python数据采集语句如下：

# 引入工具包

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import warnings

warnings.filterwarnings（'ignore'）

# 如果数据图中需要显示中文

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.rcParams['axes.unicode_minus'] = False

#创建工作路径

import os

os.chdir（'D：＼＼python＼＼自主招生数据分析＼＼'）

#读取数据

zz_student = pd.read_excel（'zz_student2019.xlsx'，sheetname=0）

数据清洗是对数据进行重新审查和校验的过程，清洗过程中对重复数据、非标准化数据、缺失值数据进行处理。利用Pandas和NumPy计算库对数据进行聚合操作、清洗、标准化以及数据转换等。比如，利用身份证号信息对某些性别为空的数据填充正确的“男”“女”值，代码如下：

##提取身份证号字段

zjh = zz_student1['SFZH']

data_zjhs = pd.DataFrame（zjh）

##定义函数

def get_sex（series）：

getZjsh = str（series['SFZH']） ##假设数据有int和string 2种类型，全转换成str

zjsh = int（getZjsh[：-1]） % 10 ##这里先取到前17位，然后把string转换成int类型进行计算

if zjsh % 2 == 0：

return '女'

else：

return '男'

data_zjhs['性别'] = data_zjhs.apply（get_sex， axis='columns'）

数据清洗和标准化处理后，进行可视化处理，使用Matplotlib或Seaborn绘制成图。

图6是自主招生考生的考试情况分布饼图，从图中可以明显看出，免试入学的考生占比将近一半，只免面试的人数占比24%，只免面试的人数较少，占比2.74%，参加双考的人数占比为27.31%。根据此数据情况，教务处可以优化配置考场安排、笔试监考老师、面试官，以达到资源最优配置。

利用Python中的Bokeh制图可实现图表的交互，如图7所示。该图是各学院不同类别新生的录取人数堆叠柱状图，横坐标是学院维度，纵坐标是人数，颜色表示自主招生、中高职衔接、高招、贯通培养四类新生类别，柱子的高度表示人数的多少，当鼠标放在柱子上时，可显示该学院各类别新生人数。从图中可以看出，电信工程学院的自主招生人数最多，汽车工程学院的高考招生人数最多，艺术设计学院的中高职衔接转段人数最多，根据此数据情况，结合各学院的招生专业计划和实际师资配比，可以适当调整专业设置和专业计划数，以突出特色专业，实现合理師资配比。

另外，从生成的“各类别新生男女生年龄分布折线图”中可以看出，贯通新生的年龄多在15、16岁，极个别是14岁或者18岁，自主招生和高考统招新生年龄多在18岁，极个别在17岁或者21岁以上。根据此数据情况，结合各年龄段孩子特点，优化配置辅导员和班主任。

对2013-2019年学校自主招生计划数和录取数进行对比，绘制计划数和录取数分布图，如图8所示。

继续对招生计划数和录取数进行相关性分析，利用Python中的corr（）函数，求得Pearson相关系数为：0.949153，说明两者有较强的正相关性。接着利用Sklearn第三方库中的LinearRegression构建回归模型，模型结果显示，计划数与录取数存在线性关系。根据构建的回归模型，当计划数是1200时，预测录取数是1415。模型代码如图9所示，计划数与录取数回归拟合线如图10所示。

五、结束语

模型的构建需要结合特定的背景，综合考虑影响预测值的各个维度和各个因素。比如在上述的回归模型中，历年的数据积累会增加样本数据量，样本数据量的增加会使得预测结果更准确。另外，在模型中还需要考虑当年的招生政策、考生出生当年的人口出生率或当年各地生源的高三毕业生人数，多种因素综合分析也会提升对预测结果的判断力。

大数据时代，学校各个业务系统的数据只有进行统一源头采集、标准规范清洗转换、合理安全存储、有效综合利用的全生命周期，才能真正绽放高校教育数据资产的价值。流程是经脉，数据是血液，以师生为中心，梳理各个核心业务尤其是跨部门业务，是解决和消除数据孤岛的重要途经。数据标准是基础，数据治理是途径，数据交换是核心，数据分析是结果，数据工作需要全校上下各部门联动，打造学校、部门、个人三方共同参与、共同维护、共同使用、共同获益的良好数据生态，将学校业务数据通过采集、处理、利用加以高效组织和科学管理，使其成果得以有效应用于学校的教学、科研和校务管理与决策过程，进而提升学校的核心竞争力。

参考文献：

[1]Wes McKinney著;徐敬一译.利用Python进行数据分析[M].北京：机械工业出版社，2018.

[2]Clinnton W.Brownley著;陈光欣译.Python数据分析基础[M].北京：人民邮电出版社，2017.

[3]Kirthi Raman著;程豪译.Python数据可视化[M].北京：机械工业出版社，2017.

[4]Eric Matthes著;袁国忠译.Python编程从入门到实践[M].北京：人民邮电出版社，2016.

[5]吴升.大数据平台中数据分析工具的设计与实现[D].上海：东南大学，2015.

[6]陈为.数据可视化的基本原理与方法[M].北京：科学出版社，2013.

[7]蒋东兴等.信息化顶层设计[M].北京：清华大学出版社，2015.

（编辑：王晓明）