数据碰撞在高校学籍管理中的应用探讨

2016-08-10 07:40蒋泽刚
贵州开放大学学报 2016年2期
关键词:学籍管理信息

蒋泽刚

(贵州广播电视大学 贵阳 550004)



数据碰撞在高校学籍管理中的应用探讨

蒋泽刚

(贵州广播电视大学贵阳550004)

摘要:文章针对没有大型专业化、智能化学籍信息管理软件或系统,而使用手工处理大量学籍信息的难题,提出了基于Excel的数据碰撞解决方案。该方案以数据队列中具有唯一性的共有项为基础,利用运算法和查重法进行人工聚类,碰撞检索出目标数据,从而完成数据核对或合并。

关键词:数据碰撞;学籍管理;信息;运算法;查重法

在计算机网络和软件技术日新月异的大数据时代,高校学生信息管理体系逐步完善,学生信息管理软件日趋数字化、多维化、智能化,为学生信息的完整性、准确性提供了强有力的保障。数据碰撞原理也被广泛应用于数据查重、数据核对、刑事案件侦查、考试资格校验等大型软件的开发应用中。目前,我国很多高校学生信息管理系统(特别是非全日制学生信息管理系统)还没有实现与户籍信息的互联互通、自动核对、动态信息智能化合并功能,大量信息核对和数据合并都需要在线下手工完成。因此,研究数据碰撞方法,对提高高校学生信息管理效率和准确性具有现实意义。

一、基本概念解读

(一)数据碰撞的定义

数据碰撞是指运用现代计算机技术,基于聚类算法,从多个目标数据队列中碰撞检索出具有共同特征项或与自定义字段相符数据的方法。其原理是将改进的CURE聚类算法对训练集进行聚类,然后对簇进行标识,最后使用基于矩形的建模算法建立相关性模型,将待检测数据与该模型进行碰撞比对,并将CURE聚类算法放到Impala中运行。

(二)学籍信息内容

学生学籍信息是记录其在校学习期间成长成才、毕业审核的重要档案,也是他们走向工作岗位后不可或缺的人事档案组成部分。它可分为静态信息和动态信息两个方面,静态信息主要是指学生的基本信息,如姓名、性别、民族、身份证号、学号、专业、班号、家庭成员;动态信息主要指大学生在大学期间形成的其他信息,如:政治面貌、奖学金、资助、生源地贷款、评先评优、纪律处分等信息。

(三)学籍信息管理内涵

学籍信息管理是指根据有关规定对学生的入学资格、在校学习情况及毕业资格进行考核、记载、控制和处理的活动。学籍管理主要包括学籍的取得和注册管理、课程考核和成绩记载管理、转专业和转学管理、纪律与考勤、学籍异动管理和学历与学位证书管理等,学生信息管理在经历了人工管理、内部信息化管理以及网络信息化管理三个发展阶段后逐步走向智能化、动态化,进一步保证学生信息的准确性和完整性。学籍管理的主体称之为学籍管理相关者,主要由校级学籍管理部门、招生就业部门、教务考务部门、毕业审核部门、院系学籍负责人、班主任及辅导员等组成。

二、数据碰撞应用方法分析

数据碰撞在高校线下学籍信息管理中的应用是指在不依靠专业数据查重或合并软件/系统的情况下,将具有唯一性共有项的多组数据按该共有项进行人工聚类,再筛选出目标数据。人工聚类的方法主要有运算法和查重法两种。

(一)运算法

该方法只适用于多组数据表现实体一样的纯数字项核对。如高校每年高考录取的学生数据库与被录取后报到注册数据库加上被录取但没有报到注册学生数据就属于表现实体一样的数据库,若学校以录取数据库为参照数据核对报到注册学生身份证号是否一致,则可用运算法进行核对。具体方法为:将被录取但没有来报到的学生信息复制到注册报到学生信息后面,保证两组数据表现实体一致,以身份证号或考生号为具有唯一性的共有项,将其排序,使之一一对应后将两组数据中的身份证号等纯数字项分别进行对应相减或相除,用减法运算时,结果为0则一致,非0则不一致;用除法运算时,结果为1则一致,非1则不一致。

将多组数据按照具有唯一性的共有项进行排序,使共有的核对项一一对应,是运算法数据碰撞的基础。排序规则分为升序和降序,排序的方法通常有按数字大小、字符长度、字母顺序、姓氏笔画等几种。在运算法的应用中,排序需保证两个条件:一是多组数据唯一性共有项排列规则和排列方法要一致;二是要保证每条数据整体同步移动不散乱。如用EXCEL软件操作则需选中整组数据区,参照项和对比项按具有唯一性的共有项数据排序后再复制在一个表格中进行对应,若DBF格式在转换成EXCEL的过程中出现数据丢失或格式不兼容时,可用VFP进行处理。

(二)查重法

查重法是利用查找重复的公式,把多个目标数据队列中具有唯一性的共有项的数据批量筛选出来的方法。查重法只适用于具有唯一性共有项数据队列的比对和筛选。如把高考投档数据和被录取学生报到注册数据合并在一起,利用查重公式对具有唯一性的共有项数据进行查重,标记为“重复”的学生为被录取且已经报到注册的学生,没有被标记的学生或为没有被录取、或为被录取没有报到注册、或为没有通过高考投档被录取并注册(如自主招生录取)。

查重的函数比较多,可以根据需要编写。可以用“=IF(COUNTIF(A:A,A1)>1,"重复","")”查重函数进行运算(此时查找对象都复制在A列,可以不一一对应)。用函数“=SUBSTITUTE($A1,B1,)”进行查重,如赋值为空白则说明数据是一致的,非空白则说明不一致。

学生学籍信息特别是动态信息会随着学生的成长而变化,这些信息大都只能靠线下手工合并或核对整理后再统一录入/导入学籍管理系统,项目繁多,工作量大,熟练掌握数据碰撞方法则可大大提高线下工作效率和质量。高校学籍管理中纯数字数据主要有学号、班号、专业代码、成绩等,文本格式数据主要有身份证号等,文字格式数据主要有姓名、性别、民族、政治面貌、专业名称、家庭成员等。将运算法和查重法整合交叉使用,可处理纯数字、文本、文字等格式的信息核对及合并。

三、数据碰撞应用步骤

(一)确定参照项

数据核对也称数据比对,有参照项和核对项,参照项和核对项可以根据工作需要相互转换。一般情况下会选择比较可靠的一组数据作为参照项,另外一项作为核对项或者选择条数较多的数据项作为参照项,而较少的作为核对项。在高校学生信息核对中一般选择从教务系统导出的数据作为参照项,而将其他基层学籍信息管理相关者报来汇总的数据作为核对项。

(二)寻找唯一性共有项

唯一性共有项数据包含两层意思:一是此项数据在组内是不重复的;二是此项数据为需要对比的多数据所共有,如身份证、学号等都有此特征。唯一性共有项数据是将多组数据进行排序或查重的基础,如将姓名、性别、民族等非唯一性数据进行排列就会导致组内重复。

(三)确定碰撞方法

若多组数据表现的实体一样,且核对项为纯数字,则可以采用运算法;若数据表现实体不一,数据队列中数据条数不一、数据格式多样等,可采用查重法。

(四)检查并修正错误

数据核对的目的是要找出错误并修正,使得参照组和对照组与实际信息三方一致。数据碰撞应用的最后一个步骤就是根据运算的赋值情况或查重的结果确认核对项与参照项是否一致,如不一致则需拿学生证件及相关文件进行核对并修正,确保三方信息一致。具体流程如图1所示。

图1 基于EXCEL的数据碰撞应用模型(以学生身份证号核对为例)

四、数据碰撞应用实践

在国家的统一招生考试中,学生的网络报考数据与录取后到校报到注册数据不一致,系统漏洞也会导致自动生成出生日期等数据与真实数据存在差异,学籍动态管理同样会因新产生评奖评优等信息导致学籍管理相关者每年会有大量信息核对、合并,熟练掌握数据碰撞方法,可以取到事半功倍的效果。

(一)入学注册信息核对——基于EXCEL查重法

一是确定参照项。将国家高等教育统一招生入学考试投档录取数据作为参照项,报到入学注册数据中身份证号作为需核对项。

二是寻找唯一性共有项。在这两组数据队列中找到具有唯一性的共有项——身份证号码,并将格式统一,一般统一为文本格式。

三是合并数据并标记。将两组数据队列进行合并,使身份证号在同一列,且标记注册数据为红色。

四是插入空白列。在身份证号这一列后插入空白列。

五是插入查重公式。在此空白列第一个单元格中插入函数“=IF(COUNTIF(A:A,A1)>1,"重复","")”,并向下填充格式。

六是检查结果。利用EXCEL自动筛选功能查看结果,标记为“重复”的说明两组数据中身份证号码一致,没有标记的需逐个核实修正。

姓名、性别、民族这些信息不具备唯一性,组内可能已经重复,不能用此方法核对,需将运算法和查重法交叉使用。

(二)系统有漏洞时自动生成项核对——基于EXCEL运算法

由于系统漏洞或被黑客攻击,会导致从教务管理系统导出的学生信息中系统自动生成的出生日期和身份证上出生日期不一致,此时可采用运算法进行批量核对。具体步骤为:

第一,选择参照项。在参照项一行数据的最后位置将核对项身份证号整列复制过来,用EXCEL数据固定长度分列功能将正确的出生日期从身份证号中分列出来作为参照项,删除分列产生的出生日期外的多余数据。如图2所示。

图2 整列复制身份证号

第二,选择唯一性共有项。身份证号具备唯一性,整列复制后的身份证号码就是共有项。如图3所示。

图3 用身份证号分列出正确的出生日期

第三,按唯一性共有项数据排列规则顺序。由于身份证号是从核对项中整列复制过来的,故顺序已经一一对应,不用排序。

第四,将核对项进行减法运算。身份证号分列出来的出生日期属于纯数字,故可用减法或除法,此处选择减法。在身份证号分列出来的出生日期后面一列双击进入单元格,然后输入“=”后选中学籍系统生成的出生日期项,键入减号后再选中身份证分列生成的出生日期项,按回车键并向下填充公式。如图4所示。

图4 运算两项的出生日期

第五,检查结果。值为0的表示出生日期正确,非0的表示不正确。如图5所示。

图5 填充函数并查看运算结果

五、结语

随着学籍档案信息化进程的快速推进,学籍信息分类越来越细,需要处理的数据量也越来越大。在不依靠大型专业化数据处理软件的情况下,数据碰撞在高校学籍线下管理中的应用显得方便快捷。

2015年秋季,贵州广播电视大学成人开放教育学院注册新生2000余人。由于系统漏洞,教务管理平台中自动生成的出生日期有少数比真实出生日期晚一天,运用数据碰撞中的运算法,仅用几分钟就把120多名出生日期错误的学生从2000多名新生数据库中全部筛选出来;运用数据碰撞中的查重法,快速完成了300多名2015年成人高考上线学生身份证号的核对。

数据碰撞方法实用快捷,但若存在数据无共有项、共有项数据无唯一性、数据格式难统一、有多余空格等问题时,用数据碰撞来解决高校学籍管理问题比较麻烦,需使用专用软件或手工配合处理。

参考文献

[1]王艳,潘晨光.基于HDFS和IMPALA的碰撞比对分析.电视技术,2015(14).

[2]梁小晓,韦崇岗.基于Web的高校学生信息管理系统的设计与实现.四川理工学院学报(自然科学版),2010(6).

[3]丁晓丽.新形势下高校学籍管理存在的问题及对策.扬州大学学报(高教研究版),2008(6).

[4]中华人民共和国教育部令第21号.普通高等学校学生管理规定[EB/OL].[2006-01-17]. http://www.gov.cn/flfg/2006-01/17/content_161593.htm.

[5]余海峰.高校学籍管理实践与探索.改革与开放,2009(6).

[6]张颖卓.计算机信息处理技术在高校新生学籍注册中的应用.民营科技,2014(12).

(责任编辑:段娟)

收稿日期:2015-11-11

作者简介:蒋泽刚(1985—),男,贵州六盘水人,助教。

文章编号:1008—2573(2016)02—0013—06

Data-collision Application in Student Status Information Management

JIANG Zegang

(Guizhou Radio & TV UniversityGuiyang550004)

Abstract:To deal with the problem of manual processing of students’ information without professional and intelligent information management software, the author of this thesis proposes to use the approach of datacollision by means of Excel. Based on the data with unique and common features, data check or consolidation is completed by using algorithms and repetition checking to conduct manual clustering and retrieving the target data.

Key words:Data-collision; Enrollment Management; Information; Algorithms;Repetition Checking

猜你喜欢
学籍管理信息
订阅信息
高职院校学籍管理工作思考
计算机应用技术在高职院校学籍管理工作中应用策略
基于以人为本理念的高校学籍管理制度的研究
展会信息
信息
健康信息
健康信息(九则)
健康信息(十则)