改进的Aprioir算法在独立学院招生中的应用研究

2019-05-23 10:44孙洁黄承宁
电脑知识与技术 2019年5期
关键词:Apriori算法数据挖掘

孙洁 黄承宁

摘要:数据挖掘是指通过算法从大量数据中挖掘隐藏值和信息的过程。Aprioir算法是数据挖掘关联规则中的经典算法。它已广泛应用于网络安全、商业、教育等领域。该文研究并改进了Aprioir算法,并将改进后的算法应用于招生信息的数据挖掘。通过对高校招生数据的深入和详细的分析和挖掘,发现高校招生数据间的关联性,这对招生工作起到指导作用。

关键词:数据挖掘;Apriori算法;招生数据

中图分类号:TP311 文献标识码:A 文章編号:1009-3044(2019)05-0084-02

随着高等院校招生规模的增加、高考生源数量的逐年减少以及二本和三本变为同一批次招生,这些都给独立学院招生带来了巨大的压力。

因为招生决策数据量大、涉及面广,采用基于经验的招生方法,无法保证招生工作的高效性。因此,数据挖掘技术可以用来挖掘和分析过去积累的大量招生数据,从而发现数据间关联关系,获取有价值的信息,降低招生宣传的经济成本,提高招生质量,提高了独立学院的新生入学率。

1 Aprioir算法及算法改进

1.1 Aprioir算法

Apriori算法是基于两阶段频集思想的递推算法,是最有影响的挖掘布尔关联规则频繁项集的算法之一。该关联规则在分类上属于单维、单层、布尔关联规则[1]。

1.2 Apriori算法的改进

经过使用和分析,Apriori算法存在以下问题:

1)在每一步产生候选项目集时,迭代产生的组合过多,不应该参与组合的元素没有被排除,而迭代过程的候选频繁项集是在计算机内存中产生、存储和处理的,这使得算法适应能力较差[2]。

2)每次计算项目集的支持度时,都会扫描和比较数据库中的所有行。当数据量较大时,这种扫描会大大增加计算机系统的输入\输出开销。而这种开销是随着数据库的行的増加呈现出几何级数的増加。

基于Apriori算法存在的问题,下节将对该算法的改进行阐述。

1.2.1 Apriori改进算法---数据规模划分

改进算法的主要思想是将数据挖掘的数据分为N个规模大致相同的部分,对每个子部分分别进行数据挖掘,最后进行合并。

该算法按照以下步骤完成:

第一步:将数据库划分为N个部分,每个部门数据大致相同;

第二步:毎个子部分将分别产生一组潜在频繁项目集;

第三步:将这些频繁项目集合并成一个候选频繁项目集;

第四步:计算每个候选频繁项目的支持度,以确定最终频繁项集[3]。

1.2.2 Apriori改进算法---增加属性列

将数据库划分为N个规模大致相同的子部分后,对每个子部分进行数据挖掘。在前一节中改进算法的第二步中,为每个事务添加一个指定事务包含的项个数的属性列。

进一步改进的Apriori算法,其算法思想如下:

第一步:将数据库划分为N个部分,每个部门数据大致相同;

第二步:毎个子部分将分别产生一组潜在频繁项目集:

1)为事务添加一个指定事务包含的项个数的属性列。

2)如果事务包含的项个数大于或等于N,则计算频繁N项集;否则将其删除。

第三步:对单个项目集进行整理和合并,可以得到全部候选频繁项集。

第四步:计算每个候选频繁项目的支持度,以确定最终频繁项集[3]。

在生成频繁N项集时,Apriori算法需要全部事务来验证候选N项集,而事务长度大于或等于N的事务才属于频繁N项集,反之则不属于[4]。改进的Apriori算法只保留事务长度大于或等于N的事务,并在这些事务中搜索频繁N项集[5]。

2 数据准备

2.1 数据分析

改进算法后,基于院校的需求,对招生数据进行数据清洗和数据挖掘,下面对部分数据做简要描述:

1)考生基本情况表:主要包括考生号、姓名、性别、出生年月、考生类别、考生户口所在地区、考试类别等内容。

2)成绩与志愿信息表:主要包括高考成绩、投档成绩、填报专业、退档原因、录取专业等内容。

3)专业计划库代码对照表:主要包括批次、科类代码、投档单位、专业代号、专业名称、专业种类、计划人数、计划执行数等内容。

4)考生类别代码对照表:主要类别包括:农村应届、农村往届、城镇应届和城镇往届。

5)考生报到情况表:主要包括考生号、姓名、报到情况代码、报到情况等内容。

2.2 数据清洗

针对招生信息,主要从以下几个方面对数据进行清洗:

1)有效性检验。检验数据是否在合理的有效范围。例如性别只能为“男”或者“女”等。

2)删除字段。例如视力、健康状况等字段虽说很重要,但如果作为数据挖掘的数据源,却不合适,而且还要浪费资源,对于这样的数据应该删除。

3)转换字段。比如各省的高考成绩组成不同,使用成绩来表示高或者低是不合理的,可对其分区间,例如在不同范围内认为是成绩差,成绩中,成绩良和成绩优。再比如考生生源地,可采用编号来代替字符描述,例如01表示云南省,02表示四川省等等。

4)统一数据。因为不同地区的考生数据有不一致的情况,需要将类似的字段进行统一。

3 招生信息数据挖掘

3.1 数据挖掘步骤

改进后的Apriori算法应用到招生信息数据挖掘中分四个步骤:

1)将原始数据进行清洗。

2)将清洗好的数据输入数据挖掘系统,设定最小支持度。

3)使用改进的Apriori算法对清洗好的招生信息进行挖掘,保存计算得到的频繁项集。

4)分析数据挖掘的结果。

3.2 数据挖掘结果分析

1)高考成绩与报到率的联系

分析结果显示:2018年该学院录取的考生中以某省为例,报到率较高分数集中在最低档(将高考成绩按照分数分为四档,分别是最低档、中等档、良好档和优秀档)。

2)专业与报到率的联系

分析结果显示:2018年该学院录取的43个专业中,计算机科学与技术、财务管理、软件工程、机械工程、土木工程等专业报到率较高,均达到96%以上。

3)考生生源与报到率的联系

分析结果显示,2018年该学院共在23个省投放置招生计划,其中省份编号为19、20、21、22、23的考生报到率较高,均在97%以上。

综上所述,通过以上的数据挖掘结果,对独立院校招生录取工作提出几点建议:

1)高考分数偏低的生源报到率反而较高,针对这一现象,学院应该采取一些鼓励高分学生的措施,例如,高分可保证第一志愿录取等,以降低优质生源的流失率,从而提高在校学生的整体素质。与此同时学校在录取时,在给分数偏低的学生退档时要慎重选择,否则会影响学校的报到率。

2)生源地不同,报到率也不同,报到率偏低的几个省份大多都是生源大省,每年高考高分的学生也较多,学校应该加强对这些省份的招生宣传力度,让更多的考生了解学校的特色和优势,愿意报考学校,减少优质生源的流失。

3)学校录取专业中经济学和管理学等专业的报到率稍偏低,工学的学生报到率较高,学校应依据市场需求和考生需求对专业设置和招生人数做动态调整,从而降低学生的流失率。

4)学校要关注高考低分段但被录取为工学专业或报到率高的生源地学生,要稳定这部分报到率较高的生源,防止其流失。

参考文献:

[1] 姜鑫.数据挖掘技术在水电厂主设备状态检修中的应用研究[J].水电厂自动化,2014(4).

[2] 陈立宁. 一种用于预估MOCVD工艺结果的改进方法[J]. 电子工业专用设备,2015(8):10-14.

[3] 李桥.数据挖掘在教学质量评价中的应用研究[D]. 长沙:中南大学,2010.

【通联编辑:光文玲】

猜你喜欢
Apriori算法数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于Hadoop平台的并行DHP数据分析方法
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究