桑冬青
(淮南职业技术学院,安徽 淮南 232001)
关联规则在煤炭类高校招生工作中的应用
桑冬青
(淮南职业技术学院,安徽 淮南 232001)
本文结合煤炭类院校的具体情况,介绍了关联规则技术的定义及关联规矩的典型算法,探讨了把基于关联规则的数据挖掘技术应用到煤炭类特色的院校的招生工作中,对煤炭主体专业的相关数据进行预处理,提取挖掘出有效的关联规则进行分析,用于指导院校在合理专业设置、有效开展宣传、服务社会等各方面的工作的正确决策.
数据挖掘;关联规则;招生;煤炭类高校
近几年,参加高考的考生数量逐年减少,高职院校之间的招生竞争日趋严重,保证招生已成为各高职院校生存与发展的关键.因此各院校如何有针对性的编制招生计划,对保障院校在专业建设的合理性、专业发展、有目的专业重点宣传方面,同时对提高新生报到率方面,变得尤为重要.
笔者所在的学校,作为企业办学特色院校,许多专业的设置具有明显的行业相关性,随着近几年煤炭行业的起伏变化,对本校的行业特色专业的招生也造成了明显的影响.
以往招生工作的传统的直觉经验式的招生计划投放方式,在当前的严峻形势下已不能满足要求.本文试图采用数据挖掘中的关联规则针对招生数据进行挖掘分析,发现更准确的有价值信息,为招生相关工作的决策提供支持.
关联规则表示不同数据项目在同一事件中出现的相关性,就是从大量数据中挖掘出关联规则.关联规则分析用于发现隐藏在大型数据集中的有意义的联系.在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构.
关联规则算法是数据挖掘技术中重要的一类算法.1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,其核心是基于两阶段频繁集思想的递推算法.该关联规则在分类上属于单维、单层及布尔关联规则,其中的代表算法是Apriori算法.Apriori算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则.其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分.
本文用来挖掘的数据为某院校的实际招生数据,其中包括了近五年的全部录取数据和新生报到数据.数据包括的字段:考生号、姓名、录取专业、性别、毕业中学、投档成绩、考生类别、科类等,其中录取专业历年计划有所不同.
从已有的数据源来看,可以有各种不同的挖掘思路,生成多种挖掘结果.本文结合数据来源院校的特色,只挖掘与院校特色相关方面的数据,从中分析行业变化对招生工作的影响.
本文挖掘的煤炭相关院校,通常情况下在确定每年的招生计划都会参考往年的招生数据,重点调整煤炭主体专业和煤炭相关专业计划.当然由于需要参照的变量很多,不可能一一涉及,本文主要从煤炭相关的数据进行挖掘分析,然后有针对性的投放煤炭主体专业和煤炭相关专业的招生计划.其中考生的生源地分析后,可以考虑煤炭高度相关的地区,重点进行招生宣传.当然,不可否认由于行业的高度相关,煤炭行业的变化对煤炭主体专业和煤炭相关专业的报考也是相当敏感.通过相关的挖掘,及时对煤炭主体专业和煤炭相关专业的计划调整将至关重要,避免招生计划的白白流失,促进学院的健康发展.
对于已有数据字段值过于离散,对问题分析不具有代表性,必须把离散的字段数据进行高层次的抽象和概括,把数据进行规约,更有利于挖掘出有效的、有价值的信息.
结合以上提出的问题,对待挖掘数据进行分析,本文主要处理“录取年份”、“考生号”、“录取专业”、“毕业中学”、“考生类别”这几个字段的数据,如表1所示.为了满足关联规则算法的要求,必须对数据进行泛化处理.通过结合煤炭相关概念,把“录取专业”、“毕业中学”进行煤炭特色化处理,挖掘煤炭行业变化对招生的影响.
表1 招生数据表
需要进行泛化的数据如下:
3.2.1 录取专业
录取专业本身属于离散型数据,同时它是直接影响考生报考的数据,并且录取专业也是高度的行业相关.结合数据源院校的煤炭行业相关,录取专业的泛化主要考虑煤炭因素对考生的报考、招生专业设置的影响.煤炭专业和煤炭相关专业占学院的生源构成比重大,也是学院的办学特色.通过数据挖掘可以清楚,哪些地区的考生是招生的重点.同时通过数据挖掘判断行业的变化对招生的影响到底有多大.考虑到院校所在地的特殊性,把录取专业泛化为如下几种情况:煤炭主体专业、煤炭相关专业、社会专业.
3.2.2 毕业学校
毕业学校作为离散型的数据,考虑到煤炭行业所在地的学校报考煤矿主体专业和煤炭相关专业的几率较高,可以把毕业学校泛化成本地煤矿学校、外地煤矿学校、本地社会学校和外地社会学校.通过以上毕业学校的泛化,进行数据挖掘,希望发现那些地区的中学是煤炭主体专业和煤炭相关专业的报考生源地.把挖掘结果分析作为招生工作的决策依据,有重点、有针对性的进行招生政策实施.
3.2.3 考生类别
考生类别包括农村应届、城市应届、农村往届、城市往届四种情况,不需要进行泛化,引入考生类别进行数据挖掘,可以更有针对性的对生源进行有效的招生宣传工作.
3.2.4 录取年份
对录取年份的数据挖掘,主要是考虑可以纵向对比每年的招生变化情况,指导学院有效的调整招生计划,合理的设置今后的招生专业.
根据以上描述方法,首先将近五年的招生数据进行数据预处理,对待挖掘数据进行泛化处理后的数据如图1所示:
图1 泛化后的数据
基于关联规则的频繁项集算法比较多,本文采用比较成熟的Apriori算法进行挖掘.挖掘软件采用业界久负盛誉SPSS Clementine 12,Clementine结合业务需求可以快速建立预测性模型,进而应用到各种数据挖掘研究工作中,帮助人们改进决策过程.
考虑到近五年每年的专业招生人数的变化,有的年份部分专业招生人数占总人数相对少的情况,为了加大挖掘结果的分析力度,支持度不应设置高,故而Min Support设置为4%较为合理.
对于最小置信度的选择,结合本文的挖掘需求,为了通过关联规则的挖掘,更好的分生源的某种变化,配合传统分析对招生工作进行指导,并不是一定为了找到某种强关联规则.因此本文把Min Confindence设置为20%较为合理,这样可以挖掘出足够多的关联规则用于对比分析.
根据以上分析,设置好最小支持度和最小置信度,进行数据挖掘,最终生成如图2所示的关联规则集.由图2所示,挖掘后生产了多达131条的关联规则,结合前面提出的挖掘问题,接下来从几方面对挖掘出的关联规则进行分类分析,找出有价值的信息.
图2 挖掘后的关联规则
4.2.1 提取有效规则
分析挖掘出的大量关联规则,把煤矿主体专业对应的关联规则单独挑出来,如表2所示.其中支持度表示生成规则的最小支持度,置信度表示生成规则的最小置信度.
表2 煤炭相关关联规则表
4.2.2 结果分析与应用
根据以上提取的关联规则,横向分析煤炭主体专业的报考热度是本地煤矿学校>本地社会学校>外地社会学校,这就是说学校对于煤矿主体专业的宣传重点应该放到本地来开展,尤其是本地的煤矿所在地区的学校是重中之重,更要特别重视.对于煤矿相关专业来看,外地学校考生的报考热度要明显大于本地考生.
纵向分析煤炭主体专业的报考热度来看,在2013年达到最高峰,从规则来看2013年以后煤炭主体专业的报考热度急剧下滑,这应该是受到煤炭行业的不景气的影响,使得报考考生不在愿意报考煤矿专业.所以从2015年开始,院校在进行专业计划申报时就应该相应的减少煤矿主体专业的计划数,以免浪费招生计划,影响学校的招生.同时学校也要及时的调整专业建设思路,合理性的进行专业建设,促进院校的专业有序发展.
当然,挖掘出的大量关联规则,还可以从其他角度来提取有效规则来分析,从多个角度来指导院校的招生宣传工作,由于文本有限就不在进行一一展开了.
把基于关联规则的挖掘技术应用于院校的大量的招生数据挖掘,从中提取出各种对招生工作有价值的规则信息,对当前严峻的院校招生工作的价值是不可估量的.有了正确的信息,院校在合理专业设置、有效开展宣传、服务社会等各方面的工作才能正确决策,从而保证提高新生报到率和提高生源的质量.尤其对当前各院校都在积极建设地方技能型高水平大学更是具有指导意义.
〔1〕侍颖辉.数据挖掘技术在职校招生决策系统中的应用[J].职业,2008(26):26-27.
〔2〕李霞.数据挖掘在高校教学和管理中的应用研究[J].广东外语外贸大学学报,2012(04):97-100.
〔3〕朱丽丽.数据挖掘在高校招生中的应用研究[J].计算机与现代化,2012(8):190-194.
〔4〕王志浩.关联规则算法在中职招生宣传中的应用[J].中国西部科技,2010,9(22):53—53.
〔5〕李虞军,暂天奇.一释改进的加梗关联提一挖曩方法[J].计算机工程,2010,35(7)t5s-57.
〔6〕DIlnhm M H.数据挖掘教程[M].北京:清华大学出版牡,2005.
〔7〕[美]Olivia Parr Rud.数据挖掘实践[M].北京:机械工业出版社,2003.
〔8〕成平广.ID3算法在高校招生决策中的应用研究[J].重庆教育学院学报,2008,21(3):4446.
〔9〕赵文文.数据挖掘技术在生源分析中的研究实现[D].绵阳:西南科技大学,2006.
〔10〕姜燕生,李凡.数据挖掘中的数据准备工作[J].湖北工学院学报,2003,18(6):35-38+42.
〔11〕侍颖辉.数据挖掘技术在职校招生决策系统中的应用[J].职业,2008(26):26-27.
〔12〕徐健.数据挖掘技术在高校招生信息处理中的应用[J].农业网络信息,2013(11):133-137.
〔13〕何小明,张自力.基于OLAP与数据挖掘的高考招生数据分析[J].计算机科学,2012(06):175-187.
G642
A
1673-260X(2017)09-0150-03
2017-06-29
2016安徽省高校自然科学研究项目(KJ2016A676)