关联规则在招生决策中的应用分析

2014-07-03 18:41陈璐宇
电脑知识与技术 2014年12期
关键词:关联规则应用分析

陈璐宇

摘要:随着高校招生系统的广泛使用,系统中积累近年来大量的生源信息和招生信息,如何使得这些看似垃圾的数据成为对高校招生决策的重要信息,该文应用数据挖掘技术中管理规则的Apriori算法,以招生系统中的信息为研究对象,挖掘影响学生报到的内在因素,发现与报到率关联的有用信息,从而降低招生宣传的成本,为高校的招生决策者提供指导和有效的数据支持。

关键词:关联规则;招生决策;应用分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)12-2702-02

1 概述

自教育部提出高等教育要从精英式教育转向大众教育以来,高等学校都在扩大办学规模,招生规模也呈不断上升的趋势,但近几年生源量却在逐年减少,很多学校的很多专业的报到率逐渐降低,这使得院校之间出现了前所未有的生源竞争。很多高校都在做盲目的招生宣传,这种无的放矢的做法不但浪费资源还不见成效。我们可以利用数据挖掘算法中的关联规则从近几年招生系统中的历史数据中挖掘出有用的信息,给高校决策者在招生宣传和录取工作中提供良好的决策依据。

2 数据挖掘中的关联规则

数据挖掘技术是随着信息技术的广泛使用的产物,信息技术中产生的数据虽多信息却很匮乏,如何从大量的数据中归纳总结提取出有效的信息就是数据挖掘技术的任务。数据挖掘(Data Mining),常被称作数据库中的知识发现(Knowledge Discovery in Database—KDD)。是指从海量的、随机的、有噪声的大型数据中提取隐涵的、事先未知的、具有一定价值意义的知识的过程[1]。关联规则是数据挖掘技术中的一种挖掘信息的技术,是从海量的数据中区找到项与项之间有用的关联关系[1]。最早始于对购物篮的分析,通过对顾客的交易信息进行挖掘分析,找出顾客经常一起买的商品有哪些。

关联规则有数据项I={i1,i2,…,ix},数据项集A[?]I,事务T=(TID,A),TID是唯一标识一个事务的事务号。假设事务T中有数据项集M、N,且M[?]T。关联规则就可以表示为形如M[?]N的蕴涵式。

Apriori算法是关联规则中应用最广泛的一种方法,是基于关联规则的基础,首先找到频繁集,再由频繁集推出关联的规则。它采用的搜索策略是广度优先,也就是先一层一层搜索,再用迭代的方法来对项集之间的关联关系进行探索,也就是k-项集是被(k-1)-项集探索得到。

Apriori算法的基本过程分为两大步:第一步,对数据库进行依次扫描,第一次扫描,搜索频繁1-项集Ll,即所有支持度数满足最小支持度阈值的项集,扫描得到的候选1-项集记作C1。就这样,依次搜索迭代,一直到不再有新的候选集产生为止,k次扫描后,得到的候选k-项集记作Ck。。第二步,修剪掉候选项集Ck中不频繁的项集,得到频繁项集Lk。第三步,由找到的频繁项集中推出关联的规则。

3 学生报到信息的关联规则分析

根据关联规则,可以将学生报到的数据设置为这样的项目集:I={生源种类,生源地地区,成绩分数段,录取专业是否如意,是否报到}。其中,生源种类为:城市应届,城市往届,农村应届,农村往届;生源地地区分为:东部沿海发达地区,中部发展地区,西部欠发达地区;成绩分数段分为五段,用罗马数字表示各项目的分类:Ⅰ、重点线上10-30分,Ⅱ、重点线上30-50分,Ⅲ、重点线上50-70分,Ⅳ、重点线上70-90分,Ⅴ、重点线上90分以上。事务T是是项目集I的一个子集,T[?]I,考生号用来区分每个事务。每次扫描得到的频繁项集用Lk表示。报到与否是要分析的属性。

选取近两年学生录取情况和报到情况作为分析样本,事务数180000条。第一次扫描样本数据,得到频繁1-项集Ll,如下表。由于“报到”是我们要分析的目标,所以我们只分析关于报到的频繁集,为了便于求得信任度,在支出数的后面添加了条件数。18000的样本事务中,报到人数为17248,报到率为95.82%。所以分析时,Ll的最小支持度设为97%。

连接Ll得到C2,扫描C2项目集,由于本样本数据不是很多,不进行剪枝,将所有数据联接得到L2,设L2的最小支持度为96%下表为满足最小支持的几项。

上图所示的项集都是通过L2可以推出的规则。

联接L2后得到C3,扫描C3得到L3。设L3的最小支持度为96%下表为满足最小支持的几项。

4 结束语

本文通过对高校招生录取数据库的分析,利用数据挖掘技术中的关联规则,选取招生录取数据库中的历史信息作为样本进行分析,找到了新生入学报到与生源种类、生源所在地区、考生成绩和对专业的满意与否的关系。这有助于学校对招生计划、专业设置以及招生宣传的定位与改进,为学校的招生工作提供决策依据,减少招生成本,提高学生报到率。endprint

摘要:随着高校招生系统的广泛使用,系统中积累近年来大量的生源信息和招生信息,如何使得这些看似垃圾的数据成为对高校招生决策的重要信息,该文应用数据挖掘技术中管理规则的Apriori算法,以招生系统中的信息为研究对象,挖掘影响学生报到的内在因素,发现与报到率关联的有用信息,从而降低招生宣传的成本,为高校的招生决策者提供指导和有效的数据支持。

关键词:关联规则;招生决策;应用分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)12-2702-02

1 概述

自教育部提出高等教育要从精英式教育转向大众教育以来,高等学校都在扩大办学规模,招生规模也呈不断上升的趋势,但近几年生源量却在逐年减少,很多学校的很多专业的报到率逐渐降低,这使得院校之间出现了前所未有的生源竞争。很多高校都在做盲目的招生宣传,这种无的放矢的做法不但浪费资源还不见成效。我们可以利用数据挖掘算法中的关联规则从近几年招生系统中的历史数据中挖掘出有用的信息,给高校决策者在招生宣传和录取工作中提供良好的决策依据。

2 数据挖掘中的关联规则

数据挖掘技术是随着信息技术的广泛使用的产物,信息技术中产生的数据虽多信息却很匮乏,如何从大量的数据中归纳总结提取出有效的信息就是数据挖掘技术的任务。数据挖掘(Data Mining),常被称作数据库中的知识发现(Knowledge Discovery in Database—KDD)。是指从海量的、随机的、有噪声的大型数据中提取隐涵的、事先未知的、具有一定价值意义的知识的过程[1]。关联规则是数据挖掘技术中的一种挖掘信息的技术,是从海量的数据中区找到项与项之间有用的关联关系[1]。最早始于对购物篮的分析,通过对顾客的交易信息进行挖掘分析,找出顾客经常一起买的商品有哪些。

关联规则有数据项I={i1,i2,…,ix},数据项集A[?]I,事务T=(TID,A),TID是唯一标识一个事务的事务号。假设事务T中有数据项集M、N,且M[?]T。关联规则就可以表示为形如M[?]N的蕴涵式。

Apriori算法是关联规则中应用最广泛的一种方法,是基于关联规则的基础,首先找到频繁集,再由频繁集推出关联的规则。它采用的搜索策略是广度优先,也就是先一层一层搜索,再用迭代的方法来对项集之间的关联关系进行探索,也就是k-项集是被(k-1)-项集探索得到。

Apriori算法的基本过程分为两大步:第一步,对数据库进行依次扫描,第一次扫描,搜索频繁1-项集Ll,即所有支持度数满足最小支持度阈值的项集,扫描得到的候选1-项集记作C1。就这样,依次搜索迭代,一直到不再有新的候选集产生为止,k次扫描后,得到的候选k-项集记作Ck。。第二步,修剪掉候选项集Ck中不频繁的项集,得到频繁项集Lk。第三步,由找到的频繁项集中推出关联的规则。

3 学生报到信息的关联规则分析

根据关联规则,可以将学生报到的数据设置为这样的项目集:I={生源种类,生源地地区,成绩分数段,录取专业是否如意,是否报到}。其中,生源种类为:城市应届,城市往届,农村应届,农村往届;生源地地区分为:东部沿海发达地区,中部发展地区,西部欠发达地区;成绩分数段分为五段,用罗马数字表示各项目的分类:Ⅰ、重点线上10-30分,Ⅱ、重点线上30-50分,Ⅲ、重点线上50-70分,Ⅳ、重点线上70-90分,Ⅴ、重点线上90分以上。事务T是是项目集I的一个子集,T[?]I,考生号用来区分每个事务。每次扫描得到的频繁项集用Lk表示。报到与否是要分析的属性。

选取近两年学生录取情况和报到情况作为分析样本,事务数180000条。第一次扫描样本数据,得到频繁1-项集Ll,如下表。由于“报到”是我们要分析的目标,所以我们只分析关于报到的频繁集,为了便于求得信任度,在支出数的后面添加了条件数。18000的样本事务中,报到人数为17248,报到率为95.82%。所以分析时,Ll的最小支持度设为97%。

连接Ll得到C2,扫描C2项目集,由于本样本数据不是很多,不进行剪枝,将所有数据联接得到L2,设L2的最小支持度为96%下表为满足最小支持的几项。

上图所示的项集都是通过L2可以推出的规则。

联接L2后得到C3,扫描C3得到L3。设L3的最小支持度为96%下表为满足最小支持的几项。

4 结束语

本文通过对高校招生录取数据库的分析,利用数据挖掘技术中的关联规则,选取招生录取数据库中的历史信息作为样本进行分析,找到了新生入学报到与生源种类、生源所在地区、考生成绩和对专业的满意与否的关系。这有助于学校对招生计划、专业设置以及招生宣传的定位与改进,为学校的招生工作提供决策依据,减少招生成本,提高学生报到率。endprint

摘要:随着高校招生系统的广泛使用,系统中积累近年来大量的生源信息和招生信息,如何使得这些看似垃圾的数据成为对高校招生决策的重要信息,该文应用数据挖掘技术中管理规则的Apriori算法,以招生系统中的信息为研究对象,挖掘影响学生报到的内在因素,发现与报到率关联的有用信息,从而降低招生宣传的成本,为高校的招生决策者提供指导和有效的数据支持。

关键词:关联规则;招生决策;应用分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)12-2702-02

1 概述

自教育部提出高等教育要从精英式教育转向大众教育以来,高等学校都在扩大办学规模,招生规模也呈不断上升的趋势,但近几年生源量却在逐年减少,很多学校的很多专业的报到率逐渐降低,这使得院校之间出现了前所未有的生源竞争。很多高校都在做盲目的招生宣传,这种无的放矢的做法不但浪费资源还不见成效。我们可以利用数据挖掘算法中的关联规则从近几年招生系统中的历史数据中挖掘出有用的信息,给高校决策者在招生宣传和录取工作中提供良好的决策依据。

2 数据挖掘中的关联规则

数据挖掘技术是随着信息技术的广泛使用的产物,信息技术中产生的数据虽多信息却很匮乏,如何从大量的数据中归纳总结提取出有效的信息就是数据挖掘技术的任务。数据挖掘(Data Mining),常被称作数据库中的知识发现(Knowledge Discovery in Database—KDD)。是指从海量的、随机的、有噪声的大型数据中提取隐涵的、事先未知的、具有一定价值意义的知识的过程[1]。关联规则是数据挖掘技术中的一种挖掘信息的技术,是从海量的数据中区找到项与项之间有用的关联关系[1]。最早始于对购物篮的分析,通过对顾客的交易信息进行挖掘分析,找出顾客经常一起买的商品有哪些。

关联规则有数据项I={i1,i2,…,ix},数据项集A[?]I,事务T=(TID,A),TID是唯一标识一个事务的事务号。假设事务T中有数据项集M、N,且M[?]T。关联规则就可以表示为形如M[?]N的蕴涵式。

Apriori算法是关联规则中应用最广泛的一种方法,是基于关联规则的基础,首先找到频繁集,再由频繁集推出关联的规则。它采用的搜索策略是广度优先,也就是先一层一层搜索,再用迭代的方法来对项集之间的关联关系进行探索,也就是k-项集是被(k-1)-项集探索得到。

Apriori算法的基本过程分为两大步:第一步,对数据库进行依次扫描,第一次扫描,搜索频繁1-项集Ll,即所有支持度数满足最小支持度阈值的项集,扫描得到的候选1-项集记作C1。就这样,依次搜索迭代,一直到不再有新的候选集产生为止,k次扫描后,得到的候选k-项集记作Ck。。第二步,修剪掉候选项集Ck中不频繁的项集,得到频繁项集Lk。第三步,由找到的频繁项集中推出关联的规则。

3 学生报到信息的关联规则分析

根据关联规则,可以将学生报到的数据设置为这样的项目集:I={生源种类,生源地地区,成绩分数段,录取专业是否如意,是否报到}。其中,生源种类为:城市应届,城市往届,农村应届,农村往届;生源地地区分为:东部沿海发达地区,中部发展地区,西部欠发达地区;成绩分数段分为五段,用罗马数字表示各项目的分类:Ⅰ、重点线上10-30分,Ⅱ、重点线上30-50分,Ⅲ、重点线上50-70分,Ⅳ、重点线上70-90分,Ⅴ、重点线上90分以上。事务T是是项目集I的一个子集,T[?]I,考生号用来区分每个事务。每次扫描得到的频繁项集用Lk表示。报到与否是要分析的属性。

选取近两年学生录取情况和报到情况作为分析样本,事务数180000条。第一次扫描样本数据,得到频繁1-项集Ll,如下表。由于“报到”是我们要分析的目标,所以我们只分析关于报到的频繁集,为了便于求得信任度,在支出数的后面添加了条件数。18000的样本事务中,报到人数为17248,报到率为95.82%。所以分析时,Ll的最小支持度设为97%。

连接Ll得到C2,扫描C2项目集,由于本样本数据不是很多,不进行剪枝,将所有数据联接得到L2,设L2的最小支持度为96%下表为满足最小支持的几项。

上图所示的项集都是通过L2可以推出的规则。

联接L2后得到C3,扫描C3得到L3。设L3的最小支持度为96%下表为满足最小支持的几项。

4 结束语

本文通过对高校招生录取数据库的分析,利用数据挖掘技术中的关联规则,选取招生录取数据库中的历史信息作为样本进行分析,找到了新生入学报到与生源种类、生源所在地区、考生成绩和对专业的满意与否的关系。这有助于学校对招生计划、专业设置以及招生宣传的定位与改进,为学校的招生工作提供决策依据,减少招生成本,提高学生报到率。endprint

猜你喜欢
关联规则应用分析
绿色化学理念下的初中化学教学探究