高职招生数据挖掘的过程模型构建

2015-05-30 08:12黄春华
计算机时代 2015年8期
关键词:数据挖掘高职院校

黄春华

摘 要: 为了从历年积累下来的大量招生数据中获得有价值的信息,根据相关数据挖掘的理论知识,在目前现有的通用数据挖掘过程模型的基础上,结合高职院校招生工作及其数据的特点,给出一个高职招生数据挖掘过程模型的构建思路。该数据挖掘的过程模型可以为接下来的高职招生数据挖掘工作提供宏观上的指导和工程化的方法。

关键词: 数据挖掘; 过程模型; 招生数据; 高职院校

中图分类号:TP311.13 文献标志码:A 文章编号:1006-8228(2015)08-78-03

Construct of higher vocational enrollment data mining process model

Huang Chunhua

(Talent International College, Qinzhou, Guangxi 535000, China)

Abstract: In order to obtain the valuable information from the massive enrollment data accumulated over the years, according to the related theory of data mining, on the basis of the currently universal data mining process model and combined with the characteristic of higher vocational enrollment work and related data, a construction idea of higher vocational enrollment data mining process model is proposed, which could provide the macro guidance and the processing method for the next higher vocational enrollment mining data work.

Key words: data mining; process model; enrollment data; higher vocational college

0 引言

招生工作一直是高职院校最重要的工作,因为生源是其生存之本。如何有针对性地开展招生工作,既能提高新生报到率,又能节省招生成本,一直是高职院校非常关心的问题之一。通过对学校历年保存下来的招生数据进行挖掘与分析,从中找到有价值的信息,以此来指导学校的招生工作,让学校将有限的人力物力用在能“产出”大量生源的地区,达到招生效益最大化。

数据挖掘(Data Mining)又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程,简单地讲就是从大量数据中抽取或挖掘出知识[1]。为了确保数据挖掘工作能有条不紊地实施并取得成功,必须先明确挖掘过程将采取什么样的步骤、每一步需要做什么、达到什么样的目标等,即在实施数据挖掘工作之前必须先构建好数据挖掘的过程模型。本文根据相关数据挖掘的理论知识,在现有的通用数据挖掘的过程模型基础上,结合高职招生工作及其数据的特点,给出一个高职招生数据挖掘过程模型的构建思路。

1 数据挖掘的过程模型

构建数据挖掘的过程模型旨在为接下来的数据挖掘工作提供宏观上的指导和工程化的方法,以使人们能更好地研究、开发和使用数据挖掘技术。目前现有的数据挖掘系统大致分为两种通用的过程模型,一种是1996年由Fayyad等人提出的Fayyad过程模型,另一种是1999年由欧盟机构联合起草的CRISP-DM过程模型。

1.1 Fayyad过程模型

图1 Fayyad数据挖掘的过程模型

Fayyad过程模型将数据库中的知识发现看作是一个多阶段的处理过程,它从数据集中识别出以模式的形式来表示的知识,在整个知识发现的过程中包含很多个处理步骤,各个步骤之间相互影响并反复调整,从而形成一个螺旋式的上升过程[1],如图1所示。由图1可知,Fayyad过程模型分为数据准备、数据挖掘以及结果表达和解释三个阶段。

Fayyad过程模型是一个从数据入手以知识结束的偏技术模型,在实际应用中该模型存在着两个问题[1]。①该模型是从数据入手的,而忽略了具体业务问题的确定,即没有明确对挖掘业务的认识和对数据的理解,而这是决定过程模型质量非常重要的一步。②该模型是结束于知识的,但对于知识应当怎么使用,如何支持决策等问题却没有得到反映。只有当挖掘出来的模型得到了一定的应用,才能更好地体现出数据挖掘的价值。

1.2 CRISP-DM过程模型

CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)过程模型是由欧洲几家有着丰富的数据挖掘应用经验的公司共同筹划和组织的一个特别兴趣小组所提出的。该模型从商业的角度给出了对数据挖掘方法的理解,强调了完整的数据挖掘过程,不能仅针对数据整理、数据显示、数据分析和构建模型,后期对模型的评价与模型的延伸应用都被纳入到数据挖掘的构成中,从方法学的角度强调了数据挖掘项目的方法和步骤,同时独立于每种具有数据挖掘算法和数据挖掘系统[2]。因为该模型注重数据挖掘技术的应用,所以能更好地解决Fayyad过程模型存在的两个问题。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。CRISP-DM过程模型的基本步骤包括业务理解、数据理解、数据准备、建立模型、模型评价和模型实施,如图2所示。

Fayyad过程模型和CRISP-DM过程模型都是数据挖掘步骤的具体表现。其中Fayyad过程模型从数据入手以知识结束,结构清晰,便于技术实现,但没有明确选择数据的原因以及利用挖掘知识的方法;而CRISP-DM过程模型从面向商业应用的角度给出了数据挖掘过程的理解,将数据挖掘和商业应用紧密结合,但该模型仅适用于商业环境下的应用,在其他领域环境下存在着一定的应用局限性,且实施起来较为繁琐[2]。

图2 CRISP-DM数据挖掘的过程模型

2 高职招生数据挖掘的过程模型构建

由以上分析可知,Fayyad过程模型的逻辑结构清晰简单,CRISP-DM过程模型注重数据挖掘与实际应用紧密结合,高职招生数据挖掘的过程模型就是在汲取了这两个过程模型各自所具有的特点的基础上建立的。构建的基本思路是针对Fayyad过程模型对数据挖掘知识应用上的不足,注重将得到的挖掘结果应用于高职招生数据的决策支持,并将CRISP-DM过程模型的应用范围扩展到教育领域中招生数据的挖掘工作。

根据高职招生工作及数据的特点,将高职招生数据挖掘的过程模型分为招生业务理解、招生数据理解、招生数据准备、挖掘模型建立、挖掘结果分析和高职招生决策制定这六个阶段。如图3所示。

2.1 招生业务理解

高职招生数据挖掘过程就是从业务的角度去理解挖掘的目标与要求,并将这些理解知识转化为数据挖掘问题的定义[3]而开始的,这是进行高职招生数据挖掘工作必须把握好的开始阶段。根据高职招生的业务特点可以将招生业务理解分为招生业务背景理解、招生资源评价和挖掘目标确定三个部分。

招生业务背景理解是指去获悉高职院校招生的相关基本情况,包括招生计划人数、招生学科与专业、招生录取成绩以及历年来这些信息的变化情况等。同时还需明确目前招生工作面临的具体问题,比如生源不足、生源质量不高、新生报到率不高等。

招生资源评价一般从人员、数据和软硬件这三方面进行评价。人员方面主要包括两类人员,一类是指可以提供进行数据挖掘所需相关基础数据的人员,比如学院招生办的工作人员或老师;另一类是指提出挖掘目标、需要挖掘结果并得到决策支持信息的人员,比如学院分管招生工作的领导、各个院系的主任等。数据方面主要是指如何获取挖掘所需的数据源,比如招生工作管理系统的数据库。软硬件方面主要是指进行数据挖掘工作所需的挖掘工具或其他相关软件以及所应具备的硬件条件等。

挖掘目标确定主要是指将目前高职招生工作所面临的具体问题转化为数据挖掘问题的定义过程。例如,高职招生工作面临的一个具体问题是“新生报到率不高”,那么可以将数据挖掘目标确定为“给定学院过去五年的招生数据,挖掘生源结构与新生报到率的关系”。

2.2 招生数据理解

招生数据理解是对高职招生数据挖掘所需数据的全面调查。从原始数据收集开始,到数据描述,最后对数据质量进行检验,目的是熟悉数据,鉴别数据质量问题并发现数据中的“灼见真知”。在原始数据收集阶段,主要是思考所需数据可以从何处获取以及获取的方法,遇到问题以及解决问题的方法等。在数据描述阶段,主要是对获取到的数据细化到每一个数据源、数据表、字段等描述。而在最后的数据质量检验阶段,主要是对数据是否正确、是否完整、是否有缺失值等方面进行检验,并对发现的数据质量问题找到可能解决的办法。

2.3 招生数据准备

招生数据准备包括招生数据选择和招生数据预处理两个步骤。对招生数据进行选择即是对数据挖掘所需的原始数据进行初步地约简,一般而言原始数据的数据量是比较大的,涵盖的范围也比较广,其中某些数据可能不仅与挖掘无任何关系,而且会给挖掘带来不利影响,所以有必要把这些无用的数据先筛选掉,以避免造成挖掘资源的浪费及产生不良的挖掘效果。数据预处理是数据挖掘过程中一个重要的步骤,在此是指对经过初步筛选后的招生数据进行清理、集成、转换、离散和规约等一系列的处理工作[4]。经过预处理后的数据才是真正的挖掘对象,此时数据的质量将会直接影响到数据挖掘的效果。

2.4 挖掘模型建立

挖掘模型建立实际上就是数据挖掘建模,是指为了解决实际问题而采用数据挖掘技术和工具进行数据挖掘模型建立的活动过程[5]。在高职招生数据挖掘模型建立过程中,首先根据要解决的实际招生问题及一定的数据挖掘目标,运用合适的数据挖掘技术和工具建立挖掘模型,并利用该挖掘模型提供优化招生决策的过程。挖掘模型的建立一般分为挖掘任务明确、挖掘技术选择、挖掘工具选择、模型建立和模型评估五个步骤。

2.5 挖掘结果分析与高职招生决策制定

根据当初定义的高职招生业务问题,对所获得的挖掘结果做进一步的分析,将有用的模式或有用的数据描述以可视化技术和知识表示技术展示出来,并对挖掘结果进行解释。最后利用数据挖掘得出的结论,为高职招生策略的制定提供参考,进而为高职院校招生工作提供有力的决策支持。

3 总结

如何有效地对历年招生数据进行挖掘,从中获得有价值的信息,为高职院校招生工作提供有力的决策支持,从而达到既能提高新生报到率又能节省招生成本的目地。本文针对此问题,根据相关数据挖掘的理论知识,在目前现有的通用数据挖掘的过程模型基础上,结合高职招生工作及其数据的特点,给出了一个高职招生数据挖掘过程模型的构建思路。该数据挖掘的过程模型可以为接下来的高职招生数据挖掘工作提供宏观上的指导和工程化的方法。在高职招生数据和信息分析领域,数据挖掘技术还存在着许多有待进一步完善和发展的地方,比如构建一个招生数据仓库,将历年招生数据按年份分类存储在其中,从而便于数据挖掘工作的开展,使招生数据挖掘更加高效和便捷;而在数据挖掘的方法和技术上,可以从不同角度或层次挖掘招生信息,尝试更多不同的挖掘算法,以获得更加全面而有力的招生决策支持。

参考文献:

[1] 元昌安.数据挖掘原理与SPSS Clementine应用宝典[M].电子工业出

版社,2009.

[2] 郭鑫.基于CRISP-DM的流程可视化数据挖掘工具的研究与实现[D].

东华大学,2009.

[3] 于立红,方志广.数据挖掘过程常见模型剖析[J].太原城市职业技术

学院学报,2008.5:159-160

[4] 方洪鹰.数据挖掘中数据预处理的方法研究[D].西南大学,2009.

[5] 惠卉.数据挖掘在研究生招生信息分析中的研究与应用[D].首都经济

贸易大学,2012.

猜你喜欢
数据挖掘高职院校
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
“一带一路”战略与盐城高职院校学生职业生涯规划的思考
浅析红色文化与高职院校思想政治教育工作
高职院校创新创业教育初探
全球化背景下高职院校韩语专业毕业生就业现状分析
多元智能理论视角下高职院校体育课程评价体系的研究
浅谈财务管理存在的问题及完善措施
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索