邓有林
摘要:数据挖掘是一门交叉性学科,它注重潜在能量,我们可以从广博的数据库中,找到大量有价值的知识、图片、文字等重要信息内容。数据库技术、网络技术以及计算机硬件,是时代发展的科技结晶,它在贮存大量数据的同时,也扩大了人们采集数据的范围。经过多年的发展,数据挖掘已经在商业、金融、医疗等各个领域得到了广泛的应用。本文从数据挖掘的含义、功能出发,探究了数据挖掘的种类和内容,以及在高校招生信息化中的运用。
关键词:数据挖掘;数据库技术;信息化;运用
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)01-0001-02
数据挖掘又称为数据库中的知识发现,是指从很泛很杂且朦胧的数据提取,同时数据提取又是非常隐秘的,人们无法预知的,但是它又真实的潜藏在,有价值的信息传播过程中。
1 数据挖掘概述
数据挖掘是由统计学、人工智能、数据库、可视化技术等,与当代科技相融而成的,一门交叉性学科,是发现知识的重要工具。计算机硬件与数据库技术的持续增长,在一定程度上带动了,数据信息的发展,但与此同时,保存在数据库之中以及计算机磁盘里的容量信息,却在一步一步锐减。数据信息的肆意增长,渐渐蒙蔽了人们的双眼。然而,数据挖掘技术的出现,却妥善的消除了信息弊端,使人们在网络信息数据库中,找到了真正有实用价值的资源。
2 数据挖掘的功能
数据挖掘的具体功能主要分为以下几个方面:
概念描述可以分为两种,一是特征性描述,二是区别性描述,概念描述的真实含义,就是对指定对象的内在心理,进行语言描述,并说明这类对象的主要特点。特征性描述的是同一种事物的共性,区别性描述的是同一类事物的差异。描述数据的存在形式,可以是多样化的、朦胧式的,它的主要功能,就是用户的数据考察。
1)关联分析
数据之间的关联性,是数据库中存在的一种十分重要的,容易被人挖掘的信息资源。如果多个变量的取值之间,存在着强烈的逻辑性,那么它就被称为关联。关联通常会被分为三种,一是简单关联、二是时序关联、三是因果关联。关联分析是从大量的数据中,集结而来的微妙关系,也分为前后关系和因果关系,相互牵连。
2)分类与预测
分类数据的探究和摸索,是一项任重而道远的任务。分类的原因是受系统中的,分类函数和分类模型的影响。这种模型可以把数据资料库中的,数据项目传送到定类数据中,从而构成分类器,但要完成传输任务,系统这时就需要有一个模型样本数据集,作为传输工具。
预测是系统利用历史数据而设置的一个初步模型,再运用新的数据作为输入值,这样就可以得出未来的数据倾向值,或是结合评估和样本模型,才能获取具体的属性值或是值数的范围。
3)聚类
聚类的含义是指,同一种相似类型的数据,相互之间存在的差异性,依照数据的不同特点,通常意义上,要将他们归纳为不同的数据种类。其目的是在距离上缩小,同一种类型的数据差异,同时在另一个角度,要拉大不同数据种类之间的距离。聚类与分类的区别主要体现在:分类需要提前给数据一个定义类别和模型样本;而聚类分析就只有一个方向,那就是数据根源,不需要提前预定数据类别,也不需要模型样本,所有的传输记录,都会根据事物的相似性,汇集成同类数据 。
4)偏差分析
偏差分析又名为比较分析,是对差异性和特殊个体的描述,揭示了个体区别于其他事物的反常现象,其根本思想就是,寻找到观测结果与参照值之间的具体差别性。偏差包含了分类中的反常事物、不符合事实的特例以及观测结果,甚至于对模型预测的差异性、数量值随时间的变化等。
3 数据挖掘处理过程
数据挖掘的过程是多样化的,需要细心分析,它大致可以分为问题定义、数据收集和预处理、数据挖掘,以及结果表达和解释等。
1)问题定义
数据挖掘的主要任务,就是要从大量信息数据库中,寻找到可使用的信息资源。知识应是数据挖掘的一个重要步骤,在问题定义阶段中,数据挖掘人员一定要,与相关知识的专家联合,确定挖掘目标,以及对数据统计的具体要求,最后通过不同的计算法则,选出最适合的计算方式。
2)数据准备
数据准备可以简单地分为三个步骤,一是数据选取、二是数据预处理、三是数据变换。数据选取的含义是,根据已有信息数据,从最初的原始数据库中,查找出适合数据挖掘的信息资源。数据预处理是对,数据信息贮存的再分类,这其中包含了数据检查的整体性,数据信息的统一性,以及数据内部结构,消除杂音、弥补数据遗失、删除过期数据等程序。数据变换的主要用途是,在一定范围内,消除和减少数据维数,其方法就是,从数据的最初特点中,寻找到可以使用的数据特点,使数据在挖掘过程中,最大额度的减少特征的变化和变量个性,尽量减少特征的变化和变量个性。
3)挖掘的主要种类
决策树包含着不同的种类,它大致可以分为以下几种。
决策树中的每一个非终结点在不同阶段,都预示着不同字体测试和不同选择。任何一个确定的分支,最终都取决于测试结果。它可以使用信息论中的信息增益,以获得数据库中最多的信息字体,然后建立一个决策树的节点,再结合不同字体取得建立树分支中的一个值;于每一个分支集体中,陆续建设下层节点和分支,最后可实现一个决策树的建立。决策树在使用上的最大优势就是直观、快速,缺陷也是相对的,随着数据多样性的提高,每一个分支点都在增加,管理的难度也会越来越高。
4)神经网络
神经网络系统的创立,最初是来源于,对人脑神经网络的结构理解,以及对一些工作机制的模型仿照。这种类型的计算机模型有一个特殊之处,它可以同时集结大量的计算单元,也叫神经元,连成大片网络区域,进行大规模计算。神经网络的设计原理,就是利用、变革神经元之间的连接强度,能对复杂问题进行精确的预测,但也存在相对的缺陷,一是神经网络难以琢磨、二是神经网络受到负面训练的影响。
5)粗糙集方法
粗糙集方法是由波兰逻辑家,所构思的一种数据分析法,主要运用于机器制造和 KDD 等领域,粗糙集方法在信息领域的主要功能,就是解决,信息存储当中的不稳定性和不真实性等信息问题。它的工作原理就是等价类思想,等价类中的微元素在粗糙集里是密不可分的,基本操作方法就是,用粗糙集近似的方法,把信息数据中的属性值进行相互分离,然后将每一个系统属性,归纳为等价类,再使用集合的等价关系,把信息内容进行简约化处理,得到一个最小决策关系,从而便于获得规则。
4 数据挖掘技术在高校招生工作中的应用
1)定义挖掘问题
学校在高考统招期间,需要单独查询,考生的个人信息和成绩数据,选用不同的方法,对学生的入学信息、生源信息及个人素质等,进行汇总分析,进而得出数据背后隐藏的宝贵信息。
2)数据系统
数据系统的建立,首先需要用到,多个子集数据库和源数据库,进行整合编排;其次寻找相关的数据资料,并从中筛选出,适合用于数据挖掘的应用数据;最后,要把之前所收集的所有数据进行调换,调换之后的数据,一方面要契合原数据的信息内容,另一方面又要符合挖掘算法的需求。在整个数据预处理过程中,调换工作就成为了一个重点难题,需要使用者,在系统建设中,不断总结、不断寻找、反复修改,最终完成数据调换的工作,并同时解决数据质量问题。
3)学生入学信息的预处理
姓名、 性别、 民族…是新生入学的基本信息数据,为了便于日后的信息查询,需要对个人资料进行总结、转化等预处理操作。然而在所有字段中,最难以操作的信息内容,就是学生的总成绩和生源地等信息。因为不同地区的,不同成绩,以及不同地区的考试内容,学校在各省的录取分数线也有一定的差异,所以学生的素质也不尽相同,不能仅仅通过总分数去衡量一个学生,只能转化标准分数。比如可以对不同学生的生源地信息,进行整体归纳。例如:按省份划分将同一省份的学生归为同一类;或是按照,生源城市划分为市区、城镇等,其中还包含了,学生的成绩、获奖等内容信息。
4)关联规则挖掘
数据关联和差异性指的是,信息对象在不同阶段的发展现状和发展结果,例如同一系别、同一年级、不同成绩的学生现状,这就是数据信息的关联性,然而在经过,大学的培训教育之后,所得到的不同教育成果,就是信息的差异性。
然后,学校可以根据,信息的关联性和差异性,总结、分析出,学生的发展潜质和综合技能,从而得到新的教育理念,为学校的招生工作,提供参考依据。
5 结语
随着数据挖掘技术的不断完善、不断发展,数据挖掘已经在多个领域,被人们所使用,在教学领域中,数据挖掘的范围,已经逐渐延伸到,学校的信息招生中,它的独特功能以及,快速处理信息的手段,总能有效的解决各种信息困扰,以前人们总是盲目跟风,使用别人的信息资源和信息技术,最后导致了信息管理的混乱,然而数据挖掘工具能够,有效的、快速的查找出,招生工作中的规律,为招生决策者提供重要依据。
参考文献:
[1]刘同明.数据挖掘技术及其应用[M].北京:国防工业出版,2001.
[2]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.
[3]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.
[4] 王志浩,数据挖掘在招生管理系统中的应用研究[D].山东师范大学,2007,
[5] 李升林,乌兰木其. 基于数据挖掘的需求分析研究[J].中国机械工程,2003,14(5).