孙嘉睿
分类是数据挖掘、机器学习和模式识别中一个重要的研究领域,分类的目的是根据数据集的特点构造一个分类函数或分类模型,该分类模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测,和回归方法不同的是,分类的输出是离散的类别值,而回归的输出是连续或有序值。
一、分类算法概述
为了提高分类的准确性、有效性和可伸缩性,在进行分类之前,通常要对数据进行预处理,包括:(1)数据清理,其目的是消除或减少數据噪声处理空缺值。(2)相关性分析,由于数据集中的许多属性可能与分类任务不相关,若包含这些属性将减慢和可能误导分析过程,所以相关性分析的目的就是删除这些不相关的或兀余的属性。(3)数据变换,数据可以概化到较高层概念,比如连续值属性“收入”的数值可以概化为离散值:低、中、高。又比如,标称值属性“市”可概化到高层概念“省”此外,数据也可以规范化,规范化将给定的值按比例缩放,落入较小的区间,比如【0,1】等。
二、常见分类算法
2.1决策树
决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
2.2贝叶斯分类
贝叶斯分类是统计学分类方法,它足一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naive Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就出现了许多降低独立性假设的贝叶斯分类算法,TAN(tree augmented Bayes network)算法。
2.3神经网络
神经网络是大量的简单神经元按一定规则连接构成的网络系统。它能够模拟人类大脑的结构和功能,采用某种学习算法从训练样本中学习,并将获取的知识存储在网络各单元之间的连接权中。神经网络主要有前向神经网络、后向神经网络和自组织网络。在数据挖掘领域,主要采用前向神经网络提取分类规则。包括替换的误差函数、网络拓扑的动态调整、学习率和要素参数的动态调整。近年来,从神经网络中提取规则受到越来越多的关注。这主要有以下二种倾向:(1)网络结构分解的规则提取;(2)由神经网络的非线性映射关系提取规则。未来神经网络的发展可向进一步降低算法的复杂度、提高所提取规则的可理解性及算法的适用性方向发展。
2.4遗传算法
遗传算法是模拟生物进化过程的全局优化方法,将较劣的初始解通过一组遗传算子(繁殖—— 即选择、交叉——即重组、变异—— 即突变),在求解空间按一定的随机规则迭代搜索,直到求得问题的最优解。遗传算法在数据挖掘领域的主要应用有:(1)用它和BP算法结合训练神经网络,然后从网络提取规则;(2)分类系统的设计,如编码方式、信任分配函数的设计以及遗传算法的改进等。遗传算法用于数据挖掘存在的问题是:(1)算法较复杂,(2)收敛于局部极小的过早收敛等难题未得到解决。
2.5 KNN算法
最临近分类KNN是基于要求的或懒散的学习法,即它存放所有的训练样本,并且直到新的(未标记)的样本需要分类时才建立分类。这与诸如决策树和神经网络这样的急切学习法形成鲜明对比。懒散学习法在训练时比急切学习法快,但在分类时慢,特别是当与给定的无标号样本比较的可能的临近者(即存放的训练样本)数量很大时,懒散学习可能引起很高的计算开销。
参 考 文 献
[1] Quinlan J R.Induction of decision trees.Ma—chine Learning. 1986:1—356.
[2] Quinlan J R.C4.5 Programs for machine learning.Morgan Kauffman.1993:81—106.
[3] 毛国君,段立娟,王实等.数据挖掘原理与算法[M].北京:清华大学出版社,2005:123—127.
[4]乔向杰,陈功平.数据挖掘中分类算法的可扩展性研究[J].信阳师范学院学报,2006(2):239-242