数据挖掘经典算法分析

2019-10-08 05:48陈珊
电子技术与软件工程 2019年15期
关键词:分类器数据挖掘关联

文/陈珊

随着计算机技术和互联网技术的高速发展,商业、经济、及其他各个领域都进入互联网+模式,电子商务、Ο2Ο、物流配送,各种利用大数据进行发展的领域正在协助企业不断地发展新业务,创新运营模式。互联网公司日常运用生成和累积的用户数据如此庞大,已不能用G或T来衡量,大数据时代已到来。

爆炸式增长的数据为大家带来便捷的同时也带来了很多隐患。数据量单位已从GB、TB级别跃升到PB、EB乃至ZB级别。据国际数据公司研究结果表明,2008、2010、2012年全球生产的数据量分别为0.49ZB、0.8ZB、200PB,预计到2020年,将达到今天的44倍,豪不夸张的讲,数据已将人们淹没,如何有效的分类过滤数据,选择和发现有趣的数据知识是一个值得思考的问题,也是迫切需要解决的问题。

数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣的知识或模式的过程。数据挖掘最大的作用是分类和预测。分类,可将数据按要求分为有用和无用的知识可用于做决策、专家系统分析、医疗智能诊断、模式识别、人脸识别、智能语音等多个领域。预测,可以根据以往产生的数据训练拟合模型,预测未来的趋势,可用于商业预测等领域。用数据挖掘的方法可以帮助人们更好的管理现有的数据,从现有的大数据中挖掘超乎想象的知识,也有学者称之为知识发现。知识发现的过程包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示等七个步骤。

在此背景下,本文主要研究数据挖掘经典算法,即知识发现的第五个步骤。根据数据挖掘的作用从关联分析(频繁模式、关联和相关)、分类和预测两方面研究其经典方法应用及未来趋势。

1 关联分析——频繁模式、关联和相关

频繁模式旨在发现数据集中有趣的关联和相关。频繁模式是在数据集中频繁出现的项集、子序列或子结构。其中每个独立的数据称为数据项,某一数据项频繁与另一数据项关联出现,且有先后顺序,称这两个数据之间的关系称为模式。若此模式在此数据集中频繁出现,则称此模式为频繁模式。挖掘频繁模式、关联和相关的过程称为关联分析。

关联分析的经典算法是Apriori算法,Apriori算法的算法步骤由连接步和剪枝步。连接步通过将数据与自身连接产生候选k项集。剪枝步根据提前设置好的支持度support(A⇒B)=P(A∪B)剪掉低于阈值的项组成频繁项集。这两步顺序循环操作,直到发现最大频繁项集为止。然后,由频繁项集产生关联规则,再根据提前设置好的置信度confidence ( A⇒B ) = P(B | A)剪掉低于阈值的规则,最终产生强关联规则。

关联分析的一个经典例子是购物篮分析。该过程是将顾客放入购物篮的商品信息作为数据集,分析不同商品之间的关联和相关,分析顾客的购物习惯。例如,20世纪90年代,美国沃尔玛超市管理人员在分析销售数据时,发现“啤酒”与“尿布”经常出现在同一个购物篮中,且大多购物篮主人是年轻的父亲。究其原因,在美国有婴儿的家庭中,一般母亲在家中照看婴儿,父亲去超市购买家庭所需产品,通常在买尿布时往往会为自己购买啤酒。“啤酒-尿布”模式是一频繁模式,超市的商品可根据此模式将模式两边的商品项目就近摆放,可提升商品销售收入。

关联分析适用于发现数据项中的相互关系和模式,可用于广告精准投放,如淘宝、京东、微博等平台可根据用户的浏览与商品购买记录,分析用户的喜好,为用户推荐适合用户需求的广告产品。关联分析可帮助商家制定响应的交叉销售、捆绑式销售等营销策略,以及货架安排,仓储存货配置等。随着该技术的不断成熟和发展,也可扩展应用于网站路径优化、网络入侵检测、交通事故模式分析、设备故障检测等领域。

图1:神经网络结构图

2 分类和预测

分类是根据大数据构造一个模型或分类器来预测类属性标号。预测是数据值的预测,即根据大数据构造连续值函数模型来预测数值。

数据分类第一步是选择合适的算法分析或从训练集中“学习”来构造分类器。训练集是由数据库元组和相关联的类标号组成,其中类标号属性是离散值和无序值。此过程可看作一个映射或函数y=f(X),X是给定的数据库元组,y是类标号。数据分类的第二步是使用第一步构造的分类器模型进行分类。在分类之前,需要评估分类器的准确率,使用独立于训练集的检验元组和相关类标号组成检验集,最后使用准确率高的分类器对新数据进行分类。

数据预测与数据分类的区别是,预测的是数据值而不是类标签,所以其训练集是无类标签的。构造连续值函数模型,是在某一特定环境下,构造拟合训练集数据的拟合映射函数。其他与数据分类相同。

在分类时,以训练集有无标签划分,可将分类和预测方法分成监督学习、无监督学习和半监督学习三种类。监督学习主要算法有决策树、贝叶斯、神经网络、支持向量机等;无监督学习主要算法有聚类等。

决策树是一种类似于流程图的树形结构,每个非树叶节点的内部节点表示在一个属性上的测试,每个分支表示一个输出,根节点存放一个类标签。决策树算法中经典算法C4.5算法是其核心算法是ΙD3算法的改进,继承了ΙD3算法的优点用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;在树构造过程中进行剪枝能够完成对连续属性的离散化处理;能够对不完整数据进行处理。

贝叶斯是用概率论和决策论的知识,用先验概率P(H)和后验概率P(H/X))来进行分类。

支持向量机是一种非线性的映射,将原训练数据映射到较高的维,在新的维上搜索线性最佳分离超平面。

聚类分析是将物理或者抽象的数据对象的集合分成相似的类或簇的过程。通常证明两数据相似的条件是距离,此方法的训练集无分类标签,属于无监督分类。k-means algorithm算法是一个聚类算法,其核心距离计算为

E=i=1∑kp∈Ci∑dist(p,ci)。

神经网络是一种模拟人神经元结构的网络结构。经典的神经网络包含三层,输入层、隐藏层和输出层。没两层之间的神经元连接线上有一个权值,在学习阶段,通过调整这些权重,构造准确率较高的分类器。如图1所示,当隐藏层层数为0时,此网络叫做单层神经网络,也成为感知器,只有输入层和输出层,其权值可通过训练得到。

当隐藏层为多层时,叫多层神经网络,也叫做深度学习。2006年,Hinton在《Science》和相关期刊上发表了论文,首次提出了“深度信念网络”的概念。此方法减少了神经网络训练的实践可以让神经网络找到最优解的权值,再用“微调”来进行网络的优化。深度学习在语音识别、图像识别等领域发展迅猛。

深度学习(多层神经网络)比普通的神经网络隐藏层增加了很多,有更强的函数模拟能力,能够更准确深入的表示特征,更加的智能。深度学习已在计算机视觉、语音识别、自然语言处理、机器翻译等多个领域有很好的应用及效果。

3 总结

数据挖掘已在金融、医疗、零售电商、电信、社交网络分析、交通领域等多个领域广泛应用,未来将渗透到各行各业前景广阔。数据挖掘是一门多学科交叉学科,是人工智能的基础,人工智能是未来的研究趋势,数据挖掘在保证提高分类器准确率的基础上,如何使已应用数据挖掘的产品类人脑学习、思考、创造、更智能是未来的发展方向。

猜你喜欢
分类器数据挖掘关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
BP-GA光照分类器在车道线识别中的应用
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
智趣
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
一种基于Hadoop的大数据挖掘云服务及应用
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别