摘 要:本文主要以大数据的分类挖掘技术及其创新发展为重点内容,以当下数据挖掘相关概述为主要依据,从数据挖掘的分类算法、大数据的统计性特征、大数据分类挖掘的实现这三方面进行深入探索与研究,其目的在于提高大数据的利用率,以推动我国社会经济持续稳定的发展,为增强我国核心竞争力提供有利条件。
关键词:大数据;信息融合;分类挖掘;聚类空间划分;特征提取
中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2018)07-0087-03
Abstract:This paper mainly focuses on the classification and optimization of big data mining and optimization technology innovation development,combining with the current data mining overview as the main basis,from the main classification algorithms of data mining,the statistical characteristics of big data and the implementation of big data classification mining in-depth exploration and research of the three sides. It is to improve the utilization ratio of big data in order to promote sustained and stable development of our social economy and provide favorable conditions for enhancing our core competitiveness.
Keywords:big data;information fusion;classification mining;clustering space partition;feature extraction
0 引 言
互联网技术的快速发展,使网络空间得到了巨大扩容。在云存储数据库内,大数据存在极大的差异性,需对其进行分类挖掘,即需要加强对大数据信息库分类识别与检索的能力。大数据的分类挖掘优化技术创新发展,对增强大数据访问与检索等能力具有积极作用,因此,深入探究大数据分类挖掘技术势在必行。本文主要分析大数据的分类挖掘优化技术创新发展,具体如下。
1 大数据挖掘相关概述
大数据挖掘基于数据库理论,机器学习,人工智能,现代统计学等学科技术而迅速发展的一门交叉学科,在很多领域中都有应用。它涉及到很多的算法,包括机器学习的神经网络、决策树,也有基于统计学习理论的支持向量机、分类回归树和关联分析等诸多算法。数据挖掘就是从大量繁杂的数据中获取隐含在其中的信息,比如对顾客的分类,聚类,潜在顾客识别等。从海量数据找出潜在的知识对于人来讲是很难实现的事情,数据挖掘技术就是把这项任务交给计算机来处理,以提取有用信息来支持人类的决策,这就是他的意义。
大数据有三个重要的特征:数据量大,结构复杂,数据更新速度很快。由于Web技术的发展,Web用户产生的数据能够自动保存,其传感器也在不断收集数据;移动互联网的发展,促使数据能够自动收集,存储速度也在不断加快,全世界的数据量在不断膨胀,数据的存储和计算超出了单个计算机的能力,这给数据挖掘技术的实施提出了挑战。
2 数据挖掘的主要分类算法
2.1 决策树分类法
第一,传统法。C4.5算法属于传统数据分类法,优势十分显著,比如规则简单、易操作等。但随着网络信息技术的飞速发展,数据量越来越多,其繁杂性不断加大。C4.5逐渐无法满足现代化社会发展的实际需求。且因为决策树分类法的自身因素,决定了在数据分类中,需对数据展开多次排序与扫描。尤其是在建构决策树时,这种缺陷更加显著。它不但会使数据分析的速度受影响,还会耗费系统的资源。对大数据分类挖掘而言,C4.5更不能胜任,因为C4.5的利用范围有限,只能处理比自身系统内存小的数据,常规情况系下,内存不能保留的较大的数据流,否则可能会出现不能有效运行的状况。
第二,衍生法。SPRINT算法与SLIQ算法均由C4.5算法优化而来,并以其为基础进行了技术性改良,比如加强了数据排序技术,并利用广度优先处理措施。这让SLIQ算法可以有效的记录数据处理数,并有较强的可拓展性,为数据处理提供有利条件。但SLIQ算法也有一定不足,因其以C4.5算法为中心,在处理数据时,会将数据集存留在内存条中,这便导致SLIQ算法处理数据集规模受限。即数据记录数量超出预期排序的数量,SLIQ算法无法完成数据排序与处理工作。
SPRINT算法主要是为了优化SLIQ算法中数据规模受限问题而衍生出来的。SPRINT算法对决策树算法进行了重新定义,改变了其数据分析结构,不再把数据集停留在内存之中。它同SLIQ算法不同,数据列表未储存在内存之中,而是把其融合到了各个数据集的属性列表中,这种模式不但解决了数据查询中数据扫面导致速度缓慢的问题,还有效释放了内存压力。尤其是在对大数据进行分类挖掘时,因数据基数相对较大,在各个数据集的属性列表中探究所需数据,可以节省许多分析时间,数据分类工作也会变得更加快捷。但SPRIT算法依旧有些许不足,对于不具备分裂属性的数据列表,它只能对其数据集进行内分析,无法确保结果的准确性,致使其拓展性受限。
2.2 其他分类法
第一,Bayes分类法。该法是在概率统计学的基础上研发出的一种算法,在当前数据分类中利用相对比较广泛。但其不足也十分显著,因Bayes分类法需在具体分析以前对大数据的特性做出假设,而此种假设时常欠缺实践理论支撑,所以在数据分析中很难保证准确性。以此为基础,TAN算法被衍生了出来,它主要为提升Bayes分类法假设命题的实效性,事实上就是减少NB任意属性间独立的假设。
第二,CBA分类法。以关联规则为主的关联算法便是CBA分类数据法。此法通常需要应用数据构造分类器,在对大数据进行分析时,先收集关联规则,这也被称作CAR;之后再从CAR内选取恰当的数据集。CBA分类算法主要技术是Apriori算法技术,它可以让潜在的大数据关联规则展现在表层,以便整理归纳。但因其在数据分类时易出现披露,所以时常利用设置最小支持度的方式来降低披露的发生率,这便导致了算法优化效用无法充分的发挥出,减小了运行质量。
第三,MIND算法。此法同决策树算法的相似性极高,皆是利用构造数据分类器开展数据分析工作。但MIND算法利用的是SQL语句和UDF方法同数据库系统进行关联。在对数据进行分析时,UDF法可以极大的减少对每个阶段数据特征分析所用的时间,如此为数据库集成提供有效支撑。SQL语句主要分析数据集的属性,以便在其中选出最佳的分裂属性,再进行数据排序,如此便节省了大数据分类的时间。但MIND算法无法在数据库系统内体现查询功能,且该方法的维护成本较高,不适合推广。
3 大数据的统计性特点
3.1 稀疏性的结合
为了实现大数据分类挖掘的优化,首先需利用统计分析法对大数据的特征进行提取或信息重构,利用稀疏结合的方式对大数据信息流进行空间划分。本文具体分析对象为网络分布式的大数据。常规情况下都会利用G=(V,E)代表分布式大数据的输入模型,分布的向量量化集是(u,v)∈E,信息覆盖域是r,设BV,AV,且A∩B=,得出数据信息融合量:
公式中:t0代表的是分布式大数据时域分布特点,tg代表的是频域分布特点,T0代表的是大数据采样时间间隔,Tg代表的是波速分布间隔。利用实验或观测手段获取云存储采样知识,通过调度与重构数据融合得到的分布式云存储的特点分布向量:
3.2 聚类空间划分
以奈奎斯特采样定理为基础,结合稀疏性融合结果,对大数据进行聚类空间划分,为大数据信息流重构模型X(t)规划处理作铺垫,其分类挖掘指向性维数符合以下公式:
4 大数据分类挖掘实现
在稀疏性融合法划分聚类空间的基础上,对数据分类的挖掘与提取过程进行优化,本文主要采用弱关联性指数特性分布提取的分类挖掘法,利用向量量化的办法对数据基元进行控制,向量量化的特性函数是:
通过对上述提取特性的估计结果能够发现,大数据分类挖掘受数据基元分类的收敛性影响,所以需对挖掘的收敛性进行有效控制,以保证结果大数据分类挖掘过程的准确性提升。
5 结 论
对于我国社会经济的发展来讲,大数据分类挖掘优化技术十分重要,它是发挥大数据效用的基础,也是推动现代社会持续稳定发展的关键。为此,相关人员需给予大数据分类挖掘优化技术高度重视,促使其存在的价值与效用在我国社会发展中充分的发挥出,为我国在繁杂的国际市场立足提供保障。
参考文献:
[1] 覃兵文.大数据的分类挖掘优化技术 [J].现代电子技术,2017,40(24):34-36.
[2] 何波.基于Mapreduce与关联分类挖掘的海量数据分类增量挖掘方法研究 [J].福建电脑,2017,33(4):20+33.
[3] 何波.大数据下的海量统计数据分类挖掘方法研究 [J].福建电脑,2017,33(1):21+83.
[4] 郭龙.大数据挖掘中的数据分类算法技术研究 [J].数字技术与应用,2016(9):127.
[5] 毛国君,胡殿军,谢松燕.基于分布式数据流的大数据分类模型和算法 [J].计算机学报,2017,40(1):161-175.
[6] 王昌辉.云计算设备中的大数据特征高效分类挖掘方法研究 [J].现代电子技术,2015,38(22):55-58+61.
[7] 张慧萍,贺红艳,陈小娟.大数据的分层分类优化识别仿真研究 [J].计算机仿真,2015,32(10):463-466.
[8] 饶琛.大数据挖掘中的数据分类算法技术研究 [J].电子技术与软件工程,2015(14):204.
作者简介:文世敏(1978.09-),男,云南永胜人,硕士。研究方向:计算机技术。