杨伟光
摘要
随着信息数据时代的到来,实现了海量数据的存储与计算人们统计和分析的数据量越来越大,因此这就给数据的存储设备以及存储方式提出了相应的挑战,数据处理的速度已经成为大数据技术的关键所在。在传统的大数据数据分析过程中,决策树方法是最为常用的大数据分析方法,但是随着海量数据的出现,传统的决策树方法已经不能够满足信息时代的需求,必须要对决策树算法进行一定参数的优化,以此来满足现代信息社会对海量数据的处理要求。本文对基于决策树算法分析的大数据研究进行了阐述,并且深入浅出的介绍了全速算法的运行平台,并且分析了决策树方法,在大数据分析中未来的发展方向,希望相关研究人员借鉴和参考。
【关键词】大数据 决策树 算法研究
21世纪是互联网信息时代,网络信息时代最为明显的特征是海量数据融入到人们的社会生活各个角落,对这些海量数据进行提取和加工进行分析,从中得到相应的规律符合现在社会对于数据分析的要求。大数据由于其海量数据特征,因此传统的存储设备已经不能够满足现代信息的需求,由于信息数据处理的方式发生了巨大的变革,传统处理数据的技术已经不能够应用于大数据分析处理中。传统的决策树算法适用于数据集合较大的特征值计算,因此利用决策树算法可以作为进行大数据分析的重要武器。传统的决策树算法由于其自身架构的局限性,在处理海量数据特征是仍然存在相应的缺陷,不能够达到充分分析数据特征的需求,因此在传统的决策树算法上必须要对其参数进行优化,然后得到相应的特征值,最终求得大数据的整体特征。
1 决策树算法的境界
决策树算法是一种离散函数的逼近方法,它是一种比较典型的数据分类与处理的技术手段,决策树算法首先对数据进行分类,然后利用归纳原则生成可读的决策树规则,最后对决策数据进行分析和判断。从本质上来讲决策树算法是一种通过归类来解决数据特征的技术手段。
在决策树算法中蕴含的规律的原理,必须要达到训练程度较高以及规模较小的核心模型。在决策树算法中主要分为两步,第一步是生成决策树;第二部是决策树的减枝过程。决策树的减枝过程就是对上一阶段的决策树进行检验,然后通过得到新的测试机来产生初步的规则。
2 基于决策树算法的大数据处理技术优化
2.1 特征值优化算法
特征值优化算法是指在原有的集合中将数据重新分类,然后形成一个数据子集,对数据子集进行处理分析。特征值优化算法原理较为简单,并且在实践中应用较为简便。利用特征选择值进行算法计算主要可以分為两类,一种是筛选器,一种是封装器。筛选器是指集合内部信息衡量,然后独立于分类算法,这是一个预处理过程。通过相关系数标本进行评价,以达到数据处理的目的。
2.2 集中优化算法
集中优化算法适用于处理数据集合等较为庞大的计算模式,对其内存进行计算过程中没有方法将全部数据内容一次性处理完毕,因此许多数据需要暂时存放在存储器之中。由于决速算法自身的读写操作,因此读写速度比较缓慢,比较适合对这种决策树算法采取优化措施。减少其读写操作的程序成为了决策树算法进行优化的主要方向。在这其中SICU就是一种主要的优化算法,这种优化算法通过使用广度排序以及优先原则来达到减少存储器内部读写出生的目的,并且极大提高拳速算法的整体效率,除此之外还有boat算法的优化。
2.3 分布式的计算方法
分布式计算方法对其子集进行了扩展,因此在数据处理能力上达到了空前的提高,他能够有效加快数据读取数据的整体能力,并且提高运行的整体速度,因此分布式算法开发比较早。此后谷歌开发了相应的可扩展式的计算机框架,这个计算机框架以控制器作为其整体的核心,然后对决策树进行调控。调控的主要目的是利用大数据模型来进行整体的训练。同时控制器能够有效接入计算机群中,在学习决策树模型中集成方法也可以解决大数据分布式的问题。
2.4 面向流数据的整体优化算法
流数据整体优化算法可以作为大数据的源头,同时对于叶子阶段相关的统计信息能够有效进行处理,用于代替中间的决策节点,形成新的决策树。在数据整体路以后实现节点分类处理。它能够有效实现统计信息的更新。面向流数据的整体优化算法使得时间成本得到优化,但是其自身的缺点也很明显,缺乏连续处理素质的能力,同时还可能出现数据的漂流情况。最终的情况会导致大数据信息处理数据准确度有所降低。但是随着现代研究的深入,面向流数据的整体优化算法能够有效支持数值属性的优化处理,因此预测的整体准确性得到了充分的提高,在大数据分析和处理中得到了广泛的应用。
3 大数据处理的相关服务平台
大数据数据处理基本上为开源的服务软件,因此许多服务平台都是非营利的组织,能够提供不同组织的大数据开发平台服务工作。当前比较流行的开源计算机集群系统中计算机集成系统的核心是机器的整体学习库,并且在数据生成与预测方面有着广泛的应用。总体数据大数据处理中能够简化其机制,并且提供免费的开源式的计算机系统,同时在机器学习方面能够提供在线学习的模式。但是由于数据呈现整体多流失的模式发展,因此决策树算法本身平台不断拓展,是其一个较为良好的选择。
4 结束语
基于决策树优化算法,能够有效解决大数据存储以及分析的问题,它能够有效加强数据的相关属性质量。在大数据存储过程中经常会出现属性缺失,这些现象对于计算结果有很大的影响,可能会导致决策算法出现错误。对于缺失的数据处理一直是机器学习的相关重点研究内容,因此也是决策树算法重点研究关注的对象;必须要对于样本的比例进行调整,在对数据进行分析处理时,由于样本整体相差过大,可能会导致样本数据分类被忽略,利用少数据进行分析是整个决策树模型的关键所在;需要更新决策的模型,随着时间的变化数据的匹配规律可能不能较好的匹配原有的参数,必须要对新的模型进行改变,同时单一模型缺少对于数据的全面阐述,因此需要根据数据的变化来及时更新决策模型,这也是未来全是模型的相关发展研究方向。
参考文献
[1]张棪,曹健.面向大数据分析的决策树算法[J].计算机科学,2016(S1):374-379+383.
[2]杜丽英.基于数据挖掘的决策树算法分析[J].吉林建筑工程学院学报,2014(05):48-50.