大数据背景下机器学习算法的综述

2019-04-25 17:15欧华杰
中国信息化 2019年4期
关键词:决策树聚类数据处理

欧华杰

机器学习是由模式识别、人工智能计算学习理论为基础所转变的一类计算机科学分支,此也为人工智能核心,被广泛应用至各相关领域中。据研究表明,多数状态下,处理数据规模越大,机器学习模型效率越高。所以,机器学习为大数据智能分析主要方式。于大数据背景下,本文针对机器学习算法予以探讨,提升数据处理价值。

一、机器学习算法概念及重要性

(一)机器学习算法概念

机器学习即Machine Learning,为一项多领域综合学科,涉及算法复杂度理论、逼近论、统计学及概率论等多项理论。此学科将计算机如何模拟及实现人类学习行为作为主要研究内容,探究计算机获取新知识、技能方式,将已存在知识结构予以重新组织,实现自身性能不断优化。机器学习为人工智能核心,也为使计算机拥有智能的基本方式,现已逐渐应用至与人工智能相关的各领域中,主要为综合及归纳而并非演绎。

(二)机器学习算法重要性

机器学习为现阶段大数据重要处理方式,可将多种优势予以结合,针对具体问题选取最为适宜处理方式,如以2017年AlphaGO与柯洁所开展的围棋比赛中,AlphaGO以3:0比分赢得比赛,此正为机器学习重要标志。此算法可将人为因素所造成的局限性予以突破,借助深度学习、决策树及神经网络等,将数据予以科学处理,并将数据运算速度予以有效提升。现阶段统计调查、商业活动及信息网络等均会产生大量数据,而传统数据处理手段已难以满足此类数据处理需求,急需机器学习予以处理。

二、机器学习典型算法分析

(一)C4.5算法

C4.5算法为目前此领域中较为著名的一类算法,将基于Quinlan所设计的ID3算法予以优化后得到的一种分类决策树算法。决策树为一项预测模型,为对象值、对象属性二者间映射关系的表现方式,树中各节点分别代表不同对象,各分叉路径则为某项可能属性值。由数据所构成的决策树机器学习方式即被称作决策树学习,通常称为决策树。C4.5算法借助决策树模型,针对不同数据以树形结构方式予以分类,于此基础上,使计算机可针对数据开展智能处理、选择,实现自我学习。

(二)K-MEANS算法

机器学习中数据相似度为一项重要概念,借助大量数据分析,找寻同原有数据具备高相似度的数据集合,为机器学习重要基础。仅有将数据间相似度予以精准分析,方可对计算机数据处理、自我学习效率予以保证。K-MEANS算法即将数据间相似度量为基础的一类间接聚类方式,将n个对象结合自身属性分至k个分割,k

(三)SVM支持向量机算法

针对大量数据处理、分析,除需对数据开展相应分类外,也应于此基础上开展统计工作。此算法为一类监督式学习方式,以统计学理论中VC维理论、结构风险最小原理为基础,结合有限样本信息于模型复杂性、学习能力间找寻最优处理路径,以获取最佳泛化能力。支持向量机方式为近几年所提出的数据算法,主要思想包括以下两层面:一为针对线性可分状态予以分析,而线性不可分状态则借助非线性映射算法,实现样本间转化,即由低维输入空间线性不可分变为高维特征空间,实现线性可分;二为将结构风险最小化理论为基础,于特征空间中创建最优分割平面,实现全局优化。

三、机器学习算法于大数据处理中的主要方式

(一)数据并行算法

传统数据处理方式难以充分满足大数据处理需求,主要导致原因为各机器学习方式并未实现并行化数据处理,单独数据处理难以自主实现大数据处置,为满足大数据处理需求,联合各数据处理机制,开展并行化运转,方可实现大数据整体处置。此方式主要运行理念即为将大数据行“碎片化”处理,拆分为可交由机器独立处理的模块,借助各数据综合实现大数据整体掌握。如以图像处理平台为例,主要算法为并行算法,将各数据处理压力不断降低,提高数据运算能力。并行算法需同分治算法及聚类算法等予以有效综合,实现三类算法的有效融合,方可提升数据处理速度,也可于一定程度上保障机器学习精准性。

(二)聚类算法

数据处理、数据挖掘中最为常用的一类算法便为聚类算法,于大数据处理中具备良好应用成效。聚类算法首先将数据结合不同类型予以划分,将大型数据划分至多项子数据节点中。其次,针对所划分完成的数据节点开展针对性处理,提升数据处理效率。此算法于机器学习中实际应用途径可分为三类:一为借助非迭代化数据扩展方式,即通过模糊集理论,针对数据开展FCM均值聚类分析,将数据予以精准分离;二为持续扩充子集合方式,于空间层面提升数据集合精准性;三为抽样均值算法,有效提升数据处理效率。

(三)分治算法

分治算法于大数据处理领域而言,具备良好优势,可被引用至并行运算、分布式计算中。将大数据作为对象开展机器学习,因样本的数据差异将会对数据处理质量造成一定影响,除会增加数据运算量外,也会对机器学习效率形成制约,增加数据精准分析难度,影响数据判断质量。而借助引用分治算法,可对原始样本开展预处理,挑除冗余及无效数据,提升原始样本数据集合质量。于此处理手段下,可明确机器学习目标并降低学习难度,辅助机器生成准确判断。选取样本数据集合时,通常使用约减法及压缩近邻法等方式,数据处理原理即为寻找同大数据所相应的最小数据集合,借助一系列测试对子集予以不断优化、完善。此时,计算机所找寻数据样本可表示全部样本且具备高科学性,以此为开展数据判斷、决策提供参考。引入分治算法前,需具备满足要求的置信范围,于规定范围内开展数据剔除、数据筛选工作,如可利用Bag of Little Bootstraps,缩减因抽样所导致的数据失误,提升数据处理精准性。

四、结束语

大数据为现阶段研究热点,需配备科学、合理机器学习算法满足社会需求,并提升数据处理效率。结合大数据特点,借助聚类算法及分治算法等,增强数据处理条理性,降低数据分析、数据处理难度,增强机器学习能力。此外,为于大数据领域有所突破,还应将传统机器算法予以优化升级,全面提升数据处理能力。

猜你喜欢
决策树聚类数据处理
电容式传感系统数据处理电路的设计
基于ARCGIS 的三种数据处理方法的效率对比研究
基于模糊聚类和支持向量回归的成绩预测
简述一种基于C4.5的随机决策树集成分类算法设计
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
决策树学习的剪枝方法
视频大数据处理的设计与应用