彭艳林
成都理工大学管理科学学院,四川 成都 610000
大数据下的机器学习算法分析及研究
彭艳林
成都理工大学管理科学学院,四川 成都 610000
随着我国社会经济的不断发展,电子商务、网络社交、卫星导航等各类领域都获得了长足发展,并产生了大量的数据信息,大数据也在长期的数据积累中形成,受到各个企业的关注。大数据机器学习算法已经逐渐取代了小数据机器学习算法,能够有效提高数据查找、计算、处理的效率。基于此,重点探究了大数据机器学习算法分类,提出了大数据背景下的机器学习算法模型。
大数据;机器学习算法;效率;计算
现如今,人类已经进入到了信息时代。我国信息产业飞速发展,数据量也在突飞猛进,大数据也应运而生。大数据资源中含有很多重要信息,有着极大的价值,给企业带来了丰厚收入,让各行各业都认识到了大数据的重要性。大数据不仅能够作为信息搜集器,同时还能够利用IT技术对数据进行感知、捕获、处理、存储等。在整个机器学习领域中,就好比分类器,能够扩大分类面积和样本间的距离,这样就能够减少判断失误的问题,将数据风险降到最低。其中的支持向量是将一个数据空间变成另一个高维度空间,通过分类得到更加精准的数据。
大数据在长期的发展中,从最初的3 V发展到了4 V,其中,3 V更多表现出多样性、速度性、容量大等特点;4 V更多展现了不同意义上的含义,例如价值性、虚拟性、时效性、变化性等特点[1]。对于大数据的理解和分析,学者们认为需要将智能化技术和计算机技术相互融合,保障整个数据流的顺畅性。在大数据的分析和研究中,人类智慧和机器智能在其中发挥着巨大的作用。随着人们对数据信息的需求量的不断增加,大数据在整个收集、传递、处理、应用中不断改进,让一些结构化、半结构化、非结构化的数据发挥自身的价值。大数据可以从以下几点进行分类:
第一,支持向量机分类。大数据如果采用传统机器学习形式进行分类,可以发现两点问题:计算机非常密集,不利于信息的收集和大规模处理;存在着随机性问题,主要是非参数空间的模拟形式。这就有了在线学习的方法。根据顺序原理进行数据处理,该方法的计算速度更快,并且具备更加广泛的收集能力,但是支持数据的处理数量会减少。面对大规模分类问题,通常采用最小乘二支持向量算法和增量算法为主,通过大数据的分类算法进行数据提取。这样的方法不仅所占内存较小,而且能够更好地解决大数据分类问题。
第二,决策树分类。传统决策树处理方法存在着占用空间大等问题,这就提出了一种新型的方式,也就是通过大数据构造决策树的思想,解决机器学习算法中的限制性条件,并且计算速度要比之前快很多。同时也能够采用增量优化的形式,提高决策树算法效率。该类算法形式具有实时性特点,挖掘能力也非常强,具备非常高的预测精度,保证了数据的精准性。
第三,神经网络和极端学习机。传统神经网络采用梯度下降算法对权值参数进行调整,存在着计算速度慢、泛化性差、效率低等问题。为了解决此类问题,可以采用ELM算法。该方法主要通过随机赋值神经网络中的偏差项输入权值,这就在很大程度上计算出了网络输出权值。相比传统的算法,该类算法形式的计算效率更加明显。
第四,应用领域分类。现如今,应用领域层面对分类算法的研究非常广泛,例如医学专家采用机器学习获得先进的诊断知识,通过计算机辅助诊断,但是样本获取相对较难。因此,可以利用半监督的学习方法,对诊断样本进行估算,提高估算内容的精准度,从而获得相关的知识。该类方法在基础数据集中能够更好地结合基础数据,所获得的新数据也更加贴近实际。
第五,监督和非监督学习分类。其中,监督学习是分类和学习;非监督学习是聚类。监督学习是我们对输入样本经过模型训练后有明确的预期输出,非监督学习是我们对输入样本经过模型训练后得到什么输出完全没有预期。
通过不同的模型形式和定量标准合理选择算法。评价函数可以采用不同的数据模型,应用相关性的多项指标,用来测量某个特征和类别之间的关联性。在选取数据模型的过程中,不需要限制各类参数,同时要保障不同参数之间的独立性,避免在数据获取过程中出现偏差。采用特征分布形式进行有效选择,这样就能够在选择过程中减少噪声带来的负面影响。常见的算法有以下几种:
第一,共享存储模型。可以简称为共享内存模型,在某个进程对共享内存数据进行改动时,会影响访问共享系统中的其他进程。数据共享不需要经过进程之间的数据传递,而是通过直接访问的形式,这样就大大提高了效率。共享存储模型根据线程锁机制划分为同步形式和异步形式。同步形式就是各线程更新相关参数,并对参数信息进行计算,计算完毕后分享到内存中进行聚合操作,之后读取全局参数实现划分;异步形式主要更新部分参数,更新完毕后即可共享到内存参数值当中,在其他线程读取模型参数过程中,可以直接获取更新完毕的参数。由于当今计算机都是采用4核、8核的CPU,因此大多数分布系统的单一节点就是采用异步计算机模型。该模型在校园机房中的应用非常广泛,也就是教师操作终端进行子计算机的控制,通过同步、异步共享信息对子计算机进行数据更新,之后开展教学工作[2]。
第二,整体同步计算。该模式是通过局部内存部分形式和不同处理单元同步路障组成,其更新流程为多个处理单元逐渐对系统模型进行更新,根据路障机制节点处理要求进行同步等待,之后主节点会对各个线程信息进行统一更新,将所更新信息传递到各类处理单元当中,从而进行新一轮的数据迭代。结合数据划分原理可以解释成:各个节点通过本地数据对数据模型数据进行更新,待到计算机各个节点信息获取完毕后,主节点要对各类信息进行汇总,并发生新一轮的全局模型参数更新。该模型通常应用于企业财务管理系统当中,通过对各个部门的财务信息进行汇总和整合,进行统一核算处理。
第三,异步并行计算。该模型主要是通过处理器和全局参数总结点构成。异步更新通过不同节点采用不同步调对主节点模型参数进行更新,并结合数据划分进行数据更新处理。从数据划分可以解释为:各个节点采用本地数据对整个模型参数进行单独计算,待到完成一轮之后对模型参数进行更新,并在主节点获取新一轮的参数信息进行二次计算和二次更新。各个节点在进行更新过程中会造成最终结果缺乏收敛性。为了解决ASP模型计算不稳定问题,可以融入延迟同步计算模型,也就是从不规则迭代转换为根据快慢速度迭代的方法[3]。该模型在气象系统(类似需要不断更新信息的系统)当中应用比较频繁,主要是为了能够进行实时更新和替换,并保证系统更新的稳定性。
综上所述,大数据的到来给机器学习算法带来了很大的改变。通过研究机器学习算法理论和相关技术,可以针对性地提出不同分类方法和数据模型。根据不同数据模型的优缺点进行分析和改良,提高数据获取和更新的效率。
[1]黄一鸣,雷航,李晓瑜.量子机器学习算法综述[J].计算机学报,2017(40):20-21.
[2]亢良伊,王建飞,刘杰,叶丹.可扩展机器学习的并行与分布式优化算法综述[J].软件学报,2015(2):21-23.
[3]肖红.大数据下的机器学习算法探讨[J].通讯世界,2017(6):265-266.
Analysis and Research of Machine Learning Algorithm under Big Data
Peng Yanlin
School of Management Science, Chengdu University of Technology, Sichuan Chengdu 610000
With China’s social and economic development, e-commerce, social networking, satellite navigation and other fields have achieved great progress, and produced a large amount of data information, the formation of large data in the long-term accumulation of data, wide attention of various enterprises. The large data machine learning algorithm has gradually replaced the small data machine learning algorithm, which can effectively improve the efficiency of data search,calculation and processing. Based on this, this paper focuses on the classification of big data machine learning algorithms,and then proposes a machine learning algorithm model in the context of big data.
big data; machine learning algorithm; efficiency; calculation
TP181
A
1009-6434(2017)7-0115-02
彭艳林(1996—),男,四川崇州人,汉族,本科在读。