宝鸡市石油中学 李尚晋
当今时代,数据的产生和传输速度急剧增长,数据往往体现出了规模巨大、不够精确、数据混杂、动态多变等性质,传统的机器学习已经很难满足时代的需要[4]。大数据所带来的问题不仅仅是数据量庞大而使计算变得困难,更大的困难是数据是在不同服务器上得到的。这些在不同服务器上的数据,它们之间或许存在某种联系,但是我们不可能把它们集中起来进行处理和利用。传统机器学习的理论、算法,它要求数据必须是独立且同分布的,而当条件不能被满足,学习模型以及学习算法就不能发挥其作用。
大数据环境下的机器学习赋予计算机从各式各样的庞大数据(结构化、非结构化等类型数据)中较快地获得有价值的信息和知识的能力[3]。传统机器学习着重用预先设定好的统计方法来对数据分析,以发现数据的价值;与传统机器学习相比,大数据环境下机器学习的最终目的是要从多源异构、动态多变的数据中找出其隐藏在背后的某些规律,使数据能发挥最大程度的价值。从结构繁多的数据中找出某种联系,必须结合大数据技术和机器学习算法,由计算机去挖掘数据的价值。
大数据时代中,传统机器学习的新挑战就是如何处理海量数据。传统机器学习所面临的问题主要包括几个方面:
(1)理解并模拟人类的学习过程。
(2)对计算机系统和用户间的语言差异的研究。
(3)针对不完全信息进行推理的要求。
目前,处理大规模数据的需求是普遍存在的,但是由于现有的很多机器学习算法并不能满足这些条件,或存在各种各样的缺陷和问题,所以现有的许多算法不可以很好地处理海量数据。如何研究出新的机器学习算法,以适应大数据处理的需求,是大数据时代下的机器学习的重要研究方向之一[1]。
在机器学习的发展历程之中,有两大研究的方向。一是研究人类学习机制,注重模拟或实现人类的学习行为;二是研究怎样有效利用信息,从庞大的数据中获取有效的、有价值的知识[4]。在大数据时代,数据产生速度越来越快,数据的体量出现了前所未有的增长,且需要 分析的新数据种类也在不停涌现。大数据时代对机器学习算法提出了更高的要求,要求机器学习算法具备处理海量数据的能力,要求算法可以处理高维度的数据,要求算法和训练出的模型具备尽可能低的复杂性,以提高模型的训练速度和实际应用中模型的预测速度,减少计算时间的浪费。
由于需要处理的数据量大且动态多变,要发现其中的价值,传统的算法已经很难满足,这就需要新的算法来实现。评价机器学习算法优劣的指标主要有一下几个方面。
(1)速度
在机器学习算法中,和速度有关的指标有训练速度和预测速度。训练速度是指算法收敛的速度,即训练算法得出最优模型的速度。预测速度是指使用最优模型预测输入信息对应的结果的速度。如何开发出在训练速度和预测速度两个方面表现都比较优秀的机器学习算法,是一个重要的研究方向。
(2)泛化能力
机器学习的基本目标是将训练数据中的实例泛化推广。一般情况下,要求机器学习算法有较强的泛化能力,即对新输入的数据做出合理响应的能力。这一响应能力代表着机器学习算法的性能。
(3)数据利用能力
随着人们收集数据的能力变得越来越强,收集的数据类型也变得越来越多,不但有标识的数据,还有许多未标识的数据以及一些不一致、不完整的数据。如果一味地丢弃这些数据,只使用已标识、较完整的数据,就会造成资源的浪费。而且相比之下,学习到的模型的泛化能力也比较低。所以,利用种类繁多、格式多样的数据的能力,是评判机器学习算法的重要指标。
(4)代价敏感
代价敏感是指机器学习算法对于实际应用中的错误预测所导致的损失是否敏感。在机器学习算法训练模型的过程中,内部调节参数以使损失函数尽可能快地收敛。一个好的机器学习算法,其损失函数不仅仅考虑模型的错误,而且要关注在实际应用中模型的错误所导致产生的代价。
(5)可解释性
许多功能强大的机器学习算法可以说都是“黑盒子”,例如:神经网络算法。对于这类“黑盒子”算法,绝大部分用户只能够看到模型输出的结果,却不知产生这些结果的原因。而随着数据量的不断增加,问题复杂度的提高,模型的可解释性往往也越来越差。在得到合理预测结果的同时,增强模型的可解释性尤为必要。
当前,机器学习领域比较常用的关键技术有半监督学习、集成学习、迁移学习等,下面将逐一做出介绍。
(1)半监督学习
在现实生活中的数据分析中,数据往往以未标识的形式呈现。这些数据需要人们使用特殊的设备,进行用时很长的实验,标记实验结果后才能得到部分已标识数据。但是人工标注耗时耗力,人们往往只能标记一小部分数据,由此产生了极少的已标识数据和过剩的未标识数据。因此,人们尝试将大量的未标识数据和有限的已标识数据一起用来训练模型,期望能通过这种处理方式对机器学习性能有所改进,由此产生了半监督学习。半监督学习避免了大量的数据和资源被浪费,同时可以解决监督学习泛化能力不强和无监督学习不精确的问题[4]。
(2)集成学习
海量数据的处理过程中,单一的学习算法训练出的模型往往预测性能较差,分类不精准。我们将预测正确率仅仅比随机猜测略高的模型称为弱分类器,将辨别正确率高的模型称为强分类器。集成学习的核心思想在于“集众家之长”。集成学习中,首先训练多个弱分类器,然后通过一定的策略(加权法、投票法等)将这些弱分类器组合起来形成一个预测较为精准的强分类器[6]。
(3)迁移学习
随着机器学习理论的发展,很多新的学习算法被提出。可是,在一些情况下,我们想要解决某个问题,常常被一些现实条件所限制,例如:数据量小、标识数据过少等。迁移学习的方法良好地解决了这一问题。迁移学习旨在利用目标任务(待解决任务)和源任务(已经分析过的应用场景)之间的相似性,将源任务中学习到的知识迁移到目标任务中,以此来增强算法处理目标任务的效果[2]。
大数据环境下,数据往往只有少部分被标识,数据形式呈现为大量无标识数据和小部分有标识数据的组合。半监督学习高效利用了这些数据,使学习性能有所提高;而随着数据量增加,集成学习通过组合多个学习器的方式,提升了机器学习算法的泛化能力;迁移学习,利用已有的学习成果,不断积累并且衍生到未知的领域[5]。除此之外,大数据时代的机器学习还必须解决可扩展性的问题,这需要考虑采用并行化的方法。
[1]张绍成,孙时光,曲洋,董宇.大数据环境下机器学习在数据挖掘中的应用研究[J].辽宁大学学报(自然科学版),2017,44(01):15-17.
[2]庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(01):26-39.
[3]何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(04):327-336.
[4]陈康,向勇,喻超.大数据时代机器学习的新趋势[J].电信科学,2012,28(12):88-95.
[5]许至杰.迁移学习理论与算法研究[D].华东师范大学,2012.
[6]王丽丽.集成学习算法研究[D].广西大学,2006.