浅谈大数据中的机器学习发展

2018-12-31 00:00:00周子航

大科技·D版 2018年11期

摘要：随着新兴技术和所有相关设备的出现，预计未来几年将会产生大量数据并在可预见的未来继续。可持续计算研究计算机工程师和科学家高效且有效地设计计算机和相关子系统的过程至关重要。然而，当前的智能机器学习系统是性能驱动的。随着大型数据集中的学习任务，网络中隐藏节点的数量将因此显着增加，最终导致计算复杂性的指数级地增长。本文简要论述了大数据中机器学习的难点，关键机制，和未来的大致发展。

关键词：大数据；机器学习；可持续发展；效能

中图分类号：TP181 文献标识码：A 文章编号：1004-7344（2018）33-0027-02

1 背景介绍

时至今日，计算机科学已经对人类科学和发展有了深远的影响。随着新技术和伴随而来的新型设备，预计将创建与人类整个历史中创建的数据一样多的数据[1]。鉴于未来几年至十几年将产生，和存储的数据量前所未有，现阶段的大多数的技术行业面临的一大挑战是如何从中受益，从而促进产业的持续发展。在过去十几年中，作为一种人工智能技术，机器学习已广泛应用于气候学，地理信息学，医学，金融和经济等众多大型复杂数据密集领域[2～4]。然而，当前基于智能机器学习的系统本身并不具有足够的效率或可扩展性来处理大量数据。比如，多年来，已知大多数非参数和无模型方法需要高计算成本来找到整体最优解。对于高维的数据，它们良好的数据拟合能力不仅使他们更容易受到泛化问题的影响，而且导致计算复杂性呈指数级别上升。因此，设计更精确的机器学习系统以满足市场需求将导致由于增加的计算成本而导致更高的能量浪费的可能性。

如今，更需要设计和开发有效的机器学习模型，以应对符合类似能源相关计划的未来需求。这种以能效为导向的数据建模对于许多数据缺乏的领域非常重要，因为它们会影响许多相关行业。开发与设计人员应关注最高性能和最低能耗，以摆脱传统的“性能与能源使用”之间的权衡，并增加可用于节能建模的选项的数量和多样性。然而，尽管我们需要为大型和复杂的数据密集型领域提供这种高效且可持续的数据建模方法，但据现有知识，该领域仅提出了少数这些文献[5～6]。

本文对现有的一些可持续和节能机器学习文献进行回顾，包括与各种需求和建议有关的理论，实证和实验研究。此文的目标是为计算机科学和其他领域的工程师，科学家和研究人员引入新的视角，并为未来的研究工作提供路线图。

2 来自大数据的挑战

计算机科学领域通常是数据密集型的，其最终结果的质量往往随着可用数据的数量和质量而提高。然而，当前的智能机器学习系统在达到足够的效率之前还有漫长的道路要走，在许多情况下，这些数据中有越来越多的部分未被探索或者未充分利用。当现有方法无法捕获此类数据时，对我们的最终结果常常造成本质的影响。当过去的概念无法跟上变化时，传统和过去的经验就不足以成为下一步做什么的指导。有效地理解和使用这些新的原始数据和信息对当今的工程师和研究人员构成了巨大的挑战。为了更好地适应新环境下大数据的产生和处理，更加优化的算法，更加全面的考虑是必要的。

例如，最近的一些文献可以说明文献中科学数据生成的巨大增长。据估计，在地理信息和气候研究领域，目前有数千个无线传感器，每天每个传感器产生大约1GB字节的数据[7]。这种传感器在以前从未有过的空间和时间维度上测量和记录关于自然环境的信息。这些环境信息由传感器通过其传感设备收集，传感设备连接到具有数字无线电通信的小型低功率计算机系统。传感器节点将其自身组织成网络以传送，并且可能将收集的数据处理到基站，在基站中，传感器节点可以通过网络提供给用户。这些传感器每年产生的数据，需要实时决定要分析的数据量，传输量以进行进一步分析[8]。

再例如在这些传感器中，针对于大数据的算法是极其重要的。许多传感器采用复杂算法将原始信号转换为有意义的数据。当大规模收集数据时，人们不再手动检测和诊断传感器故障。需要自动数据清理方法，可以实时检测和纠正传感器故障。预测模型和因果模型都是生态科学和生态系统管理所必需的。生态模型的一个具有挑战性的方面是需要同时考虑许多不同类型的大数据，这些数据在许多不同的空间和时间尺度上都是如此。

3 数据建模和有效机器学习的关键机制

考虑到大量数据涌入，绝对有必要改进传统计算/分析数据模型的设计和开发方式。可持续数据建模可以定义为一种数据建模技术，旨在通过以有效和高效的方式发现模式和相关性来理解其自身领域中的大量数据。可持续数据建模专注于以最小的计算成本实现最大的学习准确性，以及大量数据的快速有效处理。可持续数据建模似乎是理想的，因为它很容易有效地处理大量数据，并且在许多情况下观察到相关的成本降低。从更广泛的角度来看，它需要在电子科学领域进行数据建模革命。事实上，这些新设计的可持续数据模型将有效地应对上述数据问题，从而为各种电子科学领域带来益处。[9～12]因此，在本节中，我们将讨论和提供有关可持续数据建模的几个关键机制。

（1）大数据计算系统的需求根据储存系统的不同和如何分析数据的时间约束的不同，可以大致分为两大类[13]。第一类是批量处理大量硬盘数据需要摆脱时间限制。第二类是需要实时内存数据的处理或者在很短的时间进行内存数据处理[14～15]。下一代计算大数据分析系统需要两者的创新设计可以提供良好匹配的硬件和软件大数据算法和底层计算和存储资源。从这两类来看，近年来的GPU计算和分布式计算很好地迎合了这两类基本的需求。从而为大数据的建模和计算提供强有力的支持和支撑。

（2）浅层机器学习模型例如矢量机已经大量被用于解决简单或者强约束的问题。但是这些浅层机器学习模型有限的建模和表征能力并不能保证在复杂模型中的良好表现，比如在处理自然语言的时候。2006年，深度学习模型在人工智能领域出现。其基本特点是利用多层信息处理模型来识别数据中存在的模式问题。深度学习的主要优点是提高了芯片处理能力和降低了计算硬件成本。并且由于新的云计算的出现，深度学习必将在大数据的建模和处理问题上为工程师和研究人员带来更多的便利。

（3）可持续数据建模的关键成功要素之一是保持或改善其性能，同时显着降低其计算成本。最近的数据建模研究表明，集成的方法已经获得了很大的普及，因为它们通常比单个模型表现更好[16～17]。集成的方法使用多个模型来获得比从任何模型获得的更好的性能[17～18]。但是，它可能导致计算成本的显着增加。如果模型处理大规模数据，模型复杂性和计算要求将呈指数地增长。这一项机制在整个大数据和机器学习的发展中至关重要。①大数据本身复杂性和容量的增长必然导致更大的计算成本和模型复杂度。②计算成本和复杂度的增长反过来刺激新技术和新设备的出现。从而形成良性循环。

4 结论

在本文中，我们概述了可持续数据建模的当前研究状况。特别是，我们讨论了大数据密集型领域的方面，包括：①模型能效，包含机器学习中的计算要求，可能的方法；以及；②数据密集型区域的结构和设计，包括数据模型和特征之间的关系。随着电子科学数据的激增，可持续数据建模已经被证明可以提供前进的方法，因为它易于处理大量数据。我们还可以设想，这种数据建模革命可以很容易地扩展到电子科学的各个领域。这些新设计的可持续数据模型不仅能够应对新兴的大规模数据模式，而且还能够最大限度地提高各种电子科学领域的回报。

参考文献

[1]Koomey J G. Estimating total power consumption by servers in the US and the world[J]. 2007.

[2]苏金树，张博锋，徐昕.基于机器学习的文本分类技术研究进展[D]. 2006.

[3]杨善林，倪志伟.机器学习与智能决策支持系统[J].北京：科学版社， 2004.

[4]何清，李宁，罗文娟，等.大数据下的机器学习算法综述[J].模式识别与人工智能，2014，27（4）：327～336.

[5]Yoo P D，Ng J W P， Zomaya A Y. An energy-efficient kernel framework for large-scale data modeling and classification[C].Parallel and Distributed Processing Workshops and Phd Forum （IPDPSW），2011 IEEE International Symposium on. IEEE，2011： 404～408.

[6]Cheng H， Tan P N， Jin R. Efficient algorithm for localized support vector machine[J].IEEE Transactions on Knowledge and Data Engineering， 2010，22（4）：537～549.

[7]Perera C， Zaslavsky A， Christen P， et al. Sensing as a service model for smart cities supported by internet of things[J].Transactions on Emerging Telecommunications Technologies， 2014， 25（1）： 81～93.

[8]谭东宁，谭东汉.小样本机器学习理论：统计学习理论[J].南京理工大学学报：自然科学版，2001，25（1）：108～112.

[9]Marwah M， Shah A， Bash C， et al. Using data mining to help design sustainable products[J].Computer， 2011， 44（8）： 103～106.

[10]Sundaravaradan N，Patnaik D，Ramakrishnan N，et al.Discovering Life Cycle Assessment Trees from Impact Factor Databases[C].AAAI， 2011.

[11]Sundaravaradan N，Marwah M，Shah A，et al.Data mining approaches for life cycle assessment[C].Sustainable Systems and Technology （ISSST），2011 IEEE International Symposium on. IEEE，2011： 1～6.

[12]Patnaik D，Marwah M，Sharma R K，et al.Data mining for modeling chiller systems in data centers[C].International Symposium on Intelligent Data Analysis.Springer，Berlin， Heidelberg，2010：125～136.

[13]Baldominos Gómez A，Albacete García E，Saez Achaerandio Y，et al.A scalable machine learning online service for big data real-time analysis[J]. 2014.

[14]Huang H H，Liu H.Big data machine learning and graph analytics：Current state and future challenges[C].Big Data （Big Data），2014 IEEE International Conference on.IEEE，2014：16～17.

[15]Bifet A，Morales G D F.Big data stream learning with Samoa[C].2014 IEEE International Conference on Data Mining Workshop （ICDMW）. IEEE，2014：1199～1202.

[16]Yang P，Hwa Yang Y，B Zhou B，et al.A review of ensemble methods in bioinformatics[J].Current Bioinformatics，2010，5（4）：296～308.

[17]Opitz D，Maclin R. Popular ensemble methods：An empirical study[J]. Journal of artificial intelligence research，1999，11：169～198.

[18]Polikar R.Ensemble based systems in decision making[J]. IEEE Circuits and systems magazine，2006，6（3）：21～45.

收稿日期：2018-10-17

大科技·D版2018年11期

大科技·D版的其它文章: 浅谈混凝土的外加剂; 探索市政工程管线综合设计的关键性技术应用; 市政给排水管线设计的优化措施分析; 高层建筑燃气设计思考; 未来发展与海洋探索; 我国高校毕业生就业政策的评析