实际应用的需求对大数据挖掘的推动

2017-02-23 05:23张鑫
关键词:数据挖掘算法分析

张鑫

(兰州财经大学陇桥学院)

实际应用的需求对大数据挖掘的推动

张鑫

(兰州财经大学陇桥学院)

实际应用、大数据、挖掘算法和处理平台4个要素的紧密结合构成了大数据挖掘的核心.根据大数据的特征,分析相关案例,指出实际应用的真实需求才是大数据挖掘的目标.大数据挖掘的价值体现必须结合应用数据和与应用匹配的算法,在数据处理平台的支持下,将挖掘到的知识或模型去指导实践.

数据挖掘;大数据;应用驱动

1 大数据时代

现今信息技术和通信技术飞速变革的推动力正是信息数字化,且在总量上信息也呈现爆炸式的增长.例如分布在全世界的10000多家沃尔玛超市其1 h内处理的消费记录就在百万条以上,数据量高达2.5PB[1].管中窥豹,在日常运作中各行各业会产生和存储海量业务数据.随着通信技术的发展,地球变得越来越小,全世界通过互联网链接在一起.思科预计:2019年全球移动互联网的流量会增长到每年292EB[2].“大数据是由于规模、复杂性、实时性而导致的无法在一定时间内用常规软件工具对其进行获取、存储、搜索、分享、分析、可视化的数据集合”[3],这是维基百科给出的大数据定义.世界知名的技术咨询公司Gartner给大数据下的定义则是:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”[4].

收集、处理、管理、分析海量数据;对客户的行为进行分析并提供个性化服务;改善和优化业务流程,提高运营效率;以更智能的方式来管理城市等情况的出现正是由于大数据技术的支撑,大数据技术的飞速发展,已经深刻地影响到了人类社会的各行各业,在商业、经济及其他领域中,决策讲日益基于数据和分析而作出,而并非基于经验和直觉.可以这样说,大数据时代已经到来了.

2 理解大数据

2.1 特点

大数据带给人们三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系[5].之所以称其为“大数据”,正是因为它与以往的“小数据”有着很大的区别:(1)大量:数据量从TB级别跃升到PB(1000个T)、EB(100万个T)乃至ZB(10亿个T),体量巨大.IBM预测到2020年全世界所产生的数据规模将达到今天的44倍.(2)多样:数据类型种类繁多.包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据处理能力提出了更高的要求;(3)高速:与传统的数据挖掘处理方式不同,大数据要求响应快、处理快,实时分析,如果无法通过及时处理反馈有效信息,那将是得不偿失;(4)价值:数据价值密度低,要对其进行正确和准确的分析,才能得到价值高的有效数据,这些有效数据具有极大的商业和社会价值;(5)变化:不同的场景大数据的意义会发生变化,要考虑其实际应用;(6)真实:只有真实可靠的数据才能保证数据挖掘结果的准确和有效;(7)波动:不同的算法、分析流程、标准会得到不同的分析结果;(8)可视化:为了能让用户更好地理解和应用分析结果,将分析结果和数据意义以可视化的方式展现出来.

2.2 大数据架构

从上面描述的大数据的特点并结合实际出发,认为实际应用、大数据、挖掘算法和处理平台4个要素的紧密结合构成了大数据的核心,其中处理平台是基础,大数据和挖掘算法是核心,实际应用是关键要素.从中可以分析出结合实际数据和适用算法,在处理平台的支撑下,在实际应用真实需求的推动下,将得到的成果应用在实践中才是大数据挖掘的目标.只有在实际应用的推动下,大数据挖掘才能够体现其真正的价值所在.

3 应用驱动

3.1 大数据平台

能够支撑海量数据处理、可视化操作并能够保证结果稳定性的平台一定是一个高效的平台.Weka、统计产品与服务解决方案(SPSS)等工具并不适合大数据挖掘;Mahout很难让用户添加其实际所需要的合适算法;Radoop对非基于Hadoop的算法支持有限,可见传统的工具已很难满足大数据挖掘的要求.

受实际应用驱动的大数据处理平台应该满足以下要求:(1)界面友好,任务配置方便快捷; (2)多语言、多算法集成,用户能够灵活选择其所需的算法;(3)分布式异构管理.

以分布式数据挖掘系统(FIU-Miner)[6]为例,看实际应用驱动的高效大数据平台是怎样满足上面提到的要求的.FIU-Miner整体的系统架构有4部分构成,从底层到高层分别为异构物理资源层、抽象计算资源层、系统和任务管理层以及用户界面层.FIU-Miner用户界面友好,无需编写代码,与任务无关的底层细节由FIU-Miner管理,将相应算法直接配置成工作流.用户可以根据自己的实际应用去构建相应的大数据挖掘应用,对数据分析人员的开展复杂的数据挖掘任务提供了很大的帮助.FIU-Miner支持外部算法库,支持各种各种异构的计算环境,并可以根据算法实现、负载平衡、数据位置等要素来优化资源配置,提高计算效率.

3.2 大数据的获取与预处理

在进行大数据挖掘之前首先要做的工作是数据获取和数据预处理.以大型企业为例,在一个企业当中,它所面临的数据任务是各种各样的.当其确定某个任务目标时,缺乏对挖掘对象和发现知识的理解是一个常见的现象,并且由于企业规模巨大,其业务流程非常复杂,具体的业务逻辑和数据之间的关系十分琐碎,其数据来源复杂,数据获取非常困难,导致即使任务比较小,也由于上述原因而难以达到预期的目标.在具体应用大数据挖掘时,需要在数据导入、整合上具有很高的灵活性,只有业务人员和数据挖掘工程师不断地尝试、配合,才能将企业的需求和数据挖掘的功能有效、准确的关联起来,并且在数据获取的过程中还要高度重视数据聚合过程中的数据保护问题,避免泄露用户的隐私和敏感数据.

由于数据来源的多样性.所收集的数据还不能直接应用相应的挖掘算法,需要对数据进行预处理,对数据中的噪音和缺失值进行处理和过滤.

3.3 挖掘算法

从顾客交易数据分析到隐私保护数据挖掘,从文本数据到多媒体数据,这些领域的算法都是由应用驱动的,数据挖掘中的很多算法都是从实际应用中衍生和发展出来的.数据挖掘融合了数据库、模式识别、统计分析、人工智能、机器学习、信息检索等领域,是一个新兴的交叉学科.要以实际应用为出发点驱动大数据挖掘,根据任务目标、需求特性、数据特征,去选择与实际应用相适应的算法,并要进一步在实际应用中去验证算法的合理性和准确性.在处理稀疏、高维的数据时,要注意算法的可靠性.在处理复杂关系网络的数据时,要根据数据特征来研究选择相应的算法.

4 大数据挖掘的应用

4.1 高端制造业面临的大数据挖掘挑战

高端制造业处于整个制造业价值链的高端环节,具有知识、技术密集,附加值高,成长性好,关键性强,带动性大,信息密集度高,低污染,低排放,强竞争力的特点,包括生物制药、精密仪器制造、电子设备制造、轨道交通装备制造等.这些制造领域往往涉及材料的严格规范、大量的控制加工设备、精确的过程控制、大量的工艺参数、严密的工程设计和复杂的装配生产线.环境条件、生成设计、机器设备、生产流程、原材料等与生产要素相关的环节都积累的大量的历史数据,其中蕴含着高价值信息.企业可以通过大数据挖掘,将其中高价值数据挖掘出来,去指导企业的相关业务流程,改进产品品质,提升产品性能,提高生产效率,最终达到提高企业整体竞争力的目的.

高端制造业中的数据挖掘面临很多挑战[7],例如:如何保证数据分析结果的准确性、如何有效分析大数据等.依靠传统的信息系统或专家经验来分析大数据已经变得不现实.因此,利用数据分析技术、工具或平台,智能地从复杂的海量原始生产数据中进行大数据挖掘,为企业提供决策依据,提高系统生产效率已经成为企业迫切的需求.

4.2 基于FIU-Miner的大数据解决方案案例

惠科(深圳)电子有限公司就是利用大数据挖掘来提高液晶显示屏的良品率.通过这个案例来阐述受实际应用推动的大数据挖掘在企业中的应用.在液晶显示屏制造的过程中,随着企业自动化程度的提高,在生产流程中自动采集到的数据量急剧增长,生产流程中大量的控制参数也随之生成,在对数据进行分析和理解的过程中,需要强大、高效率的数据分析能力来提供支撑,保证结果的准确性.因此,一个集成的、高效的数据分析处理平台是整个数据挖掘应用系统的基础和支撑.

在平台方面,基于FIU-Mining,结合实际任务目标的需求,在整个架构上增加了一个数据分析层.在整个系统中,数据探索模块主要提供对数据的宏观理解和快速预览.利用联机分析处理(OLAP)技术帮助数据分析人员快速建立相关数据的特征,指导后续的数据预处理过程.数据分析模块主要是用来选择数据挖掘算法和设置已选算法所需要的参数.数据分析人员通过调用相应的算法去聚焦具体的任务.结果管理模块主要是用来产生分析报告,这些报告可以为企业的决策者提供决策支持.同时该模块还提供有为领域专家预留的接口,方便引入领域专家知识.

5 结束语

该文从大数据本身的特点出发,结合大数据挖掘案例,提出了大数据的核心和本质是实际应用、大数据、挖掘算法和处理平台4个要素的紧密结合,并且大数据挖掘的发展是受实际应用推动的.实际应用驱动的平台,实际应用驱动的算法,实际应用驱动的数据收集,实际应用驱动的数据预处理,都是能够成功实施大数据挖掘的关键.未来,将是大数据的时代,“得数据者得天下”.随着大数据挖掘技术的不断发展,大数据挖掘在实际应用的推动下,将会展现出更广的应用前景,体现更大的价值.

[1]Data,DataEverywhere.http://www.economist.com/node/ 15557443,2010-02-25.

[2]BAMETT J T,SUMITS A,JAIN S,et al.GLOBAL Mobile Data Traffic Forecast,2014-2019.

[3]Big Data.http://en.wikipedia.org/wiki/Big_data,2013-02-22.

[4]Garter.What Is Big Data..http://www.gartner.com/itGlossary/big-data,2014-10-20.

[5]成佑城.大数据时代下的大数据到底有多大[J].中国大数据,2014,3(6):22-25.

[6]Zeng C,Jiang Y,Xheng L,et al.Fiu_Miner:AFast.Integrated,and User-Friendly System for Data Mining in Distributed Environment[C]//Proceedings of the 19thACM SIGKDD international conference on Knowledge Discovery and Data Mining(KDD'13).USA:ACM,2013:1506-1509.

[7]李涛,曾春秋,周武柏,等.大数据时代的数据挖掘—从应用的角度看大数据挖掘[J].大数据,2015,1(4):11-17.

From the Practical Application of the Demand for Large Data Mining to Promote

Zhang Xin
(Lanzhou Longqiao College University of Finance)

The core of large data mining are composed of the four elements which are practical application,largedata,mining algorithm and processing platform.According to the characteristics of large data,the relevant cases are analyzed and the goal of large data mining of the real needs of practical applications are pointed out.The value of large data mining must be combined with application data and algorithm matching with the application.With the support of the data processing platform,the practice is guided by the knowledge or model.

Datamining;Largedata;Application-driven

TP274

:A

:1000-5617(2017)01-0075-04

(责任编辑:李家云)

2016-12-11

猜你喜欢
数据挖掘算法分析
探讨人工智能与数据挖掘发展趋势
隐蔽失效适航要求符合性验证分析
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
电力系统不平衡分析
电力系统及其自动化发展趋势分析
一种改进的整周模糊度去相关算法
一种基于Hadoop的大数据挖掘云服务及应用