陈婧?王兰花?郭鹏程
伴随物联网、云计算和人工智能等技术的快速发展,以微博、微信等为代表的新型信息发布平台的出现,数据正以前所未有的速度增长,在数据出现多源异构、动态增长等特点后,传统的数据管理方式已经不能满足海量数据的需求,新的挑战应运而生。
一、大数据概述
大数据(Big Data)术语早在20世纪80年代就已经提出,Nature杂志于2008年刊登了一篇题为“Big Data:Science in the petabyte Era”的文章后,大数据的概念才渐渐被人知晓。近年来,大数据的价值逐渐得到体现,成为人们研究的重点领域。
2008年,马云通过整合旗下电子商务网站中的消费者订单数据等信息,发现海外企业的采购量急剧下降,提前6个月的时间准确地预测出世界金融危机。2009年,Google公司利用人们网上搜索的相关词条,如咳嗽、发热等,并依据检索的频率、时间和空间建立分析预测系统,成功预测出甲型H1N1流感病毒的爆发,及时发出预警信息。此类例子不胜枚举。
二、大数据时代面临的新挑战
(一)数据集成的挑战
大数据背景下,数据集成有新的需求:
1.广泛的异构性。传统的数据一般是结构性数据,处理技术也非常成熟,但在大数据时代,数据的类型出现了新的变化。
2.数据从以往的多以结构化的形式体现逐渐向结构化、半结构化和非结构化这三者的融合过度。
3.数据越来越多样,而多样性的变化源于数据源的变化。传统数据一般产生于个人PC或者服务器,这些设备较固定。随着Web 2.0技术的发展,移动智能终端(如智能手机、平板和GPS导航仪等)的普及,数据量呈爆炸式增长,并开始具备跨时空的特性。
(二)数据分析的挑战
传统数据分析一般是在结构化数据上展开的,已经形成了一套成熟的分析体系,例如联机分析处理(On-line Analytic Processing,OLAP)模式。随着大数据时代的到来,半结构化甚至非结构化的数据量猛增,传统的分析技术已经无法应付这些海量:
1.数据处理的实时性。大数据时代,数据往往是具有时效性要求的,时间越短,能够从中获得的数据价值越高。而在大数据分析方法上,没有一个通用的实时处理框架。
2.在动态变化环境中进行索引。大数据环境中,数据量是海量的,利用传统的索引方式从海量不同类型的数据中找到一条想要的记录是非常困难的,因此设计一种新的索引方式势在必行。
3.先验知识的缺乏。大数据时代,数据多以半结构化和非结构化的形式存在,这些数据之间难以建立直接建立联系,很多实时数据是以流的形式流入数据分析系统中,因此难有时间去建立先验知识。
(三)数据隐私与安全的挑战
个人隐私问题始终贯穿互联网时代,在大数据时代,数据的隐私与安全问题更为严重。
1.隐性数的暴露。在互联网时代,隐私信息的保护一直是用户担忧的问题,尤其是在社交网络出现以后,使得用户在不同地点和时间产生了越来越多的数据足迹。这种数据在一定程度的关联和积累,将用户在不同地点的行为聚集起来,用户的隐私信息能够被轻易的暴露出来,隐私信息泄露风险大大增加。
2.数据公开与隐私保护之间存在的矛盾。若是为了保护隐私而将数据隐藏起来,数据就无法体现其价值。为了更有效的利用数据,需要进行数据公开,包括政府机构和一些企业在内,都可以通过这些公开的数据知悉社会的需求和状况,从而更好的利用大数据技术,例如阿里巴巴可以利用公开的数据了解客户的需求,在线上进行更有针对性的产品推荐和销售。大数据时代下,怎样在保护隐私的前提下进行有效的数据分析和挖掘,是很难把握的。
3.数据具备的动态性。之前的隐私保护多针对于静态数据集,而在大数据时代下,数据类型的变化除了要有新的数据处理技术外,还给隐私保护带来了巨大的挑战。
三、结语
大数据时代的到来是技术发展的必然趋势,利用大数据技术能够获得巨大的价值,为人们提供便利。但它也是一把雙刃剑。大数据环境下,数据量和数据类型与以往不一样,传统的数据分析方法无法继续适用,新挑战应运而生,这些新问题亟待解决,也期望学者能以此为参考,为大数据技术的发展献计献策。(作者单位:江西科技学院)