大数据综述

2017-12-14 01:54陈强
赢未来 2017年6期
关键词:数据可视化大数据

陈强

摘要:当下我们已经进入了大数据时代,大数据与我们的日常生活息息相关。本文介绍了常见的大数据分析方法,大数据如何收集处理数据,以及大数据以直观有价值的信息呈现的可视化,最后本文分析了大数据发展过程中的机遇与挑战

关键词:大数据、数据可视化、大数据分析算法

一、大数据的介绍

随着社会的发展,如今我们已经进入了互联网时代,[1]图灵奖的获得者杰姆·格雷(Jim Gray)提出了著名的摩尔定律即每十八个月全球新增的信息量时有史以来所有信息的总和,我们在进入互联网时代的同时也进入了大数据时代。在传统的生产方式下,数据的记录是通过人工记录下来的。人们进入信息时代后,数据的产生是自动化的。[2]大数据的产生伴随着4V+1C地特征。(1)数据量大(Volume):存储数据的特别巨大,在大数据时代数据的数量级PB级是常态。(2)多样(Variety):大数据时代数据来源不同于传统的数据收集,数据的来源多种多样数据的格式也非常多,除了传统地结构化数据之外,还有半结构化以及非结构化数据,此外,随着人类活动的扩展和科学技术的发展,数据的格式将会更加多样(3)快速(Velocity):当下的数据增长速度非常快,并且越新的数据价值越大(4)价值密度低(Value):大数据环境下收集的信息多种多样,有实际价值的数据比例较低,需要对收集的数据进行处理,通过数据分析处理挖掘数据中的价值,因此,在大数据环境下需要一种成本可接受的条件下,在通过分析和发现,从大量的数据中提取数据价值。

二、大数据的分析方法

在当下流行的大数据应用中,关键的问题在于如何使用统一的数学模型去表示数据以便进行数据挖掘和分析任务,对于不同的表示格式,处理起来十分繁琐,所以需要对大数据的可行性与实用性进行分析。

2.1统计分析

在大数据的时代,快速进步的大型数据仓库与算法,数据挖掘的也越来越重要,对数据进行数据挖掘会使分析结果比传统的抽样统计更加可靠。在传统的统计学领域也更新观念,学习大数据时代下的统计学,创造出适合大数据环境下的统计方法。大数据时代的统计学特点对抽样分析的方法提出了巨大挑战,对抽样分析得到的结果是否具有代表性是否具有可靠性提出质疑。

在如今的大数据时代下,传统的统计分析应该转换方法,统计方法应该与时俱进。当下的科学技术飞速发展,如何使用统计学原理对已经储备的大量数据进行全样本的分析,应该作为大数据时代统计分析的切入点。

使用大数据分析当下各个产业的经济价值,已经开始涉及到社会的许多方面了。同时,大数据的快速发展也对包括统计学在内的诸多传统领域发出了挑战,传统的医学领域也要迎来大数据与人工智能的结合对疾病诊断预测的挑战。

2.2数据挖掘

近些年来互联网爆炸式发展,移动互联网更是深入千家万户,在大数据的时代下,数据存储PB级别是常态,摩尔定律显示每年的数据以百分之七十的速度增长。如何从现有的数据中挖掘出数据的潜在价值是人们当下面对的一个巨大挑战。

2.21数据挖掘的定义

[3]数据挖掘是对现有的数据库已经收集的数据信息分析处理提取隐含的有价值信息,并在处理后将其转换为其他系统方便使用的结构。其主要的特点是收集的数据库数据进行抽取、处理、分析得到的结果最后再进行模型化处理,对得到的模型辅助商业决策。数据挖掘对各个邻域都可以提取潜在对社会发展有意义的信息。

2.3数据可视化

在大数据时代到来之前在各个邻域就已经有了相应的数据可视化过程,但是如果将传统的数据可视化技术应用于大数据,在有效性与效率方面面临巨大问题,如何将传统的数据可视化技术与现在大数据环境结合是一个非常值得深入研究的方向。

2.3.1分布式并行可视化算法

在大数据时代之前,各个领域将可视化算法应用在较小规模地计算机集群中,其规模一般在几百个计算节点,但是在大数据环境下实际需要的节点应该在数千个以上乃至上万个计算节点,才能满足大数据的规模

2.3.2可视化的分析算法

大数据的可视化首先要考虑的就是庞大的数据规模,其次高效的算法可以减少许多运算量从而减少大量计算时间。再得到结果后也需要将结果以新颖、有价值的方式传递给用户。用户的需求以及偏好各不相同需要将自动学习算法合理使用,这样可视化并且满足用户需求的输出具有高度的适应性。[4]可视化算法具有大量的控制参数搜索空间,可以减少探索以及数据分析的成本并且降低这个过程的难度。

三、大数据处理流程

3.1数据采集

传统的数据收集不能满足大数据环境下的数据量,大数据的收集需要借助传感器或者专业的软件采集和处理收集到的数据,从而把收集到的数据转换为有价值的数据,再通过数据挖掘变为直观的有价值的信息呈现到用户眼前。

3.2数据分析与挖掘

大数据存储的数量级巨大,处理大数据的系统需要强大的存储、传输数据、处理数据的能力。传统的硬件设施价格十分昂贵,云计算平台将实体的计算机资源和计算资源虚拟化,用户按需请求分配,大大降低了大数据处理的商业化成本。

四、大数据面临的挑战

现在我们已经进入了大数据时代,大数据经历了预期膨胀阶段、资本炒作阶段现如今正在转入理性发展和大数据落地应用的时期,社会也对大数据有了初步的理性认知。未来大数据还面临以下诸多挑战。各个企业政府部分之间收集各自的数据,相互之间数据不连通,导致企业内部数据孤岛,大数据的价值不能充分利用;各个行业对本行业数据收集没有统一规范,数据可用性低,数据质量低,数据处理分析十分复杂;数据安全意识低下,数据泄露风险高;用户的个人隐私与大数据有冲突相关法律法规不完善.

参考文献:

[1] 王万森. 人工智能原理及其应用[ M] . 北京: 電子工业出版社, 2002.

[2] 陈良臣.大数据可视分析的若干关键技术研究[J].数字技术

与应用,2015(11):98.

[3] 杨杰,胡英,全勇. 结合数据融合和数据挖掘技术的信息智能处理平台[ J] .高技术通信.2003.(1)

[4] 吉根林,帅克, 孔志挥. 数据挖掘技术及其应用 [ J] .南京师大 学报(自然科学版).2000.(2).

[5] Alexandros Labrinidis,H.V.Jagadish.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment,2012,5(12):2032-2033.

猜你喜欢
数据可视化大数据
移动可视化架构与关键技术综述
可视化:新媒体语境下的数据、叙事与设计研究
我国数据新闻的发展困境与策略研究
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究