大数据管理研究:概念、应用与挑战

2019-12-27 09:25赵方亮刘德路赵学军
北方经贸 2019年11期
关键词:文献综述大数据互联网

赵方亮 刘德路 赵学军

摘要:2015年,国家印发《促进大数据发展行动纲要》以来,多个部门和省市出台大数据相关政策,有的地方政府还设置了大数据管理部门,为大数据战略实施营造了良好环境。现对大数据的概念、应用、挑战等三个方面的相关文献进行梳理和总结,为相关部门和政府充分实施与利用大数据提供借鉴和参考。

关键词:互联网;大数据;文献综述

中图分类号:F270    文献标识码:A

文章编号:1005-913X(2019)11-0134-03

一、引言

随着数据获取和计算机技术的进步,大数据已成为一种新的国家战略资源,引起政府和社会各界广泛关注。根据国际数据公司(International Data Corporation,IDC)統计和预测,人类产生并存储下来的数据在2009年已达到0.8ZB,2013年就已突破4.4ZB。[1]数据总量仍快速增长,预计到2020年数据总量将突破44ZB,为2013年的10倍,到2025年可能达到163ZB。大数据已经渗透到各行各业之中,成为重要的生产因素,对人类必将产生重大而深远的影响。Nature(2008)阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。Science(2011)围绕科研中大数据的问题展开讨论,说明大数据对于科学研究的重要性。

鉴于大数据对经济、社会和科技等领域拥有着巨大的价值,世界发达国家投入大量人力和财力,相继制定了促进大数据产业发展的政策法规。2012年3月美国政府发布了《大数据研究和发展倡议》,投资2亿以上美元启动“大数据发展计划”。2012年5月英国建立了世界首个非营利的开放数据研究所(The Open Data Institute,ODI),为英国部门、学术机构等方面提供“孵化环境”。2013年8月澳大利亚政府信息管理办公室发布了《公共服务大数据战略》,推动公共行业利用大数据分析进行服务改革,使澳大利亚在该领域跻身全球领先水平。2016年5月,联合国的Global Pulse倡议项目发布报告,阐述大数据时代各国特别是发展中国家在面临数据洪流的情况下所遇到的机遇与挑战,同时还对大数据的应用进行了初步解读。

我国政府高度重视大数据的研究与应用,2015年9月,国务院出台了《促进大数据发展行动纲要》,系统部署大数据发展规划,明确提出建设数据强国。2015年10月,党的十八届五中全会首次提出“实施国家大数据战略”,将大数据上升为国家战略。2017年10月,“数字经济”写入中央政府工作报告,党的十九大报告提出了“建设数字中国”和“大数据和实体经济深度融合”。从而掀起了全面开展大数据研究,推动大数据的技术应用,提升大数据领域的自主创新能力和核心竞争力,促进我国经济转型和经济发展都具有重要的意义。

二、大数据的概念

全球著名的管理咨询公司麦肯锡也是大数据研究先驱者之一,在其研究报告《大数据: 创新、竞争和生产力的下一个前沿领域》给出大数据的定义:大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据对象集合。同时强调,大数据不一定要求数据量达到TB级别。国际数据公司(IDC)从四个方面描述大数据,即数据规模最大、数据快速动态可变、类型丰富和巨大的数据价值,具有这些特征的数据集合称为大数据。维基百科(http: ∥en. wikipedia. org /wiki /Bigdata)给出的定义是在合理的时间内,无法通过现有软、硬件体系结构对数据资料进收集、存储和处理,并帮助决策者进行决策服务。[2]

大数据概念较为宽泛,除了具备数据量大外,还具有数据的多样性,关键是利用信息技术和处理模式,无法在一个合理时间范围内得到所需要的信息资源。既要关注大数据本身的特点,还要关注大数据具备的功能特性。

大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。[3]目前按照国际数据公司所提的“4V”模型描述大数据的特征,即容量大、类型多、速度快、价值高。

(一)容量大

当前数据正以前所未有的速度聚集和增长,数据存储单位逐渐被PB、EB、ZB、YB所替代。在电商、社交网络、能源、制造业和服务业等领域都已积累了TB级、PB级甚至EB级的数据量。

(二)类型多

大数据另一个重要的特征就是数据类型多样化,数据存在形式包括结构化数据、半结构化数据和非结构化数据。2012年,非结构化数据占整个互联网数据量的75%以上,相信在今后数据存储方面仍然以非结构化数据为主。大数据时代数据分析的重点为非结构化数据的处理技术和模型研究。

(三)速度快

大量的数据快速产生,信息价值稍纵即逝。想要从高速、体量大的数据中获取有效信息,必须配备高速的大数据分析处理器,满足实时性需要,大数据分析主要包括在线分析和离线分析。

(四)价值高

大数据拥有大量有价值信息,通过提炼信息和数据分析,在无序数据中建立关联可以获得大量高价值的、非显而易见的隐含知识,能够在更高的层面和视角帮助用户提高决策力,洞察未来创造出更大的价值和商机,对社会、经济和科技等方面具有重要的战略意义。

三、大数据的应用

新一代信息技术的快速发展、信息化程度的不断提升、物联网的广泛应用等现象,体现了人类社会已经进入大数据时代,现在人们每天的衣食住行都与大数据相关。在大智移云技术的推动下,公用事业、市政管理、城乡环境、健康医疗、社会救助、养老服务、劳动就业、社会保障、文化教育、交通旅游等领域沉淀了大量的数据资源,大数据技术会在越来越多领域得到广泛应用,通过云计算、物联网与大数据技术深度融合,对大数据进行采集、存储、挖掘与分析,有效提升了大数据管理各个流程的技术水平,促进大数据应用成本减少和介入门槛降低。大数据将成为人类认识世界和改造世界、推动智能化的有效工具,大数据的未来发展空间将更加广阔。

《促进大数据发展行动纲要》中提出了推动大数据发展和应用的总体目标:打造精准治理、多方协作的社会治理新模式;建立运行平稳、安全高效的经济运行新机制;构建以人为本、惠及全民的民生服务新体系;开启大众创业、万众创新的创新驱动新格局;培育高端智能、新兴繁荣的产业发展新生态。[3]

四、大数据的挑战

大数据时代的数据总量快速增长,伴随着对数据管理的巨大挑战。通过对大数据管理流程的梳理,总结出大数据管理中正面临着六个方面的挑战,分别是专业化人才、大数据集成、大数据分析、数据安全性、软硬件协同和管理易用性。

(一)专业化人才

大数据时代,组织需要大量既精通业务又能数据分析的人才(严霄凤等,2013)。目前,美国面临大数据管理人才、大数据经理人和分析师缺口近200万人,在我国数据工程师也是稀缺人才,大数据对我国相关专业人才的培养模式以及现有人才的储备提出了严峻的挑战。

(二)大数据集成

大数据的广泛性使得各类数据越来越多地分布在不同的数据管理系统中,便于数据分析所需而进行数据的集成。数据集成在大数据获取过程中扮演着“融会贯通”的角色,可分为传统数据集成和跨界数据集成。在数据采集过程中,由于数据可能来自于自治的数据源,因此难以确保数据的模式、模态、语义等一致。

(三)大数据分析

数据分析是用适当的统计分析方法对集成的大量数据进行分析,将其加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。大数据分析不是简单的数据分析延伸,针对大数据规模大、更新速度快、来源多样性、价值密度低等性质给大数据分析带来了一系列挑战(周鸣争等,2018)。

(四)数据安全性

当今社会网络化和信息化的快速发展导致数据爆炸式增长,数据的价值越来越重要,大数据隐私和安全逐渐被重视起来。数据安全主要包括两个层面:一是数据防护安全,二是数据内容安全。美国“棱镜门”事件引发世界各国对个人隐私和数据安全的高度关注。大数据在产生、获取、传输及存储等环节面临着诸多安全风险,具有强大的数据安全与隐私保护的需求。因此,实现大数据安全性比以往安全问题更为棘手。

(五)软硬件协同

一方面,硬件异构性带来的大数据处理难题,因不同时期采购的不同厂商的服务器在系统运行和处理速度方面存在很大的差别,导致整个数据中心的各台机器之间的性能存在着明显的差异;另一方面,软件系统都是依托在计算机硬件体系中,CPU的发展一直遵循着摩尔定律,且其架构已经从单核转入多核,深入研究如何让软件更好地利用CPU多核心之间的并发机制。[4]新型非易失存储器件的出现,给大数据管理系统带来新的希望,闪存、PCM等新型硬件具有低能耗特性,这将给现有的大数据处理带来一场根本性的变革,软件将不受硬件的绝对限制。

(六)管理易用性

从数据集成到数据分析,直到最后的数据解释,易用性贯穿整个大数据管理的流程,易用性的挑战主要有两个方面:一是大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化,大数据复杂程度已经超出传统的关系数据库。二是大数据已经广泛渗透到人们生活的各个方面,很多行业都开始有了大数据分析的需求。但是这些行业的绝大部分从业者都不是数据分析的专家,在复杂的大数据工具面前,他们只是初级的使用者。复杂的分析过程和难以理解的分析结果限制了他们从大数据中获取知识的能力。[4]

五、结论

随着物联网、云计算、Web2.0和移动互联等技术的快速发展,各种应用产生的数据正快速增长,人类社会已经步入大数据时代,这个时代大数据已经成为我国重要的基础性战略资源,正引领科技创新和科研变革,通过对大数据的应用将创造出巨大的商业和社会价值。我国充分利用数据规模优势,实现数据质量和应用水平同步提升,挖掘和释放数据资源的潜在价值,有利更好发挥数据资源的战略作用,适应世界各国在大数据领域所展开的新一轮竞争。

参考文献:

[1] 徐 明.大数据时代的隐私危机及其侵权法应对[J].中国法学,2017(1):130-140.

[2] 周鸣争,陶皖等.大数据导论[M].北京:中国铁道出版社,2018.

[3] 国务院关于印发促进大数据发展行动纲要的通知[EB/OL].http://www.gov.cn/zhengce/content/2015-09/

05/content_10137.htm, 2015-08-31.

[4] 孟小峰,慈 祥.大數据管理:概念、技术与挑战[J].计算机研究与发展,2013(50):146-169.

[责任编辑:纪姿含]

猜你喜欢
文献综述大数据互联网
马克思创新思想研究综述
Scratch教学研究综述 
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
基于大数据背景下的智慧城市建设研究
以高品质对农节目助力打赢脱贫攻坚战