刘承良
(湖南电子科技职业学院,长沙 410000)
网络大数据的现状与展望
刘承良
(湖南电子科技职业学院,长沙 410000)
网络大数据的形成和扩大给IT构架和计算能力提出了更高要求,网络大数据的发展为人们深度挖掘大数据功能和价值带来了重大机遇,因此加强大数据可续研究,总结网络大数据发展规律,结合定性、定量分析方法全面研究网络大数据的复杂性具有重大意义。本文就网络大数据的发展现状进行分析,有针对性地探讨网络大数据带来的机遇与挑战,并对网络空间感知以及网络大数据存储管理等主要问题展开详细论述,最后展望网络大数据的发展前景。
网络大数据;现状;存储;科技;展望
近年来我科学技术高速发展,互联网科技、云技术、IT通信技术等迅猛发展,给各行业领域带来了重要影响。但与此同时数据的快速发展也成为行业领域应用科学技术过程中的挑战。信息时代高速发展背景下,我国已步入大数据发展阶段,大数据的发展应用给人们带来了较多积极影响,对企业发展运作等也起到了关键作用。网络大数据给社会发展和人们生产生活带来机遇和挑战,因此加强大数据研究至关重要。本文首先论述对网络大数据研究的必要性,其次对网络大数据发展现状展开详细论述,最后展望大数据发展前景,实现大数据时代发展与科技的有机结合,促进网络大数据规模进一步扩大,以给人们带来更大的便利。
网络大数据应用广泛,无论是经济发展领域还是军事、文化发展领域,网络大数据都发挥着重要作用。加强网络大数据研究对维护国家网络空间数字主权,保证经济、文化稳定持续发展,提高国民经济竞争力,实现科技突破等都有着至关重要的作用。无论是直接影响还是间接影响,加强网络大数据研究十分必要。
1.1加强网络大数据研究,实现网络空间数字主权保护
近年来我国已步入信息化时代,国家综合实力的竞争也包括信息时代下网络大数据的规模及运用能力的竞争。我国大数据规模发展逐渐壮大,且对大数据的运用和管理能力也逐渐提高,这使我国掌握了网络空间数字主权,即作为一个发展大国重要的博弈空间。若我国网络大数据应用落后,就会直接影响我国占领产业战略制高点,出现网络空间发展不足的情况,影响国家数据使用安全。就2013年3月美国投资启动的“大数据研究和发展计划”来看,美国政府加大对大数据的重视和研究,并强调“大数据的应用关系到美国国家安全,对科学技术发展进程有着直接影响,同时对教育改革等领域都有一定影响”。这说明网络大数据已上升到国家意志领域,对国家信息安全、经济发展、社会稳定等都有着关联影响。
1.2网络大数据与国民经济核心产业有着直接关联
“人、机、物”三元世界的交互发展产生了大量数据,为充分实现对网络大数据的感知和利用,国民经济发展过程中要有效解决对大规模数据的测量和应用,以促进经济发展中各行业数字化和信息化,解决行业发展过程中出现的网络大数据爆炸阻碍。因此加强网络大数据研究,解决大数据基本共性问题十分重要。例如,针对非结构化数据的统一表示和分析,现阶段尚未采取有效的工具和手段,而通过对大数据问题的研究分析,能够增强企业处理网络大数据的能力,使企业更全面认识大数据处理的成本,促进企业进一步实现数字化。这也是网络大数据研究的重要意义,有助于促进新一代信息技术融合,推动信息产业经济增长值高速发展,是各行业提升综合实力的新动力。
1.3网络大数据研究与新兴产业发展相关联
信息时代背景下在科学技术上实现网络大数据技术研究突破,能促进数据服务以及数据材料等相关战略性新兴产业的兴起与发展。实现网络大数据的技术研究和科技突破,能使人们更清楚地认识数据交互连接的复杂问题,并准确把握数据冗余与缺失等不确定性特性,以更好地实现对高速增长数据的驾驭。对大数据不确定性和涌现性的把握,能使大数据应用者从数据中挖掘到实际需求信息,实现对网络数据的充分利用。网络大数据并非行业发展过程中的副产品,而是行业发展各环节的关键纽带,其能够通过网络数据信息的分析和把握,提高行业生产效率,实现对成本的有效控制,同时,在大数据驱动下,能促使数据能源、数据制造等战略性新兴产业的崛起与发展。
2.1网络大数据特点
网络大数据主要是指“人、机、物”三元世界在网络空间交互过程中产生的大量数据,可通过互联网进行查询使用,即称为网络大数据。据IDC报告发布,根据近年来大数据增长形势来看,到2020年将实现35 ZB。IBM针对网络大数据特点来看,主要包括大量化、多样化、快速化3个明显特点。
在信息化时代背景下网络空间数据增长迅猛,数据集合规模已实现从GB到PB的飞跃,网络大数据则需要通过ZB表示。在未来网络大数据的发展中还将实现近50倍的增长,服务器数量也将实现近相同数量的增长,以满足大数据存储。网络大数据的类型多样化,例如结构化数据、非结构化数据等。在互联网时代背景下网络大数据越来越呈现非结构化数据增长,据相关调查统计,在2012年底非结构化数据在网络数据总量中占77%左右。这种类型结构数据的产生与社交网络以及传感器技术的发展有着直接联系。另外,网络大数据还具有快速化特点,其突发涌现状态演变使人们对数据的评估和预测难度加大。大数据一般情况下以数据流形式快速产生,且具有动态变化性特征,大数据的时效性要求用户必须准确掌握网络大数据数据流才能更好地利用这些数据。
2.2网络大数据的感知问题
网络大数据自身具有跨媒体关联特点,且能够实现多主体互动,这给大数据的感知与获取带来一定问题。按照网络空问中数据的蕴藏深度,整个网络空间可划分为Surface Web和Deep Web,或称作Hidden Web。Surface Web是指Web中通过超链接可被传统搜索引擎获取到的静态页面,而Deep Web则由Web中可在线访问的数据库组成。Deep Web的数据隐藏在Web数据库提供的查询接口后面,只有通过向查询接口提交查询才能获得。与Surface Web相比,Deep Web所包含的信息更丰富。同时,Deep Web具有规模大、实时动态变化、异构性、分布性以及访问方式特殊等特点。为充分利用Deep Web中的数据资源,需要充分获取Deep Web中高质量的数据并予以集成,整个集成过程可分为数据获取、数据抽取和数据整合3个环节。
2.3网络大数据挑战
网络大数据在开发与应用过程中正面临着诸多挑战,这与用户需求的提高有着直接关系。目前就网络大数据发展形势来看,其主要面临的挑战包括大数据的复杂性、不确定性以及涌现性。
网络大数据的复杂性使其诸多环节操作运行难度增加,包括数据存储、数据分析处理以及数据深度挖掘等。大数据的复杂性又包括其类型的复杂,如社交网络与传统文本数据的相互发展,使其类型更加丰富;数据结构复杂,包括移动技术以及社交技术发展下形成的结构数据流以及非结构化数据流,具体形式包括文本、图像等,这给网络大数据管理与分析带来了难度。大数据的不确定性包括自身以及模型的不确定,这给大数据建模带来较大困难,使用户不能充分利用其自身价值,既是对数据资源的浪费,同时也无法全面满足用户需求。另外,网络大数据还面临着涌现性带来的挑战。这主要是指网络大数据与其他数据之间存在的本质上的区别,也是网络大数据的关键性特点。大数据的涌现性直接给用户以及相关研究人员增加数据驾驭难度,使之无法准确实现对大数据的测量和预测,包括大数据的数据结构、功能等。
2.4网络大数据分布式数据存储问题
就目前网络大数据处理规模以及存储形式来看,已实现从TB级到PB、EB级的转变。在实现等级上升后,为更好地实现对数据存储成本的控制,实现计算资源优化利用,以及提高系统整体的并发吞吐率,要积极探究出更加有效的存储模式,实现目前网络大数据分布式数据存储方式。Google公司提出的GFS、MapReduce、BigTable等技术是分布式数据处理技术的具体实现,是Google搜索引擎系统的3大核心技术。此后,Apache软件基金会推出开放源码的Hadoop和HBase系统,实现了MapReduce编程模型、分布式文件系统和分布式数据库。Hadoop系统在Yahoo、IBM、百度、Facebook等公司得到了大量应用和快速发展,但作为新兴的技术体系,分布式数据处理技术在支持大规模网络信息处理及应用等大数据计算应用能力方面还存在很多不足。
分布式数据存储是网络大数据应用的一个重要环节。但之前的研究工作仍存在一些局限性。针对海量数据存储和处理所面临的数据总量超大规模、处理速度要求高和数据类型异质多样等难题,需要开发支持扩展度高、深度处理的PB级以上分布式数据存储框架,同时需要研究适应数据布局分布的存储结构优化方法,以提高网络大数据存储和处理效率,降低系统建设成本,从而实现高效、高可用的网络大数据分布式存储。
网络大数据对各行业领域发展都有着积极影响,对数据库建设以及知识工程建设等有着推动作用,且被广泛开发和应用。但大数据的海量规模以及复杂性等自身特征,直接给大数据开发和应用带来一定阻碍,使各领域研究很难直接进行应用。因此,加强对网络大数据的研究和开发,形成相对统一的标准进行大数据研究至关重要。
网络大数据深度研究与开发对多行业领域发展都有着积极影响,针对现阶段大数据面临的机遇和挑战,要加强大数据与科技融合,对大数据复杂性、涌现性以及不确定性等特性实现整合优化,促进网络大数据规模进一步扩大发展。
3.1网络大数据实现大规模发展趋势
就目前网络大数据时代发展来看,发展速度快、结构复杂程度加大。原有的Hadoop技术无法满足大数据时代的发展需求。在信息化、数字化发展潮流下,大数据规模将进一步扩大,且数据类型和复杂程度将进一步加大。为适应该发展趋势,要不断加强创新研究,例如对全球著名的分布式数据库Spanner的研究利用。在今后的大数据研究应用中,要以分布式数据库为基础,加强存储模式的开发利用,并结合SQL语法,实现数据高效操作。
3.2数据资源化
网络大数据包括各类型的数据信息,信息量超大,且蕴含着不可估量的价值。换句话说,准确把握网络大数据,即掌握了丰富的信息资源。网络大数据存在着丰富的价值链,无论从哪个角度出发,网络大数据都发挥着不可替代的资源优势。大数据中的价值链来自数据本身,也包括大数据技术等,但离开技术以及其他因素的数据资源则是其核心价值优势。另外,将不同的大数据信息整合,即实现资源整合,将创造出不同的价值。
3.3网络大数据推进科技融合
网络大数据时代背景下,IT通信技术、云技术以及物联网等技术飞速发展,在实现技术融合的同时,也实现了学科交叉发展。大数据规模的扩大和发展离不开信息技术,即在进行大数据深度研究和创新发展的过程中要始终以信息技术为基础。同时,大数据的发展利用给各行业领域管理带来积极影响,实现了传统管理决策到大数据时代管理与决策的跨越。同时,在某些特殊领域,网络大数据也将发挥其功能和价值,不断吸引各跨学科人才参与其中,实现科技进一步创新发展。
3.4融合以人为本理念
在今后的网络大数据发展中,要注重以人为本理念的应用。信息、科技时代的竞争,追根究底是人才的竞争,要根据人的需求和意识实现不断的创新发展。大数据时代以数据分析为前提,进行科学探索,实现科学决策。但数据分析始终无法代替人类的思维活动,要通过人的思维意识,推动大数据发展。随着IT通信技术以及物联网技术的发展,人们在大数据时代发展进程中扮演着不同的角色,既是大数据的使用者,也是其生产者,更多的是作为参与者,进一步实现人与数据之间的沟通合作。在今后的大数据发展中,要加强以人为本理念的应用,促进社会活动进一步变革创新。
3.5实现网络大数据形象化
就目前来说,在人机交互环节中,人们侧重需要其可视化,即通过文本或图像编辑器等实现直接操作。在今后网络大数据发展过程中,要满足人们使用需要,进一步实现可视化。由于大数据本身具有复杂性和不确定性等特点,若在未分析前使用会大大削弱大数据的功能作用,只有经过分析才能实现数据的辅助作用。通过对大数据的分析和处理,以良好的形象显示给用户,促进用户高效接收,提高对数据的使用效率。目前大数据的主要显示形式包括曲线、报表等,在今后的发展过程中将实现更多种类的形式创新,满足用户的直观需求。
在“人、机、物”三元世界融合下产生的大规模数据给计算机运行和处理带来了较大挑战,同时也给行业发展带来了重大机遇。网络大数据具有一定的复杂性、不确定性、自身涌现性等特征,结合大数据自身特性进行深度分析和探究,能发挥大数据自身优势,进一步体现其价值功能。就目前网络大数据的现状来看,新时期大数据面临一定的挑战和机遇,加强大数据发展,促进网络大数据规模扩大分必要。进一步加强网络大数据研究,促进大数据高效、有序利用,有助于推进我国经济发展,进一步实现社会稳定,全面提高我国综合竞争实力,捍卫网络空间数字主权,促进国民经济核心产业发展,促进战略新兴行业崛起。网络大数据的发展与运用,对促进我国科技研发,实现信息深层次开发等都有着积极作用。在今后的网络大数据研究与应用中,要进一步发挥大数据优势,实现其自身功能和价值,使其更全面、广泛、高效地服务于各行业领域用户。
主要参考文献
[1]王元卓,贾岩涛,刘大伟,等.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015(2):456-474.
[2]黄恒君,漆威.海量半结构化数据采集、存储及分析——基于实时空气质量数据处理的实践[J].统计研究,2014(5):10-16.
[3]于兆吉,魏闯.大数据下主题数据库的研究现状与展望[J].沈阳工业大学学报:社会科学版,2014(3):263-267.
[4]嵇智源,潘巍.面向大数据的内存数据管理研究现状与展望[J].计算机工程与设计,2014(10).
[5]徐菲菲,雷景生,毕忠勤,等.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014(9).
[6]陈鹤群.大数据环境下医疗数据隐私保护面临的挑战及相关技术梳理[J].电子技术与软件工程,2014(16):51-53.
[7]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(6).
[8]韩益亮,卢万谊,武光明,等.适用于网络大数据的属性基广义签密方案[J].计算机研究与发展,2013(z2):23-29.
[9]林洪,李棕杰.大数据时代经济统计、计算科学与信息科学的整合发展[J].经济统计学:季刊,2014(2):110-117.
10.3969/j.issn.1673 - 0194.2015.12.138
TP311.13
A
1673-0194(2015)12-0186-03
2015-04-25