马彬彬
摘要:近年来,随着科学技术的迅猛发展,国家政府(航空航天,国防)、学术界(生物医疗工程,天文学,高能物理和光学研究)、产业界(互联网,金融,供应系统)不断产生海量数据,人们早已进入网络化的大数据(Big Data)时代。该文简要概述了大数据发展的重要意义及国内外现状,并对大数据系统和其挑战做了简略分析。
关键词:大数据 并行系统 MapReduce 大数据系统
中图分类号:TN919 文献标识码:A 文章编号:1672-3791(2016)04(a)-0142-02
1.大数据的重要意义
被称为信息时代新“石油”的大数据隐含着巨大的社会、经济和科研价值,引起了政府部门、科研界及产业界的高度关注。
据国际数据公司IDC报道,2011年产生和复制的数据超过1.8ZB,是过去5年数据增长的9倍,并将以每两年翻倍的速度增长,而这些数据约75%来自干与互联网,物联网相关的人类社会,因而,对大数据的处理和解析将直接或间接地关系到国家的信息空间安全和社会稳定甚至一个国家数据主权的竞争力。其次,大数据对各类产业结构升级及新战略的制定都有着不可忽视的影响,进入大数据时代以来,各类企业决策的制定和优化越来越依赖大数据的处理和解析;计算机行业将自身的关注点由追求计算速度转移到对大数据的处理机制,云计算也转为分析即服务(Aaas)的Cloud 2.0时代;同时大数据的处理对生物、医疗、能源、金融和教育的发展应用有着重大意义如百度每天要处理大约几十PB数据,Facebook注册用户超过10亿,每月上传照片超过10亿张,每天生成300TB以上的日志数据。因此,从海量数据中挖掘并提取出有价值的信息和知识显得尤为重要。
2.大数据国内外现状
2009年至今,美国数据库全面开放了40万政府原始数据集,2012~3月,美国发布了“大数据研发计划”涉及美国国家科学基金会(NSF)、国防部(DOD)、能源部(DOE)等6个联邦部门和机构,共同提高处理分析共享海量数据所需的核心技术,并加大数据应用技术人才的培养和供给。过去几年欧盟投资1亿多欧元将数据信息化基础设施作为Horizon 2020计划的优先领域之一,2014年欧盟委员会呼吁各成员国家间大数据领域的公私合作,依托“地平线2020”科研计划等促进大数据时代的发展。美国麻省理工大学计算科学与人工智能实验室(CSAIL)建立大数据科学技术中心(ISTC)[2]致力于医药科学发明、行业计算的发展。
国内各领域纷纷制定了大数据研究与应用的相关计划,2012年科技部“十二五”部署了关于物联网和云计算的相关专项,同年3月,国家“973计划~863计划”和国家自然科学基金等也分别制定了关于大数据的研究计划和专项。与此同时,中国计算机学会和中国通信学会成立了大数据专家委员会,开展CCF大数据学术会议、大数据分析与管理国际研讨会和大数据科学与工程国际学术研等学术活动促进大数据的应用研究,为其发展提供政策、资源和人才培养等方面强有力的支持。
3.大数据简介
不同领域对大数据的定义和解读至今未达成统一的认知,国际数据中心IDC,在2011年的报告中将大数据定义为“大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样性的数据中通过高速捕获、发现和分析技术提取数据的价值”。大数据的四大显著特征4V:容量(VOlume)、多样性(variety)、速度(velocity)和价值(value)集中体现大数据体量浩大,模态繁多,数据生成更新快速,价值大而密度低的性质。大数据系统主要分成数据生成、数据获取、数据存储和数据分析四个阶段。
大数据最早出现在20世纪70年代到80年代,商业数据从MB上升至GB的数量级,为满足数据存储和数据查询以完成商业数据分析和报告的需求,传统的关系数据库管理系统(RDBMs)应运而生。
20世纪80年代末,数字技术的盛行将数量级提升至TB,远远超过了单个计算机系统的存储和处理能力,无共享并行数据库利用节点划分极大地优化了数据处理性能,但其在扩展性、容错性和对异构环境的支持等方面仍存在欠缺。
20世纪90年代末进APB数量级的互联网时代,web1.0的迅猛发展带来了海量半结构化和无结构化的网页数据,而并行数据库系统几乎无法胜任对非结构化和TB数量级的数据处理,为了应对web数据的挑战,Google提出MapReduce编程模型,实现了系统向上和向外扩展及海量数据的处理,而MapReduce较低的连接性能无法高效处理用户创造内容(UGC)和各类传感器产生的大量混合数据结构,这要求在计算架构和大规模数据处理机制上实现范式转变,如NoSQL。
根据现有的发展趋势,各业界存储和分析数据将会达到EP的数量级,而且前还没有与该数量级别相适应的数据技术,简单复用或集合各个数据库系统的优良性能,未能从本质解决大数据的处理分析问题,可以考虑从数据产生的内在机制、大数据间的关联性以及数据背后的社会经济学机理等方面的进行研究。
4.大数据的挑战
现有的数据处理和分析技术无法满足大数据的需求,存储能力的增长赶不上数据的爆炸式增长等都是大数据所面临的技术挑战,该文作者认为以下几个问题值得引起高度重视。
4.1大数据的去冗降噪技术
大数据一般是来自不同数据源的动态数据流,加上数据预处理阶段的处理缺陷很容易产生多种形态的噪声数据和数据冗余,从而导致传输开销加大,存储空间浪费以及数据分析负荷的加重。此外,过于严格的数据清洗可能会删掉有价值的数据,降低数据分析的准确性,科学合理的冗余检测技术和数据压缩技术值得进一步研究。
4.2数据共享与隐私保护间的矛盾
大数据是跨领域跨专业的交叉信息学科,只有建立良性的大数据生态环境消除各领域数据壁垒实现数据大共享才更可能形成真正的知识和智能,呈现利益价值最大化,而在一定程度上又暴露了用户的隐私信息,由此引发的侵权和犯罪行为不容忽视。2006年Dwork提出了新的差分隐私方法,但这项技术离实际应用还很远。
4.3數据处理系统
根据CAP理论,并行数据库必然不能获得较强的扩展性和系统可用性,而MapReduce和Hadoop在应用性能方面有待提高,还需要研发出能高效处理非数据结构和半数据结构的实用数据处理与分析系统。此外,以快速、高时效为特征的流处理和优于处理复杂的数据存储和管理的批处理以及二者的结合仍未真正实现大数据的实时处理,因此,目前还需要一个能够满足实际应用中不同业务需求和应用场景通用的大数据实时处理框架。
5.结语
该文介绍了大数据的基本概念和特征以及大数据在人类社会和科研等各个领域的重要意义,并简要介绍了国内外各界对大数据的高度重视和支持,最后就目前大数据处理和分析技术的现状提出几点值得引起重视的研究方向。机遇与挑战并存,大数据研发工作任重道远!