任海鹏
(1.长春理工大学 计算机研究生学院,吉林 长春 130022,2.;安徽机电职业技术学院,安徽 芜湖 241000)
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据[1]技术的出现使该领域进入了一个新的发展阶段对国家、企业的治理模式、智能决策、系统组织和综合业务处理等领域都将产生变革性的影响.本文结合移动互联网下的大数据应用,介绍大数据的技术难点与解决之法,并结合实际中进行实际对比展望.
数据管理经历了飞速的发展,从原始手工记账到大数据技术出现.如其中1946-1960年数据与应用进行捆绑,彼此不分;1960-2000年数据与应用分离,数据库技术开始蓬勃发展;2001年以后互联网迅速发展,数据管理技术日益提升.
(1)150亿个设备连接到互联网
(2)全球每秒钟发送290万封电子邮件
(3)每天有2.88万小时视频上传到Youtube
(4)Facebook每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB
(5)2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB
(2)2011年 6月,IBM、McKinsey发布“BigData”相关研究报告;
(3)2011年 10月,Gartner进一步提出“BigData”;
大数据数据概念
大数据(bigdata),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合.
大数据数据解释
业务目标:在1E(成本可接受-economically)的条件下从大数据中提取数据的价值(Value)
ETCR由于手术创伤小,门诊很容易向CTS患者介绍微创及早期手术的优点,导致很多患者很容易就接受了早期治疗。这不但避免了严重的神经损伤和肌肉萎缩,也减轻了患者的痛苦,降低了经济负担,有很大的社会效益。
技术要求:满足3V(快速-Velocity、大体量-Volumes、多类别-Variety)的特征
技术方案:未提及,可能是新兴技术与传统技术的混搭
大数据关键技术有以下几个方面去探讨研究:
数据结构:结构化数据与非结构化数据
数据库数据模型:关系型数据库与非关系型数据库
数据处理特性:OLTP[2]与OLAP
数据一致性:强一致性与最终一致性
数据存储方式:行式存储与列式存储
数据库存储与处理架构:SMP与MPP
数据存储架构:传统分布式文件与新型分布式文件
数据处理架构:基于并行计算的分布式数据处理技术[3](MapReduce)
传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从行存储模式向列存储模式的转变.
图1 行式存储与列式存储算法图
在数据量急剧膨胀的背景下,数据库请求与处理的指令远高于PC、SMP架构配置,S-PC也无法满足,所以在大数据技术中,MPP[4]架构(计算分布+存储分布)架构成为主流.
SMP:对称多处理;两台以上的服务器,各主机之间共享总线结构,共享数据存储磁盘,节点数有限制,主要通过提高节点配置来提高整体处理能力,扩展能力有限,对共享磁盘的访问成为瓶颈;
表1 算法对比
MPP:大规模并行处理;多个松耦合处理单元组成,数据存储在本机磁盘上,通过增加服务器数量提高系统处理能力,理论上可以无限扩展,技术可实现上千个节点互联.对软件体系要求较高,需要通过软件层来调度和平衡各个节点的负载和并行处理过程.
MapReduce是解决海量数据处理的并行编程环境,编程流程如下:
算法优点:
(1)自动并行化:系统自动执行并行命令处理
(2)自动可靠化:系统自动处理数据节点与数据任务结果的故障检测和恢复
(3)灵活拓展化:信息节点自由进入和退出,感知节点、并进行并行处理过程
(4)性能概化:计算机信息计算任务调度至数据节点,网络开销-COST降低,性能率升高
以互联网下Hadoop[5]项目为例
Hadoop核心算子:设HDFS:是一个分布式文件系统;HBase:是一个基于HDFS、列存储数据库,提供海量数据存储能力;MapReduce:是一个编程环境,提供并行处理框架,用于对HBase和HDFS的访问;Hive:提供类似SQL的查询语言,通过MapReduce完成计算,实现对HBase的访问.
结果分析:数据入库:每天800G日志,45亿条记录,并行入库时间1小时(处理能力200-300MB/s)URL解析:4-6小时(20万条/s)网页抓取(后期稳定运行阶段):时间待定(100Mb独占带宽,400个网页/s)网页分类:4-6小时(5万条/s)URL标签匹配:12-15小时(8万条/s)汇总:6台PC Server,输入27亿G,输出8亿G,用时20分钟.
大数据领域去小型机化趋势已十分明显,“X86+本地硬盘”方案替代“小型机+盘阵”已经相对成熟,在可靠性上毫不逊色,在可扩展性、性能和价格上有绝对优势,网管系统也要积极跟进“去小型机化”趋势.从数据量大小、是否结构化数据、事务性强弱、实时性高低、数据关系是否复杂等因素考虑,确定网管各类数据的存储与处理迁移方案传统数据库与MPPRDB数据提供的SQL非常强大,不仅实现数据的增删改查,还能够对数据进行各种关联和统计,而目前大量非传统数据库没有统一标准的访问接口,对数据的关联和统计功能需要应用程序自己实现.大数据技术是业界大势所趋,其在网管领域的应用,将对合作伙伴的技术要求提到一个前所未有的新高度,网管厂商不仅要深入钻研和不断满足移动网络管理的业务需求,也要跟踪并熟练应用大数据最新技术,并确保系统的长期稳定发展.
〔1〕Nathalie Weiler.HoneypotsforDistributed Denialof ServiceAttacks.EleventhIEEE InternationalWorkshops onEnablingTechn0109ies:Infrastructure forCollaborativeEnterprises.Jun 10 一 12,2002.PP.109—114.
〔2〕Brian Scottberg,WiIIiam Yurcik,David Doss.“Internet Honeypots:ProtectionOrEntrapment.InternationalSymposiom onTechnologyandSociety.Jun6-82002,PP.387—391.
〔3〕Theuns Verwoerd,RayHunt.Intrusion detection techniques andapproaches.Computer Communications,Vol 25,2002,PP1356—1365.
〔4〕FactSheet:BigDataAcrosstheFederalGovernment[R].USA:ExecutiveOfficeofthePresident,2012.
〔5〕ObamaAdministrationUnveils “BigData” Initiative:An-nounces$200MillioninNewR&DInvestments[R.]USA:ExecutiveOfficeofthePresident,2012.