戴平
摘 要:根据目前大数据在各个领域使用的特点进行分析,分析大数据在发展中面临的挑战,主要针对云计算中大数据平台的构建进行分析.构建云计算大数据平台,包括大数据整个架构、分析平台软件架构、平台的网络架构、统一分析大数据平台构建方案.为云计算大数据平台的市场竞争提供参考,这里将会针对云计算建立统一大数据平台.
关键词:云计算;大数据;Segment服务器;平台构建
中图分类号:TP311.13 文献标识码:A 文章编号:1673-260X(2020)03-0019-03
随着信息化时代的到来,大数据技术发展逐渐成熟,而各种网络数据也呈现爆炸式的增长.面对竞争激烈的市场,怎样对这庞大的数据进行整个成为了各大运营商关注的问题.这些数据包括交通信息、生活讯息等,都是来自网络或是其他渠道,数据信息复杂冗长,只有建立一个集分析和储存于一体的管理平台,才能更好的利用这些数据,挖掘能对自身利益有帮助的数据,从而提高运营商的市场竞争力.大数据的出现为各个运营商提供了便利,它是在物联网、云计算、IT行业发展后又一次重大技术变革,大数据为企业的业务流程、组织、企业决策带来了很大影响.
1 云计算中大数据分析平台关键问题
1.1 数据的收集和储存
处于互联网模式下,数据集会不断增多,所以,需要不断完善数据收集和储存效率.目前,使用的数据收集技术完全满足不了互联网用户的需求,而且这对内存消耗较大.使用远程内存访问协议可以提供更加快速的数据测量视乎,同时也能降低内存消耗.对于大数据处理技术而言,可以采取多种数据收集储存方式,建立一个数据流处理系统,这也可以提高数据收集的效率,同时节省更多的成本,而且能够挖掘更具有价值的信息.
1.2 云计算架构
基于云计算、分布式、储存功能的大数据分析平台,具有很强的数据处理能力.构建云计算数据分析统一平台,主要可以分为三个部分:顶层、中间层、数据层.其中顶层包括用户接口子系统、工作流;中间层包括:数据预处理、并行数据子系统;数据中心层属于云计算中中心数据储存模块.
2 云计算的大数据平台构建
2.1 大数据分析平台设计思路
基于云计算技术的大数据平台可以为用户提供扩展性很高、性价比高的硬件支持PB级别的体系,甚至包含半结构化、海量结构化、非结构化ZB级别数据储存.而且建立统一大数据分析平台,可以更加快速的提高数据挖掘速度,挖掘数据的支架,为用户带来更大的经济价值.
构建云计算大数据平台思路包括:(1)企业管理者可以直接对数据实例进行控制.(2)在企业内部建立数据运算统一平台.(3)通过数据统一处理平台,为企业提供自身需要的访问功能.(4)加强大数据处理的科学性,提高平台灵活配置和扩展功能,从而减少企业投资风险.
建立基于云计算的大数据分析平台,主要利用Map Reduce架构、数据库储存技术为数据的快速处理提供了半结构化、结构化或是非机构化的数据分析平台.这样也能将客户以成本为中心的数据资产转变成以利润为主,通过数据来拉动企业业务.
2.2 大数据统一平台软件架构
2.2.1 软件架构
这个模块是通过互联网将Segment多节点主机、Master主机、数据库进行连接构成的.其中应用程序使用利用Master主機进行数据访问,在该系统中每个储存节点都有自己的数据库,数据库之间没有实现相互连接.而Master主机和多储存节点之间是相互连接,可以进行数据交换.
Segment服务器在网络环境下将每个节点进行连接,从而完成同一个任务,对于用户而言,它是一个服务器系统.Segment服务器是在互联网基础上进行连接的,每个节点只能对本地资源进行储存和访问,不具备信息共享的功能,从理论上分析,该系统具有一定的扩展能力.目前,大数据软件技术可以实现512个节点进行连接,提供数千个CPU.每个节点都有自己的操作系统、数据库,但是节点之间不能相互访问内存,利用互联网进行节点信息交互是关键,这个过程属于数据重新分配.关于具体的软件架构见图1.
2.2.2 使用习惯较高的方案设计
Master备主机和Master主机之间的进程是主-备方式,在GE网络条件下,Master连接多个节点中的Segment主机,每个Segment节点主机都有具有镜像两份网段数据、主网段,它能提高整个系统架构的可用性.详细见图2.
2.3 大数据统一平台网络架构
2.3.1 大数据平台架构共享方案
实现“完全共享”的大数据平台,主要受到单一服务器的限制,目前市场上能够满足数据完全共享需求的服务器是SMP,这种服务器价格比较昂贵(见图3),多数企业会因为成本问题而不去考虑这种服务器.
企业为了实现大数据平台信息共享功能,一般是建立“磁盘共享”体系,将多个服务器构成一个系统,同时将这些服务器和SAN进行连接,从而实现储存和共享数据的功能.该系统需要一个狭窄数据管道来过滤所有的I/O信息,之后在共享磁盘中进行储存.见图4.
从结构角度分析,“磁盘共享”“完全共享”体系,在性能和扩展性都存在不足,而且通用的共享磁盘体系比较脆弱且复杂,对于数以万字节的数据无法准确及时处理.
2.4 大数据统一平台方案特点
2.4.1 节点镜像-数据保护
在大数据平台中,负责储存系统元数据的是Master,而主机Segment节点是储存用户相关数据,在镜像的作用下,镜像数据可以储存在不同的Segment主机上.比如:图6中,Segment主机1版本1数据储存在Segment主机1,而它的镜像数据在Segment主机n上储存;Segment主机2的镜像数据是保存在Segment主机1等等.
通过分析这种镜像配置,总结到如果Segment主机down机了,还可以在别的Segment主机中找到相关数据,并储存在Segment主机数据库中.
2.4.2 加载外部表高速数据
这个部分具有的优势体现在:首先,数据流并行引擎技术,使用SQL直接对外部表进行操作;其次,完全并行加载,速度可以达到4.5TB/小时.
SQL&MapReduce一体环境
相比传统的RDBMS系统,大数据的编程环境是属于SQL语句和MapReduce一体的系统环境.本文分析的云计算平台是利用X86开放架构服务器PC构建的硬件系统,它具有大规模数据计算和分布式储存数据的功能,能够解决I/O存在的问题,具有很高的保障性,扩展性能比较好,各种数据资源可以按需制定.
2.5 大数据统一分析平台的优势
建立在云计算基础上的大数据平台,可以实现大幅度数据容量处理,同时能够使用细粒度数据集,完成数据紧密仓库、低延迟数据访问、集成分析等任务,为企业或是公司提供具有可操行的具体数据参考.大数据统一平台具有的优势包括:(1)可以实现多元化、细化性的低延迟数据集分析,同时将数据之间细微的区别和关系进行保留,这样可以更好指导企业业务,为优化业务绩效提供参考依据.(2)允许根据再分配、按需分配、优先级对业务相关资源进行快速计算.(3)根据关键性业务开展组织活动,提供最佳的传播方法,同时组织分析结果.(4)成本方面具有一定的优势,可以通过商品化组间结合大数据,挖掘对企业有利益的数据,从而提高企业的经济效益.
3 结语
建立在云计算基础上的数据分析平台,可以对复杂的数据结构、关联度较高的数据进行处理,同时也能及时响应用户请求.该平台可以实现对大量数据的管理和处理,实现智能、高速的数据分析,为企业业务处理提供一定的帮助,从而挖掘更具有价值的数据.
参考文献:
〔1〕王偉,凌焕然,李响.基于云计算与大数据架构的工业水处理工艺流程智能感知运营平台建设[J].江苏交通科技,2016(1):22-25.
〔2〕江凯,苏谦,白皓,等.大数据环境下高速铁路线下结构检测数据管理平台设计与分析[J].铁道标准设计,2016(3):24-28.
〔3〕陈敏,肖志强.关于云计算大数据处理技术在智能电网中分析与应用浅析[J].数字技术与应用,2016(12):250-250.
〔4〕周效章.“在线教育平台+学习中心”融合教学模式构建研究——基于沪江教学模式的分析与思考[J].现代教育技术,2017,27(10).
〔5〕丁腊春,王译,魏浩文,等.基于云计算的区域O2O孕产妇医疗保健服务平台的研究[J].中国数字医学,2016,11(12):79-80.
〔6〕李霞.大数据背景下的智慧检务之建构——以“检立方C-139”大数据辅助决策平台为例[J].渤海大学学报(哲学社会科学版),2017,39(4):45-48.
〔7〕唐卓,陈建国,李肯立,等.Spark云服务环境下面向大数据的随机森林并行机器学习方法.CN105550374A[P].2016.
〔8〕汪旭光,王尹军.构建“互联网+大数据”模式 大力提升危险化学品管控和应急救援能力(二)[J].中国消防,2017(4):53-57.