元 博天津市滨海新区规划和国土资源地理信息中心
分析云计算海量数据处理中亟待解决的问题及其海量数据处理系统框架构建
元博
天津市滨海新区规划和国土资源地理信息中心
大数据时代,数据的海量性对于数据处理技术提出了更高的要求,本文对当前云计算海量数据处理中存在的一些亟待解决的问题进行了分析,并就云计算背景下海量数据处理系统框架的构建进行了讨论。
云计算 海量数据处理 问题 系统框架
云计算是一种基于互联网的全新计算方式,可以通过将共享的信息资源和软硬件资源提供给相应的计算机和设备,使得有限的网络资源发挥出最大效益。云计算背景下,如何对海量数据进行有效处理,是相关技术人员重点讨论和探究的课题。
1.1数据存储问题
在物联网技术飞速发展的背景下,其感知层存在着大量性能、类型各不相同的传感器节点以及RFID标签等,这些设备采集到的数据在结构上也存在一定的差异,想要对数据进行可靠处理,必须立足物联网系统本身的特点,做好多态异构感知数据流的存储方案设计。
1.2数据处理问题
存在于物联网中,可以被感知到的事物状态处于不断的发展变化中,而无论采用的是RFIS还是WSN系统,实时性的数据采集工作使得数据每时每刻都在更新,不仅消耗了大量的存储空间,而且会对数据查询与处理的效率造成一定影响。对此,需要在保证数据流本身特征的基础上,强化数据更新处理速度,提高数据流处理的时效性。
1.3数据分析问题
就目前来看,多数物联网系统中采集到的原始数据,都是非结构化的,无法采用特征向量来表示,也就意味着传统的数据挖掘算法无法发挥效果。在这种情况下,为了确保数据分析挖掘的有效展开,对信息丢失问题进行解决,必须进一步对非结构化感知数据的表达方式进行研究,确保在时空非向量空间内,可以直接进行数据的分析和挖掘。
1.4数据质量问题
在物联网系统中,数据的采集可能会由于传感器故障、停电等问题出现错误或者丢失,另外,在针对海量异构感知数据流进行处理时,数据本身存在的异质性、错误性、冗余性等会有所增加,需要数据处理人员的重视,对数据丢失或者数据错误问题进行解决,保证数据的质量。
以Linux系统为依托,结合Hadoop分布式开源计算框架,搭建相应的云计算平台。传统海量数据处理中,采用的是Map Reduce计算模型,这种模型针对的同构数据,计算流程简单,不过对于非结构化感知数据而言,需要进行数据降维、程序迭代等处理,应用效果较差。对此,在该计算模型的基础上,结合分布缓存、预处理等方式,对模型的数据流处理能力进行强化,基于云计算构建起了海量数据处理系统的可靠框架。
2.1云存储方案
物联网系统中,海量感知数据存在着异构性、不确定性等特点,想要提升数据存储的效果,提升存储系统的容错率,需要从多个不同的方面,对分布式存储技术进行分析。该系统中,采用三层数据存储结构,一是运行支撑数据层,可以对感知数据流以及计算中间结果进行存储和更新;二是历史数据层,负责对历史感知数据的存储和动态更新;三是运行结果数据层,可以对最终数据处理结果进行存储和持续更新。
2.2数据处理流程
利用预处理技术和分布缓存技术,将经过预处理的历史数据中间结果采用分布缓存的方式存储在各个节点中,每一个节点都能够对数据流进行接收,经Map阶段的过滤,得到本节点需要处理的数据,同时在本地缓存上,进行后续的Reduce计算。如果发现节点的存储资源和本地计算无法满足数据实时处理的客观需求,则可以通过重新划分和移动缓存数据的方式,利用新增节点进行扩展,然后结合数据同步技术,将本地计算得到的最终结果同步到分布式存储区域。
2.3并行处理方案
物联网应用中产生的海量数据,具有更新速度快、数据维数高以及非结构化的特点,利用基于Map Reduce模型的海量异构感知数据并行规约,结合特征提取算法,可以实现数据的并行处理,为终端用户提供可靠的决策支持。以虚拟化技术为依托,可以针对海量感知数据挖掘中的计算机资源进行合理分配。在传统并行的数据挖掘算法中,是通过假设的方式,一次性存储所有的数据,其并不适合海量异构感知数据的处理。实际上,对于高纬异构海量感知数据的并行处理,需要首先将数据划分为若干个较小的数据片,针对每一个数据片,并行计算不同的候选属性集导出等价类,形成大量的对象,然后以数据并行方式,计算出候选属性集中存在的不可辨识对象或者可辨识对象的对总个数,继而明确最佳的候选属性[2]。
总而言之,在云计算背景下,海量数据的处理是非常重要的,同时也存在着一些亟待解决的问题,相关技术人员应该构建切实有效的海量数据处理系统框架,为海量数据的可靠处理奠定坚实的基础。
[1]周胜群,于治楼,宋欣,李晶.基于云计算的海量数据处理系统框架研究[J].信息技术与信息化,2014,(3):118-121.
[2]何清.物联网与数据挖掘云服务[J].智能系统学报,2012,7(3):189-194.
元博,女,1984-,籍贯:天津,研究方向:信息系统,职称:工程师,学历:本科。