熊俊
摘要:随着计算机网络技术不断升级,以大数据、云计算为主要代表的现代信息技术得以广泛应用。基于云计算的大数据分析体系已经成为解决大数据技术应用和运行方面问题的主要支撑。云计算环境下大数据平台建设需要考虑各类要素的集成,并要对数据进行不断整合和高效处理,才能切实发挥云计算应有的性能。本文基于云计算对大数据分析流程优化路径进行了深入研究,提出了具体的对策,以供参考。
关键词:云计算;大数据;分析;流程优化;路径;技术;发展
中圖分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)08-0181-02
近年来随着科技时代到来,大数据、云计算已成为全球关注的热点,云计算正处于高速发展的信息时代,数据也成为重要的资源备受关注。在大数据分析流程中,逐渐引入了云计算技术对其进行不断优化升级,从而进一步提升数据分析效率和质量,减少海量数据处理时间,提升系统响应能力。加强基于云计算的发数据分析流程优化路径探析,具有深远的现实意义。
1 大数据基本内涵及基本处理流程分析
大数据是指通过常规的手段和方法难以对海量数据进行处理,只能依靠高端信息处理技术和方法对海量的数据在有限的时间内进行感知、获取、加工、管理、处理和共享应用的数据体系。大数据通常具有四个显著的特点,分别为体量大、模态多样、生成快速以及价值大密切低。大数据技术是对传统数据处理技术和方法的进一步升级,随着云计算理念的提出,以及相关体系内部系列技术的出现,越来越多的云计算技术平台产生,为大数据处理提供了更好的技术服务平台,对大数据处理流程优化也带来了很大的便利。
大数据整体处理流程通常可以分成四个部分,分别为数据采集、数据处理和集成、数据分析、数据解释。第一步是进行数据采集,对数据各个端口来源的信息进行全面采集,并实现预处理,从而为后续数据计算和分析奠定基础,提供可靠统一的数据格式。随后按照既定的数据算法对数据进行计算分析,最后利用可视化手段将分析完成的数据结果传递至用户端。
在数据采集阶段,随着计算机互联网技术不断发展和广泛应用,数据来源也日益庞大,生产数据的环节也在不断增多,从而大大提高了数据的产量,数据之间的关联度等也越来越复杂,对数据采集提出了更高的速度和精度要求。所以需要对传统的数据整合处理技术进行不断优化升级,才能够在最短的时间内将海量复杂的数据通过一定的技术和方法实现快速简化处理,提高数据整合、处理和利用分享水平,更好地为用户服务。如果单纯地依靠传统的大数据处理技术,随着信息量不断增大,将难以应对未来高产量数据信息变化带来的挑战。所以需要对数据处理流程进行全面整合,并探索更加有效的优化处理技术,才能更好地提升数据资源的利用价值和服务效能。
在大数据处理基本流程体系中,根据四个不同的运行阶段,有不同的要求。在数据处理与集成阶段,主要是对前一阶段采集到的各类数据通过格式化、去噪等方式进行预处理,并占华为统一的数据结构。在这个过程中由于数据类型比较复杂,还有很多的无效数据需要去除,转化为统一的数据格式才能更好地加以利用,所以通常需要设计过滤器等方式来将无效数据去除,转化为统一格式的有效数据。在数据分析阶段,主要是对完成采集和整理的数据进行进一步分析,根据数据应用需求以及价值功能方向,对原始采集的数据进行进一步的处理,通常应用数据挖掘工具或者数据仓库工具等进行集中信息处理和分析,目前在数据分析方面,有很多的大数据分析服务商提供了专业的服务软件和支撑产品,从而有助于更好地对数据进行全面深度分析。数据解释主要是对数据分析结果进行进一步展现的过程。随着数据信息量不断增大,传统的数据显示或展现模式已经不能满足数据分析结果输出的要求,数据可视化技术的出现和应用为数据解释和直观展现提供了重要的技术支持,通过应用可视化技术,可以对数据分析结果直观形象地向用户展现,从而提高数据深度利用价值。
2 云计算与大数据分析关系研究
云计算是为了更好地为互联网提供服务,而设置的一种增加、使用以及交付模式,借助互联网可以提供动态且易扩展的虚拟化资源,是属于按使用量付费的一种模式。这种模式下用户可以根据自己的需求进行便捷访问,并获取相应的资源,从而更好地加以利用。数据分析作为大数据处理流程中最重要的部分,体现了数据的价值,基于大数据的数据分析是指对获取的海量的数据通过一定的技术和方法来进行快速整合和深度处理的过程。作为大数据分析的重要支撑平台,云计算技术可以为大数据分析提供更加灵活和迅速的部署方案,从而提高大数据分析结果的精准度,同时云计算技术为大数据分析提供了扩展性更强和更具经济性的存储于计算资源,为深度应用奠定了技术。总体上看,大数据技术属于云计算计算的延伸和拓展,大数据技术从数据采集获取到储存处理与应用,整个过程中需要应用大量的技术,未来随着数据变化速度越来越快,信息量日益庞杂,大数据分析走向云计算还需要依靠不断提高数据通信宽带,加强云资源建设,才能确保数据整合体系功能不断强大,满足社会发展要求。基于云计算的大数据分析,具有独特的优势。一方面可以借助云计算虚拟化环境,结合用户的业务需求,对各类资源进行深度优化配置,从而提升大数据的可扩展性。另一方面数据分析力度进一步细化,能够进一步提升数据本身的挖掘价值,此外也有助于降低数据分析成本,全面提升硬软件设施利用率。这些都是云计算与大数据融合的优势,从而为服务用户提供性价比更好的数据分析服务。
3 基于云计算的大数据分析流程优化路径分析
基于云计算的大数据分析流程优化路径可以从三个方面进行具体分析,分别为存储与访问技术、并行处理技术、组织与管理技术,具体分析如下:
3.1 基于云计算的大数据分析流程中存储与访问技术优化路径研究
在大数据分析流程中存储与访问技术优化程序可以分成实现数据流与控制流分离以及不缓存数据优化两个方面。针对数据流与控制流分离方面,在进行存储与访问技术优化处理过程中,主要是借助云计算技术来构建一种GFS文件系统,从而分流数据流和控制流。在整个文件系统节点中涉及很多的集群,每一个集群都配置了主控服务器,主控服务器可以对系统元数据进行有效处理,客户端作为以库文件形式提供应用程序的访问接口进行处理,GFS各个几点数据会借助数据块服务器,从而将数据通过文件的形式进行储存,进行访问。数据块服务器配置数量需要根据集群系统的规模来确定。在整个GFS文件体系中,分块存储的数据大小控制在64MB,并建立与数据库相对应的索引号,这样便于及时进行查找,并进行信息定位有效传送,将最准确的信息按照既定的服务模块传输至客户端,用户可以根据自己的需求进行信息读取等,这样就可以将主控服务器与客户端的数据进行远程有效传输,进一步降低了主控服务器承载负荷,并可以实现多个数据块服务器的同步访问。针对不换存数据优化方面,传统的模式下,用户在访问文件过程中会受到磁盘本身性能约束,从而产生访问过程中大量的缓存数据,不能及时进行有效疏导,将对访问速度等产生很大的影响。通过借助云计算技术,构建不缓存数据操作系统的GFS文件体系,将需要操作的文件存储到系统内存中,如果文件块被用户首次访问,系统会直接进行此盘文件读取,如果再次访问同一路径,可以进行直接缓存读取,进一步提升了系统操作性能和写操作水平,这也是大数据分析流程优化的直接反映与体现。
3.2 基于云计算的大数据分析流程中并行处理技术的优化路径研究
并行处理技术还可以分成逻辑分析技术与资源配置优化两个方面。整个大数据分析过程中,通常需要根据数据的逻辑关系进行要素分解,进而通过对比的方式来总结规律,并对主次关系进行研究,进一步推理,寻找内在联系和运行规律。想要不断提升逻辑分析水平,需要对问题从分解处理到整合应用方面进行流程整合与优化。可以借助云计算技术构建数据处理模型,对各类数据进行并行处理,对任务按照既定的程序进行分解,划分为不同的数据块单元,随后进行分支并行处理,集约化计算,这样将数据结果自动生成,完整地体现。与计算技术服务体系在大数据问题逻辑分析方面提供强大的技术保障和服务支持。在数据资源优化配置方面,由于数据系统比较庞杂,需要对海量信息进行集中处理和优化,才能提高资源最大化利用水平,提升使用价值。云计算技术通过为系统进行默认或用户自行定制的方式对海量数据进行若干微阶段优化处理,借助最优执行性能要求实现数据分解任务的同步数据,并对每一个微阶段数据分析人物执行情况进行动态监督和测量,找出各个阶段处理过程中存在的影响因素,逐一突破,提高资源优化配置整合效率。
3.3 基于云计算的大数据分析流程中组织与管理技术优化路径研究
在组织与管理技术优化方面,云计算的优势主要体现在以下方面:一方面云计算可以通过对数据模型组织结构进行优化,设计一种基于云计算技术的以Bigtable为载体的分布式多维映射表,这样可以对数据模型中的行、列关键字和时间戳实现索引,从而提高数据优化处理效果。通常情况下Bigtable的最大行关键字为64KB的字符串,列设计中引入列族方式减少多样列关键字的干涉,从而有效提升集中處理效率。在引入时间戳改进体系中,借助Bigtable在数据模型中引入非顺序处理的时间戳,从而提高了数据项间的价值关联度,进一步提升了数据分类整合和处理效率。另一方面借助云计算技术,通过设计GFS文件系统,对海量数据进行存储,通过引入分布式调度器与锁服务,从而实现对服务器信息和元数据的有效管理和队列任务分配与调度,进而整体上提高主服务器监控水平,不断优化子表服务器存储操作系统。借助Bigtable,将有效提升分布式存储系统的扩展性,实现对各个端口信息负载的均衡处理。并且还可以通过压缩SSTable文件的方式提高资源最优化配置与储存水平,提升系统整体运行性能和效率。
总之,基于云计算技术对大数据分析流程进行优化,需要立足实际,结合大数据分析整体处理程序的具体要求,总结基本的运行规律,并在数据存储与访问、并行处理、组织与管理方面进行不断探索创新,结合用户需求和未来发展需要,将海量的信息通过有效的系统来进行快速整合处理,才能有助于不断提升大数据信息储存与利用价值,更好地发挥数据资源应有的功能。当然在具体优化设计过程中还需要考虑运行环境、现实需要以及资金、技术等各方面的因素,加强对操作人员的培训,不断学习和引进新技术、新方法,才能更好地实现理念和技术的有效融合,全面提升云计算与大数据技术的有效融合水平,提高数据深度高效处理与利用价值。
参考文献:
[1] 陈清金,张岩,陈存香.云计算环境下的大数据分析[J].邮电设计技术,2015(5).
[2] 赵明哲.基于云计算的大数据分析流程的优化路径[J].中国新通信,2018(11).
[3] 宋杰,郭朝鹏,王智,等.Jean-MarcPIERSON.大数据分析的分布式MOLAP技术[J].软件学报,2014(4).
[4] 孙仕亮,陈俊宇.大数据分析的硬件与系统支持综述[J].小型微型计算机系统,2017(1).
[5] 王伟钧.基于云计算的大数据分析流程的优化路径[J].电子技术与软件工程,2017(11).
[6] 成静静,喻朝新.基于云计算的大数据统一分析平台研究与设计[J].广东通信技术,2013(1).
【通联编辑:唐一东】