程剑
摘要:信息時代,一个显著特征是大数据时代的到来。这一特征直接导致大批新技术与产品的不断更新换代。传统的数据处理技术往往处理不了关联度高以及结构复杂的数据,分析时间响应过长,基于云计算的大数据分析平台则能够有效避免这些缺陷。
关键词:云计算;大数据分析平台构建
中图分类号:TP311.13 文献标识码:A 文章编号:1672-9129(2020)10-0022-01
1 基于云计算的大数据分析平台概述
平台对数据的获取和记录通常包括五个阶段,即对数据的抽取、整合、表达、建模和诠释。这五点是对大数据处理最基本的过程。但由于大数据不同于以往的数据库,其中包含的数据量过于庞大,这就导致了传统的数据处理流程不足以满足对其中数据的获取和记录。而在云技术的普及和应用时代中,云平台由于其高算力与拓展性高的两大优势,用来处理与存储大信息量再合适不过。而且,云平台所拥有的另一大优势,就是这种对存储的兼容在半结构和非结构化的数据上同样很实用。但这些只满足了数据的感知、传输和存储要求,还不足以达到对数据的认知和应用的需求。想要把云计算技术应用真正发挥出数据价值,还需要提高系统分析数据的速度,即在强大云算力的支撑基础上的先进数据算法的支持。
2 大数据分析平台的网络数据安全与防护
网络数据资源在传输过程中遭遇到的安全威胁是用户时时刻刻关注的问题,因此在具体的工作和管理中,需要提高云计算网络安全技术的应用程度,通过不断创新安全模式,完善相应的防护体系,从而有效消除安全性问题,提升数据传输的安全性和稳定性。具体在应用过程中,可以借助云计算技术的优势,对数据传输的整个路径进行监控,保证传输通道环境的安全性,一旦出现问题及时进行预警,有效预防黑客的攻击,降低网络安全事故发生的概率。对此,有关网络安全管理部门应该提高重视程度,同时完善相应的监督管理制度,采用科学的管理方式,实现预期的监测目标。
3 大数据分析平台存在的重点问题分析
3.1数据的管理和储存问题。对大数据平台,首先要解决的是储存数据的问题。针对于大数据,需要建立分布式系统,针对不同的用户需求,建立多种库数据和数据管理方法。分布式文件系统可以充分利用系统固有资源,也能通过多种方式来检测数据,从而满足不同需求。针对这两种数据服务,建立数据储存结构成为了比较困难的问题。因为大数据中存在惊人的数据量,还有一些文档、图表和音视频文件,以及其他半结构化或是非结构化的数据,想要更好地处理这些数据,需要建立高效的储存模块。关于键值、图表等形式的数据,目前还没有一个硬性的规范来储存这些数据,所以,这里可以将这类信息以文档的格式进行储存,而且以数据库模式来处理这些图表或是键值,比较符合现代的社会网络化管理要求。建立数据库可以减少申请这个环节,与传统方法相比存在很大优势。
3.2数据的收集和储存效率问题。处于互联网模式下,数据集会不断增多,所以,需要不断完善数据收集和储存效率。目前使用的数据收集技术完全满足不了互联网用户的需求,而且这对内存消耗较大。使用基于云计算的大数据分析平台可以通过远程内存访问协议提供更加快速的数据运算服务,同时也能降低内存消耗。对于大数据处理技术而言,可以采取多种数据收集储存方式,建立一个数据流处理系统,这也可以提高数据收集的效率,同时节省更多的计算资源成本,而且能够更加高效的挖掘具有价值的数据信息。
4 大数据分析平台的基础架构
基于云计算的大数据分析平台通过SPARK框架来进行架构,在SPARK框架下,主要是将数据以分区方式存储,即RDD,在数据处理中,SPARK需要先对待处理数据创建一个RDD,然后对RDD施加转换和行动操作。转换的主要目的是促使RDD迭代,即利用某些函数来促使旧的RDD迭代为新的RDD,然后行动操作利用具体的算法来将RDD中的数据进行计算,进而返回计算结果。RDD默认情况下是存储在内存当中,对内存的要求非常高,当然实际上可以通过调整设置,将RDD存储在存储器当中,但运算速度会比较慢,一些经常使用的RDD若存储在存储器当中,在运算时需要将其调用至内存中,多了一个过程,导致变慢,所以可以将一些常用的RDD保存在内存中。基于SPARK的云计算平台架构,用户采取自定义程序的方式,先定义好应用程序,然后提交至SPARK集群,主节点上启动进程MASTER,子节点上则启动进程WORKER,主节点进程MASTER会在子节点的WORKER上启动一个任务管理程序DRIVER。在DRIVER中,任务的复杂程度由SPARKCONTEXT进行判别并向主节点申请处理器和内存的资源,并对EXECUTOR进行初始化,生成DAG。DAG需要传递给TASKSCHEDULER。在TASKSCHEDULER生成TASKSET,并转发TASK任务至EXECUTOR执行。
5 大数据分析平台的数据脱敏
在大数据分析平台上的数据脱敏的主要方法有:一是加密方法,采用标准的加密算法,加密后完全失去业务属性;二是基于数据失真的技术,使用随机干扰、“乱序”等方式,不可逆的打乱数据,通过这种算法可以生成“看起来很真实的假数据”;三是可逆的置换算法,兼具可逆和保证业务属性的特征,可以通过位置变换、表映射、算法映射等方式实现。脱敏后的数据,既不影响大数据的分析、挖掘,又可有效地保护数据安全。当用户使用大数据平台中的数据时,应根据用户权限和数据用途等,对调用的数据进行脱敏处理,既可保证大数据的充分使用,又可防止敏感数据泄漏。
结语:建立在云计算技术上的大数据分析平台,可以对复杂的数据结构、关联度较高的逻辑数据进行高运算处理,同时也能及时响应用户请求迅速调用并分配计算资源。云平台正在向智能超算集群发展,可以实现对海量数据的管理和应用,实现智能、高速的大数据分析,为社会各行业的发展提供有力的帮助,运用先进的云算力作为生产力推动数据创造价值,从而进一步促进人类社会的进步与发展。
参考文献:
[1]陈敏,肖志强.关于云计算大数据处理技术在智能电网中分析与应用浅析[J].数字技术与应用,2016(12):250-250.