大数据分析展示系统的数据同步设计与实现

2020-04-14 08:43
电子元器件与信息技术 2020年11期
关键词:评测数据结构服务器

(甘肃钢铁职业技术学院,甘肃 嘉峪关 735100)

0 引言

大数据、挖掘分析对于企业的发展具有不可替代的作用,尤其是互联网、高科技密集型型企业,数据为企业的经营状况、未来发展方向以及市场应用提供了强有力的保障。因此,企业的数据积累过程,需要对数据进行充分的挖掘,剔除不相干数据,保留有价值数据[1]。

在数据采集、建模中,需要对不同类型的数据结构进行数据化处理,然后加载运输到对应的数据库中,此过程简称为ETL(Extraction Transformation Loading)。ETL作为数据提炼过程核心环节,据文献表述,ETL占用时间比例是数据开发整理过程的60%~80%。因此,ETL过程的效率高低,对于数据库的完善和数据的预处理都具有积极的影响作用。本文基于大数据时代来进行数据同步设计与实现,以期为大数据、数据挖掘普及应用提供应用路径。

1 数据同步的基本要素

数据同步基本要素可包括数据同步协议、时间戳以及冲突协议。其中数据同步协议运行机制使借助日志记录来进行数据变动的保存和记录,一定程度上担负了信息交换过程中出现的错误,如信息数据表的修正和完善,时间戳主要功能是保证同步数据的连续性,主要关联对象是同各同步类型的数据库表,同步时间戳分为两种:即Last时间戳和Next时间戳。

2 系统设计需求性分析

大数据时代,我们时刻被不同类型数据“包围”,如网站活动轨迹、数学数据、力学数据、计算机数据,等等,但总的归纳起来,数据主数据基础量大且数据结构化类型繁多。以HDFS为典型数据代表分布式文件系统成为数据处理的迫切需要。此外,企业在进行数据处理过程种,常规的做法是基于不同类型的数据源结构,通过数据交互实现数据结构的转化,然后基于企业系统江数据转接至HDFS,借助MapReduce实现数据的处理分析、挖掘并输送至目标库中。综上所述,大数据的ETL系统可以达到以上标准要求[2]。

3 系统模块设计与实现

3.1 ETL体系结构设计

元数据ETL体系结构可实现对数据的模块化管理,以往的ETL结构缺乏对数据质量的高效管理,无法基于元数据对数据质量进行评测。本文设计的ETL体系结构课实现对数据质量的全过程管控和评测,具体如图1所示。

从图1中可以得出,ETL体系中主要涉及以下模块:数据模块、流程管理部分以及源数据部分等。数据模块是实现系统的基础,主要作用是数据过程控制以及数据化处理;流程管理主要实现数据流程化并根据系统以及源数据进行数据预处理;源数据部分主要作用是数据结构化阐述,根据数据源结构来进行数据层面的修正和完善并进行转移处理;转化部分根据数据定义法则来进行数据模块化转移;数据访问部分主要甄别数据并为其提供数据对接接口[3]。

3.2 同步访问模型与错误处理模型实现

为了保证系统在异常状态下,明确故障发生的原因和类型,借助Common Response类来进行框架中返回的响应信息的同步处理。Common Response类主要的响应信息为message属性、response Content属性以及代表响应状态码的status属性。

3.3 同步服务器

同步服务器是基于JAVA实现数据的可视化展示,各个系统之间相互独立有有一定的联系。作为数据同步模块的核心环节,服务器主要包含4个部分,具体如图2所示。

图中显示RSA连接器模块和数据同步是交互作用,因此RSA连接器模块功能作用在于数据加密、数据同步延申,数据同步模块是基于Synclets系统来实现逻辑的转变,主要的功能是对数据进行流程化管理。

4 系统数据检测测试

4.1 测试环境

本文搭建的测试环境基于Windows8专业版,同步服务器软件是Funambol,为研究方便本文选取主要功能进行测试检测。

4.2 数据同步的性能测试

为保证各个系统测试可靠性和准确性,以Java来实现数据同步终端的测试和实现。数据同步的性能测试主要是针对数据交互过程中所消耗的时间来进行评测,主要包括以下参量,如时间历程、数据处理过程时效等。本文所搭建的网络环境采用局域网,通过同步服务软硬端实现数据的高效传输[4]。

本文所测试的实例基于PC终端,利用RSA算法在不同的环境下来对数据同步进行过程监测。测试结果如图3所示。从图3可以看出,通过对300个评测对象进行数据同步耗费时间对比发展,所耗费的时间均在7s以下,因此采用RSA算法对数据项加密的数据同步过程符合规则标准要求,此外由于于系统同步服务器在配置高于PC客户端,耗时会少于解密操作发生在PC客户端的情况,由于同步发送300个评测对象的时间少于同步接受、更新以及修正;因此基于非数据迭代过程,此程序并不直接参与至数据同步中,因此两者的数据同步机制大体一致[5-6]。

5 结论

本文基于大数据时代来进行数据同步设计与实现,首先基于数据质量需求分析进行了 ETL体系结构设计,在模块化设计的基础上实现了同步访问模型与错误处理模型实现、同步服务器匹配以及数据库设计。最后选择合适的测试实例对系统进行测试分析、功能分析,结果显示目前所搭建的系统支持处理非数据结构的不足,拓展了数据处理的广度,为大数据、数据挖掘普及应用提供应用路径。

猜你喜欢
评测数据结构服务器
热力站设备评测分析
数据结构线上线下混合教学模式探讨
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
重典型应用,明结构关系
2018年全球服务器市场将保持温和增长
MI评测产品排行榜
用独立服务器的站长注意了
定位中高端 惠普8路服务器重装上阵
数据结构与算法课程设计教学模式的探讨