李双琴 谢锐 曹文琛 邹妍 刘凤屿
摘 要: 现有大数据流整合系统采用统一随机采样策略,当整合环境存在干扰时会出现严重的数据丢失现象,为解决上述问题,引入多维分层采样策略,分别从硬件和软件两个方面实现对时间维度型大数据流整合系统的优化设计。在硬件方面主要改装微处理器、存储器以及数据分类器等元件,提高硬件系统的运行稳定性。在此基础上,搭建多时间维度数据分层模型,并通过大数据流业务系统数据实现数据探查,并以多维分层的聚类算法为底层逻辑,检测数据质量。最终将质量检测合格的数据流整合在一起,从而实现系统的数据流整合功能。通过系统测试得出如下结论:在复杂环境下,基于多维分层采样的时间维度型大数据流整合系统的丢失数据量为1.25 MB,与传统整合系统相比减少了15 MB。
关键词: 数据流整合; 多维分层采样; 数据采集; 数据质量检测; 模型搭建; 系统设计
中图分类号: TN02?34 文献标识码: A 文章编号: 1004?373X(2020)05?0133?04
Design of time dimension big data flow integration system
based on multi?dimensional hierarchical sampling
LI Shuangqin1, 2, XIE Rui2, CAO Wenchen2, ZOU Yan2, LIU Fengyu3
(1. China University of Petroleum, Beijing 102249, China;
2. Technical Centre of Southwest Pipeline Branch, PetroChina Company Limited, Chengdu 610037, China;
3. Beijing Raysdata Co., Ltd., Beijing 100102, China)
Abstract: The unified random sampling strategy is adopted in the existing big data flow integration system, which will cause serious data loss when interference occurs to the integration environment. Therefore, a multi?dimensional hierarchical sampling strategy is introduced to achieve the optimal design of the time dimension big data flow integration system in two aspects of hardware and software. In terms of hardware, components such as the microprocessor, the memory and the data classifier are modified to improve the running stability of the hardware system. On this basis, the data hierarchical model with multiple time dimensions is built, the data exploration is realized by business system data of big data flow, and the multi?dimensional hierarchical clustering algorithm is used as the underlying logic to detect data quality. Finally, the data flow with qualified quality is integrated together to realize the function of system data flow integration. It is concluded from the system test that, in complex environment, the data loss of the time dimension big data flow integration system based on multi?dimensional hierarchical sampling is 1.25 MB, which is 15 MB less than that of the traditional integration system.
Keywords: data flow integration; multi?dimensional hierarchical sampling; data acquisition; data quality detection; modeling; system design
0 引 言
大数据是现阶段互联网网络中的重要数据形式之一,主要指的是需要新处理模式才能具有更强决策力、洞察力和流程优化能力的海量、高增长率以及多样化的信息资产。通过网络中大数据信息的应用提升了互联网的运行效率,从而优化信息调用的效率。网络大数据主要是由多个数据流组成的,数据流的定义为只能以事先规定好的顺序被读取的数据序列,按照数据流的传输类型可以将其分为输入流、输出流、缓冲区、时间维度型等多个类型[1]。其中,时间维度型的数据流是以时间作为描述、表达变量的度量尺度,可以将互联网中的数据流用时间来表示,同时,也可以通过时间顺序排列对应的数据流。为了实现对大数据的有效管理和高效应用,需要以不同的分类条件对网络中的大数据流进行整合处理。数据整合主要是将不同数据源或数据类型的数据流收集、整理、清洗、转换后加载到一个新的数据源中,为网络用户提供统一数据视图的数据集成方式。数据整合具有扩展性强、管控能力强的特点,通过相关整合工具的处理,可以将两个甚至更多的应用数据流合并在一起,创建出具有更多功能和数据量的结果[2]。为了保证数据整合操作的实现功能,设计对应的时间维度型大数据流整合系统。
针对时间维度型大数据流整合系统的设计与研究,国内外具有不同的见解,也产生了不同的研究成果。然而通过对应用反馈的分析发现传统的大数据流整合系统在性能和功能方面均存在一定的问题,主要是在复杂信号环境下数据的整合结果容错率会大大降低,得出的整合结果会丢失一部分数据。为了解决传统大数据流整合系统中存在的问题,在现有系统的基础上引入多维分层采样技术[3]。多维分层采样技术是将不同类型的数据流进行分层处理,为保证分层的完整性,选择多维分层方式,使用这种采样技术可以保证大数据流采集结果的完整性和准确性。通过多维分层采样技术的引用,提高时间维度型大数据流整合系统数据整合结果的完整性,同時,提升该系统的抗干扰性,从而解决传统数据整合系统中存在的问题,实现此次系统设计的目的。
1 时间维度型大数据流整合硬件系统设计
利用多维分层采样技术,分别从硬件和软件两个角度实现时间维度型大数据流整合系统的优化设计。由于传统的大数据流整合硬件系统中使用的硬件设备是引发系统不稳定的因素之一,因此,首先需要改装使用的硬件设备,硬件系统的改装结构如图1所示。
改装大数据流整合硬件系统中的微处理器、存储器以及数据分类器等元件,实现硬件系统的优化设计。
1.1 微处理器
微处理器是数据流整合系统中软件功能实现的主要环境,可以通过微处理器的逻辑运算实现数据的处理与管理功能[4]。微处理器的硬件结构为一片或多片大规模集成电路组成的中央处理器,在整合系统工作的过程中可以完成数据采集、处理和执行命令等指令,微处理器的处理结果可以与外界存储器以及逻辑部件进行数据交换与传输,是系统运行的主要运算控制部分。
1.2 存储器
存储器是大数据流整合硬件系统中最为重要的硬件设备,主要用来存储初始数据流信息、逻辑运算产生的数据以及数据流的整合结果信息。传统的时间维度型大数据流整合系统选用的存储器为服务器内置的存储器,分为ROM和RAM,这种内置存储器受到空间的限制无法存储大数据量的信息,因此当传统存储器出现溢出效应时,会自动删除历史数据信息,或者通过人为接入外部存储器[5]。由于系统的整合功能处于实时运行的状态,因此在外部存储器接入的过程中就会出现数据丢失的情况,为了解决上述问题改装内置存储器。存储器的扩充分为两个方面:一个为存储空间的扩大;另一个为存储程序的备份。在传统内嵌存储器的基础上连接一个SD闪存卡和一个微硬盘,选择的两个存储器实体占地空间小,易于安装在内置存储器上。两个设备的存储空间分别为2 GB和20 TB,其中,微硬盘可以实现硬件存储空间的扩大,而SD闪存卡具有掉电后数据不丢失的特点,因此可以作为备份存储器。
1.3 数据分类器
由于优化设计的大数据流整合系统引入了多维分层采样技术,需要在硬件系统中为其配置相应的实现环境,即为数据分类器[6]。按照多维分层采样技术的应用要求,改装传统的数据分类器,使用时间维度作为数据分类的标准。
2 时间维度型大数据流整合软件系统设计
在硬件系统设计并安装完成的情况下,实现时间维度型大数据流整合软件系统的设计。软件系统的设计主要分为三个方面,分别为系统的UI界面设计、数据库设计以及功能模块的设计。其中,UI界面的设计目的是在满足操作逻辑和界面美观度的同时,实现人机交互功能,用户使用已注册的账号和密码登录系统中,通过发送相关申请的方式实现对时间维度型大数据流的操作。
2.1 创建系统数据库
系统数据库的创建环境为SQL,在该环境下创建四个数据包分别命名为backup,initial,logic和integration,分别用来存储备份数据、初始数据、逻辑数据、整合数据结果[7]。其中,backup数据包的更新速度需要人为设置,一般情况下设置为5 min,而另外的三个数据包中的数据按照系统实际的运行情况实时传输与存储。最终将系统数据库以图2中显示的方式存储到硬件系统的存储器中。
2.2 数据流整合功能设计
在系统数据库的支持下,分别通过时间维度数据分层、多维分层数据采样、数据流质量检测与处理以及数据流的聚类整合四个步骤,实现时间维度型大数据流的整合功能。
2.2.1 搭建多时间维度数据分层模型
将多时间维度数据分层模型搭建在数据分类器中,从软件的角度执行对初始数据流的分类处理。搭建的数据分层模型如图3所示。
将初始数据从图3中的数据层输入到层次模型当中,以时间维度为分类原则,通过模型层次的逐层筛选与分类处理,从而得出数据流的层次划分结果[8]。总的来讲,可以将整个划分过程分为类判别和分类处理两个阶段,通过多时间维度数据分层模型的处理,实现初始数据流的转换,得出用时间维度来表示的数据流。
2.2.2 采集与探查数据流样本
分别从一维、二维和三维三个方面实现对初始数据流样本的探查与采集,在开始采集之前需要对其进行预处理[9]。预处理主要是去除初始数据流中的噪声部分,尽量反映数据源的特征,避免采集到的数据与现实样本存在差异。接着按照图4中的采样方式获得数据流样本。
为了保证数据流处理过程中的稳定性,避免出现数据丢包的情况,将数据信号转换为频率信号。假设采样时间型大数据流的结果用[s0,s1,s2,…,sn]来表示,当新的整合数据流到达时得到一个新的数据流序列,表示为[u0,u1,u2,…,un],则数据流序列[u]的转换可以通过式(1)计算:
[un=1Ni=1N-1N?sn-s0-uNe2πhN] (1)
式中:[N]为数据流中的总数据量;[h]为整合数据流转换的向量值。采样数据流经过转换变换后保留了信号数据中的主要能量。
2.2.3 检测大数据流质量
以多维分层的聚类算法为底层逻辑检测大数据流的质量,数据质量检查的内容包括数字精度、属性精度、完整性与正确性、逻辑一致性、平面精度、数据格式以及数据分层完整性等[10]。按照图5中的检测流程得出关于大数据流质量的检测结果。
参考大数据流质量检测结果,首先判断采样的时间型数据流是否符合整合标准,设置质量检测的门限值为[η0]和[η],其中[η0]为最低门限值,[η]为高阶门限值[11]。若检测结果小于[η0],则放弃对该数据流的处理,重新采样;若检测结果的取值在[η0]和[η]之间,證明采样数据流中存在未清除的噪声点或孤立点,需要进行进一步去除处理;若检测结果大于[η],证明数据流质量合格可以直接进入聚类整合阶段。
2.2.4 聚类整合时间维度型大数据流
综合质量合格的时间型大数据流,得出聚类整合结果,具体的整合集成过程如图6所示。
按照图6中的实现过程,首先确定整合的聚类点,一般情况下选择第一个输入的数据流为起始点。接着计算最优整合数量,计算公式为:
[C=arg maxk∈k1,k2,…,knavgBIPk] (2)
式中:[C]表示平均BIP值最大时对应的聚类数;BIP为反映单个数据流对象聚类有效性的指标;[k]为输入的时间型大数据流的数量;[avgBIPk]为数据流被整合为[k]类时的平均BIP值[12]。设数据流整合的条件为:
[k=β?C] (3)
式中[β]为整合系统,其取值与分类层次的数量有关。那么当参数[k]满足式(3)中的条件时,即得到了时间型大数据流的最佳整合数。
3 系统测试
将设计完成的基于多维分层采样的时间维度型大数据流整合系统调整到主界面状态,如图7所示。
当系统可以输出图7中的状态时,即可证明系统处于正常运行状态。为了验证该系统的性能,设置传统的大数据流整合系统作为系统测试实验中的对比系统。连接系统硬件设备,并配置相应的网络环境,准备相同的大数据流,为了避免系统运行的偶然性,将大数据流分为多个组别,每个组别的平均整合数据量为120 MB。在正常环境下将数据流传输到系统当中,统计输出的整合数据结果,记为[Q1]和[Q2]。接着在正常测试环境下,加入噪声干扰因素,按照上述步骤重复操作,统计结果记为[Q3]和[Q4]。将得出的数据流整合结果输入到数据分析软件中,对比在不同测试环境下,整合前后的数据量变化情况,对比结果如图8所示。
从图8中的分析结果来看,经过时间维度型大数据流整合系统的处理,数量均存在一定程度上的减少,并且[Q1]和[Q2]的数据量均为110 MB。但[Q3]和[Q4]的统计差距较大,通过计算,[Q3]的平均数据量为93.45 MB,丢失16.55 MB数据流;而[Q4]的平均数据量为108.75 MB,丢失1.25 MB数据流,相比之下,数据丢失量降低了15 MB。由此可以得出结论:设计的基于多维分层采样的时间维度型大数据流整合系统在复杂的运行环境下,依旧可以准确实现数据流的整合功能,通过系统测试证明优化数据流整合系统有效地解决了传统数据流整合系统中存在的问题。
4 结 语
通过基于多维分层采样的时间维度型大数据流整合系统的优化,提高了系统运行的稳定性,将其应用到实际的工作当中可提升数据调用的效率,同时也可以作为数据基础用来检测网络异常。然而经过系统测试结果可以看出,该系统依旧存在一定程度上的丢包情况,因此在未来的研究工作中需要针对这一方面进行进一步的优化。
参考文献
[1] 史英杰,杜方,尤亚东.MSOLA:基于多维分层采样的大数据在线聚集技术[J].计算机应用研究,2018,35(2):375?380.
[2] 王飞,颜波,禹晋云.基于大数据的电力多维度分析系统设计与实现[J].电力信息与通信技术,2017,40(4):34?39.
[3] 张治,戚业国.基于大数据的多源多维综合素质评价模型的构建[J].中国电化教育,2017,37(9):69?77.
[4] 翁彬月,黄今慧.基于网络大数据分析的可视化技术[J].信息与电脑(理论版),2017,11(23):158?159.
[5] 张凯.基于Eucalyptus的大数据多维安全平台架构设计[J].科技传播,2018,12(16):113?114.
[6] 丁继红,刘华中.大数据环境下基于多维关联分析的学习资源精准推荐[J].电化教育研究,2018,22(2):53?59.
[7] 张莉娜,吴伟,程旭明,等.基于电力大数据的多维聚合技术研究[J].数字技术与应用,2017,16(8):40?41.
[8] 雷军,叶航军,武泽胜,等.基于开源生态系统的大数据平台研究[J].计算机研究与发展,2017,54(1):80?93.
[9] 曾康铭,吴杏.多层概率决策的网络大数据协作融合算法[J].电子技术应用,2018,44(6):139?143.
[10] 单文军,罗霄,李文华.一种基于FPGA的PCM检查器的实现[J].电子设计工程,2018,26(9):185?188.
[11] 眭冠男.多维分析技术在大数据环境下的发展[J].电脑知识与技术:学术交流,2018,14(4):4?5.
[12] 刘先花.基于群体协同智能聚类的大数据存储系统设计[J].现代电子技术,2017,40(23):130?133.