基于数字标签的电子档案序列大数据 并行分类系统设计

2020-07-23 08:54詹青
现代电子技术 2020年14期
关键词:系统设计大数据

詹青

摘  要: 为协助用户在庞大网络数据中安全、快速寻找所需电子档案序列大数据,设计基于数字标签的电子档案序列大数据并行分类系统。利用云计算理念设计由大数据采集器、处理器和分类模块构成的并行分类系统总体架构,通过动态易扩展方式分布式配置电子档案序列大数据,增强系统分类稳定性。设计由芯片和单片机组成的大数据采集器,以及处理器型号为IXP2400的大数据处理器,完成电子档案序列大数据采集及处理。大数据分类模块采用基于数字标签加密分类方法,设计多属性数字标签防止电子档案序列大数据被窃取。基于此,采用加密分类方法将电子档案序列大数据分成若干大数据块,实现电子档案序列大数据加密分类。测试结果表明,所提系统正确分类电子档案序列大数据的同时分类稳定性好,准确率及召回率分别高达98.63%,99.85%。

关键词: 并行分类; 系统设计; 电子档案序列; 大数据; 数字标签; 加密分类

中图分类号: TN919?34; TP311                  文献标识码: A                       文章编号: 1004?373X(2020)14?0152?04

Design of digital?label based parallel classification system for electronic

archive sequence big data

ZHAN Qing

(College of Big Data, Qingdao Huanghai University, Qingdao 266427, China)

Abstract: A digital?label based parallel classification system for the big data of the electronic archive sequence is designed to help users find the big data of the needed electronic archives sequence safely and quickly in the huge network data. The overall architecture of parallel classification system composed of big data collectors, processors and classification modules is designed by means of the idea of cloud computing. The big data of electronic archive sequence is performed for the distributed configuration in a dynamic and scalable way to enhance the classification stability of the system. The big data collector consisted of the chip and the single chip computer, and the big data processor IXP2400 are designed to complete the acquisition and processing of big data of the electronic file sequence. In the big data classification module, the multi?attribute digital label is designed based on the encryption and classification method based on digital labels to prevent big data of the electronic archive sequence from being stolen. Based on this, the big data of electronic archives sequence is divided into several big data blocks by means of the encryption and classification method, so as to realize the encryption and classification of big data of electronic archives sequence. The testing results show that the proposed system can classify the big data of electronic archive sequence correctly and has good classification stability at the same time. The accuracy and recall rate are 98.63% and 99.85%, respectively.

Keywords: parallel classification; system design; electronic archive sequence; big data; digital label; encryption and classification

0  引  言

大数据飞速发展和广泛应用,使电子数据无处不在。电子数据已经逐步代替纸质数据充斥着人们的生活和工作,导致电子数据爆炸式增长。大数据时代下电子档案数据也步入数字化建设阶段,档案管理方式由传统纸质档案管理转向电子化管理[1]。但电子档案序列大数据网络化给人们带来方便的同时,也会产生电子档案序列大数据安全问题,以及大数据大幅度增加带来用户使用信息难度大的问题[2]。

丁家满等人提出Spark环境下采用大数据处理方式将完成的电子档案序列信息可视化[3];陈海蕊研究电子档案序列大数据可视化组织分析,提升电子档案序列大数据利用率和服务质量等功能[4]。

為实现电子档案序列大数据安全、快速分类,在前人研究理论基础上,设计基于数字标签的电子档案序列大数据并行分类系统,采用多属性数字标签确保涉密电子档案序列大数据的安全性,避免电子档案序列大数据被复制、修改以及恶意传播,并在其安全性得以保障的基础上实现快速、精准分类。

1  并行系统总体设计方案

基于云计算理念设计电子档案序列大数据并行分类系统总体架构[5]。云计算是基于SOA组件模型架构,依照用户要求,通过动态易扩展方式分布式配置电子档案序列大数据,提升云计算兼容性,促进电子档案序列大数据并行分类系统分类稳定性。系统总体架构如图1所示。

1.1  大数据采集器设计

通过设计大数据采集器实现电子档案序列大数据分类系统大数据采集。大数据采集器硬件装置安装于计算机网络接口处,将采集到的电子档案序列大数据通过网络接口传输到计算机[6]。数据采集器硬件设施如图2所示。

大数据采集器主要由芯片及单片机构成,大数据采集器采集到的电子档案序列大数据经由云计算接口传输到大数据处理器[7]。大数据采集器电源模块将单片机产生的5 V电压通过REGIN传输到电压调节器,为单片机上方工作供应大小为3 V的电压;同时通过引脚输送3 V电压至其余同样需要3 V电压器件中使用,单片机传输电压完成后与其余单片机交换信息[8]。电路整改网络信号,通过P25引脚将网络信号输送至A/D转化器,并转化网络信号为数据[9],完成电子档案序列大数据采集工作。

1.2  大数据处理器设计

大数据处理器处理对象为大数据采集器所采集电子档案序列大数据。大数据处理器选取型号为IXP2400处理器,通过数字线程和微引擎数字信号处理所采集大数据,该方法具备共享效率快的特点[10]。大数据处理器处理大数据过程及模式均可以通过编程实现。

1.3  分类方法

系统中的大数据分类模块采用基于多属性数字标签的电子档案序列大数据加密分类方法,完成电子档案序列大数据分类。

1.3.1  多属性数字标签设计

多属性数字标签是一种数据段,可以与电子档案序列大数据逻辑相关,结构相融。通过浏览多属性数字标签属性资料,根据行为属性中用户权限资料,判断用户权限操作,完成电子档案数据读取。多属性数字标签应用流程如下:

1) 用户想访问涉密电子档案时,需先向服务器端发送访问请求,访问请求接收后,审核用户身份资料,判别多属性数字标签携带情况以及多属性数字标签是否完整。审核通过,向用户发送电子档案位置资料;审核未通过,请求失败。

2) 用户身份资料审核通过并成功接收电子档案位置资料后,需要发送该目标电子档案查询请求,等待管理者查询该用户目标电子档案操作权限,并将查询请求结果返回。

3) 用户本次操作完成后,多属性数字标签中该电子档案可查询次数减少一次。

1.3.2  电子档案序列大数据加密分类方法

采用基于多属性数字标签的电子档案序列大数据加密分类方法,在保证电子档案序列大数据安全、可靠、降低涉密电子档案非法窃取概率基础上,完成电子档案序列大数据并行分类。电子档案序列大数据加密分类原理如图3所示。

1) 明确待分类电子档案序列大数据,设定[q]为电子档案序列大数据分类完成的大数据块数量,[p]为电子档案序列大数据操作者数量,则密钥数量为[Cp-1q],每个数据块至少具备[Cp-1q]个密钥。将[Cp-1q]作为变量,采用密钥生成算法及密钥分解算法分别逐步算出密钥数组K和各个分类大数据块所携带密钥数组,计算各组组合值。

2) 依据等长分类原则分类加密电子档案序列数据,保证分类后有[q]个大数据块。设定block?length、[bi(1,2,…,q)]分别为各个大数据块字节长度、大数据块列表。保存未达到整个大数据块的数据位到surplus中,位长用surplus?length描述该大数据块位长。

3) 电子档案序列大数据分类时,将大数据块个数[q]、电子档案序列大数据操作者数量[p]、密钥数量[Cp-1q]以及大数据块位置编号block?num等资料增添在大数据块块头位置。目前大数据块拥有末尾大数据块位长surplus?length及密钥数组资料。

4) 连接末端大数据块到各个完整的分类大数据块末端。

采用上述方法将电子档案序列大数据划分为若干大数据块,实现电子档案序列大数据加密分类。

2  系统测试

为验证本文系统的有效性,选择某网络知识库电子档案序列大数据作为系统测试对象,系统硬件配置如下:处理器为Intel 酷睿i3 350M,内存大小为32 GB。参数设置如下:编号测试用电子档案序列大数据为K1,K2,K3,K4,K5,K6,K7。电子档案序列大数据种类为:贸易类大数据、经济类大数据、交通类大数据、文化类大数据、工业类大数据、体育类大数据、军事类大数据;数据大小分别为1 652 KB,1 685 KB,1 784 KB,1 756 KB,

1 562 KB,1 579 KB,1 655 KB。

采用本文系统对网络知识库中的电子档案序列大数据展开分类测试,系统大数据采集界面如图4所示。分类结果表明,本文系统可以正确分类电子档案序列大数据。

本文系统稳定性实验结果如表1所示。分析表1数据可知,随着测试次数增加,本文系统分类准确率和数据分类预估值逐步增加,最高分别可达98.63%,98.91,系統召回率最高达99.85%。测试结果表明,本文分类系统准确率及召回率较高,且系统稳定性好。

系统CPU占用率及内存占用率结果如表2所示。

表2结果显示,本文系统CPU占用率处于48%~58%之间,内存占用率为18%~31%。测试结果表明本文系统资源占用率较小。

由于本文采用电子档案序列大数据加密分类方法,系统分类效率由大数据分块大小决定。大数据块越多,系统负载越大,分类时间也随之变长。为验证大数据块对本文系统效率的影响,选择大小为160 MB的电子档案序列大数据作为测试对象。测试结果如图5所示。

从图5测试结果可以看出,当大数据分块大小为4~5 MB时,本文系统分类耗时最短;当大数据分块大小超过6 MB时,系统耗时随大数据块大小增大急剧上升,严重降低系统分类效率。实验结果表明,大数据块大小为4~5 MB时,本文系统分类效率最高。

3  结  论

本文设计基于数字标签的电子档案序列大数据并行分类系统,通过增加多属性数字标签,增强电子档案序列大数据安全性,使电子档案序列大数据具备防复制、防修改、防扩散等能力。采用加密分类方法将电子档案序列大数据分成大数据块,在降低系统存储空间的基础上,保障电子档案序列大数据不被泄露。实验结果表明,本文系统采用数字标签进行大数据分类过程中,当数据块大小为4~5 MB时,系统分类耗时最短,分类效率最高。

参考文献

[1] 高坤,戴江山,张慕华.基于大数据技术的电子战情报系统[J].中国电子科学研究院学报,2017,12(2):111?114.

[2] 张译天,于炯,鲁亮,等.大数据流式计算框架Heron环境下的流分类任务调度策略[J].计算机应用,2019,39(4):1106?1116.

[3] 丁家满,王思晨,贾连印,等.Spark环境下基于综合权重的不平衡数据集成分类方法[J].小型微型计算机系统,2019,40(2):17?21.

[4] 陈海蕊.面向电子档案大数据的可视化组织与分析[J].科学技术与工程,2018,18(2):279?284.

[5]申琢.基于云计算和大数据挖掘的矿山事故预警系统研究与设计[J].中国煤炭,2017,43(12):109?114.

[6] 肖建波,郑伟,代作伟,等.基于大数据采集的播出监管系统设计与实现[J].电视技术,2017,41(6):40?44.

[7] 王磊,邹恩岑,曾诚,等.基于Spark的大数据聚类研究及系统实现[J].数据采集与处理,2018,33(6):137?145.

[8] 吕庆,刘颂,刘小杰,等.基于大数据技术的烧结全产线质量智能控制系统[J].钢铁,2018(7):1?9.

[9] 王欣,张冬梅.大数据环境下基于高校读者小数据的图书馆个性化智能服务研究[J].情报理论与实践,2018,41(2):132?137.

[10] 向小佳,赵晓芳,刘洋,等.一种正交分解大数据处理系统设计方法及实现[J].计算机研究与发展,2017,54(5):1097?1108.

猜你喜欢
系统设计大数据
一种基于SATA硬盘阵列的数据存储与控制系统设计研究
目标特性测量雷达平台建设构想
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
信息管理服务平台项目应用系统设计探析