物联网感知信息采集过程重复数据批量剔除方法

2022-11-23 07:27朱荣军

齐齐哈尔大学学报（自然科学版） 2022年1期

朱荣军

朱荣军

（安徽工业经济职业技术学院电气工程学院，合肥 230051）

：针对目前重复数据批量剔除方法中提升压缩比和降低数据开销之间的矛盾，提出一种物联网感知信息采集过程重复数据批量剔除方法。首先将物联网感知信息采集数据文件组织作为数据位图的排列形式，结合滑动分块算法对系列形式进行更新，以列的形式读取数据信息，组成新的数据块。然后计算不同数据之间的相似度，通过量子粒子群优化算法优化BP神经网络，组建重复数据批量剔除模型，通过模型完成重复数据剔除。最后进行性能测试，实验结果表明，所提方法能够有效提升平均压缩比，降低平均时间开销和重复数据批量剔除错误率。

物联网感知信息；采集过程；重复数据；批量剔除

数据质量问题普遍存在于人类的生活中，主要来自数据录入和数据集成过程中形成的差异[1]，重复数据批量剔除成为提升数据质量的有效手段。数据剔除的主要目的是脏数据，通过表现形式能够将其划分为以下几种形式：（1）重复数据；（2）残缺数据；（3）错误数据。其中，由于数据采集而引发的数据重复是数据剔除的关键，所以重复数据批量剔除成为当前研究的热点话题。部分专家已经取得了较为显著的研究成果，例如刘红燕等[2]通过双线性映射构造文件标识进行数据查询，使用文件级和块级相结合的方式删除重复数据。张曙光等人[3]使用广播加密技术完成密钥安全传递和存储，同时借助云服务器完成重复数据的删除。虽然上述两种方法操作过程简单，但是仍然存在平均压缩比较低和平均时间开销较低等问题，提出一种物联网感知信息采集过程重复数据批量剔除方法。仿真实验结果表明，所提方法不仅能够有效提升平均压缩比，同时还能够降低平均时间开销和重复数据批量剔除错误率。

1 方法

1.1 数据滑动分块

滑动分块技术被广泛应用于远程同步系统中[4-5]，通过数据滑动分块技术对物联网感知信息采集过程中的数据进行分块，基础思想为：将没有传输的数据全部进行分块处理，分块后进行指纹计算，将计算结果传输至远端，然后引入分块滑动技术检测数据之间的差异性，最终传送差异数据，完成数据的同步更新。

对相关数据进行分析，同时将待传输的文件划分为规格相同的数据块，对比新旧数据两者之间的差异性。虽然，文件整体需要修改的内容十分稀少[6]，但是经过一系列操作后无法在原始数据中搜索相似数据，数据可能位于其他新的数据块中。为了有效解决这一问题，需要对滑动分块方案进行改进，经过改进的方案主要是通过多次同步数据逐渐缩小分块，最终检测出相似文件中的差异数据。

为了最大程度将同步次数降至最低和检测文件中的差异部分，在数据滑动分块的前提下，将新文件数据重新组织，将其组建成为数据位图，分析数据之间的关联性，明确差异块中数据的精准位置，确保在同步迭代的过程中达到多次确认差异数据块的目的。

其中数据分块操作方案的操作原理如图1所示。

（1）将物联网感知信息采集过程中采集的数据划分为多个不同的块，组成数据位图。

（2）对数据块进行Hash值和指纹计算，同时保存相关信息。

（3）将Hash值传输至更新的文件段中。

（4）进行文件位框图进行填充，采用Rsync算法进行检测，将不一致的数据暂时放置在一边。

（5）对未填入信息部分进行二次填充，填充方式和步骤（4）相同。

图1 基于数据位图的数据分块示意图

通过图1可知，进行数据分块的整个过程是在新文件端和旧文件端同时进行的，其中涉及的函数主要包含有以下几个：

在算法运行的过程中，新文件段的处理主要包含数据位图的形成以及行列指纹计算等，以下给出详细的操作过程：

（3）组建数据位图，分别设定位图的宽度和高度。

（5）按列读取图文信息，同时计算以列为数据分块的指纹信息。

（6）将新文件的长度和分块大小传输至到待更新的初始文件端。

（7）引入滑动分块算法将数据以全新的形式进行排列，通过列的形式进行信息读取，组建全新的数据块。

1.2 物联网感知信息采集过程重复数据批量剔除

物联网感知信息采集过程重复数据批量剔除的主要操作：优先计算数据之间属性相似性，得到数据相似度的特征向量，将获取的特征向量设定为BP神经网络的输入，将其输入到BP神经网络进行训练，同时采用量子粒子群算法（IQPSO）优化BP神经网络，组建重复数据批量剔除模型，最终将采集到的数据输入到模型中，完成重复数据剔除，具体操作流程如图2所示。

图2 物联网感知信息采集过程重复数据批量剔除流程图

通过TF-IDF算法得到的相似度计算式可以表示为

主要利用改进的IQPSO选取最佳BP神经网络初始权值和阈值[8]，以下给出具体的操作流程：

IQPSO算法中全部粒子的位置更新公式为

（1）提取在物联网感知信息采集过程中数据的特征向量，人工标记数据类型，同时将其作为BP神经网络的期望输出，以此为依据组建BP神经网络学习样本。

（3）更新个体历史最优位置和群体最优位置。

（5）更新各个粒子的位置。

（6）假设BP神经网络输出和理想输出达到设定的需求，则完成训练，此时连接初始权值和阈值；反之，则跳转至步骤（3）。

（7）通过BP神经网络对训练集重新进行学习，组建物联网感知信息采集过程重复数据批量剔除模型，对训练集进行检测，设定门限值为0.5，假设输出结果高于0.5，则说明当前记录为重复记录；反之，则为非重复记录。

（8）选取待剔除的数据作为记录[10]，提取对应的特征向量，同时组建数据库采用模型进行重复数据剔除。

2 实验

在2.3GHz Intel Core i5处理器的PC机，内存为32GB的环境下进行测试，测试数据来源于物联网感知信息采集中的数据库，共计10万条，将数据主要划分为训练集和测试集，分别选取所提方法、文献[2]方法和文献[3]进行实验测试，其中实验指标为平均压缩比、平均时间开销和重复数据批量剔除错误率。

（1）平均压缩比/%

分别对3种不同方法进行8次实验测试，具体的实验对比结果如表1所示。

分析表1中的实验数据可知，相比另外两种方法，所提方法的平均压缩比明显更高一些，充分证明所提方法的优越性能，同时也更进一步说明在所提方法中构建数据块是切实可行的。

（2）平均时间开销/min

3种方法的平均时间开销如图3所示。

表1 平均压缩比实验结果

图3 平均时间开销实验结果

分析图3中的实验数据可知，所提方法的平均时间开销明显更低，较好满足大规模重复数据剔除。另外两种方法的平均时间开销较高，有待进一步进行改进。

（3）重复数据批量剔除错误率/%

在重复数据剔除的过程中，会有错误剔除的情况，由于不同方法的操作流程不同，导致重复数据批量剔除错误率也存在明显的差异，3种方法具体的实验对比结果如表2所示。

表2 重复数据批量剔除错误率实验结果

从表2中的实验数据可知，随着记录数的持续增加，所提方法的重复数据批量剔除错误率一直处于相对稳定的状态，同时明显低于另外两种方法，充分说明了所提方法的优越性。

3 结束语

针对传统重复数据批量剔除错误方法存在的问题，提出一种物联网感知信息采集过程重复数据批量剔除方法。仿真实验结果表明，所提方法能够有效提升平均压缩比，降低平均时间开销和重复数据批量剔除错误率，具有一定的应用价值。

[1] 张曙光，咸鹤群，王利明，等. 云计算中高效加密数据重复删除方法[J]. 通信学报，2018, 39(S1): 257-268.

[2] 刘红燕，咸鹤群，鲁秀青，等. 基于用户定义安全条件的可验证重复数据删除方法[J]. 计算机研究与发展，2018, 55(10): 2134-2148.

[3] 张曙光，咸鹤群，王雅哲，等. 基于离线密钥分发的加密数据重复删除方法[J]. 软件学报，2018, 29(07): 1909-1921.

[4] 张曙光，咸鹤群，刘红燕，等. 云存储中加密数据的自适应重复删除方法[J]. 计算机应用研究，2018, 35(09): 2772-2776.

[5] 施南业，袁莹，汪昕晨，等. 基于多比特重复数据删除的云存储信道隐藏[J]. 计算机工程，2018, 44(06): 111-116.

[6] 贺秦禄，边根庆，邵必林，等. 云环境下应用感知的动态重复数据删除机制[J]. 西安交通大学学报，2018, 52(10): 24-30.

[7] 王青松，葛慧. Winnowing指纹串匹配的重复数据删除算法[J]. 计算机应用，2018, 38(03): 677-681.

[8] 卞琛，于炯，修位蓉. 基于回归检测的滑动块重复数据删除算法[J]. 新疆大学学报（自然科学版），2017, 34(03): 259-266.

[9]王青松，葛慧. 相似聚类的二级索引重复数据删除算法[J]. 小型微型计算机系统，2017, 38(12): 2797-2801.

[10] 赵倩倩. 动态数据环境下网络重复数据检测方法仿真[J]. 计算机仿真，2017, 06(34): 445-448.

Method for batch elimination of duplicate data during sensing information collection process of Internet of Things

ZHU Rong-jun

(College of Electrical Engineering, Anhui Technical College of Industry and Economy, Hefei 230051, China)

Aiming at the contradiction between increasing the compression ratio and reducing the data overhead in the current repeated data batch elimination methods, a method for repeated data batch elimination during the sensing information collection process of the Internet of Things is proposed. First, organize the IoT perception information collection data file as the arrangement form of the data bitmap, combine the sliding block algorithm to update the series form, read the data information in the form of columns, and form new data blocks. Then calculate the similarity between different data, optimize the BP neural network through the quantum particle swarm optimization algorithm, build a repeated data batch elimination model, and complete the repeated data elimination through the model. Finally, the performance test is performed. The experimental results show that the proposed method can effectively improve the average compression ratio, reduce the average time overhead and the error rate of repeated data batch elimination.

Internet of Things perception information；collection process；duplicate data；batch elimination

2021-07-28

2020年度安徽省质量工程项目——安徽工业经济职业技术学院海尔实践教育基地（2020sjjd020）；2020年度安徽省质量工程项目——1+X证书制度下高职电子类专业“课证融通”的教学模式改革（2020jyxm0245）

朱荣军（1979-），男，安徽休宁人，讲师，硕士，主要从事信息管理与信息系统研究，qaz112233we@sina.com。

TP309.3

1007-984X(2022)01-0021-05