基于K-means-CNN耦合的采砂大数据智能清洗模型研究

2023-11-24 08:25:28张静陈燕林
现代信息科技 2023年18期
关键词:means聚类最小二乘法卷积神经网络

张静 陈燕林

摘  要:针对水下采砂大数据中存在信息缺失、冗余、混乱等问题,构建一种K-means聚类与CNN(卷积神经网络)的耦合模型。首先应用最小二乘法得到K-means的聚类阈值,使同类型数据更易于聚类;对数据集进行CNN网络训练,根据各种不同的样本进行网络参数选择,同时实现了CNN智能融合处理;再把从现场收集的大数据输入经过K-means-CNN智能耦合的模式中,将水下采砂大数据分为缺失、冗余、混乱、正常四种类型,并进行标记和数据清洗。试验结果表明,基于K-means-CNN的数据清洗模型,对异常数据的有效清除率超过80%,提高了水下采砂大数据的质量,为后续水下采砂大数据分析打下良好的基础。

关键词:水下采砂;大数据清洗;K-means聚类;最小二乘法;卷积神经网络

中图分类号:TP311  文献标识码:A  文章编号:2096-4706(2023)18-0099-07

Research on Intelligent Cleaning Model of Sand Mining Big data Based on K-means-CNN Coupling

ZHANG Jing1, CHEN Yanlin2

(1.School of Information Engineering, Henan Industry and Trade Vocational College, Zhengzhou  450053, China; 2.School of Electronic Engineering, North China University of Water Resources and Electric Power, Zhengzhou  450046, China)

Abstract: A coupling model of K-means clustering and CNN (Convolutional Neural Network) is constructed to address the issues of information loss, redundancy, and confusion in underwater sand mining big data. Firstly, the least squares method is applied to obtain the clustering threshold of K-means, making it easier to cluster data of the same type; train CNN networks on datasets, select network parameters based on various samples, and achieve intelligent CNN fusion processing; then, the big data collected from the site is input into the K-means-CNN intelligent coupling mode, and the underwater sand mining big data is divided into four types: missing, redundant, chaotic, and normal, and perform labeling and data cleaning. The experimental results show that the data cleaning model based on K-means-CNN has an effective removal rate of over 80% for abnormal data, improving the quality of underwater sand mining big data and laying a good foundation for subsequent analysis of underwater sand mining big data.

Keywords: underwater sand mining; big data cleaning; K-means clustering; least square method; convolutional neural networks

0  引  言

河道砂石是河床的組成部分,主要用来保护河道。近年来,随着中国经济的快速发展,砂石作为建筑骨料需求量与日俱增。然而,过量开采河砂会导致河道被破坏,直接影响防汛和治安。为做到合理采砂,保护河流,必须在采砂前获取河流的砂石信息资料,尤其是要对河流砂石储量进行合理的计算[1]。

目前的砂石储量信息检测技术容易受外部环境的影响,致使我们所获取的信息不够准确,并且水下采砂大数据存在缺失、冗余、混乱等问题。为了有效研究水下砂石信息并计算河道砂储量,需要对水下砂石信息大数据进行清洗[2]。大数据信息清洗技术已广泛应用于砂石的信息收集工作[3],它能从海量大数据信息中获得有价值的信息,透过“清洗”达到数据的“升值”[4]。

目前的大数据清洗处理方法有很多。李昌华等给出一种基于聚类BP神经网络的信息处理模式,利用聚类算法对信息进行排序,然后运用BP神经网络对异常信息进行检查和校正[5]。所用信息的互动性较强,而BP神经网络的收敛速度缓慢,因此准确度也较低。李爽设计了基于卷积神经网络的电信诈骗鉴别系统,实现了用户话单清洗模式,但由于对原始数据的需求量较大,需要在进行卷积系统设计之前处理好一些原始数据[6]。张燕对统计清洗中的缺失值进行了基于密度的空间成群聚类算法,并做出了相应的调整改善[7]。计算中需要对每个点的邻域进行搜索,采用选择代表点的方法降低了搜索次数,进而减少了计算时间。不过此计算中缺少获得最优估计结果的具体方法。目前,大数据清洗工作中还缺少一种通用的方法,尤其是对含砂量数据清洗的研究基本上相当于空白。

本文根据水下砂石大数据分析效果较差的实际情况,设计了采砂大数据分析智能处理技术,并构建了K-means聚类分析技术和卷积方法与神经网络耦合的取矿大数据分析清洗模式。首先,通过最小二乘法确定了K-means的聚类阈值,以此改善取矿的聚类能力;其次,将聚类后的实验数据集用作卷积神经网络模拟的训练样本,并对数据进行网络训练和参数训练;最后,将实验结果集中注入經过优化的数据处理模式中(将数据标注为缺失、冗余、混乱、正常四种信息),并进行了适当的处理。

1  数据清洗算法

2  基于K-means-CNN的算法模型

基于K-means聚类分析法和CNN的大数据清洗流程图如图4所示。首先使用最小二乘的K-means系统聚类算法优化阈值,以提升采砂信息的聚类效率;其次采用卷积神经网络对经过聚类分析的数据分析集进行培训、网络设计与参数调整等[17];最后将所有待测的高含砂量数据输入到培训好的模块中,通过培训和标注缺失、冗余、混乱、正常、一般五类数据信息,实现对数据的快速聚类和分析等处理。

3  实验结果与分析

本文通过试验论证了基于聚类和神经网络对水下采砂信息的处理效果,摒弃了传统聚类方法、卷积神经网络的弊端,联合运用两种方法对取矿信息进行大数据清洗。通过分析离群点特性及样本训练的时间长度、正确率等方式来判断大数据清洗的有效性。

原始数据散点图如图5(a)所示。图5(a)在二维平面上表示聚类结果,聚类后如图5(c)所示。由图5(a)可知,图上误差相对较大的数值称为异常数据信息,而对于异常信息,通过研究其特征并对数据信息值加以校正,可以使得信息更加贴合实际。图5(c)为最终数据清洗后的聚类效果图,明显高于5(a)和5(b)。由图5(d)可知,采用K-means法聚类能够对数据结果做出比较合理的排序,且数据集中的统计也比较密集,因此效率优于传统聚类方法。

经K-means聚类后得到试验结果集、测试数据集,接下来再对模型进行训练、检验。如果所用的激发参数为Sigmoid、tanh、ReLU,则试验数据集的尺寸可以进行调整,按照图1和图2的步骤,从相同参数下激发参数的变化、输入数组尺寸变化对辨识率的影响这两个角度展开论述。参数C1 = 6,SCale_S2 = SCale_S4 = 2,C2 = 12,其中,以SaCle为步长,C1和c二卷积核大小均为5×5,而S2、S4的卷积核尺寸均为2×2。在此情况下,系统可以根据不同的激活参数或不同的输入数组大小,计算出不同的识别率,如表1所示。

由表1可知,如果输入矩阵长度不变的情况下激活函数的改变对测试所花费的时间影响不大(如序号1、2、3的持续时间依次为11.1秒、8.7秒、10.5秒),则可以给出识别率排序:ReLU函数>tanh函数>Sigmoid函数。同样,ReLU函数在解决阶梯消失时不会造成量度减小,从而便于对深度网络的学习。从稀疏性来看,ReLU函数相对输入值小于零是完全不能被激活的,能够得到更低的激活概率。因此,这也是使用不同激活函数获得不同识别率的主要原因。

图6是采用K-means-CNN模型通过CNN、K-means-BP和BP等方法进行采砂数据清洗后所得到的结果对照表。当输入的矩阵尺寸为128×128时,识别能力较好,平均识别率可以达到0.800。正常砂石数据的辨识率能够达到0.900。而采用K-means聚类技术和CNN的数据清洗模式,对取矿数据的有效清除率超过80%,对正常取矿数据的辨识率超过90%,识别效果良好。而对缺失、冗余、混乱取矿数据的识别率分别为70%、65%和70%。

此外,本文还对误差输出进行了研究。不同矩阵体积的误差值分别在400、600、500时达到一定数值。然而,随着矩阵体积的增加,误差值也会发生跳跃性的增加,判断结果也相应地随之改变。测量100×100时因为误差值趋于稳定向零逼近,达到优异的识别性能。实验显示,本文给出的样本处理能力较好,较之常规的处理方式在质量上有明显的提高。

试验中选取3 507组数据进行分析,另外选择3 068组数据用作网络的训练集,选择439组数据分析用作检测数据分析。K-means-CNN模式产生的Y向量对应统计清洗的四个状态类型,依次为缺失、冗余、混乱、正常,相应标记为1、2、3、4。构建前先用3 068组数据分析加以锻炼;构建后再用439组数据分析加以测试检查。如图6(a)所示为K-means-CNN产出的Y分类矢量和实际分类等级图,从图中可知K-means-CNN产出的Y分类矢量的趋势,与实际分类一致。

再将439组数据K-means-CNN模式的输出数值与实际差值做减法处理,这样就可以直接看到每个测点的准确性。如果分类准确,其差值为0,否则为其他非零值,如图6(b)所示。由图6(b)可知,K-means-CNN模型的分类偏差较小,共有17处差错分类,大体集中在对数据清洗的重复和异常分类上,差错主要产生于每个数据类型的变化交接处。

为检验K-means-CNN模式清洗大数据的有效性,我们还在同样条件下展开了包括CNN、K-means-BP和BP在内的数据清洗效果分析,如图7(a)(b)(c)(d)所示。从图7(a)中可以看出,K-means-BP模式的划分偏差小,共有163处存在错误,基本聚集在统计清除的异常和遗漏类别上。如图7(b)所示为CNN对砂石含量统计结果的直接清除,并未采用K-means聚类处理方法,图7(c)为K-means-BP处理过程的结论,图7(d)则为BP模式中直接清除的出错情况。从图7中可以看出,在K-means-CNN模式的CNN、K-means-BP和BP数据信息间清除的时间差值更小,清除效率更佳。

如表2所示为K-means-CNN建模与CNN、K-means-BP和BP等计算对采砂资料数据处理后的差错对比表。由表2可知,K-means-CNN建模的整体分析差错次数最少,判断冗余的错误次数为17次,错误率最低,大约为4%。CNN与K-means-BP的出错次数也基本相似,分别为163次和178次,对应的失败率分别为37%和40%;BP神经网络的统计清除错误次数为204次,失败率为46%。直接分类的统计清除错误次数最多,为252次,失败率为57%。

4  结  论

本文针对采砂中数据质量较差的问题,引入K-means-CNN耦合的大数据清洗模式,并对结果进行了分析。就CNN神经网络而言,实现比较复杂,全连接方法也过于冗余,效率不高,而聚类算法对离群点的处理能力不足。为此,本文把K-means聚类算法与神经网络组合在一起使用,将经过聚类后的样本用作卷积网络训练样本,从而大幅减少了训练样本使用费用,提高了效率,数据清洗效果较好,为后续砂石储量的有效测量奠定了基础。

由于实验条件有限,本文的采砂大数据样本量较少。后续的工作还需要提高样本容量,减少试验误差。但由于河流砂石信息收集相对难,信息类型复杂,影响因素多,还需要对河流砂石开采信息加以深入细致的分析,探索其变化规律,以便对河流砂石开采技术进行深层次的探索和完善。

参考文献:

[1] 王铭军,潘巧明,刘真,等.可视数据清洗综述 [J].中国图象图形学报,2015,20(4):468-482.

[2] 赵一凡,卞良,丛昕.数据清洗方法研究综述 [J].软件导刊,2017,16(12):222-224.

[3] 夏云峰,蔡喆伟,陈诚,等.模型试验含沙量量测技术研究 [J].水利水运工程学报,2018(1):9-16.

[4] 关于加强河道采砂管理工作方案 [J].河北水利,2019(5):4-5.

[5] 李昌华,卜亮亮,刘欣.基于聚类和神经网络对建筑节能气候数据清洗的算法 [J].计算机应用,2018,38(S1):83-86+111.

[6] 李爽.基于卷积神经网络的电信诈骗识别分类器的设计与实现 [D].北京:北京邮电大学,2019.

[7] 张燕.基于聚类算法的数据清洗的研究与实现 [D].保定:华北电力大学,2008.

[8] 林女贵,吴元林.基于改进K-means的大数据清洗方法 [J].微型電脑应用,2021,37(11):133-136.

[9] CHANG W, ZHU B. Cluster automorphism groups of cluster alge-bras of finite type [J].Journal of Algebra,2016,447:490-515.

[10] CHANG W,ZHU B. On rooted cluster morphisms and cluster structures in $2$-Calabi-Yau trianguated categories [J/OL].arXiv:1410.5702v1 [math.RT].[2023-03-20].https://arxiv.org/abs/1410.5702v1.

[11] FRANKE R. CHIMERA: Top-down model for hierarchical, overlapping and directed cluster structures in directed and weighted complex networks [J].Physica A: Statistical Mechanics and its Applications,2016,461:384-408.

[12] ZHANG J,ZHANG L Y,DU M,et al. Indentifying the major air pollutants base on factor and cluster analysis, a case study in 74 Chinese cities [J].Atmospheric Environment,2016,144:37-46.

[13] 贾小勇,徐传胜,白欣.最小二乘法的创立及其思想方法 [J].西北大学学报:自然科学版,2006(3):507-511.

[14] 周飞燕,金林鹏,董军.卷积神经网络研究综述 [J].计算机学报,2017,40(6):1229-1251.

[15] 张海涛,王丹,徐海玲,等.基于卷积神经网络的微博舆情情感分类研究 [J].情报学报,2018,37(7):695-702.

[16] 胡西祥.基于深度学习的微博评论情感倾向性分析 [D].哈尔滨:哈尔滨工业大学,2018.

[17] 孙国庆.基于卷积神经网络的加氢裂化装置建模研究 [D].杭州:浙江大学,2019.

作者简介:张静(1992—),女,汉族,河南尉氏县人,助教,硕士研究生,研究方向:大数据技术。

猜你喜欢
means聚类最小二乘法卷积神经网络
基于深度卷积神经网络的物体识别算法
马尔科夫链在市场预测中的应用
一种改进的基于RSSI最小二乘法和拟牛顿法的WSN节点定位算法
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
最小二乘法基本思想及其应用
科技视界(2016年22期)2016-10-18 17:12:13
人工神经网络在聚类分析中的运用
基于卷积神经网络的树叶识别的算法的研究
雹云图像的识别指标设计
基于QPSO聚类算法的图像分割方法
科技视界(2016年12期)2016-05-25 11:54:25