基于改进启发式搜索算法的区域水资源时空变化特征挖掘方法

2022-12-08 06:19刘招雄
水力发电 2022年11期
关键词:数据仓库时空聚类

胡 鑫,刘招雄

(云南省水文水资源局曲靖分局,云南 曲靖 655000)

0 引 言

区域水资源合理利用是水利工作的关键,一方面收集水利信息,能够为防洪抗旱做准备;另一方面,水利自身的建立也离不开相关信息的支持[1-3]。近些年,水利信息化建设逐渐完善,基本完成了基础空间数据库的建设,其他区域水资源信息库的建设也在不断完善,水资源时空变化特征数据是水利信息化建设的重要组成部分[4-6]。随着水资源数据量的日益增加,水资源时空变化特征也越来越复杂,其特征数据背后可能隐藏着更重要的信息[7]。因此,在对水资源时空变化特征研究上,需要进行更高层次、多样化的处理和分析,以便更好地利用这些数据[8]。

目前,比较成熟的数据分析方法就是数据挖掘技术,通过数据挖掘技术即可从海量的水资源区域时空变化特征数据中获得有价值的信息;但是,单一的挖掘方法缺少目的性,利用其他方法实现更高水平的特征挖掘是现阶段国内外专家、学者研究的重点[9-11]。在特征挖掘的研究上,比较常规的挖掘方法有文献[12]提出的基于位置差的特征挖掘方法。该方法在挖掘特征信息前,对时空变化信息进行解析处理,获得位置信息,以不同位置之间的差作为依据,挖掘出特征信息。在实际工作中,这种方法在远距离特征数据挖掘上,数据聚类效果不理想,数据损失较严重,抗干扰性能比较差。文献[13]提到的基于GIS的挖掘方法存在类似的问题,GIS技术的使用也是需要利用位置信息来挖掘特征数据,在使用上并没有解决远距离处理抗干扰性能差的问题。

因此,本研究提出基于改进启发式搜索算法的区域水资源时空变化特征挖掘方法,以解决上述常规的特征挖掘方法存在的问题。

1 挖掘算法设计

1.1 搜索时空变化特征

区域水资源时空变化特征包含图像特征和数据特征。这些特征信息随着时间的变化不断增加,往往在短时间内就能累计大量特征信息,其中包含很多冗余信息、干扰信息等无用信息,严重影响特征挖掘的实际效果[14]。因此,采用改进启发式搜索算法,搜索有价值的时空变化特征数据,建立数据仓库,在数据仓库内实现进一步的特征挖掘。

改进启发式算法开始时,读取特征信息,经过标准化处理后,设置阈值个数为D,初始化特征信息集合,在解空间内随机产生N个位置的初代聚点,遍历每一个特征数据,利用公式计算出各个初代聚点的适应度值以及特征变化的强度和幅度[15]。即

fi(TN)=α0α1(β0-β1)2+α0α2(β0-β2)2+…

+αD-1αD(βD-1-βD)

(1)

式中,fi(TN)为第i个目标的适应度函数值;α和β分别为特征分布总体概率和平均概率。特征变化强度和幅度计算公式为

(2)

(3)

式中,Ai为特征变化强度;Si为特征变化幅度;Ymin和Ymax分别为适应度函数值的最小值和最大值;ε为校正值。在计算完成后,按照强度和幅度大小顺序排序,选择前20%的个体进行高斯变异处理并替换,在替换完成后,对超出解空间的次代个体做映射处理,具体处理过程如下

(4)

1.2 建立区域水资源特征数据仓库

区域水资源时空变化特征涉及到的数据类型非常广泛。经过改进启发式搜索后,根据不同的使用目的建立主体数据仓库,便于为特征挖掘工作提供方便有效的服务。

数据仓库不仅具有存储作用,还能够对数据进行重新整理,根据使用要求形成当前的基本数据层,在特征随着时间不断变化过程中,数据仓库内的时间控制机制将基本数据层转为历史数据。

数据仓库包含源数据、数据仓库、仓库管理和分析工具4个部分。仓库管理负责将通过抽取、转换等手段处理数据源存入到数据仓库中,分析工具用于分析数据、查询处理数据。数据仓库的内部结构如图1所示。

图1 数据仓库内部结构示意

在图1中显示的数据仓库结构的基础上,为其设计逻辑模型,采用关系模型作为主要模型,用于建立数据间关系。在数据仓库建立完成后,从数据仓库中挖掘水资源时空变化特征。

1.3 挖掘目标特征

(5)

(6)

式中,r为最小化类内散度;N为最大化类间散度;j为投影后类内方差系数;M为映射点集v的维度;center为中值。特征数据仓库类间散度

(7)

(8)

(9)

Q=[q1,q2,…,qn]=b2/ωib1

(10)

式中,ωi为与b2/b1对应的第i个特征值。特征挖掘求解公式为

ru=r*Q

(11)

式中,ru为特征挖掘结果;r*为频繁特征。式(11)求解出的结果是一组数据集,同时也是特征挖掘结果。至此,改进启发式搜索算法的区域水资源时空变化特征挖掘方法设计完成。

2 实验研究

2.1 数据准备

在区域水资源时空变化特征挖掘方法实验中,以某区域的水资源状况作为依据,分析改进启发式搜索算法的区域水资源时空变化特征挖掘方法的抗干扰能力。考虑到提出的挖掘方法在理论上和实际应用上还没有统一的论证,实验采用对比研究的形式,以基于位置差的挖掘方法和基于GIS的挖掘方法作为参考,采用统一的实验数据,分析各个时空变化特征挖掘方法的性能。实验中准备的区域水资源状况数据如图2所示。

图2 某区域水资源状况示意(万m3)

上述准备的实验数据空间分辨率为30 m,其中包含大量气象数据。这些气象数据来自站点,在实验前,需要对观测到的数据进行插值,才能获得这个区域的完整信息。根据该区域的地理特征和自然特征,对站点的多项数据进行空间插值处理,确定一个模拟点,在模拟点附近找到多个参照点,以参照点与模拟点的距离作为判断标准确定权重,为每一个参照点分配合适的权重,默认最近的点与模拟点相关性最大。点与点之间的栅格值计算公式为

(12)

式中,n为参照点个数,同时也是实测站点的个数;S为待估计的要素栅格值;S(xi)为某个时间段第i个站点的观测值;di为待估点到第i个实测站点的直线距离;w为与距离相关的权重系数。选择合适参考点个数进行空间插值处理。

在完成上述处理后,采用逐步自回归模型模拟水位数据,设计两组对比实验,均以特征数据作为目标,一组为特征数据聚类分布实验,一组为特征数据聚类正确率实验,通过上述两组实验结果,分析区域水资源时空变化特征挖掘方法的抗干扰性。

2.2 特征数据聚类分布实验结果及分析

在特征数据聚类分布实验中,将海量干扰数据作为区域水资源时空变化特征挖掘的干扰因素,将原始特征数据按照不同的特征挖掘方法进行聚类操作,设置初始聚类中心为1,得到特征数据聚类分布图。各个特征挖掘方法实验结果如图3所示。

对比观察图3显示的实验结果可知,3组实验结果的特征数据以左下角坐标为聚类中心,逐渐向外扩散。其中,基于位置差的特征挖掘方法和基于GIS的特征挖掘方法实验结果显示的数据聚类过于分散,数据向上、右上和右方向不断扩散,聚类效果并不理想,说明很难抵抗数据干扰;而提出的特征挖掘方法实验结果中,特征数据分布比较密集,聚类效果更加接近理想效果,说明该方法有效抵抗了数据干扰。综上所述,提出的区域水资源时空变化特征挖掘方法能够抵抗干扰,获得聚类效果更好的特征数据。

图3 不同特征挖掘方法数据聚类分布实验结果

2.3 特征数据聚类正确率实验结果及分析

在工作过程中,数量的大小会影响数据聚类效果。为了进一步验证特征数据聚类效果,在同样的实验环境中,布设间隔不同的参考点,获得不同大小的数据集,布设方案见图4。

图4 间隔不同的参考点布设方案示意

使用不同的特征挖掘方法处理数据集,计算出特征数据聚类的正确率。实验结果如表1所示。

表1 干扰情况下3种不同特征挖掘方法的聚类正确率

通过对表1的观察可知,数据量大小的变化与聚类正确率相关,随着数据量的增加,聚类效果越好;反之,数据量过多,参考点分布较紧密,容易使聚类效果变差,进而降低聚类正确率。由此可见,在存在干扰的情况下,提出的特征挖掘方法数据聚类效果更好,并且聚类正确率更高。从抗干扰性能上分析可知,提出的改进启发式搜索算法的区域水资源时空变化特征挖掘方法抗干扰能力更强,优于常规的特征挖掘方法。

3 结 语

本文以区域水资源时空变化特征作为研究重点,将改进启发式搜索算法用于特征挖掘,设计特征挖掘方法,根据启发式算法的一般要求,与区域水资源特点,对于水资源时空变化特征数据准备、挖掘等关键问题做出相关技术处理和论述,为特征挖掘提供更为细致的信息,使其具有更好的抗干扰性能,适合应用于水资源规划中。

尽管本文研究的挖掘方法取得了不错的成果,但是理论方法和实际应用上还存在一些差距,数据自身的质量也是判断特征挖掘是否可靠的一个重要因素。在后续研究中,将从数据质量出发,进一步完善特征挖掘方法,为水资源时空变化特征挖掘提供良好的技术支持。

猜你喜欢
数据仓库时空聚类
跨越时空的相遇
基于数据仓库的数据倾斜解决方案研究
镜中的时空穿梭
玩一次时空大“穿越”
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
时空之门
基于Spark平台的K-means聚类算法改进及并行化实现