基于异构数据融合的地震综合数据分析系统设计

2022-09-14 08:20张婷婷章熙海王冬辰
电子设计工程 2022年17期
关键词:负相关神经元模态

张婷婷,章熙海,王冬辰

(江苏省地震局,江苏南京 210014)

近年来,我国多地频繁发生地震灾害,对人们的生产生活和社会经济的发展产生了严重影响[1-3]。由于我国有很多地区位于地震高危区,对地震的预测能力以及针对地震灾害的准备工作显得尤为重要[4-5]。

随着大数据技术和计算机技术的快速发展,越来越多的学者开始使用大数据与深度学习对地震综合数据进行信息挖掘[6-10]。传统数据分析方法仅适用于单一模态数据,由于各项地震相关数据的格式不同,为多模态数据,因此如何提高多模态、异构数据的分析效率成为了当前的热门课题之一[11-16]。

针对地震综合数据中的多模态、异构数据,该文构建了无监督多模态、非负相关特征融合算法,用于实现多模态数据共享空间内部特征的融合规律学习和聚类分析;同时,利用深度置信网络构建了多模态、异构数据特征分析模型,在网络平滑约束下将融合后的特征进行学习和分类,有效提高了数据分析能力。

1 地震综合数据分析系统框架

地震综合数据分析系统是面向地震高危区用于应急准备、处置和预评估的系统。其涉及的数据包含了各个地区的地震应急基础数据和各类地震探测仪器所产生的数据,旨在评估地震风险和可能造成的灾害损失,以便有针对性地提高地震应急准备能力。地震应急基础数据包含了当地辖区的建筑物类别、密度、逃生避难场所的数量等;地震探测数据包含地震矢量数据中的纵横波速度、振幅、频率以及同一波场的空间偏振状态等信息。地震应急基础数据多为文字、数字格式;而地震探测数据多为数字格式。这些数据因来源、格式不同,属于异构数据。

地震综合数据分析系统采用B/S 结构,可在电脑、智能手机浏览器访问。该系统共有3 层,分别为表现层、逻辑层和数据层。表现层为系统所有功能的展示、交互界面;逻辑层为分解功能需求提供必要的逻辑操作;数据层为功能需求提供必要的数据及运算。由于地震应急基础数据和地震探测数据量较大,且处理操作、速度需要较高的要求,因此将云计算技术用于数据的储存、计算以及相关算法的存储、更新,具体框架如图1 所示。

图1 地震综合数据分析系统框架

由于地震预测数据通常来自于多个数据源或数据信道,能够从不同的侧面反映数据的不同特征,进而形成互补,提高地震预测精度。与传统单模态数据分析不同的是,多种模态的数据融合方式与该模态数据的统计特性相关,直接影响数据特征的有效性。该文基于深度置信网络来构建无监督、多模态数据非负相关特征的融合算法,以解决多模态地震数据的融合问题。主要包含了以下3 个方面:构建无监督多模态、非负相关特征融合算法,以解决多模态数据共享空间内部特征的融合规律学习和聚类分析;构建针对多模态数据的相关和不相关特征共享学习机制,将私有特征分离后得到具有可靠鲁棒性的模态共享特征;针对多模态数据制定联合目标优化函数,以完善无监督、多模态数据非负相关特征融合算法的优化和收敛过程。

2 地震综合数据分析算法

2.1 异构数据融合

地震探测数据主要为面波的频散特征数据,分为多分量面波相速度频散特征和瑞利波多模式椭圆率频散特征。由于瑞利波在不同深度时的各个模式相对位移大小并不一致,可以利用这一特点并将其作为瑞利波的频散特征。故在垂直方向上,瑞利波的梯度场可用下式得到:

那么,对于深度为h1的梯度值,利用差分近似原理可推导出:

由于瑞利波各个方向的速度不同,将径向位移和垂向位移的比值随频率改变的现象称为瑞利波的椭圆极化,可用下式计算在弹性介质条件下第j阶瑞利波的椭圆率:

式中,ur、uz分别表示的是瑞利波质点轨迹相对于水平轴、垂直轴的分量。

该文所设计的融合算法框架如图2 所示,首先将不同模态之间的私有特征与共享特征分离,可提高对共享特征的学习效率,进而实现更加准确的多模态数据融合,通过对多模态共享特征VC进行聚类分析,最终实现有用信息的挖掘。

图2 非负相关特征融合算法框架

当给定跨模态数据的潜在共享特征的维度UC和各自的私有特征维度UI时,多模态非负相关特征学习模型被定义为下式:

由于对模态实例的相似结构描述方式会影响特征降维后的精准度,该文使用不变图模型对VC进行规范化描述,进而将模态数据与共享特征的几何结构误差降到最低。模态数据之间的几何结构可通过最近邻图来表示,Wij表示两个数据Xi与Xj之间的相似程度,当Xi和Xj均在彼此的p个邻接点范围内时,有如下关系:

式中,dij为数据Xi、Xj之间的欧氏距离。该实例数据的不变图嵌入函数为:

式中,Tr(·)为矩阵的迹;L(·)为图拉普拉斯矩阵。

2.2 地震综合数据分析模型

利用上文所述无监督、多模态数据非负相关特征融合算法进行多模态特征的融合,得到的结果作为地震综合数据分析模型的输入数据。如图3 所示,该文使用深度置信网络(DBN)进行地震综合数据分析模型的构建。深度置信网络的基本结构为限制波尔兹曼机(RBM),由于其是双层结构,因此通常被用来构建实验数据与人工标签之间的联合分布。同时,RBM 结构的能量可通过式(8)来计算。θ={pi,qj,Wij}为RBM 结构参数,分别代表输入层神经元的偏置、隐藏层神经元偏置以及两层神经元之间的权重,其数值表征神经元之间的相似程度。

图3 地震综合数据分析系统原理框图

针对地震矢量数据中的纵横波速度、振幅、频率和同一波场的空间偏振状态等信息,由于不同模态的数据范围有限以及相邻节点所受到的影响相似,RBM 结构并不能充分与地震多模态数据融合后的特征相结合。因此该文对RBM 结构进行优化,通过对连接矩阵建立约束来适应地震多模态数据。具体方式为将惩罚函数融入至RBM 损失函数中,其损失函数被定义为:

如图4 所示,该文使用网络平滑约束因子b对RBM 权重参数进行约束。当地震发生时,距离较近的位置所展现出来的瑞利波特征是类似的,且同种建筑类别所受到的损害也是相似的,所以地震综合数据分析模型中RBM 结构有着相似的网络权重参数。网络平滑约束通过使RBM 结构中相邻网络权重参数的差值趋近于0 来实现连接矩阵之间的约束,从而达到让相邻节点在学习特征能力上有着相似的效果。

图4 地震综合数据分析模型结构

文中将地震灾害类别定义为特别重大、重大、较大以及一般共4 个级别,因此模型的输出项分类设定为5 项,使用5 个神经元。第一层RBM 结构中隐藏层的神经元个数由下式确定:

式中,Nin与No分别代表数据输入层神经元数量和输出层神经元数量,c为模型调节因子。该文使用Sigmoid函数作为隐藏层中的激活函数,其表达式为:

由于RBM 每一层的神经元个数和隐藏层的数量对模型训练时间、学习效率有着相反的作用,综合考虑模型训练时间与精度,该文将地震综合数据分析模型设计成由3 层RBM 结构和一层线性分类器所组成的结构。每一层RBM 隐藏层均具有120 个神经元,线性分类器含有50 个神经元。

3 测试与验证

该研究使用江苏省某地区近5 年的地震应急基础数据和地震探测数据作为样本数据进行模型训练。地震应急基础数据涉及各个社区、村庄所有常住人口的基本信息、人员结构以及建筑物信息等。其中建筑物信息重点关注学校、医院、避难场所以及大型企业的地理位置、建筑形式、不同级别地震发生后所受到的损害等信息。地震探测信息包含近5 年地震矢量数据中的纵横波速度、振幅、频率以及同一波场的空间偏振状态等信息。

基于异构数据地震综合数据分析系统,采用Python 集成开发平台进行地震应急基础数据和地震探测数据的预处理以及DBN 模型的开发。异构数据特征的融合和DBN 模型的构建、训练所使用的硬件环境如下:配置为Intel(R)Core(TM)i7-5410 CPU@8.0 GHz,1 TB 固态硬盘,GPU 为Nvidia 的RTX 系列计算机。

实验数据共有54 000 个样本,按照8∶1∶1 的比例随机分为非线性表达训练数据、分类器训练数据和测试数据,使用纯度、精度聚类指标来验证该文所述异构数据的融合效果。文中设置MultiNMF 算法作为对照组来验证所述无监督多模态、非负相关特征融合算法的优越性,两种算法的学习因子均设定为0.01;所有模态规则化参数均设定为100。

在使用相同的测试数据和输入、输出节点数情况下,纯度、精度指标如图5 所示,图中1 代表纯度,2代表精度。从图中可以看出,该文所提出的无监督多模态、非负相关特征融合算法无论是纯度或是精度均优于MultiNMF 算法。这主要是因为无监督多模态、非负相关特征融合算法能够同时对相关和非相关的特征进行学习,并在共享模态中分离出私有模态,从而提高聚类性能。而MultiNMF 算法仅是将不同模态的特征无差别融合,削弱不同模态之间的差异性。

图5 纯度和精度两种算法对比

图6 分别展示了规则化因子a和稀疏化因子b对聚类结果精度的影响。从图中可以看出,随着参数a和b的增加,聚类精度均呈现出先上升再下降的趋势。当a=0.6 时,聚类精度取得最大值0.665%,这表明各个模态数据与共享特征之间具有极高的相似性;而稀疏化因子b的增加,在一定程度上会改善聚类精度,但一旦取值过大,则会起到反作用。

图6 影响聚类结果精准度的变化曲线

4 结束语

该文采用深度置信网络进行了地震综合数据分析系统的设计与开发,该系统可以有效解决不同模态数据的特征融合问题。经过测试与数值分析,该方案具有较强的可行性,系统综合性能优越。值得注意的是,该文所述的地震综合数据分析系统仅针对文本、数字这两种格式的数据,而对于图片、视频等多媒体格式尚未进行研究,这也将是下一步的工作内容之一。

猜你喜欢
负相关神经元模态
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
N-末端脑钠肽前体与糖尿病及糖尿病相关并发症呈负相关
跨模态通信理论及关键技术初探
AI讲座:神经网络的空间对应
幼儿教师职业倦怠及主观幸福感状况研究
激活皮层生长抑素中间神经元抑制神经病理性疼痛的发展
研究人员精确定位控制饮酒的神经元
翻译心理与文本质量的相关性探析
技术应用型本科院校非英语专业本科生英语学习焦虑的调查与研究