多模态感知驱动下高堆石坝施工仿真参数集成深度学习模型

2022-10-13 00:56王金国张东明王晓玲

水利学报 2022年9期

张君，王金国，余佳，赵豪，张东明，王晓玲

(1.天津大学水利工程仿真与安全国家重点实验室，天津 300072；2.雅砻江流域水电开发有限公司，四川成都 610000)

1 研究背景

堆石坝施工仿真作为一种有效模拟、分析、优化施工过程的手段，在堆石坝施工过程管理与控制中获得了广泛的应用[1-4]。不同于用于方案比选与论证的面向设计期的堆石坝仿真，面向施工阶段的堆石坝仿真为了快速高效地给出动态决策与调度管控指令，需要根据实际施工情况动态调整仿真模型以更贴合实际施工状态[5-6]。在物联网、大数据、人工智能等新一代信息技术与大坝建设深度融合并快速发展的背景下，堆石坝施工过程中产生了海量多模态监测数据，为堆石坝施工仿真模型随实际施工的动态调整提供了数据基础，促进了面向施工阶段的高堆石坝施工仿真技术的发展[7]。如何实时获取、分析并处理施工过程中产生的多模态数据，进而驱动堆石坝施工仿真参数的实时精准建模，是确保仿真模型的准确性与实时性，提高堆石坝施工仿真在实际工程中应用效果的关键。

施工仿真技术自1990年代起引入国内，在堆石坝施工领域发挥了重要的作用，随着堆石坝工程建设数量和规模的不断增加，施工仿真理论与技术在实际工程的实践应用中日益成熟[1]。主要经历了用于堆石坝设计期施工方案比选的计算机模拟阶段[3]、面向设计期的具备三维可视化功能的一体化施工仿真系统阶段[8]、根据施工过程中的数据进行动态调整以适应施工期的堆石坝动态仿真阶段[5-6]，以及依据物联网技术、实时监控技术、机器学习方法等新一代物联网技术的数据驱动仿真阶段[7]。由于施工仿真的最终目的是在计算机虚拟世界中实现对复杂施工过程的实时映射，进而据此实现对施工运行系统的实时分析、优化与馈控。因此，如何充分感知实际施工过程，并利用施工过程产生的数据提高仿真模型与实际施工的一致性是施工仿真的研究重点。

21世纪初期，随着基于GPS的实时监控系统[9-10]、图像感知[11]、运动传感器[12]等感知技术在土方施工领域的成功应用，部分学者尝试基于实际施工数据采用Weibull 分布[13]、三角分布[14]、高斯分布[15-16]、Gamma分布[17]、Beta分布[18]以及一些混合分布[19]等方式实现更贴合实际的仿真参数拟合。贝叶斯统计推断由于可以采用新获取的实际数据更新假设的先验分布，可以实现实时监控环境下的施工仿真参数分布的动态更新建模，因此在隧道掘进(Tunnel Boring Machine，TBM)[20]、沥青道路[21]、地下洞室群[22]、拱坝[23-24]、混凝土坝[25]、土石坝[26]等工程施工仿真参数建模中被广泛使用以实现随监控数据动态变化的自适应仿真。由于在每次更新时需要足以反映数据统计特征的大量样本，且后验参数分布难以捕捉短时间内的参数波动，所以贝叶斯更新方法适用于数据量大且不具有短时波动的仿真参数建模，对于单次更新样本量小或者具有一定时间波动特性的数据，基于机器学习预测进行仿真参数建模的方法更受学者青睐[27]。储志强[28]提出基于混沌差分进化支持向量机的高拱坝施工仿真参数实时更新方法。肖尧等[29]提出了一种基于自适应混沌差分进化支持向量机的仿真参数预测模型，用于更新引水隧洞施工仿真参数。张君等[30]提出基于粒子群优化多层感知机的气温时间序列预测方法，用于建立考虑高寒低温影响的高堆石坝施工仿真参数。Wang等[31]提出了一种基于增强现实(AR)技术和卷积神经网络视觉检测的缆机运输循环时间检测方法，为拱坝仿真参数建模提供了一种新的途径。Lü等[32]提出了一种改进XGBoost 方法车速预测模型，用于建模土石坝施工仿真参数。部分研究通过各种类传感器实时感知的数据建立施工机械活动识别模型，进而基于活动识别结果建立精细的仿真参数。Akhavian和Behzadan[33]使用移动智能手机传感器采集的施工机械运动学数据和机器学习方法建立了一个施工机械活动识别模型用于仿真输入建模，此外，还建立了一个基于可穿戴传感器与人类活动识别结果的数据驱动施工仿真模型[19，34]。Nath和Shrestha等[35]结合移动智能传感器和支持向量机建立了一个人类活动识别模型用于提高施工仿真模型的准确性。上述研究证明施工机械/人员的活动识别研究可以提供更精细的施工仿真参数，适用于以机械/人员为主体的精细化施工仿真建模。除了运动学数据以外，声学和视觉数据也常被用于机械活动识别研究[36]。

然而，现有施工仿真研究多依据单一感知模态数据来建立仿真参数，容易导致仿真参数建模鲁棒性和准确性不足的问题。例如，运动学传感器的精度可能难以满足新型施工机械驾驶舱不同振动状态识别的需求，某些类型的工程机械在操作过程中不会产生明显的声音模式导致基于声学的活动识别精度不高等。采用多模态感知数据进行施工活动识别可以很大程度上提高活动识别结果的可靠性和准确性。已有少数基于多模态数据的施工机械活动识别方法被提出[37-38]。但是，仍然存在以下局限性：一方面多模态数据的采集过程存在一定的滞后性，难以适应仿真参数建模的实时性需求；另一方面，现有的活动识别模型需要复杂的手动特征工程，耗时费力且可能引入一定的偏差，限制了识别结果的精度。深度学习方法可以自动提取时间序列特征，不仅有助于提高活动识别的分类精度，而且使得模型具有更高的普适性，因此在活动识别领域获得了广泛的关注。其中，深度卷积循环记忆网络方法(DeepConvLSTM)在基于运动学数据的活动识别获得了成功应用[39-40]。但是，由于运动学数据量庞大，DeepConvLSTM在运动学数据训练中存在收敛速度慢，容易发生梯度爆炸等不足。

针对上述问题，本研究提出了多模态感知驱动下高堆石坝施工仿真参数集成深度学习模型。首先，在SpringBoot框架下开发了基于移动智能手机传感器的运动模态和声音模态数据实时采集云平台，并采用低通滤波器和梅尔频谱等方法实现堆石坝施工机械多模态数据的实时采集与预处理；其次，提出了堆石坝施工机械活动状态识别集成深度学习模型，该模型能够自动提取多模态特征，克服了现有多模态方法通过手动提取特征带来的信息缺失问题，同时，该模型集成了改进深度卷积长短期记忆循环神经网络(Improved DeepConvLSTM，IDeepConvLSTM)精确感知施工机械运动方向以及深度卷积神经网络(Deep Convolutional Neural Network，DCNN)从声音模态中感知施工机械振动状态的优势，可以实现机械精细活动状态的准确识别；其中，IDeepConvLSTM在卷积层中间加入批量归一化层以提高收敛速度，在卷积特征提取层与LSTM分类层中间加入dropout层防止过拟合，且采用梯度缩放和剪裁来避免梯度爆炸的问题。最后，采用大窗口移动过滤器在线处理机械活动识别结果，消除机械活动识别误分类带来的噪声误差，在云平台中实现堆石坝施工仿真参数的实时建模。

2 多模态感知驱动下高堆石坝施工仿真参数集成深度学习模型

2.1 多模态数据实时采集与预处理多模态数据的采集和处理过程存在一定的滞后性，难以适应仿真参数建模的实时性需求。本节研发了基于移动智能手机传感器的多模态数据实时采集云平台，然后基于手机处理器和云服务器实时处理采集的运动学和声学数据，为施工仿真参数实时建模提供数据驱动。

2.1.1 运动模态和声音模态数据实时采集随着堆石坝施工智能化建设的发展，坝面智能碾压监控系统能够实现对仓面施工质量、施工机械和施工环境的智能感知，可以为高堆石坝施工仿真提供相应的感知参数[41]，但是仍存在以下问题：(1)未能实现对现场施工声音模态的监测；(2)现有部分监测设备成本较高且安装过程复杂，维护困难；(3)缺少多模态数据的集成采集、处理、分析挖掘与管理平台。针对上述问题，本研究在SpringBoot框架下开发了基于移动智能手机传感器的运动模态和声音模态数据实时采集云平台，平台部署如图1所示。

图1 基于移动智能手机传感器的多模态数据实时采集云平台部署

首先，开发了一个用于调用手机内置传感器的多模态数据采集APP，通过访问并注册监听Android 设备中的内置传感器，可实时获取手机的三轴加速度、三轴角速度和声音信号等多模态数据，再通过SpringBoot框架与云平台实时通讯，并通过Redis临时缓存和MySQL的永久存储的联合数据库部署保障多模态数据传输的实时性与可靠性，为后续机械活动状态识别和仓面施工仿真参数的实时提取提供数据服务。其次，结合现有高堆石坝施工质量与进度监控云平台开发了机械层级多模态感知与仿真模块，用于实现多模态数据实时分析处理、机械活动状态实时感知和仿真参数实时建模功能，具体平台界面与功能实现将在第3节工程实例中详细介绍。

基于图1部署的多模态数据采集手机客户端-云平台体系，获得用于机械活动识别的运动学模态数据和声学模态数据，其中运动信号采用开发的APP调用手机内置集成惯性测量单元(Inertial Measurement Unit，IMU)获得，共包含加速度数据(Ax，Ay，Az)和角速度数据(Gx，Gy，Gz)6个时间序列；声音信号通过调用手机麦克风采集施工环境声音，生成音频数字信号序列。此外，APP中可以手动录入机械编号、仓面信息等以在数据库中匹配机械与多模态数据。

2.1.2 多模态数据预处理移动智能手机采集的多模态数据中可能会包含一些异常噪声或缺失值对后续的活动状态分类训练造成影响，需要对其进行相应地处理；此外，运动模态数据加速度坐标系与手机布设位置有关，为了消除手机布设角度的影响，需要对其中的重力加速度影响进行消除。因此，多模态数据的预处理包含重力影响消除、异常值消除、缺失值处理三部分内容，其中异常值消除和缺失值处理采用常用的移动窗口方法和指数加权移动平均值(EWMA)方法[37]，重力影响消除是针对运动模态数据中的加速度数据做的特殊处理，对其介绍如下。

重力影响消除处理仅适用于加速度传感器，目的在于消除三轴加速度中的重力分量。由于重力加速度相比于机械运动产生的三轴加速度的频率较小且差距明显，所以采用低通滤波器分离出重力加速度分量，然后在原始三轴加速度信号中减去重力分量。其计算过程如下式所示：

g(t)=(1-α)g(t-1)+αr(t)

(1)

a(t)=r(t)-g(t)

(2)

式(1)表示通过一阶低通滤波获取重力加速度分量g(t)的过程，r(t)为采集的原始数据，a(t)为消除重力加速度分量后的三轴加速度。α为滤波系数，根据r(t)的采样时间间隔Ts和低通滤波截止频率fc计算：

(3)

根据文献[42]，建议使用0.1到0.5 Hz的截止频率来消除数据中的重力分量，原始加速度采样频率为100 Hz，则α取值为0.03。重力影响消除的部分数据处理如图2所示。

图2 重力影响消除前后数据对比

2.1.3 声音数据梅尔谱图特征提取从音频文件中读取的原始语音信号通常为一维的时域信号，即声波。声波很难直观描述频率的变化规律，在声音的分类识别研究中，通常通过短时傅里叶变换将声波转换为声谱图，梅尔频谱图(Mel spectrogram)是最常用的音频识别特征提取方式之一[43]，可以提供具有类似于人类感知的声音信息。为了充分提取声学信息，本文采用梅尔频谱图分别提取原始声音信号以及其一阶导数特征，梅尔频谱图采样参数设置如表1所示。本研究采用的手机麦克风原始采样频率为48 000 Hz，为了提高数据的处理速度，降低噪声的影响，首先将初始数据下采样至频率24 000 Hz。

根据表1，本研究使用了大小为1024的窗口，相邻窗之间的距离hop_length设置为512，相邻窗之间有50%的重叠，梅尔频带的数量设置为60，一个梅尔频带代表一个频率间隔，人类听觉认为一个频带的音高相同。使用以上参数可以获得60行×2列的单位梅尔频谱图。为了充分获取声音信号的信息，对于声音信号的一阶导数进行相同的梅尔频谱特征提取操作，可以获得60×2×2的双通道输入。

表1 梅尔频谱图采样参数设置

2.2 多模态机械活动识别集成深度学习模型研究证明准确的机械活动识别可以为精细化施工仿真模型提供活动时间参数，然而现有的多模态活动识别方法需要复杂的手动特征工程，耗时费力且可能引入一定偏差，不适用于实时仿真参数建模。针对上述问题，本节提出一个多模态集成深度学习模型对2.1节采集的多模态数据进行学习，识别机械随时间变化的活动状态，为活动时间参数建模提供关键结果。所提出的多模态集成深度学习模型构架如图3所示，由三个模块构成：(1)基于IDeepConvLSTM的运动模态学习模块；(2)基于DCNN的声音模态学习模块；(3)集成模块。

图3 多模态集成深度学习模型架构图

2.2.1 基于IDeepConvLSTM的运动模态学习模块该模块使用改进的DeepConvLSTM学习2.1节采集处理后的运动学信号，进而实现基于运动模态数据的堆石坝仓面施工碾压机械活动识别。DeepConvLSTM是由Francisco和Daniel[39]于2016年提出的一个用于人类活动识别的深度学习框架，该框架由4层卷积层、2层循环层和1层softmax函数组成。卷积层的作用是自动提取特征，将运动学数据抽象建模为特征图。循环层的作用是学习特征图中的时间相关特征。该模型已被验证在人类活动识别研究中表现良好。但是由于用于训练的运动学数据集数据量庞大，DeepConvLSTM模型存在收敛速度慢，容易梯度爆炸等问题，因此，本文提出了IDeepConvLSTM，在每个卷积层之间插入了批量归一化层以加速收敛，且卷积层和循环层中间加入了dropout层以防止过拟合，具体说明如下。

卷积层是一种有效的特征提取器，通过在数据上滑动卷积核(也称滤波器)与覆盖数据做卷积计算来提取特征。本研究使用一维卷积运算提取运动学数据特征图，其计算表达式如下[39]：

(4)

训练深度神经网络的复杂性在于每一层输入的分布在训练过程中会随着前一次的参数变化而变化，如果网络的激活输出很大，其梯度就很小，使得模型的学习率减小，训练速度降低，甚至可能导致梯度爆炸的问题。针对以上问题，本研究在每一层卷积中间加入批量归一化层(Batch Normalization，BN)以提高模型的训练速度。BN是由Google于2015年提出的加速神经网络训练的方法[44]，它通过求每一个训练批次数据的均值、方差对该批次训练数据做归一化，使其服从0-1分布，然后通过尺度变换和偏移以保证模型的训练精度。本研究中在每个卷积层中间加入BN层，对每个特征图做批量归一化处理，使得深度学习网络可以用饱和非线性函数进行训练，从而可以接受较大的学习率以提高训练效率。

四层卷积提取特征后，特征信息将被传递到LSTM细胞单元。LSTM是递归神经网络的变体，主要组成包括遗忘门、输入门和输出门，输入门可以短暂储存时序信息，使其在时间序列学习中表现出较强的优势，LSTM单元的结构如图4所示，t时刻的输入数据Xt通过底部传输到模块中，t-1时刻的输出数据ht-1从左边传输进模块，两部分数据先经过遗忘门，以决定忘记一些不重要的信息，之后和上一时刻的核心细胞的输出C′t一起传输给t时刻的核心记忆细胞；两部分数据再经过输入门将新信息传输给核心记忆细胞，最后经过输出门以决定输出信息，和核心细胞传出的数据相结合，得到最终的输出ht用于传输到下一个LSTM模块。相关传输和更新计算过程如式(5)—(10)所示。

图4 LSTM单元结构图

ft=σ(Wf·[ht-1，Xt]+bf)

(5)

it=σ(Wi·[ht-1，Xt]+bi)

(6)

C′t=tanh(WC·[ht-1，Xt]+bC)

(7)

Ct=ft*Ct-1+it*C′t

(8)

ot=σ(Wo·[ht-1，Xt]+bo)

(9)

ht=ot*tanh(Ct)

(10)

式中：Wf、Wi、WC和Wo分别为遗忘门、输入门、核心细胞单元和输出门的权重矩阵；bf、bi、bC和bo分别为遗忘门、输入门、核心细胞单元和输出门的偏置向量；ft、it、Ct和ot分别为t时刻遗忘门、输入门、核心细胞单元和输出门的输出状态，C′t为新数据输入的细胞状态；tanh和σ分别为tanh激活函数和sigmoid激活函数。最后，设置一个softmax函数用于输出机械活动识别分类概率。

2.2.2 基于深度卷积神经网络的声音模态学习模块该模块使用DCNN模型实现基于声音模态数据的堆石坝仓面施工碾压机械活动识别，模型输入为2.1节采集的声音信号生成的梅尔频谱图。研究采用了Maccagno等[45]于2021年提出的用于施工场景音频分类的8层DCNN结构。该模型包含一个60×2×2的张量输入层，五个卷积层用于特征提取，一个Flatten层将卷积获得的特征图一维化，一个具有200个神经元的全连接层用于分类学习和一个用于获得分类概率的Softmax函数。所采用的DCNN每一层的参数设置如表2所示。除了使用 Softmax 函数的输出层外，所有层都使用 ReLu 激活函数。此外，在全连接层中使用了 30% 的 dropout 策略以防止过拟合。

表2 采用的DCNN结构参数

2.2.3 集成模块该模块采用上下文加权平均分类(CWAC) 模型集成2.2.1节提出的运动学模态机械状态识别结果和2.2.2节提出的声音模态机械状态识别结果以获得最优的堆石坝仓面施工碾压机械状态识别结果。首先，由于运动学训练集和声学训练集的采样频率不同，需要对其识别结果进行预测尺度的归一化，运动学样本活动识别预测时间间隔为0.01 s，声学数据样本活动预测时间间隔为0.03 s，需要对每三个运动学活动识别预测结果进行合并，此处采用窗口大小为3，移动步长为3的小窗口过滤(SWF)方法实现运动学识别标签的重构，重构识别概率为窗口内3个样本点预测结果的加权平均。处理后的声学标签和运动学标签时间间隔均为0.03 s。CWAC 模型接收来自每个运动和声音模态感知模块的中间预测结果，这些预测结果由特定时间范围内每个活动类别的概率(即置信度)组成，如图3所示。获得中间预测结果后，每个向量的置信度分数将根据上下文权重进行加权平均，从而得到融合的分类概率向量Pf，如式(11)所示；然后将融合的分类概率向量Pf输入到argmax函数层，以最终确定设备活动的类别，如式(12)所示：

Pf=wk·Pk+wa·Pa

(11)

cf=argmax(Pf)

(12)

式中：Pf，Pk和Pa是一维向量，分别为基于混合模态集成、运动模态和声音模态感知模块的作业状态类别的置信度分数；wk和wa为运动信号和声音信号感知之间的上下文权重；cf为功能集成模块预测的设备活动类别。wk和wa的大小需要满足式(13)—(15)，由专家依据项目现场情况给定。

wk+wa=1

(13)

0≤wk≤1

(14)

0≤wa≤1

(15)

在本研究中，运动模态和声音模态的上下文权重分别设置为 0.8 和 0.2，这种权重设置在第3节工程应用实验验证中表现优良。

2.3 碾压仿真参数时长实时更新在活动识别和分类之后，基于活动识别时间序列结果提取活动持续时间用于模拟输入建模。因为预测生成的活动状态标签存在一定的噪声波动(即由于误分类产生的个别时间点活动状态与该时间段内的主要活动状态不同)，对仿真参数活动时长的提取造成一定的影响，所以需要采用大窗口移动过滤器对预测标签进行平滑处理，具体处理如下：当满足式(16)时，令Labeli=Labeli-1

(16)

式中：Labeli为第i个时刻对应的预测标签；NumW为移动窗口长度，通过交叉验证设置为100，NumLabeli等于窗口内识别为Labeli的时刻点数量，因此满足公式(16)表示，对于持续时间不超过0.03 s的且在移动窗口中比率ratio低于界限ratioc的噪声进行消除，在这里ratioc大小设置为0.1。

对平滑后的活动类别Labeli持续时间使用下式计算：

T=0.03NLabeli

(17)

式中：T为活动类别为Labeli的持续时间，s；NLabeli为连续预测为Labeli的时刻点数量。

3 工程实例

以两河口大型高堆石坝工程为研究对象，开展多模态感知驱动下高堆石坝施工仿真参数更新集成深度学习模型研究。基于2.1节开发的基于移动智能手机传感器的多模态数据实时采集云平台界面如图5所示。在堆石坝施工过程中，碾压环节是仓面施工的关键环节，直接影响堆石坝施工进度和质量，碾压机械是仓面填筑施工过程的主要机械。下面以堆石坝仓面施工碾压机械为例说明本研究提出的数据采集与预处理、机械活动识别与碾压仿真参数实时更新的实现效果。

图5 基于移动智能手机的多模态感知与实时仿真云平台

3.1 多模态数据实时采集与预处理根据2.1.1节开发的基于移动智能手机传感器的多模态数据实时采集云平台，所采用的手机中内置传感器型号和参数指标如表3所示。

表3 手机内置传感器型号和参数指标

本研究以在高堆石坝仓面施工环节碾压机施工过程中安装手机传感器并采集的大约1 h的运动学数据和声学数据为例验证所提出的模型的应用效果。为了保证机械活动标签的准确性，去除了某些状态模糊的数据，经异常值处理和缺失值补全后，运动学数据维度为202 500×6，声学数据维度为97 200 000×1，从48 000 Hz下采样至24 000 Hz后，声学数据维度降为44 651 250×1，训练集由其中包含前169 500×6运动学数据和37 374 750×1声学数据的连续样本组成，验证集由剩余样本组成，6绘制了在数据采集时间内碾压机的真实活动标签，碾压机活动标签共分为“静止”“静碾前进”“静碾后退”“低振前进”“低振后退”“高振前进”和“高振后退”7种活动状态，其中紫色区域为验证集。活动标签由实验人员在实验过程中手动记录，辅助视频录像验证以确保标签的准确性。图7展示了数据预处理后的运动学和声学训练集与测试集。

图6 真实活动标签

图7 预处理后的数据集

3.2 机械活动状态分类识别结果声学模块为深度卷积神经网络选择的优化器和运动学模块为IDeepconvLSTM选择的优化器均为Adam优化器，Adam 是标准随机梯度下降优化算法的一种变体，它根据运行平均值和最近梯度的运行方差来调整学习率以加速收敛[46]，初始学习率均设置为0.001。声音模块选取30 ms的时间帧作为输入，batchsize设置为64，最大epoch设置为100，损失目标函数设置为交叉熵；运动学模块batchsize大小设置为256，最大epoch设置为100，由于LSTM梯度的累积在数百个输入时间步长上展开，因此训练期间较大的权重更新会导致数值上溢或下溢，通常称为梯度爆炸(gradients exploding)。为了避免此问题，采用梯度缩放和梯度剪裁来更改误差的导数，最大梯度阈值设置为1.0，最大梯度范数设置为1.0。模型的训练过程所采用的计算机CPU型号信息为Intel(R) Core(TM) i7-9700 CPU@ 3.00 GHz，运行内存为16.0 GB。运动学和声学深度学习模型训练迭代曲线如图8所示，基于声音的活动分类识别模型在训练数据上的表现和在验证数据上的表现基本一致，最终训练精度分别为67.51%和66.24%，基于运动学的模型在训练集上的训练精度为85.61%，略优于在测试集上的训练精度81.35%，但是整体精度较高，证明所采用的模型的泛化性能良好。

图8 运动学与声学模型训练曲线

集成运动学和声学的多模态集成机械活动状态识别结果如图9所示，其中黑色粗线表示机械活动状态的真实值，蓝色细线表示集成模型的预测值，紫色区域为划分的测试集，总体看来预测值与真实值的结果基本一致，表4给出了集成模型在测试集上的模型性能评估结果。

图9 分类结果

表4 模型分类性能评估结果

以能考虑模型精确度及召回率的综合指标F1值为例，模型对于7种不同分类F1值分别为 0.9997、0.9702、0.9555、0.9513、0.8137、0.5716及0.8205，总体加权F1值为0.9139，此外各分类识别的加权平均精确率及召回率分别为0.9309及0.9080。交并比是常用于语义分割的标准度量，计算所有类别交集和并集之比的平均值，所以交并比一定小于精确率、召回率和F1值。根据图10可知由于前进低振的测试集数据数量较少，所以在测试集上的精确率和交并比较低，但是通过召回率指标可以看出，前进低振的正确识别率相对前进低振样本总数来说正确率为0.8071，由于后续提取时间仿真参数时采用大窗口过滤器对预测结果进行平滑处理，较好的召回率也能保证仿真参数的准确建模，因此综合考虑各类别分类结果，模型的分类效果综合性能良好。

图10 大窗口平滑处理前后的标签对比

3.3 仿真参数实时更新云平台采用大窗口平滑处理后的标签和平滑处理前标签对比如图10(a)所示，图中绿色线为平滑处理前的机械活动预测标签，蓝色线为平滑处理后的机械活动预测标签，可以看出平滑处理消除了持续时间短于0.3 s的误分类识别噪声，可以获取更准确的仿真参数。根据平滑处理后的标签统计不同类别的机械活动持续时间与真实值进行对比，如图10(b)所示，可以看出基于平滑处理后获取的仿真活动持续时间参数与真实值基本一致，证明了所提出方法的准确性。所提出的模型分类结果经平滑处理后被嵌入高堆石坝质量与进度智能监控系统模块，用于机械活动状态的实时监测和仓面施工实时仿真参数建模，系统界面效果如图11和图12所示。图11为多模态数据管理与基于多模态数据的仿真活动时长参数计算界面，图12为基于多模态数据的机械活动状态监测界面。

图11 多模态数据集成管理界面

图12 机械实时作业状态识别界面

3.4 对比分析与讨论该模块为了验证所开发的方法，本研究基于同一组数据集对比了基于运动学的机械活动分类、基于声学的机械活动分类和基于混合模态的机械活动分类。混淆矩阵分类结果如图13—15所示，并根据其分别统计了精细活动状态分类(7种类别，如4.2节所述)、振动状态分类(4种类别：高振、低振、静碾、静止)和行进状态分类(3种类别：前进、后退、静止)的分类准确率，如表5所示。总体来看，无论是对于单一模态还是多模态方法，活动类别细节层次越高(划分种类越多)，识别结果准确率越差。

图13 行进状态分类混淆矩阵

表5 不同层级分类准确率

此外，不同模态的数据在不同分类方案中的表现各有优劣。声学数据在识别机械振动状态时准确率更高(达到了90.41%)，然而在识别机械前进后退活动时准确率较差(71.84%)，所以在7种类别分类中分类效果较差，准确率仅为66.55%，这是符合实际情况的，主要是由于碾压机在不同振动状态时的噪声状态存在较大区别，但是在同一振动状态下的前进后退两种类别中区别较小。与之相反的是，运动学数据在识别机械行进状态时表现更优，准确率高达96.84%，然而在振动状态分类识别中表现略逊一筹，识别准确率为83.44%，在7种类别分类中的识别准确率优于声学数据，但是仍然不够理想，识别准确率为80.95%。多模态方法集成了声学数据和运动学数据的优势，相比于声学或运动学单一模态，在精细活动状态分类时表现最好，准确率分别提高了23.62%和9.22%。

图14 振动状态分类混淆矩阵

图15 精细活动状态分类混淆矩阵

图13—15的混淆矩阵结果进一步地验证了上述内容。在7种类别分类效果中，基于运动学、声学以及多模态的识别方法在识别静止状态时均表现优良；对于基于声学的分类结果，前进静碾状态与后退静碾状态、前进高振状态与后退高振状态、前进低振状态与后退高振状态是三组容易混淆的分类，说明声学模态在识别碾压机前进和后退方面存在一定劣势；对于基于运动学的分类结果，前进状态和后退状态区分错误率极低，分类错误主要存在于高振、低振与静碾三种状态中。多模态活动识别方法则集成了上述两种模态的优势，表现出更优的分类效果。

4 结论

施工仿真参数建模的准确性和实时性决定着施工仿真模型与实际工程的一致性。针对现有高堆石坝施工仿真参数建模主要依靠单一模态数据建立动态概率分布或者时序预测模型，准确性和实时性不足的问题，提出了多模态感知驱动下高堆石坝施工仿真参数集成深度学习模型，并依托实际工程进行了验证，取得如下成果：

(1)基于SpringBoot框架开发了基于移动智能手机传感器的多模态数据实时采集云平台，实现堆石坝施工机械的运动学数据和声学数据的实时采集与管理，并采用低通滤波器和梅尔频谱等方法对采集的多模态数据进行预处理；(2)构建了多模态感知驱动的堆石坝施工机械活动状态识别深度学习模型，该模型集成了IDeepConvLSTM通过运动学模态数据精确感知机械运动方向和DCNN从声学模态数据中准确识别机械振动状态的优势，能够自动提取多模态数据特征，避免了手动提取特征带来的信息偏差和时间滞后，进而提高了机械精细活动状态识别的精度和实时性；(3)采用大窗口移动过滤器在线处理机械活动识别结果，依托开发的云平台实现了堆石坝碾压施工仿真参数的实时建模；(4)依托两河口高心墙堆石坝建设过程验证了所提模型的实时性和准确性，基于移动智能手机传感器的多模态数据实时采集云平台可以实现多模态数据的采集、预处理、机械活动识别和仿真参数实时建模。对比研究表明，相比于声学或运动学单一模态的机械活动识别方法，本研究所提方法的识别精度分别提高了23.62%和9.22%。

本文研究成果为实现高堆石坝施工实时仿真提供了新的感知技术手段，推进了堆石坝施工仿真的智能化发展，尤其是对满足施工仿真全面透彻感知需求具有显著的工程意义；同时，本研究可以推广应用于其它水电建设施工机械活动实时监测与仿真参数建模，具有一定普适性。此外，为了进一步提高本研究在实际生产中的应用效果，未来计划在此研究基础上自主研发耗电量小、防水放尘的专用集成移动智能传感器，并通过大坝智能碾压监控系统布设的驾驶舱内部配电箱供电或者太阳能供电，以实现长时、高精度、抗干扰等工业化应用目标。