基于LSTM-FC的瓦斯浓度时空分布预测

2020-08-19 10:42程子均马六章张翼翔

计算机工程与应用 2020年16期

程子均，马六章，张翼翔

中国矿业大学（北京）机电与信息工程学院，北京 100083

1 引言

瓦斯灾害是威胁煤矿生产安全的重大问题，为降低瓦斯灾害发生的概率，做到提前预防，瓦斯浓度预测一直是众多学者和专家研究的重要课题。

瓦斯浓度的变化具有时变性、非线性和高复杂度等特点，很多学者、工程师采用灰色理论、混沌时间理论、支持向量机、人工神经网络等方法进行了大量的预测研究。其中，胥良等人提出遗传算法优化灰色神经网络预测瓦斯浓度[1]；张剑英等人提出了基于支持向量机的瓦斯浓度预测[2-3]；吴兆法等人提出了基于插值梯形模糊信息粒化的瓦斯预测方法[4]；赵爱荣、刘奕君等人分别提出了基于小波分析和遗传算法优化的BP神经网络的瓦斯浓度预测方法[5-6]；耿越提出基于混沌粒子群神经网络的瓦斯浓度预测[7]。这些非线性预测方法考虑了影响瓦斯浓度的多种环境因素，忽略瓦斯浓度变化的时间特性。而瓦斯时间序列预测方法只考虑瓦斯浓度序列的时间特性，忽略了瓦斯浓度变化的空间关联性。然而根据气体分子运动理论，瓦斯的运移和分布与时间、空间密切相关，分别独立处理会造成部分先验知识的丢失[8]，影响瓦斯的预测效果。

本文研究采用深度学习理论建立一种瓦斯浓度的时空分布预测模型。将LSTM（Long Short Time Memory）的记忆细胞结构和全连接神经网络自适应能力巧妙地结合，通过预测不同位置瓦斯浓度变化，构建整体的瓦斯分布，探索一种瓦斯时空分布预测的新方法。

2 瓦斯浓度序列时空性理论分析

时空序列是指在一定时间和空间范围内，按照设定的时间间隔在空间中固定的某些位置采集的相互关联的一组数据[9]。此类数据是对现实世界的抽象描述，包含了时间与空间两种属性，具有非线性、海量、多尺度、高纬度、动态等特征，同时间序列相比，时间序列所具有的特征属性并不一定适用于时空序列[10]。

研究时空数据的性质是时空序列分析与建模的前提条件，与独立的时间数据或空间数据不同，时空数据具有两个重要性质：时空相关性与时空平稳性[9]。时空相关性是指在特定的时间内，空间单元的状态不仅影响它将来的状态，而且在同一时间内还影响其他相关空间单元的状态。时空平稳性是指时空序列数据的统计特征不会随着时间的演变和空间位置的变化而发生变化[11]。瓦斯序列虽然是时空序列，具有时空相关性，但是却不具有时空平稳性。事实上，大多数的时空序列都不具有时空平稳性。而传统时空模型STARMA（Spatial-Temporal Auto Regressive and Moving Average）是以时空序列具有时空稳定性这一假设为前提进行模型的预测，随着科技的发展，尤其是大数据与机器学习的快速崛起，逐渐被新的方法所替代。

工作面的瓦斯主要来源于煤壁、落煤以及采空区涌入。瓦斯的运动主要分为两种形式：其一，从通风系统进入的空气与瓦斯气体之间存在浓度和温度的差异，根据菲克定律瓦斯气体会发生扩散运动；其二，巷道中的瓦斯气体会随风向运动。因此，对瓦斯运移规律做如下分析：

设巷道中的瓦斯气体由一个个体积单元组成，任选取一个体积单元，边长分别为dx、dy、dz，为便于分析，将模型简化为一维流动，仅对x方向运移进行分析，设dy=dz=1，结构如图1所示。

在任意Δt时间内，进入单元中的瓦斯含量是扩散量与随风移动量的总和，即：

同理，在任意Δt时间内，离开单元中的瓦斯量如下所示：

图1 瓦斯浓度运移扩散示意图

其次，瓦斯含量在单元体积内还会发生一定量的衰减，在Δt时间内瓦斯衰减量为：

其中，ΔQin表示进入单元的瓦斯量，ΔQout表示流出单元的瓦斯量，ΔQc表示瓦斯衰减量，Dm表示单元分子的扩散系数，C表示单元体积内的瓦斯浓度，u表示气体平均流速，p表示衰减速率，为常数。

因此，总的瓦斯含量可表示为：

对等式两边同时求导，进一步简化得：

显然，工作面瓦斯浓度是一个关于时间t与空间位置x的函数，说明瓦斯浓度的变化与时间和空间都存在相应的联系，即瓦斯浓度序列具有时空相关性。

3 LSTM-FC模型的建立

3.1 基于LSTM的瓦斯浓度时间序列预测

LSTM是近几年发展火热的一种深度学习方法，以其优秀的记忆功能著称，并且很好地解决了训练过程中梯度消失与梯度爆炸的问题[12-13]，常用于时间序列数据的预测。具体模型结构如图2所示。

LSTM 网络结构由输入门、遗忘门、输出门以及记忆细胞构成，通过激活函数控制三个不同门的闭合状态执行保存、添加或删除信息的功能，从而更新细胞状态来达到长时间存储信息解决时间序列在时间上的依赖性[14-16]。具体算法如下：

图2 LSTM结构图

其中，Wf、Wi、Wc、Wo分别表示遗忘门、输入门、输出门、细胞状态的权重状态；bf、bi、bc、bo为各个门的偏置矢量；σ表示激活函数，通常采用Sigmoid激活函数。

本文将瓦斯浓度数据序列作为LSTM网络的输入，通过分析和实验，取LSTM网络的层数为2，隐含层神经元个数为10。由于时间步长表示模型利用瓦斯历史数据的长度，体现瓦斯数据的时间关联性，不同的时间步长会影响预测效果。为寻找合适的时间步长，本文选择步长分别为10、20、50、100进行了模型训练，结果如图3所示。

图3 不同时间步长下的损失函数曲线

实验结果表明，在时间步长接近时，损失函数曲线也较为接近，并且随着时间步长的增加，误差曲线的下降速度也有所加快。但是当时间步长过长时，不仅曲线的下降速率变慢，模型的预测误差也随之增加，表明时间步长的选择并不是越长越好。造成这一现象的原因是时间步长太长时，输入的数据序列过长，在训练过程中非常容易受到冗余数据的影响，使得模型泛化能力降低，误差增加，易出现过拟合现象。此外，随着时间步长的增加，模型的训练时间也会大幅度增加。因此，选择合适的时间步长，是提高预测精度同时缩短训练时间的一个关键问题。

选择LSTM网络只能实现时间的一维预测，对于具有时空特性的瓦斯数据并不是最好的选择，因此需要寻找能够描述瓦斯空间特性的方法——全连接神经网络。

3.2 基于全连接神经网络的空间分布预测

实际上，空气流动和浓度扩散使得空间一点的瓦斯浓度与其周围空间瓦斯浓度密切相关，选用以下函数描述：

其中，n表示预测位置的瓦斯浓度，pi点浓度设为ni，pi=(xi,yi,zi)是空间点的位置坐标，N=(n1,n2,…,nl)，X=(p1,p2,…,pl)。由于瓦斯浓度空间位置间存在高度复杂的非线性函数关系，难以通过数学理论公式等推导出具体的函数表达式。同时映射网络存在（Kolmogorov）定理证明三层神经网络可以实现输入到输出之间的所有映射关系，能够拟合任意非线性函数，并且具有很好的自适应能力[17]。因此，建立一个三层的全连接神经网络来拟合瓦斯数据在空间上的非线性分布，如图4所示。

图4 三层全连接神经网络

该神经网络的数学表达式如下：

其中，输入神经元个数由工作面环境瓦斯检测点的个数确定，输出表示工作面的预测瓦斯浓度。wij、wj、bj、b分别表示输入层与隐含层，隐含层与输出层的权值变量和偏置量，将由训练数据来确定。

3.3 瓦斯浓度时空分布预测模型

瓦斯浓度时空分布预测模型由两部分组成，前半部分为基于时间序列的LSTM预测，后半部分为基于空间关联性的全连接网络预测[18]。

工作面监测点的瓦斯浓度变化与该环境中瓦斯浓度的分布有直接关系。本文中，输入瓦斯浓度数据序列如下：

——工作面瓦斯浓度（中心输入）；

——上隅角瓦斯瓦斯（辅助输入）；

图5 LSTM-FC模型

2.5.1 细胞形态观察。空白对照组处理的黑素瘤细胞形态有梭形、多角形等，细胞饱满，数量多(图5A)；和空白对照组相比，空白纳米乳作用48 h后黑素瘤细胞的形态变化不大，有梭形、多角形，但细胞密度有所减少(图5B)；党参总皂苷水溶液组的黑素瘤细胞数量减少，细胞变圆皱缩，某些细胞出现空泡样结构(图5C)；和党参总皂苷水溶液相比，党参总皂苷纳米乳作用48 h后，贴壁细胞数量明显减少，大量细胞变圆，并且出现大空泡样结构，甚至细胞膜发生破裂，培养液可见细胞碎片(图5D)。

本文中采用Adam优化器进行训练，通过权值匹配自动挖掘瓦斯数据数据的空间关联性，最后输出工作面瓦斯浓度的预测值。

3.4 瓦斯时空分布场的构建

利用邻接瓦斯监测站点之间的时空关系，通过LSTM-FC 模型对各站点未来的瓦斯浓度值进行预测，通过对具有潜在规律性的瓦斯数据进行时空建模可以有效提升瓦斯监测系统的使用价值[19]。也正是这种规律性的存在，利用已有监测点的瓦斯数据值对未建立监测点位置的瓦斯浓度进行插值，从而构建瓦斯分布场。

然而，通过已有监测点得到的瓦斯预测数据为什么不能直接进行瓦斯场的构建，原因是已有监测点的位置分布本就较为稀疏，未建立监测点位置处的瓦斯浓度无法获取真实值，直接构建瓦斯分布场，忽略了各监测点间空白位置的瓦斯数据的内在关系，容易造成较大的误差。因此，可以采用样条插值法对瓦斯分布场进行重建[20]。瓦斯分布图如图6所示，纵轴表示瓦斯浓度，底部表示工作面位置平面。

建立瓦斯分布图有以下几种用途：

（1）对历史数据建立瓦斯场可以对过去瓦斯的运移过程进行反演[8]，寻找易发生瓦斯泄漏和瓦斯聚集的位置，观察瓦斯历史扩散规律；

图6 瓦斯空间分布图

（2）对实时监测的数据建立瓦斯场可以直观地观察到当前的瓦斯分布规律；

4 预测实验与比较分析

4.1 数据预处理

瓦斯浓度数据来自某煤矿工作面2018年6—8月的瓦斯实时监测数据。煤矿环境复杂，传感器受到干扰或出现故障等原因，瓦斯数据会出现缺失值、异常值的情况。异常值一般指明显偏离正常值的瓦斯数据，往往是在某一时刻瓦斯数据出现骤增随后又马上恢复正常的现象，通常通过以下公式进行判断，并且需要将这一时刻的数值弃之不用。

其中，x(t)为瓦斯数据，μ和σ分别为瓦斯数据的均值和方差。确认为异常值之后，采用三次样条插值法得到新的数值代替异常值。

缺失值往往是由于传感器或传输线路故障，如断电等出现的数据空白。当一组数据出现缺失值较多的情况，这组数据都要舍弃不用。若缺失值不多，则确定计算插值需要的原始瓦斯序列个数和需要插入的缺失值个数，然后通过三次样条插值法补全数据[21]。

4.2 模型参数设置

瓦斯数据平均采集间隔为每5 min 1 次，3 个月数据共25 623条数据。将每个月数据的前70%作为训练集，其余部分作为测试集。将瓦斯数据按时间序列分别顺延1 个、6 个、12 个时刻作为训练标签，即分别预测5 min、30 min、60 min之后的瓦斯浓度。

对于预测模型的检验，采用平均绝对误差（Mean Absolute Error，MAE）和均方根误差（Root Mean Square Error，RMSE）作为评价指标[9]。MAE和RMSE的结果均表示样本的离散程度，二者的差值越大，表示预测效果越差。公式如下：

式中，y^i表示第i个预测值，yi表示第i个真实值，n表示预测点数。

4.3 预测结果分析

本文建立的瓦斯浓度时空预测模型，在tensorflow1.0（GPU版本）环境下编程实现，对瓦斯浓度进行预测。模型训练的学习率初始值为0.01，随训练轮数的增加呈指数衰减，训练轮数为1 000次，采用均方误差函数描绘损失函数下降曲线。

为更好地体现LSTM-FC 模型的预测效果，本文将该模型与BP 模型、LSTM 模型以及时空自相关平均移动模型（STARMA）进行对比。前两种模型仅限于时间序列的预测，STARMA 模型是时空序列预测模型。不同模型的损失函数下降曲线如图7所示。

通过四种模型的损失函数曲线的对比，BP 模型的预测效果最差，LSTM 模型效果次之，STARMA 模型和LSTM-FC 模型较好。结果表明，相比于瓦斯浓度时间序列的预测模型，瓦斯时空序列预测模型具有更加突出的优势。这正是因为之前提到过的时空预测模型弥补了瓦斯数据本身具有的空间特性，补充了瓦斯数据在空间上的信息，使得预测误差要小于时间序列预测模型。

本文选用的STARMA模型是时空序列预测中出现最早最成熟的时空模型预测方法。因此，将STARMA模型与本文的LSTM-FC模型进行对比。二者均为时空模型，不同的是使用STARMA 模型是基于平稳时空序列进行建模的，对于非平稳的瓦斯时空序列需要经过差分方程转换成平稳时空序列。其次STARMA模型在建模过程中需要有空间权矩阵、模式识别中的阶数、参数估计等复杂计算[9，19，21]，而本文提出的 LSTM-FC 模型结构简单便于构建，无须大量复杂计算，同时训练误差最小，精度较高，更适于瓦斯浓度时空序列的预测研究。

预测时长和精度能够体现预测模型效果，为研究瓦斯数据的长时间预测，分别对比了预测时间为5 min、30 min、60 min 时，LSTM-FC 模型和 LSTM 模型的预测效果。实验结果如图8所示，各评价指标见表1、表2。

图8 上下两部分分别表示LSTM-FC 模型和LSTM模型的瓦斯浓度实际值与预测值的对比，从左到右预测时间依次为5 min、30 min、60 min。通过六幅预测结果图的对比，做短时预测时，LSTM模型和LSTM-FC模型对瓦斯的预测曲线与真实曲线都非常接近，曲线拟合度很高。但是随着预测时长的增加，LSTM-FC 模型体现出了更好的稳定性。这是因为瓦斯数据本身具有的空间关联性，在LSTM 模型的瓦斯浓度时间序列预测中，对这部分先验知识的缺失一定程度上导致了预测的时间延迟随之增加。LSTM-FC模型却能通过全连接神经网络挖掘瓦斯数据的空间关联性，一定程度上弥补了时间上的延迟，达到更好的预测效果。

图7 不同模型的损失函数曲线

表1 LSTM模型与LSTM-FC模型评价指标

表2 四种模型时间对比

表1 统计了两种模型在不同预测时间下的平均绝对误差和均方根误差，相同预测时长下，LSTM-FC模型的误差始终低于LSTM模型。随预测时长的增加，两种模型的误差均在逐渐增加，显然LSTM-FC 模型的误差增加得更为缓慢，精度更高，预测效果更好。

但是，模型的复杂度越高，相应的训练时间就越长，相应的参数就越多，如表2，记录了四种模型每训练1 000次，模型所需要的时间。通过对比，采用LSTM-FC模型预测在增加预测时长和预测精度的同时，需要付出不少的训练时间，通过多次调整训练参数，多次训练以达到更好的预测效果，这无疑需要花费很长的时间和精力。

5 讨论

瓦斯预测的最终目的是为了煤矿安全生产与工作人员的生命安全，尽可能做到提前预防，减少事故的发生或降低事故发生造成的损失。因此，本文从时下热门的机器学习与深度学习入手，结合瓦斯数据的时空特性，利用长短期记忆与全连接神经网络构造了时空预测模型，从以下几方面进行了讨论。

5.1 效率

本文从两方面评价预测模型的效率：其一，预测结果的准确性；其二，预测模型的训练时间。这两方面往往是相对而言，实验结果的准确性最能说明预测模型的好坏程度，但是如果准确性很高训练时间极为漫长，会带来时间上的浪费，效率低下；相反，训练时间很短，预测结果却达不到理想要求，这样的模型效果较差，也不适用。因此，对于模型效率往往需要从这两方面进行对比。

从4.3节LSTM-FC模型的预测结果分析中来看，四种模型的对比，本文选用的模型误差最低，准确性高。其次，综合对比四种模型的训练时间，LSTM-FC模型所用的时间虽然相对较长，但牺牲一定的训练时间换取更高的准确性，是有价值的。因此，本文探讨的LSTM-FC时空模型具有更高的效率。

图8 预测结果对比图

5.2 特点

LSTM-FC瓦斯时空分布预测模型具有以下两个特点：

（1）将瓦斯数据进行时空分离，无须构造时空神经网络模型中的时间延迟算子和空间延迟算子，减少了大量的复杂计算。

（2）只需使用工作面周边的瓦斯数据，减少了数据的冗余，避免造成过拟合现象，同时降低了计算机的负担，减少训练时间。

5.3 模型的扩展与局限

瓦斯浓度的变化影响是多方面的，时空特性是瓦斯浓度变化最本质的特性，但在煤矿开采过程中，工作面的温度、湿度、一氧化碳含量、二氧化碳含量、风速等多种因素同时也随时间和空间位置的改变影响着瓦斯浓度的变化，本文并没有考虑这些因素的影响效果，这也正是LSTM-FC 模型的局限之一，当然也是模型可以进行扩展的方面。因此，可以选取影响瓦斯浓度变化的几个主要因素作为影响因子添加到LSTM-FC 模型中，对模型做一定的扩展与改进，相信能进一步提高模型的预测精度。

6 结束语

针对瓦斯浓度的时空相关特性，本文利用深度学习理论建立了一种新的以LSTM 网络和全连接神经网络为基础的瓦斯浓度时空分布预测模型。实验表明，该模型能实现更长时间更精确的预测，改善了瓦斯浓度时间序列预测所带来的延迟性问题，提高了预测精度和稳定性，对预防瓦斯灾害的发生提供了方法应用。