基于改进Faster R-CNN的石化装置火灾增强识别方法*

2023-07-06 10:31陈新果

安全、健康和环境 2023年6期

陈新果

(中石化安全工程研究院有限公司化学品安全控制国家重点实验室,山东青岛 266104)

0 前言

石化装置生产过程高温高压,所涉介质易燃易爆,具有较高的火灾、燃爆风险。近年来石化行业火灾爆炸事故时有发生,且随着生产装置运行年限的增长,设备设施腐蚀老化所带来的介质泄漏、检维修动火作业频率逐渐增加,使得石化装置发生泄漏、火灾、爆炸的风险显著升高,给从业人员及附近居民的生命财产安全带来了较大威胁[1-2]。

目前,石化企业主要依靠外操巡检、内操监盘的模式监控装置生产运行状态,此类方式受到人员能力、精神状态、时间空间限制等多方面影响,难以保证第一时间发现异常和事故征兆,易导致错失事故初期应急处置的关键时间窗口,造成事故扩大。随着计算机视觉技术发展与企业监控硬件设备升级,基于图像识别的视频监控技术已成为事故监测的一种有效方式,但仍存在着识别准确率较低、误报率较高等问题,尤其是部分摄像头监控范围较大,导致特征识别目标过小,难以有效检出。

本文结合实际应用需求,综合考虑计算速度、识别准确率、硬件要求等多个要素,对多类图像识别算法进行了应用对比,优选了算法基准网络、锚框尺寸,利用基于递归策略的多尺度特征融合设计提升了算法对小微目标的识别能力,建立了基于深度学习的石化火灾特征目标图像识别方法,依托工业监控的自动化信息报警系统,可以为企业提供更加可靠和快速的事故关键信息反馈,为石化企业安全生产监测、事故预防及初期应急处置提供支撑。

1 研究进展

在计算机视觉领域,通过先验知识设计出更加高效的人工识别特征是一种有效手段,常用的图像特征包括:颜色特征、纹理特征、形状特征、空间关系特征等。Bohush,等[3]提出根据颜色特征对彩色火焰图像进行分割,并采用灰度共生矩阵获取火焰的纹理特征;刘恺,等[4]利用 YUV 颜色模型获取疑似烟雾区域,提取到有关特征后利用 AdaBoost 级联分类器完成烟雾检测。柴茜,等[5]针对单一的隐马尔科夫模型在图像型火灾探测中识别误报率偏高的问题,提出了隐马尔科夫模型和支持向量机相结合的图像型火焰识别算法。除此以外,一些学者将目标的多帧动态特征检测耦合到图像特征识别中,从而获得了更高的识别准确率[6-8]。

以上检测方法具有高实时性、计算成本较低的优点,可应用于设备性能有限的监控场景,但此类方法抗干扰性能不佳, 识别准确率受人工特征设计的影响较大,且对复杂背景适应性差。近年来,以卷积神经网络为基础发展出了多种高效的图像识别方法,卷积特征如图1所示,主要包括以R-CNN系列为代表的基于区域建议的检测网络和以YOLO系列为代表的基于回归的检测网络。

图1 卷积特征可视化

其中,回归类算法检测速度快,对全局信息提取方面有较好的表现,如YOLOv1-v7[9,10],SSD等,但该类算法在小微目标检测上表现相对较差[11]。洪洋[12]提出了一种基于Yolo-v5的森林野火识别与检测的总体框架与具体流程,实验结果表明在火焰形态无规则变化的情况下,该算法检测效果具有明显优势。赵媛媛,等[13]采用了改进的 Yolo-v3算法完成了火焰的实时检测,实时性良好,但误检率仍然较高。

区域建议类算法准确性高,检测速度相对较慢,如Faster R-CNN、Mask R-CNN、Casecade R-CNN及HTC等。Hou,等[14]采用 Faster R-CNN进行火灾检测,其精度较好但实时性较弱,难以应用在边缘设备上。回天,等[15]利用改进的Faster R-CNN算法分别训练各火焰类别的探测器并将其并联,在面对复杂背景和形态多样的火焰图像时依然保证较好的检测精度。因石化装置重点区域实时监控视频普遍已接入中控/外操室高性能服务器,目标识别的准确率和召回率将作为算法性能的主要衡量指标,因此本文选取Faster R-CNN作为网络框架进行研究和改进。

2 网络设计

Faster R-CNN是一种经典的二阶段目标检测算法,由骨干特征提取网络,区域建议网络和检测子网络(Fast R-CNN)3部分组成。其基本结构及本文主要改进如图2所示。骨干特征提取网络利用卷积层提取特征图,分别输入到区域建议网络和检测子网络中,本研究优选ResNet-50作为特征提取网络,同时,采用递归特征金字塔网络对不同尺度特征进行融合,增强网络提取特征的深度及鲁棒性;区域建议网络通过 Softmax 分类和边界框回归选择建议框并对正负样本进行采样,使用 Softmax 计算样本与真实框的分类损失,使用 Smooth L1计算边界框回归损失,其中锚框尺寸基于K-means++算法进行了聚类分析与优化;在 Fast R-CNN 部分,区域建议网络产生的建议框按比例映射到特征图中,经过 RoI pooling 层固定到特定尺寸,通过 Softmax 分类和边界框回归得到最终的感兴趣区域(Region of Interest, RoI),最后利用已经获得的候选框特征图,通过全连接层和 Softmax 计算候选框内目标分类,并再次对目标检测框位置进行微调。

算法的损失函数遵循multi-task loss定义,在训练阶段所采用的损失函数L均可表示为公式(1)。Lcls为分类损失函数;Lreg为位置回归损失函数。

(1)

式中:Ncls——第一个最小批次所用的样本总数,取值为256;

Nreg——预测标定框的个数;

pi——预测类别的概率;

ti——预测目标的位置;

λ——权重平衡系数,λ取10。

2.1 特征提取网络

深度学习网络随着网络深度的增加会面临梯度爆炸和梯度消失问题,造成网络性能的退化,为解决该问题,He, 等[16]提出了基于残差结构的ResNet,通过添加捷径连接(shortcut connections)的方式,由卷积残差块(Conv Block)和恒等残差块(Identity Block)两种结构组成,如图3所示。该结构使网络在前向传播时,输入信号可以从任意低层直接传播到高层,建立了天然的恒等映射,一定程度可以解决网络退化的问题;反向传播时,错误信号可不经过任何中间权重矩阵变换直接传播到底层,一定程度上缓解了梯度弥散问题,即残差连接可以使得信息的前后向传播更加顺畅。

图3 恒等残差块(左)与卷积残差块(右)结构

其中,恒等残差块的输入与输出维度一致,用于直接连接网络层。

y=x+F(x,W)

(2)

卷积残差块的输入和输出维度不同,不能将网络层直接连接,用于改变特征量的维度。

y=h(x)+F(x,W)

(3)

式中:x——输入;

y——输出;

h(x)——通过1×1 的卷积操作对x进行维度的改变;

F——残差结构处理;

W——参数的权重。

选用ResNet-50作为特征提取骨干网络,该网络共分为5个stage(阶段),Stage 0可以视其为对输入的预处理,由一个7×7,步距为2的卷积+BN+RELU,加上3×3最大值池化,步长为2的池化层构成。后4个Stage都由Bottleneck组成,结构较为相似,Stage 1～4 分别包括3,4,6,3个Bottleneck,具体结构如图4所示。

图4 ResNet-50网络结构

2.2 锚框尺寸优化

锚框是区域候选网络重要的目标定位,对于小目标识别问题,可以通过提高锚框的适应性来提高检测精度和速度[17,18],选用K-means++算法对数据集中明火、烟雾的尺寸特征进行了聚类分析,基于分析结果优化了锚框设置。相比于K-means聚类方法,其通过概率分析优化初始聚类中心选择方法,使算法具有了较好的鲁棒性[9]。其中,度量对象的相似性定义为距离的倒数,以欧氏距离d作为度量距离,以降低簇内误差平方和(SSE)为优化目标,如式(4)所示:

(4)

式中:x,y——样本向量;

m——向量维度;

n——簇的数目;

Ci——第i个簇的数据集合;

μ(i)——簇Ci的中心点向量。

数据集中明火烟雾形状尺寸不规则,测试了不同聚类中心数量的聚类效果,仍选择模型默认数量9个聚类中心,如图5所示。以明火为例,通过20次聚类分析,取得平均聚类结果为:{(101,122),(237,158),(352,198),(48,285),(350,375),(678,142) ,(256,52),(137,189),(68,532)}。

图5 基于K-means++的火焰聚类测试结果

实验结果表明,聚类分析得到的锚框不仅能更好地适应不同明火、烟雾的特征,同时在一定程度上减少了人工设计不合理对检测结果造成的影响。

2.3 多尺度特征融合结构

石化火灾爆炸事故往往是由于事故初期的局部泄漏或燃爆所致[19],此时的明火和烟雾目标较小,在监控视频中往往难以及时察觉,造成事故细节遗漏,延误事故发现时机,严重影响初期应急响应与处置速度。由于CNN的卷积和池化操作不可避免地会导致感受野的降低,这也直接影响了原始的Faster R-CNN模型对小目标对象的识别效果,漏检问题较为严重[20]。

为解决特征语义表达与位置信息表达间存在的固有矛盾,往往可以将特征提取网络部分优化为特征金字塔结构(FPN),使特征图包含的信息更加全面,从而提高小微目标的识别能力。该网络结构包括自底向上、自顶向下和横向连接3条线路,如图6所示。其中自顶向下的线路通过1×1的卷积操作与上采样,然后通过3×3的卷积消除横向连接后由多维特征不连续产生的混叠效应,从而得到新的特征图。

图6 FPN网络结构

FPN网络的输出特征fi由式(5)定义,FPN网络会输出一组特征图{fi|i=1,…,S},其中S是阶段数,ResNet-50网络中S=4。

fi=Fi(fi+1,xi),xi=Bi(xi-1)

(5)

式中:xi——第i个阶段的特征图;

Bi——第i个阶段的基准网络特征提取;

Fi——第i个特征融合操作。

本文设计了一种基于FPN的多尺度特征融合方法,采用递归策略强化特征属性提取能力,将高层语义实现了优于FPN的目标识别效果。通过利用多尺度融合后的特征叠加于对应尺度的初始特征图,即将FPN网络结构中用于预测的特征图与自底向上过程中对应尺度的初始特征图部分叠加,形成新的图像增强特征,RFPN网络结构如图7所示,该叠加过程理论上可执行多次。

图7 RFPN网络架构

实验结果表明,该方法可以有效增强目标特征提取能力,提高算法识别性能,但迭代次数对模型收敛难度影响较大,网络设计时需根据目标复杂度综合判断,新的网络输出特征如式(6)所示,t为经过测试,本文数据集当t=2时效果最优。

(6)

式中:t——迭代次数,从1到n的正整数。

3 实验结果分析

实验基于TensorFlow深度学习框架进行,选用单块NVIDIA RTX-2080Ti显卡和Intel(R)Core I9-9900X CPU作为硬件平台。本文采用Bilkent、UNISA、CVPR Lab等高校、实验室发布的火焰烟雾数据集,因石化火灾火焰、烟雾特性受燃烧物料性质、装置区布局等影响,与森林火灾、建筑物火灾等存在一定差异,为更好地识别石化装置火灾特征,提高石化火灾事故场景下火焰、烟雾识别准确率,自主收集了石化装置典型火灾事故图像417幅,图像利用LabelImg软件进行标注,通过添加旋转、缩放及高斯噪声等方式进行数据增强,如图8所示,实验数据集共计2 623幅,按照8∶1的比例分配训练集与测试集。

在火灾目标检测任务中,通常使用准确率、召回率(检出率)和误报率对网络性能进行评价,其中准确率AP代表所有预测结果中正确的比例见式(7)。

(7)

式中:TP——正确预测的正样本数量;

TN——正确预测的负样本数量;

FP——错误预测的正样本数量;

FN——错误预测的负样本数量。

mAP表示所有类标签的平均准确率,训练类别包括明火和烟雾。mAP(s)表示所有类标签中小目标的平均识别准确率,目标大小分类基于COCO数据集的划分标准进行了微调。

召回率R代表正确预测的正样本比例,即召回率越高,漏报的可能性越小,见式(8)。

(8)

误报率FAR代表错误预测的正样本比例,见式(9)。

(9)

为更好地横向比较各类算法性能,分别对5种主流目标检测算法进行了识别准确率和召回率分析,其中传统算法模型的构建基于明火和烟雾的颜色(RGB+HIS)、纹理(LBP)等特征,采用SVM分类器进行目标识别,单阶段算法选取了具有代表性的Yolov3及SSD512,两阶段算法选取了Faster R-CNN及R-FCN。在IoU>0.6时不同识别算法性能对比见表1及图9。

表1 不同识别算法性能对比 %

图9 不同算法火焰识别效果

由实验测试结果可知,基于深度学习的算法,端到端的单阶段检测算法实时性虽然优于两阶段的R-CNN系列算法,但准确性不足,尤其是在小微目标识别准确率方面,本文提出的改进方法带来了性能提升,mAP(s)达到了81.2%,有利于快速识别石化初期火灾的小微目标特征物,为事故初期应急处置赢得宝贵时间。

将算法基准网络、多尺度特征融合方法、锚框设定方式等模块进行消融分析,识别目标大小分类结合火焰、烟雾特性对COCO数据集的划分标准进行了微调,实验结果如表2所示。

表2 消融分析 %

平均检测精度AUPR为P-R曲线围起来的面积,不同检测类别的平均检测精度可以用来评估模型对该类别的检测性能,如图10所示,在 IoU >0.6阈值下,本文改进算法明火检测AUPR≈0.98。

图10 不同模型的PR曲线

(10)

4 总结与展望

本文通过改进,搭建了明火烟雾测试集,并对真实的石化火灾爆炸事故监控视频进行了测试,对基础的 Faster R-CNN算法框架提出了3个方面的改进。首先采用了基于残差结构的ResNet-50替换了模型原有VGG-16基准网络,有效增强了模型的特征提取能力;然后,利用K-Means++算法对本文数据集中明火烟雾的尺寸特征进行了聚类分析,改进了锚框的生成模式;最后,采取递归循环策略对金字塔FPN网络进行了优化,增强了特征融合与提取深度,显著提高了算法对小目标的识别能力。实验结果证明,本文改进算法针对石化装置明火、烟雾识别的平均准确率(mAP) 可以达到 92.8%,相对于原始的Faster R-CNN算法提高了11.0%,小目标平均识别准确率(mAP(s))提高了19.7%。有助于更好地对视频、图像中的小微特征目标进行监检测。在未来工作中,一方面要继续优化算法网络架构提升检测精度,同时可以通过剪枝或使用轻量化特征提取网络等方式进一步降低计算量,提高算法的计算效率。