李文涛,韩 豫,2,杨 林,李 康
(1.江苏大学 土木工程与力学学院,江苏 镇江 212013;2.江苏大学 应急管理学院,江苏 镇江 212013)
随着我国建筑业规模不断扩大,施工现场所涉及的人员及机械种类日益繁多。同时,由于建筑施工特有的“空间交叉性”,同一空间内可能存在多任务并行推进的情况。致使现场施工要素排布混乱影响效率进度,甚至于诱发诸如机械摩擦、人机碰撞等空间冲突事故[1],造成经济损失的同时对人员安全也带来巨大隐患[2]。
目前,针对空间冲突事故的常规监管手段大多依靠人工,受监管人员主观性干扰及视线盲区等因素影响,无法对场景内各空间危险源及影响对象实现全面有效的管理。为填补上述短板,相关研究从不同技术路径进行了探索。例如,通过4D仿真技术量化空间资源指标,对施工现场空间冲突科学分析,并优化场地资源配置方案[3-5]。射频识别(RFID)、全球定位系统(GPS)和超宽带(UWB)等传感技术也被用于实现工程场景目标空间信息感知,从而降低空间安全事故比例[6-8]。但受限于技术使用成本及工况随机性等,空间安全问题依旧无法彻底解决。
与此同时,人工智能及计算机视觉相关技术的迭代升级,为我们提供1种从视觉层面提取并分析空间尺度信息,从而解决施工空间安全问题的可能性。例如,结合图像双目视差及目标检测结果,获取图像三维坐标信息,以实现目标的双目定位与监测[9];1种基于Faster R-CNN框架的空间监控方法被用来对电网设施周边工程车辆进行识别定位,以降低设施损伤概率[10]。另有学者结合目标检测及坐标变换,对人员进入吊车危险区域行为进行监测并及时做出预警,以降低有关事故发生概率[11]。
研究发现:“人-物-环-管”多因素共同构成险兆事件致因链条[12]。而现有方法却将施工空间冲突问题局限于单一的“距离”指标,对上述几类险兆要素在空间类事故中的影响缺乏深入理解。针对现有施工空间安全评估手段的短板及实际使用场景需求,本文以土方作业场景为例,对施工空间冲突险兆特征展开研究。考虑事故险兆要素的特性,提出1种综合性检测方法,对不同状态下的人员、设备进行差异区分,并通过图像矫正及变换手段获得图像目标在现实场景中的空间信息。最终依托多类空间险兆特征信息实现更为科学的空间监管,进一步提升建筑业生产效率及施工安全系数。
以土方作业场景为例,对空间冲突相关事故案例分析,发现事故主要原因分为2点:1)安全装备缺失的人员侵入处于工作中的工程机械作业范围;2)机械设备作业空间重叠。结合险兆致因链对该场景空间冲突事故险兆特征展开讨论,其特征体现为工人安全装备缺失、机械设备活动作业、各施工对象间过近的空间距离。基于此,本文将人员装备特征、设备运动状态、空间距离同步纳入空间安全评价指标中,实现更全面的空间安全监管,方案整体设计如图1所示。
图1 方案整体设计流程Fig.1 Overall design process of scheme
目标检测作为整个险兆特征识别任务的基础,其目的在于及时发现空间冲突事故的潜在危险对象。根据任务需求,对相关检测算法进行比选优化。
1)基础算法选择
由于施工现场情况复杂多变,各施工要素流动性大,空间排布相对局促。检测设备与支撑算法需综合考虑目标动态差异特征及检测空间视角等问题。经比选,以YOLOv7作为目标检测基础算法。
YOLOv7算法由主干特征提取网络(BackBone)、特征融合网络(FPN)以及预测端部(Yolo Head)组成。相较于早期YOLO版本创新性地在特征提取部分融入多分支堆叠模块,其内部残差块使用条约连接缓解增加神经网络带来的梯度消失问题;同时引入过渡模块Transition_Block,使用Maxpooling和步长为2×2的特征并行进行下采样[13]。
2)算法优化改进
算法优化的核心思想是保证网络检测准确率的前提下实现模型轻量化,并降低轻量化对小目标特征信息感知能力带来的影响。将主干特征提取网络替换为MobileOne[14],在深度可分离卷积及重参数化over-parameterization分支体系下减少参数量的同时优化模型缩放策略,实现模型轻量化。同时,在特征融合网络中加入SPD-Conv卷积构建块,其中SPD层在保留通道维度信息的情况下对特征映射进行下采样,避免信息丢失;并在层后添加无步长卷积,以配置可学习参数以降低通道数,减少细粒度信息丢失以及学习特征不足造成的细小目标漏检。比例因子为2时SPD-Conv示意图如图2所示。最后在检测头嵌入SimAM无参数注意力机制,抑制检测图像中复杂环境背景对人员安全装备目标的次要干扰因素,在不增加额外参数的前提下保证算法检测精度。改进后的YOLOv7网络结构如图3所示。
施工场景空间冲突事故大多发生于各施工要素并行作业阶段,其中静止状态下的施工要素无法构成事故致因链中的有效一环。鉴于此,将机械设备运动状态定义为空间险兆特征并进行识别。
运动目标检测主要通过图像分割手段,在连续图像序列中提取运动目标特征,寻找序列差异。常规方法如连续帧间差分法、光流法等,对图像中目标前景与背景像素灰度、相机位置变化有一定要求,且处理过程相对复杂,不适用于本文任务。
而在检测过程中,目标经过锚框与人工标注真实框的误差计量与补偿,将最终输出目标预测框(predication box)[15],并以文本形式输出像素坐标结果。基于此,本文提出1种能够有效利用视觉检测信息,实现目标运动状态快速、有效识别的方法。方法主要依托对视频流检测过程中输出的预测框角点坐标数组,进行误差优化得到目标权重点帧间差值实现判别。具体判别方法如图4所示。
图4 预测框运动属性判别方法示意Fig.4 Schematic diagram for identification method of prediction frame motion attribute
检测过程获取目标预测框角点坐标数组(XLα,YLα)、(XRα,YRα),得到其预测框中心点Hα,如式(1)所示:
(1)
式中:α为平均间隔时间,s,α=1~n。
为降低由图像延迟或掉帧等引起预测框误差,对所得中心点再次聚类取值,获得修正后的加权中心点Mβ,如式(2)所示:
(2)
式中:Mβ为Hα与Hα+1的加权中心点,β=1~n-1。
设定相邻加权中心点差异阈值Δd,如公式(3)所示,以此对机械运动状态进行识别。
(3)
式中:Δd为相邻加权中心点差异阈值,dpi(像素单位);静止状态0≦Δd≦10;运动状态Δd>10。
平面图像由于视角差可能发生畸变失真,无法准确获取深度空间信息。本文提出1种方法,通过靶标对图像进行矫正,将真实世界空间信息降维,依托二维平面图像比例关系实现对检测对象空间距离的测算。不同于常规视觉测距方法强调对图像第三维度深度信息进行仿真与还原,该方法直接通过现实空间信息已知的目标,建立图像与现实空间的单应性转换关系,从而直接获取施工场景内各施工要素平面空间距离信息,更加适用于本研究任务。
1.3.1 图像矫正(透视变换)原理
透视变换的本质即将原图像通过投影的手段,将其映射至新的承影平面上,遵循透视中心、像点、目标点三点共线原则,经变换后,原图像与承影仍能维持“直线性”[16],通用变换公式如式(4)所示。
(4)
1.3.2 目标空间定位方法描述
图像采集过程中,于场景内挖掘机车顶设置二维码靶标,借助其角点进行图像校准,摆脱二维图像测距对深度信息的依赖。以此,通过视觉手段实现挖掘机环境距离险兆特征的提取。步骤如下:
1)对输入的图像进行边缘提取。图像噪声可能导致相邻像素间发生离散,使用高斯滤波器对图像进行卷积获得像素梯度,并通过矩阵保持像素间相似性并去除噪声。采取非极大抑制排除低特征边缘点,在滞后阈值再次筛选下提取二值边缘图像。
2)利用所得边缘图像,通过RANSAC算法[17]对直线拟合确定二维靶标外缘轮廓线。从图像提取一组随机样本点,拟合出两点连线对应方程,并对该直线外缘两侧设定门限记录门限正负区间内的内点容积量,迭代4×102循环得出4组门限内点最多的方程,各方程间的同解即为图像转换靶标角点。
3)通过标靶四角点像素坐标,将靶标尺寸及像素信息映射在预设二维平面坐标体系下,该平面空间信息对应现实空间;由二维码靶标在原始轮廓图像中的角点像素坐标(U1-4,V1-4)以及矫正二维平面坐标体系中的角点坐标(X1-4,Y1-4)构建坐标变换单应性矩阵,实现原始图像矫正,变换公式如式(5)所示:
(5)
联立式(4),可推导如式(6)所示:
(6)
4)对矫正后的二维图像进行现实距离比例换算,比例系数K,如式(7)所示:
(7)
式中:QRdistance为二维码靶标边长实际尺寸,mm;real(Row[2]-Row[1])为二维码靶标边长像素尺寸,dpi(像素单位)。
5)由目标检测部分输出目标识别框中心点之间的像素距离L0,乘以比例系数K,得到目标间的真实空间距离D,如式(8)所示:
(8)
式中:(Xp,Yp)为人员及卡车检测框中心坐标;(XT,YT)为施工机械检测框中心坐标。
1)检测类别划分
首先明确场景内施工要素,包括人员、挖掘机、渣土装载卡车。将挖掘机外部整体以及核心主体这两类互为包含关系的目标拆分,分别应用于运动状态属性判别及空间定位方法。其次考虑现场工种繁杂及安全施工评价的必要性,对人员安全装备特征进行更细致地分类,施工要素检测类别如表1所示。
表1 施工要素检测类别Table 1 Detection categories of construction elements
2)图像采集与标注
本文采用无人机实地采集、仿真机械模型拍摄以及网络检索3类渠道获取符合检测需求的7 587张样本图像。使用labelimg标注工具对图像目标进行标注,生成XML标注文件以构建PASCAL VOC数据集。训练前,对输入图像使用Mosaic数据增强的方式,进一步提升鲁棒性。
1)训练结果验证
模型训练过程考虑训练平台性能设置批训练大小为4,迭代世代(epoch)为150,input图像尺寸为[640,640],初始学习率为0.001,权重衰减参数为0.000 5,并按9∶1比例划分训练集与验证集。同时采用早停法监测训练集损失值以防止训练结果过拟合。使用合并分支重参数化预训练权重进行迁移学习,训练过程平均精度及损失曲线如图5所示。
图5 平均精度及损失值变化曲线Fig.5 Curves of average accuracy and loss change
2)评价指标
本文选用每秒识别图像数量(FPS)、精确率(Precision)、召回率(Recall)以及平均精度mAP(正负样本阈值取0.5),对识别速率及精度进行评估。计算公式如式(9)~(10)所示:
(9)
(10)
(11)
式中:TP表示将正类预测为正类数,即准确预测;FP表示将负类预测为正类,即错误预测;FN表示将正类预测为负类,即错误预测。
算法性能对比如表2所示,可知相较于原始YOLOv7网络的“多分支堆叠+Transition_Block过渡”的主干结构,使用MobileOne替换后的算法在处理速度上有显著提高,精确度小幅波动而召回率受影响较大发生不同程度地降低,可见主干轻量化提高了误检率。在融入SPD-Conv卷积及SimAM无参注意力机制后,相较于Yolov7虽然在mAP精度小幅下降2.79个百分点,但检测速度大幅提升50%,有效保证检测视频的流畅度,降低运动状态判别的误差概率。其次,强化了网络全局处理效率,确保复杂施工场景中对多个空间安全险兆目标的同步识别。最后,对各险兆目标更快速地识别为及时阻断空间安全风险提供宝贵的窗口期,从而实现施工空间安全的有效监管。
表2 算法性能比对Table 2 Comparison of algorithm performance
为评估该方法在实际工程场景的有效性,选择某土方作业施工现场作为实地测试场景,于目标挖掘机驾驶舱顶部固定1 m×1 m二维标定码,以无人机升至规定高度进行大角度俯拍对目标进行视频采集。将获得视频信息以每30帧截取1张图像数据,并进一步对图像进行筛选同时划分不同要素测试集。目标检测测试结果通过各标签类别AP值以及预测框运动状态判别准确率判断,目标测距测试结果通过实际距离与测算误差百分比作为评价指标。
测试按照施工要素繁简程度划分为单一少目标场景与复杂多目标场景,并在每类场景下选取多个施工场地分别进行验证。其中,单一少目标场景一包含1部挖掘机和1位工人,场景内挖掘机处于相对静止状态;场景二包含1部挖掘机及1辆渣土装载卡车,挖掘机处于正常运作中(包含运动、静止状态)。复杂多目标场景三与场景四涵盖土方作业完整要素。按上述步骤从4个分场景各选取连续300张图像输入模型进行检测并人工复核各类AP值。通过预测框加权差值识别法判别机械目标运动属性,连续的3张图像组成判别对照组,各分场景共获得400组。经复核,反馈数据信息如表3~4所示。图6为单一场景目标检测示意,图7为复杂场景目标检测示意。
表3 单一目标检测精度及属性判别准确率Table 3 Single target detection accuracy and attribute discrimination accuracy
表4 复杂目标检测精度及属性判别准确率Table 4 Complex target detection accuracy and attribute discrimination accuracy
图6 单一场景目标检测示意Fig.6 Example diagram of single scene target detection
图7 复杂场景目标检测示意Fig.7 Example diagram of complex scene target detection
针对测距精度的关键评价指标即测算距离与实际空间距离之间的误差评估。依托trackit蓝牙定位软件,将蓝牙信标布置于检测对象,以此作为实际距离对照的替代方案,精度符合测试需求。为充分验证测距方法在本文研究中的准确性,在4个场景中共选取21个目标样本展开测距验证,结果及误差对比如表5所示。测距效果示意图如图8所示。
表5 目标测距结果及误差对比Table 5 Target distance measurement results and error comparison
基于以上结果,挖掘机、卡车、人员这3类目标达到较高识别精度,而场景中安全装备特征的识别表现并未达到预期。经分析,原因主要为此类样本尺寸过小,通过加入SPD-Conv卷积块虽相对缓解了轻量化结构对检测精度的负面影响,但图像感知能力仍有缺陷。同时,在复杂目标场景中,由于物体遮挡及目标重叠等原因,易出现“漏检”现象。基于以上问题,在后续方法的优化过程中,首先可在改进算法基础上进一步对主干网络额外加入小目标检测层,作为提升细小特征检测精度的尝试;其次进一步扩充数据样本,以提高检测方法鲁棒性。
1)本文以目标检测算法及图像透视变换技术为基础支撑,实现施工场景内的危险目标检测、运动属性判别及空间距离3类险兆特征识别。并以土方作业为例,通过训练及评估,验证方法的有效性。
2)本文提出的目标检测算法对事故险兆目标识别精度达到95.0%,检测速度提升至46.3 FPS,达到同级别较优水平。同时对目标运动属性的判别精度达91%以上,满足实际应用需求。对“距离”这一事故早期征兆,其精度保持在了92%~96%区间,相较于传统人工目视估计,更为精准有效;而对比其他距离估计算法又更为便捷,有助于实际部署。
3)在后续研究中,可依据相关安全规范制定空间安全管控规则,将识别结果映射于规则中并细化危险评级,有助于对潜在空间冲突危险进行识别预警与前摄干预。未来,通过对目标类别进一步增容及相关场景的优化训练,此套方法可由土方施工场景迁移至多行业领域,提高方法应用多样性。