曾腾, 任露露,3, 王宇杰, 王朋, 黄海宁
(1.中国科学院 先进水下信息技术重点实验室, 北京 100190;2.中国科学院 声学研究所, 北京 100190;3.中国科学院大学, 北京 100049)
水下成像声呐对水下环境认知具有重要的作用,除对水下环境进行成图外,还能对水下目标实现检测、跟踪等[1]。三维成像声呐相比于二维成像声呐信息更加丰富,但是由于水下环境的特殊性,声呐图像的分辨率较低、容易出现信息缺失等问题,为三维成像声呐的目标检测与跟踪带来了巨大挑战。
对于水下二维目标的检测,国内外主要围绕基于形状的检测算法进行研究。声学成像由于受水深和光照的影响不大,需要利用灰度特征[2]和几何特征来实现水下环境的目标检测。基于图像的运动目标检测技术主要有帧差法、背景消减法和光流法[3-4]。帧差法是对前后两帧间的像素进行逐个对比来突出目标的位置和形状变化状态,但在目标运动缓慢的情况下无法较好地检测到目标[5]。背景消减法将背景信息作为目标提取的参考,原理与帧差法类似,适用于水下环境和发射声强较为稳定的情况。光流法利用运动场来区分背景和目标,根据像素点的速度矢量特征能够实现对图像的动态分析[6-7],在水下这种信噪比低、遮挡等情况下并不适用。
对于水下二维目标的跟踪方法,主要有基于滤波理论的跟踪方法、基于MeanShift的跟踪方法和基于偏微分方程的跟踪方法[8]。基于滤波理论的方法利用数学统计方法来挖掘信号估计值,常见的有卡尔曼滤波方法、扩展卡尔曼滤波方法和粒子滤波方法。基于MeanShift的方法利用目标特征和空间信息相结合的方式来描述目标,但其对噪声非常敏感,不适用于水声图像。基于偏微分方程的方法主要进行轮廓跟踪,一般分为基于边缘的模型和基于区域的模型两类轮廓模型,其中Li等提出的基于LBF(Local Binary Fitting)的水平集方法模型[9],利用图像在局部区域的信息,使用核函数的局部边缘适应能量,获取精确的局部图像信息,从而实现强度不均的目标提取。
三维成像声呐获取的图像主要显示形态为三维点云,其主要特征表现为高稀疏性、不规则性以及缺乏纹理属性。三维目标检测在光学和雷达领域取得了显著的进展,相比于二维目标检测,三维目标检测利用几何、形状和比例等信息来检测目标。在光学和雷达领域,根据输入数据的形态,三维目标检测方法可以分为基于单目/立体图像、基于点云和基于多模态融合的方法[10]。其中基于单目/立体图像的方法中,通常采用基于模板匹配的方法、基于几何特性的方法和基于图像的伪激光雷达方法。但对于水下三维成像声呐的目标检测和跟踪处于刚刚起步的阶段,研究成果较少。水下环境相比水上存在太多不确定的干扰因素,水下成像声呐分辨能力也远远达不到光学成像系统的精度,同时三维声呐目标的稀疏性也与其他成熟系统图像有着本质区别[11],因此无法将雷达、光电图像处理算法直接应用到三维声呐图像处理中。
本文通过三维成像声呐图像的特性和二维、三维映射关系,在传统的背景差分检测方法和匹配滤波跟踪方法基础上,提出一种基于组合特征的水下三维目标检测跟踪算法。该算法对三维声呐获取的成像数据,首先经过滤波和分割预处理,并将目标的强度信息和距离信息映射到二维图像上。在此基础上,对多帧图像进行累积获取背景图像,利用二维水平集核函数的思想,通过背景消减的方式得到目标核函数,并通过联合目标的几何特征进行模板匹配跟踪,在确保检测率的同时提高目标跟踪效率。
假设三维成像声呐接收平面阵的阵元数为64×64,阵元各向同性。发射声波在传播途中遇到声阻抗变化,即声波打到物体表面会发生反射和散射波。该过程示意图见图1,物体本身的特征信息会被调制到回波上。图1中,Oxyz为笛卡尔坐标系。
图1 三维成像声呐工作示意图Fig.1 Working diagram of 3D imaging sonar work
三维成像声呐的接收面阵中的每个接收单元,可以接收到不同距离和不同方向的回波叠加形成的混合信息。根据三维成像声呐的成像原理,对接收到的信号进行P×Q(P为俯仰角方向波束数,Q为方位角方向波束数)的波束形成,从而得到P×Q×S(S为生成的一系列距离切片的数量)大小的单帧数据[12],如图2所示,其中S由声呐探测距离L和距离分辨率RPr决定:
图2 三维成像声呐一帧波束能量结果Fig.2 Diagram of 3D imaging sonar beam energy per frame
(1)
图2中,球面ABCD为其中一个距离切片,每个距离切片可以看作是距接收阵一定距离的二维能量分布图,即切片包含P×Q个像素点,是探测波束对目标后向散射信号能量的体现,每个像素点由声呐方位角、俯仰角和距离共同作用的信号回波强度决定[11,13]。
当成像范围内存在目标时,该距离切片上的相应位置处会获得较大的能量,反之则距离切片上各位置的能量很小。当单帧数据经由滤波和坐标转换操作后,能够将三维成像声呐体数据的能量值一一映射到三维坐标系中,形成一系列形式为(x,y,z,I)的数据点集合,即三维点云形式,其中I为该数据点能量值(散射强度)。
三维声呐体数据的能量分布反映了目标的外表形状分布,而忽略了目标表面后面的结构。为了对三维结构的声呐图像数据进行分析研究,除直接作用于点云形式,还可以将三维体数据按照一定的规律,拆解成紧密关联的二维图像集合,即强度图和距离图[11,13]。
基于此,对于图3中的波束,本文只关注两个参数,即到目标表面(若存在目标)的距离和声波响应的幅值。通常通过寻找波束信号包络的最大峰值位置来确定散射目标的距离[14],如图4所示。波束信号包络bb(t,)指向方向=(θa,θe),并在t*时刻获得包络最大值s*,其中θa为声呐方位角,θe为声呐俯仰角。由此可以得到相应的距离和相应的声波响应幅值v*=bb(t*,),其中c=1 500 m/s 为水下声波传播速度。两个参数的关联性代表目标在测量距离r*上目标存在的声波响应幅值(可看作置信程度)为v*。
图3 三维声呐波束指向示意图Fig.3 Diagram of 3D sonar beam direction
图4 波束包络bb(t,)Fig.4 Diagram of beam envelope bb(t,)
图5 强度图和距离图示意图Fig.5 Diagram of intensity and distance
背景消减法用当前帧图像减去背景图像,得到信息量相对较小的差分图像。对差分图像的所有像素点与设定阈值做遍历运算,将大于阈值的像素点归为目标点,将小于阈值的像素点归为背景点,从而实现运动目标的检测[15]。其流程图如图6示。图6中,Ik(x,y)为第k帧输入图像,Bk(x,y)为背景图像,Dk为差分图像,Ek(x,y)为差分图像的二值化图像。
图6 基于背景消除法的目标检测流程Fig.6 Diagram of target detection based on background elimination method
则
Dk(x,y)=|Ik(x,y)-Bk(x,y)|
(2)
对差分图像进行二值化处理,即可得到对应的二值化图像Ek(x,y):
(3)
式中:T为二值化阈值。
匹配技术属于基于决策理论方法的识别方法,可以用于目标识别、目标跟踪、图像拼接等方面。其原理是基于匹配的技术通过原型向量来表示每个类,并根据一种预先定义的测度,将一个未知模式赋予最接近的类[16]。
在三维声呐的目标匹配中,采用模板匹配的方式,其基本原理是利用样本模板,与待匹配图像进行对比[17]。从待匹配图像的左上角像素点开始,对比样本模板和与其大小一样的待匹配图像范围,按照一定的决策准则计算匹配程度,直至样本模板平移覆盖整幅待匹配图像,匹配程度最高的区域即目标所在区域,原理如图7所示。图7中,W为二维检测框宽度,H为二维检测框高度,I(i,j)为第(i,j)个点的强度值,Im为匹配模板图像。
图7 模板匹配原理示意图Fig.7 Diagram of template matching principle
通过最小距离分类器[16]实现匹配跟踪的决策,假设每个模式类的原型定义为该模式的平均向量:
(4)
式中:ωj为第j个模式类;Nj为来自类模式向量的数量;xj为第j个模式中的未知模式向量;Nω为类数。采用欧式距离求接近程度,将未知模式向量x赋给最接近的原型类,则问题简化为计算距离测度:
Dj(x)=‖x-mj‖,j=1,2,…,Nω
(5)
式中:‖a‖=(aTa)1/2为欧几里得范数。在Dj(x)获得最小值时,则将x赋类给ωj。
三维声呐图像的主要处理形式是点云形式。由于外界环境和目标物理特性等影响,获取的点云数据量大,且存在大量非目标干扰点,给后续的点云数据处理和应用带来很大的影响[11]。为了极大程度地压缩数据量,并抑制干扰信息,需要对三维点云进行图像预处理。一般来说,三维成像声呐单帧图像中强度值越高,代表该点为目标的可能性越大,同时,目标与周边环境和干扰的强度值差异明显,可以作为预处理方法的依据。因此,本文对三维图像的预处理主要采用滤波和分割的方式,包括最大值滤波、阈值滤波和直通滤波。
首先采用固定阈值处理方法,将阈值固定在最大像素值的22%,即-3 dB最大旁瓣处,直接作用于波束信号进行滤波。之后根据声源位置和已知水深确定距离向的范围,通过直通滤波过滤掉距离范围之外的数据点。为了进一步精简点云,利用最大值滤波进行数量压缩[18]。根据图2可知,单帧三维声呐图像是多个距离切片的形式,而切片上的像素点对应波束的方位角和俯仰角。本文认为,对于任意一个方向的波束,将能量看作是距离的分布直方图,可以在所有的距离切片中找到一个最大值,且该点确定的方位角、俯仰角和距离认为是目标存在的位置,如图8所示。因此,最大值滤波对所有波束进行一系列距离切片的最大值检索,可以得到最有可能出现目标的位置集合。图8中,nmax为当前波束强度最大值对应切片索引值,Imax为当前波束强度最大值。
图8 最大值滤波距离切片能量分布Fig.8 Slice energy distribution at the maximum filtering distance
强度图是声波响应幅值v*与点对(x*,y*)关联得到的(x*,y*,v*)形式,代表了目标存在的置信程度。由于三维点云形式的相关卷积操作较为困难,对三维声呐图像的处理从强度图和距离图进行展开,主要根据强度图的信息实现目标的检测跟踪。
传统的跟踪方法需要将目标模板对每一帧图像做匹配,跟踪速度较慢。另外,三维声呐目标在不同帧图像中的姿态和角度有所差异,给检测跟踪结果带来较大影响。因此,本文在传统的背景消除检测和匹配跟踪的基础上,提出一种基于组合特征的水下三维目标检测跟踪算法。
在进行跟踪之前,首先要对首帧图像做初始化,其流程如图9所示。首帧输入包括背景图像(可由声呐在无目标情况下采集得到)、首帧强度图和距离图。初始化阶段的主要任务是实现目标核函数和几何特征的提取。其中核函数通过背景消减法的方式,对背景图和首帧强度图灰度化后进行差分运算,得到相应的差分图像,当满足差分图像和强度灰度图均为0时,更新强度图的相应像素点位置为0,认为该点是背景区域,另外设置阈值去除图像中面积较小的区域块,此时强度图的非零位置视为目标位置,从而得到目标核函数。
图9 首帧初始化流程图Fig.9 Diagram of first frame initialization
经过初始化得到检测后的核函数,利用该模板图像对后续每帧强度图进行特征关联和匹配跟踪,其流程如图10所示。从强度图像流的第2帧开始,每一帧与上一帧进行特征提取和特征关联,当质心特征在一定范围内时,认为目标在三维成像声呐视野范围内基本处于相对静止的状态或偏离距离很小,此时对上一帧检测框进行确认,判断是否沿用上一帧的检测框作为当前帧的检测框,否则对该帧图像重新进行模板匹配,更新检测框信息,直至最后一帧完成检测跟踪操作。
图10 基于组合特征的强度图跟踪流程图Fig.10 Diagram of intensity image tracking based on combined features
为了描述声呐图像中人工目标的特征,本文采用组合几何特征的描述子,主要包含Hu不变矩、目标质心和目标距离。对于同一目标在转动幅度不大的情况下,可以认为质心不会发生变化,通过质心的位置能够准确定位目标的位置。在声呐强度图中,将灰度值看作质量可以求得连通区域的质心。三维成像声呐由于成像分辨率和水下环境干扰的影响,经过最大值滤波的强度图上的目标会有所缺失,单个目标会出现割裂的情况,导致在计算质心时出现多个质心或质心偏移严重的问题。
根据每帧获取的质心和距离信息,假设第k帧强度图按照区域大小获得M个质心Cm,对应M个距离信息Dm,m=1,…,M和质心相应区块面积Sm。首先根据Sm最大值对应的距离信息,剔除距离差超过一定阈值的U个区块,则当前帧的质心由加权可得
(6)
(7)
则第k帧和第k-1帧的质心偏差表示为
dk=|Ck-Ck-1|=(Ck-Ck-1)(Ck-Ck-1)′
(8)
(9)
每帧M×N大小的强度图函数f(x,y)的(p+q)阶矩可定义为
(10)
对应的(p+q)阶中心距可由式(11)计算:
(11)
(12)
φ1=η20+η02
(13)
(14)
φ3=(η30-3η12)2+(3η21-η03)2
(15)
φ4=(η30+η12)2+(η21+η03)2
(16)
φ5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η21+η03)2]
(17)
φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)
(18)
φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η12-η03)(η21+η03)[3((η30+η12)2)-(η21+η03)2]
(19)
式中:φ1~φ7分别为2阶矩和3阶矩构造的7个不变矩组。
由此可得,声呐强度图的组合几何特征向量为α=[φ1,φ2,φ3,φ4,φ5,φ6,φ7,d,r],对前后帧的特征向量取标准欧式距离衡量两帧目标的相似程度:
(20)
式中:αk为第k帧的组合几何特征向量;V为元素为S(j)2的K×K对角矩阵,S为标准偏差向量,K为组合几何特征向量维度。
由图5可知,强度图和距离图通过(x*,y*)信息紧密关联,另外根据三维点云映射到二维的规则,同样可以将强度图和距离图反演映射至三维空间获得点云。同样,已知二维强度图中的检测框位置,可以根据一定规则映射到三维空间得到三维目标检测框,如图11所示。
图11 三维检测框映射Fig.11 Diagram of 3D detection box mapping
图12 试验目标及现场Fig.12 Test target and site
图11中二维向三维的映射需结合三维声呐成像的参数。假设三维声呐成像的方位角范围为θa=(-α,α,P),俯仰角范围为θe=(-β,β,Q),与距离图中的距离信息r可以得到(θa,θe,r)的数据形式。则三维坐标系中的坐标可以表示为
(21)
因此,由二维检测框的起始点坐标、宽度、高度和目标的距离范围可以得到三维检测框,表示为(x+W,y+H,Δz)。
为了验证本文算法的有效性,对湖试数据进行了算法处理。试验目标为1.5 m×1.5 m×1.5 m水下钢框架结构体目标,目标入水深度3.67 m,成像距离为6 m。设备获取的三维成像声呐图像参数为:方位角范围θa=(-45°,45°),俯仰角范围θe=(-45°,45°),阵元数48×48,512通道,波束数 128×128,工作频率600 kHz,发射信号为CW脉冲,脉宽33 ms,声呐作用距离120 m,测试数据设置N=70帧。
本文对三维声呐接收回波信号分别做水平向和垂直向的波束形成,并对每帧三维声呐图像数据进行预处理,包括最大值滤波、阈值滤波和直通滤波。预处理后并二维映射后得到一系列强度图像流,图13 为第1帧强度图,可见经过处理后的目标轮廓较为清晰。
图13 钢框架结构体目标首帧声呐强度图Fig.13 Diagram of first frame sonar intensity of steel-frame target
跟踪特征关联的前后帧组合几何特征距离F为0.05,质心偏差阈值μ为8,利用目标尺寸先验信息将前后帧最大距离偏差阈值为1.5。可以得到二维和三维跟踪结果如图14所示。从图14中可以看出,二维图像反演得到的点云结果真实地体现了实际目标的几何结构和位置信息,无论是二维检测框和三维检测框,目标都处于全覆盖的状态,验证了同一个目标在平移和小幅度旋转的状态下仍然能够实现较好的检测跟踪效果。
图14 第2帧检测跟踪结果Fig.14 Second frame detection and tracking results
在本文提出的算法中,每一帧图像都能实现较好的匹配结果,检测框偏离程度处于可接受的范围内。为了评价算法的跟踪性能,本文主要采用成功率[20]和计算开销两个性能指标。其中跟踪成功率通过计算边界框的重叠率得到。
假设跟踪的边界框为γt,由人工标注的准确边界框为γa,重叠率定义为
(24)
将多帧重叠率曲线下的面积作为评估标准,面积越大,则跟踪效果越好。
湖试数据算法验证的平台为Windows10 x64操作系统,处理器为Intel(R) Core(TM) i5-10210U CPU @1.60 GHz 2.11 GHz,内存(RAM)为8.00 GB。在上述参数下,采用传统检测跟踪算法和本文中的算法,对同批次数据得到的重叠率拟合后的曲线如图15 所示。由图15可以看出本文算法在跟踪性能和时间开销上均占优势:设定阈值F0=0.6,则重叠率大于阈值的成功帧所占总帧数比例为成功率,传统算法为85.71%,本文算法为92.86%;传统算法耗时147.346 090 s,帧均2.104 944 14 s,本文算法耗时58.945 753 s,帧均0.842 082 19 s,算法消耗时间相比传统算法减少了约60%,大大提高了检测跟踪的效率。
图15 跟踪方法重叠率对比曲线Fig.15 Comparison of overlap rate of different tracking methods
本文算法的跟踪性能主要受前后帧组合几何特征距离F和质心偏差阈值μ影响,为了分析该参数对算法性能的影响,本文首先分析质心偏差阈值μ对算法的影像,取μ值分别为3、5、8、10、15、20来分析重叠率S和时间开销t。随着μ值的增加,时间开销会随之减少。另外,从图16中可以看出,μ值越大,重叠率曲线下的面积越小,跟踪效果越差,在μ值处于8时,鲁棒性和时间开销处于算法性能最佳的平衡状态。
图16 不同μ值跟踪重叠率对比Fig.16 Comparison of different μ vaules
表1 μ取值对时间开销的影响
之后分析组合几何特征距离F对算法的影响,主要分析对跟踪重叠率的影响。取F值分别为0.05、0.1和0.2来分析重叠率。由图17可以看出,F值越大,重叠率曲线下的面积越小,跟踪效果越差,并在F值处于0.05时性能趋于平稳,跟踪成功率最优。
图17 不同F值跟踪重叠率对比Fig.17 Comparison of different F values
本文提出一种基于组合特征的水下三维目标检测跟踪算法。该算法对三维声呐获取的图像数据进行图像预处理,并映射到二维得到强度图和距离图,从二维的维度上进行检测和匹配跟踪,并根据二维和三维的对应关系反演到三维实现点云的跟踪,最后利用Hu不变矩、质心和距离等几何特征,有效提高目标跟踪成功率,进一步降低时间开销,提高跟踪效率。通过对湖试数据的分析,验证了算法的有效性。另外,本文还对影响算法性能的参数进行了分析,发现质心偏差μ值越大跟踪效果越差,组合几何特征距离F值越大跟踪效果越差,为实际场景的应用起到了参考意义。