朱东升,宿晓静,刘晋伟,郝程鹏
(中国科学院 声学研究所,北京,100190)
恒虚警检测(constant false alarm rate,CFAR)方法被广泛应用在雷达或者声呐检测系统中。CFAR的基本原理是在保证虚警概率恒定的前提下,根据待检测单元的前沿和后沿参考单元估计背景干扰的平均功率,将其作为检测阈值,从而判断待检测单元是否存在目标[1]。早期得到应用的CFAR检测方法是Finn 等[2]提出的单元平均恒虚警检测器(cell average-CFAR,CA-CFAR)。该方法在均匀瑞利干扰背景下具有较好的检测性能,但是在多目标环境中其检测性能有所下降。为了克服在多目标干扰环境下CA-CFAR 检测能力下降的缺点,研究人员提出了一系列解决方法。Trun[3]提出了最小恒虚警检测器(smallest of CFAR,SO-CFAR),当干扰目标只出现在前沿参考滑窗或后沿参考滑窗中时,SO-CFAR 具有较好的性能,但是当前后沿滑窗中均出现干扰时,SO-CFAR 的性能不足。Rohling[4]提出了基于排序统计的恒虚警检测器(order statistics-CFAR,OS-CFAR),该检测器选择排序统计量中第k个最大的统计量作为背景噪声估计。当干扰目标个数小于k值时,该检测器具有较好的检测性能,但由于该检测器只选择了单个统计量作为背景估计,导致背景信息利用不够充分,同时当干扰目标个数大于k值时,检测器的性能下降比较严重。在OS-CFAR 的基础上,Rakiard[5]和Zaimbashi 等[6]分别提出了删除均值检测器(censored mean level detector,CMLD)和删除平均(trimmed mean,TM)方法,上述2 种方法和OS-CFAR 同样依赖于固定的门限序值。当门限序值选择过小时,检测器的抗干扰能力会严重下降。当门限序值选择过大时,则对背景统计量利用不够充分,检测损失变大。
针对固定门限序值选择导致的问题,研究人员提出了基于排序数据方差[7-9](order data variability,ODV)的一系列自适应检测器,包括自动删除单元平均(automatic censored cell-averaging,ACCA-CFAR)及其扩展ACMLD(automatic censored mean level detector),MACCA(modified automatic censored cellaveraging)等方法,该类方法通过计算背景参考的ODV 指数剔除掉可能的干扰目标单元,动态选择门限序值,进而得到背景功率,以提高检测器对抗干扰目标的检测能力。该类方法从本质上没有解决门限设定的问题,门限S并不会动态调整,而门限S的选取会间接影响到检测器的最终性能。
研究人员尝试利用机器学习对CFAR 检测器性能进行提升。王皓[10]和Wang[11]等分别利用神经网络和支持向量机(support vector machine,SVM)解决均匀背景和非均匀背景下最优检测器的选择问题,以达到在特定环境下的最优检测性能。但是上述研究对检测器本身的性能没有进一步讨论。另外,部分研究人员利用决策树对雷达干扰信号进行识别,证明机器学习的方法能够有效识别雷达检测中的有源干扰目标[12-14]。遗憾的是对于后续的目标检测问题没有进一步研究。
针对上述检测器存在的不足,文中通过引入回归模型来估计当前检测环境的干扰目标个数,然后完成自适应检测。首先,通过样本数据和TreeBagger算法训练得到用于估计干扰目标个数的估计器。然后,在实际检测过程中,将参考单元作为模型输入,并认为模型输出k为当前环境的干扰目标个数。将参考单元进行降序排列,并认为序列中前k个单元为干扰目标。选择剩余参考单元的均值作为背景估计,然后计算对应的门限进行检测。文中称上述检测方法为TB-CFAR(TreeBagger-CFAR),同时分析了该检测器在均匀混响背景和不同多目标环境下的检测性能。
TreeBagger[15]是一种决策树的整合算法,通过Bootstrap[16]对样本集进行有放回的采样,形成多个子样本集,然后针对每个子样本集进行决策树回归模型的构建,取所有回归模型的算术平均作为最终的预测值。TreeBagger 算法的实现过程[17]如下所示:
1) 假设存在样本集S={{x0,y0},{x1,y1},···,{xN−1,yN−1}},其中xi为样本的特征向量,yi为对应特征向量的标记输出。
2) 通过Bootstrap 算法,构造M个子样本集为S0,S1,···,SM−1。
3) 分别针对各个子样本集构建决策树模型,且每个决策树存在输出值Cm,则有
4) 对于每个子样本集对应的决策树,其平方误差表示为
5) 每个决策树的最优输出值为使平方误差最小时的取值,则样本Sm上Cm的最优值是Sm上所有输入样本xi对应的输出yi的均值,即
6) 选择最优切分变量j和切分点r,求解
7) 将样本集Sm中的样本划分到区域S1和S2,构成回归树。最终样本集构成M个决策树预测模型hm,则模型的输出表示为
利用TreeBagger 回归算法构建检测环境下干扰目标个数的估计器,并将前后沿参考单元作为估计器的输入。估计器的输出值为干扰目标个数,其值必为整数,故取输出y值向负方向舍入的整数值,即干扰目标个数k=floor(y),但k不小于零。
TreeBagger 回归算法的性能主要通过3 个方面来进行衡量:模型的拟合度、泛化误差和计算复杂度。
模型的拟合程度是模型最直接的评价指标,代表模型对真实数据的因变关系的描述程度。模型的拟合度高,即代表模型能够较好地描述数据直接的因变关系,反之则表示模型的描述能力差。典型的拟合度描述指标有均方误差、决定系数和校正决定系数[18],其中校正决定系数是决定系数的扩展,能够抵消样本数量和特征数量对决定系数的影响。因此采用校正决定系数作为模型评价指标,定义为
式中:y为真实标记;为真实标记的均值;为预测标记;n为样本数量;p为特征数量。
泛化误差代表模型的泛化能力。泛化误差越小,代表模型在不同数据集上的适应能力越好,模型的学习能量越强。TreeBagger 算法生成样本子集时采用Bootstrap 算法会产生带外数据(outs of bag,OOB),通常使用OOB 的拟合误差来估计模型的泛化能力。
计算复杂度是指该算法运行时的资源消耗和时间消耗。作为CFAR 检测系统,对数据处理的实时性要求很高,需要在一定的时间范围内完成数据处理,并给出检测判决。针对文中检测器主要考虑模型在检测阶段对干扰目标个数估计的处理能力,即预测时间。
TB-CFAR 检测器的结构原理如图1 所示。TB-CFAR 检测器实际应用过程分为2 个阶段。训练阶段根据先验样本数据构建训练集,参考单元为样本特征,干扰目标个数为样本标签。然后利用TreeBagger 算法构建预测模型。检测阶段输入信号经过平方律检波器送到参考单元移位器寄存器中,其中D为检测单元,x1,x2,···,xN/2为前沿参考单元,xN/2+1,xN/2+2,···,xN为后沿参考单元。参考单元作为估计器的输入进行干扰目标个数的估计。同时将参考单元进行降序排列。估计器的输出值向下取整得到的整数值k作为模型最终输出,并认为当前环境下具有k个干扰目标。剔除排序后的k个最大的参考单元,取剩余单元作为背景估计然后将Z与对应的阈值因子相乘,再送进比较判决器中与待检测单元D进行比较完成判决。判决准则表示为其中h1表示目标存在,h0表示目标不存在。其中阈值因子T是根据预设虚警概率和不同干扰目标个数,通过蒙特卡洛仿真得到的[19],检测阶段根据预测干扰目标个数选取对应的门限因子。
图1 CFAR 检测器模型框图Fig.1 Block diagram of CFAR detector model
TB-CFAR 检测器以参考单元作为模型的输入,用于干扰目标个数的估计。样本个数N和样本中参考单元个数,也就是特征向量维度V为估计器的主要影响因素。
图2 为模型校正系数与训练集样本个数的变化曲线,随着样本个数的增加,模型的拟合度变优,但是趋势逐渐变缓。样本个数的增加使得模型在进行样本子集创建的时候,子集内部的样本分布更加均衡,能够有效克服样本分布不均匀对拟合结果的影响。但是当样本足够充分时,其样本分布也逐渐趋于稳定,则模型的拟合度对样本的敏感程度下降,系数趋于稳定。
图2 校正决定系数随样本个数变化曲线Fig.2 The curve of the adjusted coefficient of determination with the number of samples
图3 为模型校正系数随参考单元个数的变化曲线,随着参考单元的个数增加,模型的校正确定系数增加并趋于平缓。其中参考单元设计为符合瑞利分布的混响背景采样。参考单元数量较少时,数据分布的整体差异性较大,而随着参考单元的增大,数据分布能够反映混响背景的特征。则对于干扰目标的影响敏感度变大,预测效果变好。
图3 校正决定系数随参考单元个数变化曲线Fig.3 The curve of the adjusted coefficient of determination with the number of reference units
图4 为预测模型OOB 拟合误差随模型中决策树创建数量的变化曲线,当决策树生成到100 棵左右时,OOB 拟合误差趋近平稳。因此文中TreeBagger算法的决策树个数设置为100 个。
图4 OOB 拟合误差随树的个数变化曲线Fig.4 The curve of the fitting errors of OOB with the number of trees
图5 为估计器在检测阶段进行干扰目标个数估计耗时与参考单元个数的关系曲线。测试环境的配置为i5 处理器,内存4 GB,系统为Win10 家庭版。如图5 所示随着参考单元的增加,预测时间也随之增加。预测时间和参考单元个数基本上成正比关系。考虑仿真的拟合性和预测时间,文中设定参考单元为32 个。
图5 参考单元个数随预测耗时变化曲线Fig.5 The curve of the reference units with the time of predict
2.2.1 训练阶段
训练集参数设置如下:目标类型为SwerlingII型,前沿参考单元=后沿参考单元=16 (R=32),均匀背景下信混比(signal to rever beration ratio,SRR)SRR=10log(λ)。干混比(interference to reverberation ratio,IRR)与SRR相同,即IRR=SRR。干扰目标个数k随机生成且1≤k≤16,目标出现位置随机。
考虑仿真时间和预测性能,单一混响下样本个数为100 时,校正决定系数为0.865 5 。样本个数为1 000 时,校正决定系数为0.878。模型的拟合程度变化不大,因此文中每个SRR 下样本个数选取为100,则样本总数M=100×36=3 600,如表1 所示。
表1 训练样本Table 1 Train samples
2.2.2 检测阶段
通过蒙特卡洛仿真方法分析文中TB-CFAR检测器的检测性能。并比较新方法与经典检测器SO-CFAR,OS-CFAR 和ACCA-CFAR 在 不同的目标干扰环境下的检测性能。其中仿真参数设置如下:虚警概率为Pf=10−4,目标类型为SwerngII 型,Rf=Rl=16(R=32)为前后沿参考单元,IRR=S RR;OS-CFAR 设置参考单元为k=26,即其能够容纳6 个干扰目标;对于ACCA-CFAR,取p=26。
2.2.3 均匀混响背景
图6 为5 种检测器在均匀背景下的检测性能Pd,可以看出各检测器的检测性能比较接近。
图6 均匀背景下各检测器检测性能Fig.6 Detection performance of detectors in the homogeneous environment
2.2.4 多干扰目标环境
分析TB-CFAR 在多目标环境中的性能,仿真参数保存不变。考虑2 种多目标环境,干扰目标只存在前沿滑窗,分别有2,4,6 个干扰目标;干扰目标在前后沿滑窗均存在,前后沿滑窗干扰目标个数相等,同时存在2,4,6 个干扰目标,设定IL和IR分别代表前后沿滑窗干扰目标个数。
图7~图9 中,设置干扰目标只存在前沿滑窗,干扰目标依次设置为2,4,6 个。当只有单侧滑窗中存在干扰目标时,SO-CFAR 能够保持较好的检测性能。对于OS-CFAR 和ACCA-CFAR,干扰目标的个数均不大于设定的门限序值,所以2 种检测器也保持较好的检测性能,但是相较于SO-CFAR,2 种检测器的性能有不同程度的下降,但ACCACFAR 优于OS-CFAR。TB-CFAR 的检测性能劣于SO-CFAR 检测的检测性能,主要原因是估计器的估计误差导致的检测性能下降。但是TB-CFAR检测器的性能优于OS-CFAR 和ACCA-CFAR。尤其当存在6 个干扰目标时,TB-CFAR 的检测性能明显优于OS-CFAR 和ACCA-CFAR。
图7 前沿滑窗有2 个干扰目标时检测器检测性能Fig.7 Detection performance of detectors when the front reference units have two interfering targets targets
图8 前沿滑窗有4 个干扰目标时检测器检测性能Fig.8 Detection Performance of detectors when the front reference units have four interfering targets
图9 前沿滑窗有6 个干扰目标时检测器检测性能Fig.9 Detection performance of detectors when the front reference units have six interfering targets
图10~图12 为前后沿均存在干扰目标,前后滑窗的干扰目标个数依次设定各为2,4,6 个。当前后滑窗均存在干扰目标时,SO-CFAR 的检测性能大幅下降,无法满足系统需要。对于OS-CFAR和ACCA-CFAR,随着干扰目标个数增加,其检测性能逐渐下降,当干扰目标个数超过设定的门限序值时,检测器的检测概率无法达到90%。TBCFAR 检测器的检测性能也随着干扰目标个数增多逐渐下降,但是优于其他检测器。当前后滑窗有4 个干扰目标时,TB-CFAR 检测器依然能够工作。造成检测器性能下降的原因是由于目标干扰个数估计准确率下降导致。干扰个数估计错误导致门限序值选择不当,最终影响检测器性能。但是检测器的整体性能下降水平均低于其他检测器。存在12 个干扰目标时,TB-CFAR 的检测概率在70%以上,其他检测器的检测概率不足40%。
图10 前后滑窗均有2 个干扰目标时检测器检测性能Fig.10 Detection performance of detectors when the front and back units both have two interfering targets
图11 前后滑窗均有4 个干扰目标时检测器检测性能Fig.11 Detection Performance of detectors when the front and back units both have four interfering targets
图12 前后滑窗均有6 个干扰目标时检测器检测性能Fig.12 Detection performance of detectors when the front and back units both have six interfering targets
文中提出了一种新型自适应的CFAR 检测器TB-CFAR,该检测器利用TreeBagger 算法,训练得到干扰目标个数估计器。在检测过程中通过预测模型对干扰目标个数进行估计,根据预测得到的干扰目标个数,设定门限序值,将剔除后的背景采样值的均值作为背景估计。经过仿真分析,TBCFAR 检测器在均匀背景和多目标干扰背景下均具有较好的检测性能。尤其是在干扰目标个数先验信息不足的情况下,该检测器的性能优于其他检测器。但是文中并没有分析检测器在杂波边缘背景下的检测性能。下一步工作将分析检测器在杂波边缘背景下的性能,同时对TreeBagger 的计算复杂度进行优化,缩短模型预测时间。