针对非均衡样本的雷达字提取算法

2022-11-22 08:33高天昊王鹏达董尧尧姜浩浩朱霸坤
电光与控制 2022年11期
关键词:脉冲序列测量误差脉冲

高天昊, 曲 卫, 王鹏达, 董尧尧, 姜浩浩, 朱霸坤

(航天工程大学,a.研究生院; b.电子与光学工程系,北京 101000)

0 引言

为深入研究多功能相控阵雷达(Multifunction Phased Array Radar,MPAR)的行为规律,给上级作战指挥决策提供直接有效的一手情报。McMaster大学VISNEVSKI[1]于2005年在其学位论文中建立了一种多功能雷达的句法模型,该模型运用离散事件系统(Discrete Event System,DES)的相关理论展开建模,以“雷达字(Radar Word)”为最基本的模型单元,构建了雷达字、雷达短语和雷达句子逐级递进的层级模型。在此基础上,该团队又进行了雷达威胁等级判断、雷达状态估计[2-3]等课题研究,并且取得了一定的成果。后续进行MPAR行为分析[4-5],大多也基于句法模型中的雷达字,所以雷达字是否提取准确,对之后MPAR行为认知具有至关重要的作用。

文献[6]运用事件驱动的方法进行雷达字的提取,简单易实现,但当脉冲描述字(Pulse Description Word,PDW)中其他参数不同,而脉冲到达时间(Time of Arrival,TOA)相同时,雷达字将难以区分。林令民[7]在文献[6]研究基础上,提出用TOA差分结果来反映数据特征,将具有相同脉冲重复周期的相参处理间隔(Coherent Processing Interval,CPI)对应的全脉冲数据看成一个雷达字,当其面对参差型数据时会分成较多雷达字使得模型更加复杂化;针对上述缺陷,王勇军[8]提出了一种改进的事件驱动的 MFR雷达字提取方法,虽然能显著提升漏脉冲情况下雷达字提取准确率,但在虚假脉冲增多时提取准确率下降太快;贠洁等[9]利用8个参数对脉冲层建模,将特征参数在一定误差范围内的CPI作为同一雷达字,并通过参数修正有效解决了漏脉冲和虚假脉冲的难题;李程[10]利用改进的TTP变换法进行雷达字提取,但只用到了TOA信息,提取效果并不可靠;文献[11]提出一种基于匹配滤波的雷达字提取方法,将雷达字提取转化为从随机信号中找出确定信号的问题,但其在测量误差和漏脉冲率较低情况下的提取性能不如传统算法;文献[12]运用三级匹配(数据库级、脉冲级和码序列级)的方法,在脉冲丢失和假脉冲的噪声环境下也具有良好的提取能力,但该方法没有充分利用侦收信号的全部信息,只使用了脉冲到达时间一个参数,在很多特殊情况下提取效果很差。

考虑到之前传统提取算法对侦收信号的信息利用不充分的因素,加之脉冲间载频(Carrier Frequency,CF)、脉宽(Pulse Width,PW)、脉冲重复间隔(Pulse Repetition Interval,PRI)的调制模式反映了脉冲信号的变化规律,是分析判断雷达行为规律的重要依据。因此,本文将利用PRI,PW和CF这3个参数的时空信息,采取聚类的方法进行雷达字的提取。此外,已有的雷达字研究工作均未曾考虑样本不均衡的情况,本文将针对此类情况研究雷达字的提取方法。

1 非均衡样本产生原因和解决办法

在真实的战场环境下,电子对抗环境复杂多变, MPAR的各种工作模式或功能状态不一定会完全均等地使用。特别是当MPAR在某功能状态下工作的持续时间较短或为了规避探测而快速转变工作模式时,侦收设备只能采集到某些工作模式下的少量数据,导致获得的雷达数据具有较强的样本不平衡性。如何对该情况下雷达字进行提取将是一个很大的挑战。对于该类情况,还未曾有学者进行相关研究。目前在其他领域此类相似问题的解决方案主要有以下3种。

1) 扩充数据集。通过长时间的侦察累积,收集更多的新工作模式下雷达特征参数数据,来扩充训练样本数据集。该方法虽然能通过时间的积累达到样本更新来弥补样本数据不平衡的问题,但是需要以牺牲时间为代价。而战场上战机稍纵即逝,需要极高的时效性,所以该方法在战场中并不适用。此外,由于是非协作的MPAR,所以不能确定需要花多长时间才能达到使样本均衡的数据量,时间消耗的不确定性更加佐证了该方法在战场中的不适应性。

2) 对数据集进行重采样。对数据采样可分为欠采样和过采样。对雷达知识库中已知雷达工作模式训练样本集进行欠采样,减少这些工作模式下的训练样本数,使数据达到平衡,若所有雷达工作模式下训练样本均降到与新工作模式相同,则丢失了很多已有工作模式的信息,这种做法虽然使得样本均衡但其实验结果的可靠性难免会降低;考虑对样本数少的数据进行过采样,通过大量复制样本数少的训练样本来增加样本数量,使训练样本数据达到平衡,但该方法会带来过拟合的风险。

3) 数据生成。通过一定的算法,在原有少量样本数的情况下,通过研究数据之间的特点和规律,生成与之类似或相同的数据。GAN就是典型的数据生成方法,且近几年来在图像处理中取得了很好的效果[13-14],但是在对数值型的数据进行增强时鲜有应用,所以运用在本文研究中具有很多不确定性。

以上方法主要是针对数据集进行一定的变化,其实,也可以考虑从提取算法本身入手,去解决样本不均衡的问题。在无监督的聚类算法中,大多数的算法都不能对不均衡样本进行聚类分析,而OPTICS作为DBSCAN的改进算法,通过排序的方式有效解决了这一问题,使得该算法不仅能对任意形状的簇进行聚类,也可以对不均衡的数据集进行聚类。因此,针对样本不均衡的数据集,本文采用改进OPTICS聚类的方法对其进行雷达字的提取工作。

2 传统OPTICS算法分析

根据第1章的分析,在实战背景下,较易出现雷达状态的不均衡的现象,这也就间接导致了MPAR发射的雷达字不均衡,所侦收的雷达字数据具有较大的密度差。而常规的K-means算法、DBSCAN算法和子空间聚类算法均不能取得较好的提取效果。OPTICS算法是从DBSCAN算法演化而来的一种基于层次密度的聚类算法,能有效处理带有非均匀密度簇的问题。但是在实际情况下,由于处在噪声环境并且测量仪器存在一定的测量误差,必定会造成存在漏脉冲和虚假脉冲的情况。

如图1所示,漏脉冲的现象使得原本同簇之间样本点的距离变大密度变小,往往会导致出现成簇数大于实际类簇的现象。针对该问题,本文将OPTICS算法和K-means算法相结合提出基于K-means优化和K-OPTICS雷达字提取的算法,充分利用两种算法各自的优势,完成对雷达字的提取工作。

图1 漏脉冲情况下的数据分布

3 雷达字提取算法设计

3.1 K-OPTICS雷达字提取算法的基本思想

本文所提K-OPTICS雷达字提取算法中,ε-邻域、核心对象、核心距离和可达距离的定义继续沿用传统OPTICS算法中的概念,在此基础上提出以下两个新的定义,下面将对这些概念进行简单介绍。

给定数据集D={x1,x2,…,xn},距离半径ε,点数阈值PminPts,其中的ε和PminPts为用户指定参数,有如下定义。

定义1虚拟候选聚类中心:OPTICS算法完成首次聚类,得到的第i个簇包含的数据点为Ci={x1,x2,…,xk},当前簇所有数据点的中心位置xCi,记为虚拟候选聚类中心,可以表示为

(1)

定义2初始聚类中心:即对虚拟候选聚类中心进行首次筛选后得到的各个聚类中心。

K-OPTICS雷达字提取算法的核心思想就是在利用OPTICS聚类完成雷达字的初步提取工作后,利用迭代方法完成后续的簇合并工作。

3.2 K-OPTICS雷达字提取算法流程

假设某多功能相控阵雷达的雷达字集为W={ω1,ω2,ω3,...,ωm},包含m个雷达字,电子侦察系统侦收得到该MPAR的脉冲序列数据集为P={p1,p2,p3,…,pn},其中

pi=(Fi,Wi,Ii)i=1,2,3,…,n

(2)

式中,Fi,Wi,Ii分别表示对应脉冲的载频、脉宽以及脉冲重复间隔。脉冲序列P中包含了n个脉冲和多个不同的雷达字,包含雷达字的类别总数为k(k≤m)。各个数据点之间的距离采用欧氏距离distance函数来度量,即

(3)

图2为本文所提改进雷达字提取算法的流程框图。

图2 K-OPTICS算法流程框图

算法的输入为侦收的脉冲序列数据集P和算法的相关参数,输出为k个雷达字簇。首先,对输入数据集进行标准化,并初始化种子队列seeds,之后用传统OPTICS算法完成初次聚类;对不同簇的数据点分别求出虚拟候选聚类中心并构建SSET集合,将虚拟聚类中心进行循环筛选,得到符合条件的初始聚类中心;最后,再利用K-means算法进行迭代,把删除的虚拟候选聚类中心周围的数据点合并到筛选得到的簇中。

数据标准化的方法和构建SSET集合的具体方法如下所述。

3.2.1 数据标准化

由于本文采用脉冲序列的PRI,PW和CF这3个参数进行聚类,相当于是3个维度,但是每个维度的大小差别很大,为了平衡三者的影响,算法首先对初始数据进行标准化处理。离差标准化采用正规化的方法,以A为例,对初始脉冲序列中的A值序列(A1,A2,A3,…,An)进行变换(A为PRI,PW和CF中的任意一个),即

(4)

3.2.2 构建SSET集合

在完成数据标准化和OPTICS密度聚类之后,得到了j个雷达字簇,分别是C1,C2,C3,…,Cj,记每个簇所包含的数据点个数为|Ci|(i≤j),首先求出每个类簇的中心点坐标,加入到虚拟候选聚类中心集合X,其中

X={xC1,xC2,…,xCj}

(5)

(6)

(7)

根据k个虚拟候选聚类中心求出中心点Center的坐标,计算出所有虚拟候选中心点到Center的距离并排序,选取距离最远的点Q1放入集合SSET,并删除虚拟候选聚类中心集合X中的点Q1。

重新计算X中各点到除自身外其余点的距离之和并排序,选择距离之和最小的点Q2放入集合SSET,并删除虚拟候选聚类中心集合X中的点Q2;循环进行上一步,直至SSET集合中的元素个数达到雷达字个数k。

最后以SSET集合中的k个元素作为初始聚类中心,对数据点进行迭代聚类,得到聚类的结果。

4 仿真实验和结果分析

为进一步验证本文所提算法的合理性与优越性,本章将通过构建多个雷达字库进行实验验证。模拟生成了包含A,B,C这3部功能各异的MPAR雷达字库,不同内嵌脉冲列中所包含的脉冲个数不一定相同。雷达字库的具体参数参考文献[1]中多功能雷达辐射源的信号参数进行设置,具体情况如表1所示,表中,3个参数的类型用数字来代替。其中:PRI类型包括1-固定,2-参差,3-组变,4-抖动,5-滑变;CF类型包括1-固定,2-捷变,3-组变,4-跳变;PW类型包括1-固定,2-多脉宽组合,3-抖动。本文所采用的雷达字提取性能评价指标为准确率(Accuracy),F值(F-score)以及调整兰德系数(Adjusted Rand Index,ARI)。

表1 雷达字库部分信息

4.1 雷达字提取性能对比

本文主要是提取非均衡MPAR脉冲序列样本的雷达字,在仿真实验中主要体现在两个方面:1) 侦察得到的MPAR各个雷达字本身就是密度不均衡的,有的脉冲个数多,有的脉冲个数少;2) 由于敌方威胁目标本身正在执行功能的不确定性,间接造成了其发射雷达字的密度不均衡。针对第1种情况选取雷达字库中3种雷达的所有雷达字集分别进行仿真实验,样本的不均衡性主要是由不同雷达字包含不同脉冲个数造成的,记为场景1;针对第2种情况选取MPAR-C不同功能状态对应生成雷达字的脉冲序列进行仿真实验,MPAR-C功能状态的转变规律遵循图3所示的转换机制。

图3 功能转变规律

假设MPAR经历如下的工作模式转换:四字搜索→四字搜索→三字搜索→捕获→非自适应跟踪→距离分辨(RR1)→距离分辨(RR2)→三字跟踪保持→三字跟踪保持,记为场景2。仿真实验设置脉冲随机丢失10%,测量误差随机浮动10%,针对场景1中的MPAR-C,仿真实验得到K-OPTICS算法的可达图,如图4所示。

图4 簇合并可达图

需要强调的是,本文的可达图不同于原本OPTICS算法的可达图,图4所展示的是将多余的簇进行合并之后的可达图,不同颜色代表一个簇。从图4中可以看出,针对场景1本文所提算法能有效地将雷达字提取出来,对于非均衡样本具有很好的适应性,在迭代15次后提取准确率能达到94.21%,只有最后一个雷达字边界提取出现误差,而同等条件下DBSCAN和OPTICS算法只能达到90.90%和88.36%。

表2展示的是针对场景2,在不同参数设置情况下传统密度聚类算法和本文所提算法提取性能对比。从表中可以看出,本文所提K-OPTICS算法较传统的DBSCAN算法和OPTICS算法性能有较大的提升:一方面在领域半径ε为0.1,点数阈值为3时,K-OPTICS算法与其他算法的区别显著,无论是雷达字提取准确率、F值还是ARI都要高出常规算法30%以上;另一方面,不同参数设置下K-OPTICS算法雷达字提取准确率均能达到90%以上,说明算法对参数并不敏感,而DBSCAN算法在不同参数设置下提取效果差别很大,而在实战背景下非常注重时间效率,因此本文算法不需要额外花费更多的时间寻找最优参数。

表2 提取性能对比

4.2 漏脉冲和测量误差对算法提取性能的影响

为分析漏脉冲和不同测量误差水平(Error Deviation Level,EDL)对MPAR雷达字提取效果的影响,采取控制变量法进行仿真实验。首先在测量误差均为10%的情况下,研究不同脉冲丢失率(Ratio of Dropped Pulses,RDP)下K-OPTICS算法的提取性能指标变化,进行50次Monte Carlo实验,所得平均计算结果如图5所示;之后,固定脉冲丢失率为10%,进行50次Monte Carlo实验,研究不同测量误差水平下K-OPTICS算法的提取性能变化,所得平均计算结果如图6所示。

图5 聚类性能随RDP变化

图6 聚类性能随EDL变化

整体上看,随着EDL和RDP的提升,算法的提取性能逐渐变差,但是在RDP达到40%时仍具有85%以上的提取准确率、F值和ARI值,说明算法对漏脉冲具有很强的适应性;此外,算法在15%脉冲丢失率和15%测量误差水平复合情况下,提取准确率和F值达到85%以上,且ARI系数较高,说明聚类结果与实际结果很相似,符合实际需求。

5 结束语

本文针对电子侦察过程较易出现的非均衡的样本数据进行分析,提出了一种基于K-means优化的K-OPTICS雷达字提取算法。该算法在传统的OPTICS算法基础上进行改进,在存在漏脉冲和较高测量误差水平的条件下仍然具有较好的提取效果,并且原方法对参数不敏感的特性被保留下来,使得与DBSCAN,K-means等算法相比具有更强的鲁棒性。虽然所提算法对参数并不敏感,但不同参数设置情况下的提取性能还是有所差异,后续需进一步研究参数对实验结果的影响。

猜你喜欢
脉冲序列测量误差脉冲
脉冲离散Ginzburg-Landau方程组的统计解及其极限行为
密度测量误差分析
一种基于TOA的同型雷达同源判别方法
纵向数据下变系数测量误差模型的渐近估计
上下解反向的脉冲微分包含解的存在性
一种基于脉冲样本图的周期信号序列自提取方法
黄芩苷脉冲片的制备
基于敏感因子的GPS速度测量误差补偿算法
一D-T2二维核磁共振脉冲序列改进设计及性能对比
二维反式氢磷相关脉冲序列设计及在含磷化学毒剂分析中的应用