(空军工程大学航空机务士官学校,河南 信阳 464000)
在现代电子战中,对于大量具有复杂信号特征的新体制雷达的涌现,使战场电磁信号环境变得日益复杂,主要表现在辐射源的数量多、分布密度大、分布范围广、信号交叠严重;且信号调制复杂,参数多变、捷变。为了适应新的电子对抗信号环境,新的雷达信号分选方法亟待研究。
聚类分析是数据挖掘中的重要技术,它可以根据数据对象之间的相似性,将数据对象差异最小的归为一类[1]。在雷达辐射源信号分选中,可以利用聚类分析的特殊性来弥补传统分选方法的不足。而通常的聚类算法(如C-均值聚类算法等)仅适用于样本数据分布相对规则的情况[2];且需要预设或假设未知雷达辐射源的个数,一旦雷达辐射源个数预设不正确将对分选结果产生严重影响。本文在分析近邻函数值聚类算法的基础上,针对该方法存在的问题,对其算法进行改进,并应用于雷达信号的分选中。
对样本集合X={x1,x2,…,xN}中的任意两个样本xi和xk,若xi是xk的第I个近邻,则称xi对xk的近邻系数为I。同样,若xk是xi的第K个近邻,则称xk对xi的近邻系数为K。由此定义两个样本xi和xk的近邻函数值(又称作连接损失)为aik=I+K-2。若xi和xk互为最近邻,则有aik=0。
显然,aik越小,表明xi和xk越相似,将它们连接起来的损失也越小。为避免出现仅包含一个样本的聚类,规定每个样本到其自身的连接损失为2N。这里,N为训练样本集合X={x1,x2,…,xN}中所包含的样本数。根据定义,对于训练样本集X={x1,x2,…,xN}而言,当i≠k时,其所有的近邻系数均小于等于N-1。故有。
在聚类过程中,可根据样本间近邻函数值(即连接损失)的大小来完成初始聚类。考虑样本集合X={x1,x2,…,xN},对其中的任意一个样本xi,若有
则将xkmin和xi连接起来,被连接起来的所有样本组成一个初始聚类wp。例如,假设对某个具体的样本集合X={x1,x2,…,xN}而言,有,以及成立,则初始聚类的结果会将xi和xj以及xj和xk分别连接起来,形成一个由三个样本xi、xj和xk组成的初始聚类。
利用上面所定义的样本间的连接损失,可进一步对聚类的类内和类间损失情况进行刻画以实现对聚类结果合理性的恰当评估。
假设已聚类的总的类别数为c。为叙述方便起见,引入下述的若干标记。
首先,用rpq表示已聚类的两个类别wp和wq(这里,p≠q)的样本间最小近邻函数值,即
则类别wp和剩余的所有c-1 个类别的样本间的最小连接损失由下式给出。
其中,qmin是在固定类别wp的情况下使式(3)成立的类别下标。显然,由qmin所标记的类别wqmin是在近邻函数值意义下与类别wp“相距”最近的类别。
对上述wp和与之“相距”最近的wqmin,用Maxγp和Maxγqmin分别标记该两个类别的类内样本间连接损失的最大值:
这样,可对聚类的类内和类间损失进行定量描述。
若γpqmin>Maxγp且γpqmin>Maxγqmin,则当前的聚类结果是合理的,不需要对聚类结果做任何修正;若γpqmin≤Maxγp或者γpqmin≤Maxγqmin,则当前的聚类结果是不合理的,需要对两个类别wp和wq进行进一步合并。
定义一个评价因子L:
则,若L1>0 且L2>0,则当前的聚类结果是合理的;若L1≤0 或L2≤0,则当前的聚类结果是不合理的,需要对两个类别wp和wq进行进一步合并。
近邻函数值准则聚类算法相对于C 均值等聚类算法具有很多优点,它不仅能对一般的超球体球形分布数据进行准确聚类,而且适合对非球形分布数据的聚类[3]。但近邻函数值准则聚类算法也有其局限性,通过实验表明,其容易出现聚类结果的“增批”现象。为了解决此问题,对近邻函数值准则聚类算法进行以下改进。
在近邻函数值准则算法对聚类结果进行合理性评价时,对评价因子L 进行修正,引入类调控因子λ(λ>0 且取整数)的概念,并把(6)(7)式改写成:
改进后的方法并不需要信号的先验信息实现确定聚类数目,而是在分析聚类数目随类调控因子λ变化的基础上,确定最终聚类数目,这更符合实际要求。
根据上面的陈述可以得到下面的聚类算法:
(1)读入训练样本集X={x1,x2,…,xN},并计算相应的距离矩阵D=[dij],其中,dij=d(xi,xj),i,j=1,2,…,N为样本xi和xj之间的欧氏距离。
(2)利用距离矩阵D=[dij],计算近邻系数矩阵M=[mij]。其中,mij是xi对xj的近邻系数。
(3)计算近邻函数值矩阵A=[aij]。这里,aij=mij+mji-2。
显然,A=[aij]为对称矩阵。为避免出现仅包含一个样本的聚类,该矩阵的对角线元素均取值2N。
(4)对A=[aij]阵进行逐行搜索,找出每行上的最小元素,并据此把该最小元素所对应的两个样本点连接起来,形成初始聚类wp,p=1,2,…,c。这里,c为已聚类的总的类别数。
(5) 对每一个聚类wp,计算使成立的类别下标qmin确定在近邻函数值意义下与类别wp相距最近的类别wqmin。
在此基础上计算
(6)对于选取的类调控因子λ,若使L1>0 且L2>0,则聚类完成;若L1≤0 或L2≤0,则将类别wp和wqmin合并,并在其间建立相应的连接,返回步骤(5),进行下一次迭代。
(7)依次递增选取不同的类调控因子λ(λ>0且取整数),当第一次出现聚类结果随λ的变化趋于稳定时,记录聚类结果,完成聚类。
雷达对抗侦察接收机输出到信号处理系统的是截获到的随机交叠的脉冲流(全脉冲,每个脉冲以PDW的形式表示)。信号分选就是从这种随机交叠的脉冲流中分离出每一部雷达脉冲序列,并选出有用信号的过程[4]。每个脉冲描述字(PDW)包含信号的脉宽(PW)、载频(RF)、脉冲到达角(DOA)、脉冲到达时间(TOA)、脉冲幅度(PA)等参数[5]。
本分选算法将雷达辐射源脉冲的DOA、RF、PW三个参数构成一个具有三维属性信息的雷达脉冲描述向量xi,i=1,2,…,N(N为总脉冲个数)。先将各参数进行标准化和归一化处理,再定义其欧式距离[6]:
其中,W为一对角的权值矩阵,其权值大小依据各脉冲参数的可信度以及侦察接收机对各参数的测量精确度设定。
根据改进后的近邻函数值准则聚类算法对雷达信号进行分选的具体程序设计流程如图1 所示。
图1 雷达信号的聚类分选流程
为了验证改进算法对雷达信号分选的效果,模拟八部不同雷达的脉冲信号,其序列长度为10 ms的脉冲数进行混合。这八部雷达的参数如表1 所示。
由于部分雷达信号的PRI 变化,使用传统序列搜索的方法在处理雷达1、雷达2、雷达5、雷达7时分选效果有限,特别是对重频抖动较大的信号将难以分选。而利用此聚类方法,则可分选上述重频抖动和受调制的信号,下面通过仿真进行验证说明。
仿真一接收到的是前四部雷达的交叠信号(表1 中的雷达1~4);仿真二接收到的是前五部雷达的交叠信号(表1 中的雷达1~5);仿真三接收到的是前六部雷达的交叠信号(表1 中的雷达1~6);仿真四接收到的是所有八部雷达的交叠信号。
记录各仿真实验聚类分选数目w(即雷达辐射源个数)随λ的变化(即λ的选取对聚类结果的影响),如表2、表3、表4 和表5 所示。
表1 雷达参数信息表
表2 仿真一(前四部雷达)w 随λ 的变化
表3 仿真二(前五部雷达)w 随λ 的变化
表4 仿真三(前六部雷达)w 随λ 的变化
表5 仿真四(八部雷达)w 随λ 的变化
从表2、表3、表4 和表5 的仿真结果来看,通过对λ的设置,可以有效抑制原始聚类算法容易出现“增批”的现象,但随着λ取值的增大,亦出现把不同雷达的信号归为一类的“漏批”现象,那么如何选取λ就成为进行正确分选的关键。
从以上四个表格中,可以发现一个一般规律,λ在一定的范围内,其聚类结果保持稳定不变;而且正确的聚类数目w所对应的λ不是唯一值,而是连续的一组数值。经过大量的实验发现,正确的聚类结果所对应的λ的值至少为4 个不同的连续数值。那么以此为依据可以分析估算出λ的取值范围和雷达辐射源的数目。
若当λ在一定的连续整数范围内取值,且此范围至少为4 个整数值时,其聚类结果保持稳定不变的状态称为稳态。那么当λ从[0,k]之间从小到大依次取整数值时,第一次出现稳态时其对应的一组连续的整数值即为可以选取的合理的λ值。选取此组λ值中的任何一个数时,所得到的聚类结果即为所求的聚类分选结果。通过实验表明,选取此组λ值中的任何一个数时,所得到的聚类结果完全相同。
在仿真四情况下,根据上面的分析结论选取得到合适的λ=3~29 时,其对雷达信号的聚类分选结果相同,如图2、图3 所示。
图2 聚类分选三维分布图
图3 聚类分选二维分布图
通过对仿真四的分选结果进行分析得到如表6所示的聚类分选结果信息表。
表6 分选结果信息表
从表6 可以看出,采用此改进的聚类分选算法能够准确分选出各个雷达信号的脉冲序列,而无需雷达信号的先验信息,且能够对重频调制及抖动的复杂信号进行准确分选,准确率达到98.8%以上,比一般的聚类分选算法[7]及其他典型算法效果更加明显。
本文将近邻函数值准则聚类算法用于雷达信号的分选中,并对此算法进行合理的改进,改进后的聚类算法能够有效抑制分选结果“增批”现象,对受调制及重频抖动较大的信号能够有效分选。同时,在对未知雷达信号没有任何先验知识的情况下,能够有效分辨出雷达辐射源的数量,为准确分选提供依据,且达到了相当高的分选准确率。