(空军预警学院 武汉 430019)
空中目标识别是防空预警的研究热点,一直受到学者、工程技术人员及军事部门的极大关注[1],如何根据雷达回波信息对目标进行分类识别,是长期困扰人们的难题。近年来,随着计算机技术、人工智能以及神经网络技术的快速发展,利用专家系统进行目标分类识别已越来越受到重视[2~6]。
基于聚类方法的分类器的种类有很多,但传统的分类问题总是将每个待识别的对象,严格地划分到某一类别集合里,而忽视了同一模式特征对各模式类别的重叠性。目标的运动特征在很大程度上存在着模糊性,基于以上考虑,本文将模糊C均值聚类方法(Fuzzy c-mean clustering,FCM)应用于空中目标识别,先用频数直方图得到运动特征分布,再将特征分布值作为FCM算法输入得到识别结果,最后通过实际数据实验进行验证,与传统的K均值聚类方法相比效果更理想。
为了保障飞行的安全和方便空管部门的管控,空中目标通常都是按照规划好的航线运行,一方面要考虑空中目标飞行安全,另一方面要考虑飞机本身执行任务的需求,同类目标飞行的航线通常有其约束和规划[7],因此,历史积累的目标样本库内必定隐含了目标身份信息,这是能够依据目标运动特征进行目标识别的基础。准确完整地揭示出目标的速度、高度、加速度等运动特征信息,是实现目标分类的前提。
频数直方图是十分经典的统计分析方法,它由一系列高度不一的竖条纹或者线段表述数据的分布情况,横轴一般和具体的数据类型有关。它能较好揭示数据的集中趋势、数据离散程度、数据的分布情况[8],其实现步骤如下。
Step1:将样本观测值x1,x2,…,xn进行归一化预处理,从小到大排序并去除多余的重复值,得到x(1)<x(2)<…<x(l);
Step2:适当选取略小于x(l)的数a与略大于x(l)的数b,将区间(a,b)随意分为k个不相交的小区间,记第i个小区间为Ii,其长度为hi;
Step3:把样本观测值逐个分到各区间内,并计算样本观测值落在各区间内的频数ni;
Step4:在x轴上截取各区间,并以各区间为底,以ni为高作小矩形,就得到频数直方图。
图2 飞行高度分布
在频数直方图的构造过程中,首先需要对数据进行分组,此时一个关键的问题就是如何进行有效合理的分组。通常意义上的做法是,按照组距相同的原则进行划分,组距选择要结合实际应用背景进行考虑。这里对某批目标的运动特征参数用直方图的方法进行特征提取,从图1可以看出目标飞行速度主要分布在350km/h~850km/h,直方图中组距为100km/h;从图2可以看出飞行高度主要集中在14500m~17500m,直方图中组距为1000m。从图中可以看出,频数直方图的方法很好地揭示了运动特征分布情况。另外,直方图方法有两个优点:一是对野值点不敏感,不受其影响,个别野值点由于数量少,在直方图中高度几乎为零;二是在每个子区间有聚类的内涵,例如,时速400km/h与401km/h对目标的判断差异不大,符合人的认知。
直方图提取运动特征后,得到一组离散值,再用相应的专家系统进行识别分类。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和结构不做任何假定。在同一类里这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于不相似[9]。
在很多分类问题中,分类对象之间没有明确的界限,往往具有亦此亦彼的表现,例如,好与坏、高与矮等,两者之间没有明确的界限,如果用传统的的聚类方法进行分类,把每个待分类的对象严格地划分到某个类中,存在一定的不合理。模糊C均值聚类分析方法将模糊的方法与聚类的方法相结合,有了很好的分类效果[10~12]。
其中U=(uik)c×n为隶属度矩阵;。显然J(U,V)表示各类样本到聚类中心的加权平方距离之和,权重是样本xk属于第i类的隶属度的m次方。模糊C均值聚类法的聚类准则是求U,V,使得J(U,V)取得最小值。模糊C均值聚类法的具体步骤如下。
Step1:确定类的个数c,幂指数m>1和初始隶属度矩阵,通常的做法是取[0,1]上的均匀分布随机数来确定初始隶属度矩阵U(0)。令l=1表示第1步迭代。
Step2:通过式(2)计算第l步的聚类中心V(l)。
Step3:修正隶属度矩阵U(l)
Step4:计算目标函数值J(l)
现采集了四类机型(下文用A、B、C、D表示)数据,每型25批,共100批近75万个航迹点,用本文所提出的基于FCM的空中目标运动特征识别方法进行验证。
先采用频数直方图对四类机型总样本的速度和高度运动特征进行提取,分布结果如图3~图10所示。
图3 A机速度分布
从四型目标总样本的速度、高度特征分布可以看出,速度特征表现出较强的混叠性,目标高度特征分布值则有很强的抗混叠性,更有代表性。数据包括100批目标,提取每批目标高度从0~21000的分布值,组距为1000,因而直方图提取运动特征分布是100*22的数据集,作为FCM的输入,设置目标函数(4)中隶属度的幂指数为m=2,分类的个数c为4,目标函数终止误差εJ=0.00001,最大迭代次数为100。迭代次数如图11所示,可见经过24次迭代就达到了终止条件。
图4 A机高度分布
图5 B机速度分布
图6 B机高度分布
图7 C机速度分布
图8 C机高度分布
图9 D机速度分布
图10 D机高度分布
图11 迭代收敛曲线
FCM算法迭代结束后,得到类中心矩阵V是一个4*22的矩阵,如表1所示,每一行是一个类的类中心坐标。
隶属度矩阵U是一个4*100的矩阵,由于矩阵太大,用前4*10矩阵举例说明,如表2所示。每i列表示第i批目标属于4类的隶属度,例如U的第1列元素分别为0.2069,0.1757,0.3334和0.2846。由于第1批目标属于第3类的隶属度比其他3个都大,可把该批目标归为第3类,其他批目标的分类原理与之类似。
通过查找隶属度矩阵U的每一列中最大值的行标,来确定每一批目标所属的类,为了对算法效果进行定量描述,用识别率η来表示识别效果,其定义为
其中TN是正确识别数,TF是错误识别数。将FCM算法与K均值聚类算法进行比对,识别率如表3所示,从中可以看出基于模糊C均值聚类法识别率效果要优于K均值聚类方法。
表1 类中心矩阵
表2 属于第3类目标的隶属度
表3 四类目标识别率
本文给出了一个新的基于运动特征的目标识别方法,采用频数直方图提取速度、高度运动特征分布,将分布值作为FCM的输入进行迭代计算,其识别效果较K均值聚类法更理想。
算法中所需要的参数包括,直方图的分组、分类个数、迭代终止阈值、最大迭代次数四个,易于设置。其中,直方图分组是采用基于平均划分组距的方法来完成的,如何更有效地结合目标的特点,以不等距的方式进行分组,是下一步需要研究方向。