徐凤琴,贾 年*
(西华大学 无线电管理技术研究中心,成都 610039)
特征选择一直是无线电信号识别的基础与核心问题。信号的特征属性呈现连续性、高维性、非线性等复杂特点,因此,处理异常信号复杂数据的特征约简,对识别信号类型具有重要意义。通过特征选择,可以缩小数据集并且集中具有明显类别差异的信息。传统的特征选择方法大致分为2类:过滤法和包装法。过滤法效率高但准确率低,包装法准确率高但计算复杂。近年来,特征选择算法得到进一步重视与创新,学者们提出了多种特征选择算法。文献[1]提出一种基于遗传算法(Genetic Algorithm,GA)的异常信号特征选择,以遗传算法作为约简算法进行特征选择,结果表明该算法较传统算法分类效果更优。文献[2]提出一种基于模糊偏好粗糙集的属性约简进行异常信号特征选择,将结果应用于异常信号识别,结果显示识别率较传统方法高。可见现有方法已经使特征选择的研究越来越精细准确,但是针对信号高维非线性的复杂特性,为了得到更加完美高效的最优特征约简,实现异常信号更高的识别率,需要寻找更有效的特征选择算法。
膜计算(Membrane Computing,MC)是由欧洲科学院院士Gheorghe Paun在1998年首次提出,也被称为 P系统(P Systems)[3-5]。作为计算机科学中的一个全新的研究领域,膜计算提出后很快成为众多学者研究的热点,许多膜计算模型已分别应用到近似优化、计算机图形学、密码学、并行计算等众多领域[6]。目前,膜计算用于优化领域已经有初步的研究。日本富山大学的Nishida提出了一种具有分布式和动态进化结构的优化算法——膜算法,该算法被看作高层次的进化算法,用于求解“旅行商问题”这个经典的组合优化问题优势明显;文献[7]提出了一些基于膜计算的优化方法用于化工过程的建模优化和控制器多目标优化设计;文献[8]提出了一种基于膜计算的高维函数全局优化算法,采用2层膜结构,差分算法局部搜索,微粒群算法实现全局优化,结果显示膜计算对于高维结构优化问题极具优势;文献[9]也提出类似于文献[8]的求解非线性方程组的优化算法,也是2层膜结构,进化策略局部搜索,粒子群算法全局优化,结果显示膜计算对于非线性的优化效果极好。从以上研究可以看出,膜计算对于信号特征这类高维非线性的复杂数据的知识约简具有极大优势。
结合遗传算法泛化搜索与膜计算并行优化的特点,本文提出了一种基于膜计算的知识约简,通过膜与膜之间交流逐步搜索得到最优解。该算法将膜系统分为2层:基本膜(Elementary Membrane)和表层膜(Skin Membrane),每个基本膜区域中采用遗传算法局部寻优策略提高算法的局部搜索能力和收敛速度,基本膜区域将局部最优解定时传递给表层膜,表层膜区域中再次采用遗传算法寻找全局最优解。仿真实验结果表明,算法收敛速度更快,求解精度较高,尤其对本文的C波段异常信号识别的决策表优化问题不会陷入局部最优,能够求得高精度全局最优解。
一个m维转移P系统的一般模型是:
其中:O是非空有限的符号表,每个符号表示膜结构中的一种物质;μ是膜结构,深度为m,每个膜都有相应的序号,一般用1,2,…,m标志;Wi表示膜i中的字符串i=1,2,…,m;Ri代表了由膜i构成的区室里的进化规则,i=1,2,…,m。一个进化规则是一个序对(μ,v),一般也写作 u→v或 u→δv,其中 δ是一个特殊字符,它并不在V上,是一个溶解操作,它溶解物质u所在的膜,其所在膜内所有的物质都被释放到其外层膜,并且被溶解膜的规则也会随之消失,u是V上的一个字符串,V是下列集合上的字符串:(V×{here,out})(V×{inj丨1≤j≤n});ρi代表了Ri上的一个偏序关系,表示的是规则间的优先级关系;i0是膜结构的输出区域,保存最后的计算结果[8]。
概括地说,膜系统由3部分构成:膜的层次关系、表示对象的多重集和进化规则。膜计算优化时首先在每个子区域内并行运用子算法更新该区域的解,然后分别将每个子区域的优化最优或最差解送至父层区域中,重复上述2个步骤直到满足终止条件计算结束。在膜计算每个膜区域内,进化规则独立运行,算法被分割,膜间交流(通信、传输)仅仅在相邻的2个区域之间发生,所以膜算法很容易并行运行,而且膜计算可以在各个子膜中使用任何优化算法,如遗传算法等,因此可以在膜内引入局部搜索算法来提高整体最优解的精度。
C波段无线电信号作为卫星与地面的通信频段,在各卫星电视广播和各类小型卫星地面站中一直被广泛应用。日常监测发现,C波段上的业务信号经常受到5类异常信号的干扰,分别为:雷达、干扰机、单载波、单频点和底噪声,已严重影响社会及人民财产安全,因此异常信号的识别尤为重要[1]。无线电监测中,异常信号分析的流程如图1所示。
图1 信号分析流程
特征提取对于无线电监测中各类信号的识别起着决策性作用,可以获得一个初始特征集合。在该集合中,并非所有的特征对无线电信号的识别都有用,有些特征甚至可能会降低识别系统的性能,因此特征选择在信号识别中的地位尤为重要。通过特征选择不仅可以去除冗余的信息达到精简系统的目的,而且可以集中那些对分类有用的信息以提高分类的正确率。在评价准则确定之后,特征选择问题就转化成了一个组合优化问题。由于遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法,其搜索方式不是单一的方向或结构,而是将多个个体作为可能的解并考虑搜索空间全局范围内的抽样,以更大可能性地收敛到全局最优解,因此遗传算法具有很强的全局搜索能力,能够在较短时间内找到全局最优解[14]。所以本文将遗传算法作为基本膜与表层膜的优化基础方法,有绝对的优势实现全局最优。
本文提出一种基于膜计算的C波段异常信号特征选择算法。采用基于{0,1}符号集的二进制一维编码形式,17位的二进制串表示一个个体,对应了条件属性空间中的一个属性子集,即属性选取的一个可能解,个体中每一位对应一个特征,某位取值为1表示选择其对应的特征,取值为0表示去除其对应的特征,最终根据进化规则计算得到的最优个体即为最重要的约简特征集合。算法中膜系统分为2层:基本膜和表层膜。首先先对C波段实测异常信号进行数据处理、统计分析,提取被识别信号的有效频域特征(均值、方差、峰值1、峰值2、峰值3、低噪声阈值、幅度值大于0的连续点的个数、幅度值大于0的连续点的间隔、峰值的个数的比率、滤除阈值后极值点的方差(峰值能量的方差)、频段占用度、过零率、归一化瞬时幅度绝对值的均方差、归一化瞬时振幅的峭度、瞬时振幅绝对值的标准差、归一化瞬时振幅均方差与均值之比、大于阈值点个数的比率)作为基本膜的决策表条件属性,异常信号的类别作为决策属性,在基本膜内采用标准遗传算法实现收敛与局部搜索优化。基本膜区域将最优解传递给表层膜。表层膜区域中再次使用遗传算法实现全局最优搜索。
输入一个决策表 S=(U,A,V,F),A=C∪D,C是条件属性,D是决策属性。设决策表对象有m个个体,n个条件属性,k个基本膜,用Am×n表示由 C与D构成的初始矩阵,构造本算法的膜系统结构如图2所示。
图2 本文算法膜结构
如图2所示,P系统置于环境中,膜系统由k+1个膜按层次结构组织,最外层的膜1为表层膜,膜2,3…,k+1都不含有其他膜,为基本膜。每个膜所包围的部分为它的区域,区域中包含此膜的对象和进化规则。膜1 中的X1,X2,…,Xk→Xbestδ为进化规则;膜2,3,…,k 里的 Am×n为对象,Am×n→(Xlδ,in1),Am×n→(Xlδ,in1)i=2,3,…,k -1,Am×n→(Xkδ,in1)都是进化规则。理论上每一个膜应该按并行方式各自进化,为了便于实现,我们将各个膜放在一台计算机上串行完成计算。具体执行步骤如下:
Step 1:在初始状态时,表层膜1中仅含进化规则不含对象故不执行;
Step 2:在基本膜2,3,…,k+1中,都含有一个Am×n对象,且有相应进化规则,以膜2为例,膜2中,进化规则为 Am×n(X1δ,in1),计算中将对象 Am×n根据其规则生成X1,并将生成X1的送入表层膜1中。相对应的,膜3,4,…,k+1依次进行类似膜2的计算,最后膜1中便有对象X1,X2,…,Xk(即本文的局部最优解集合),而膜2,3,…,k+1因为执行完毕,无剩余可执行对象,故停止执行,进化规则含δ,此膜溶解,执行过程转至膜1内,基本膜中的具体局部寻优步骤在下文详细介绍;
Step 3:经过以上步骤执行后,膜1中此时有对象 X1,X2,…,Xk,进化规则 X1,X2,…,Xk→Xbestδ,故对象按照相应进化规则执行,生成持续多代的适应值不再提高的整个膜结构的最优个体Xbest(即本文的全局最优解),表层膜溶解,执行完毕。
由于基本膜与表层膜结合的寻优算法都是遗传算法,故下面只介绍基本膜的局部优化进化规则[15]。
Step 1:膜内对象Am×n。为连续的数据,因为本算法仅能处理离散的数据,故首先对连续数据进行模糊C均值(Fuzzy C-means,FCM)聚类,将数据离散化;
Step 2:由式(2)计算数据离散化后的决策表的决策属性D对条件属性C的依赖度γC(D),其中card(x)为染色体串中1的个数;
Step 3:令Core(C)=φ逐个去掉一个属性c∈C,若 γC-c≠γC,则 Core(C)=Core(C)∪{c};若γC-c=γC,则 Core即为最小相对约简;
Step 4:随机产生m个长度为n(条件属性的个数)的二进制串组成初始群体,对于核中的属性,其对应位取1,其他则对应位随机取0或1;
Step 5:由式(2)计算出决策属性对每个个体所含条件属性的依赖度;由式(3)计算出每个个体的适应值;由式(4)计算出每个个体被选择的概率;最后使用模拟赌盘操作(即0到1之间的随机数)来选择个体;
Step 6:根据交叉概率Pc进行交叉操作,采用单点交叉方式;
Step 7:根据变异概率Pm进行变异操作,采用基本位变异方式,其中核中属性的对应位不发生变异;
Step 8:采用最优保存策略,将最优个体复制到下一代群体中;
Step 9:如果连续多代的最优个体的适应值不再提高,则终止计算,否则转Step 5。
以无线电监测的已识别的139个C波段异常信号特征样本库为决策表。其中论域U={1,2,…,139},条件属性集为 C={均值、方差、峰值1、峰值2、峰值3、低噪声阈值、幅度值大于0的连续点的个数、幅度值大于0的连续点的间隔、峰值的个数的比率、滤除阈值后极值点的方差(峰值能量的方差)、频段占用度、过零率、归一化瞬时幅度绝对值的均方差、归一化瞬时振幅的峭度、瞬时振幅绝对值的标准差、归一化瞬时振幅均方差与均值之比、大于阈值点个数的比率},决策属性为D={低噪声、单频点、单载波、干扰机、雷达}。由于特征值连续,故使用FCM聚类将条件属性特征的数据聚为5类,根据距离将特征离散化。由粗糙集计算出的决策表核属性为均值,取m=20,Pc=0.6,Pm=0.02,基本膜个数 =10。
由式(3)可知,控制染色体的决策属性D对条件属性C的依赖度,控制染色体所含条件属性的长度,通过这2个方面可以使一个个体在保持决策属性对整体条件属性依赖度不变的情况下所含的条件属性最少的最优约简。所以本文将个体的适应值作为衡量个体优劣的评价标准,适应值越高同时包含的条件属性越少,证明所得的个体越优质。
表1结果显示C波段异常信号特征选择一次膜计算中10个基本膜中的局部最优的个体和适应值,以及它的基本膜得到的最优个体和适应值。表层膜得到了属性约简{均值,过零率}。
表1 膜计算所得基本膜与表层膜结果
为了进一步验证本算法的优化效果,本文分别使用遗传算法和约翰逊算法(Johnson’s algorithm)对决策表的139个已识别的C波段异常信号进行仿真实验。表2显示了分别执行10次本文提出的膜计算的算法、遗传算法和约翰逊算法得到的最优个体及适应值。应用本文提出的算法所得最优个体的适应值平均比另2个算法都高,因而约简效果更佳,实用性更高。
表2 3种算法特征选择实验结果
受膜计算启发,提出基于膜计算的C波段异常信号特征选择算法。该算法构建2层膜系统结构,基本膜采用遗传算法进行局部搜索,表层膜采用全局搜索策略进行全局高精度搜索。由于每个膜区域内子算法独立运行,膜间交流仅仅在基本膜和表层膜之间发生,算法被分割,因此该算法可以在计算机中并行实现。通过无线电监测C波段异常信号特征识别决策表进行仿真实验,结果显示,本文算法在异常信号特征选择应用上优势明显,不会陷入局部最优,并且求解精度更高,稳定性更好。
[1]周璇.基于遗传算法的无线电异常信号特征选择[D].成都:西华大学,2013.
[2]杨杰.基于模糊偏好粗糙集的属性约简和信号识别[D].成都:西华大学,2013.
[3]BUSI N.Using well-structured transition systems to decide divergence for catalytic P systems[J].Theoretical Computer Science,2007,372(2/3):125-135.
[4]NISHIDA T Y.An application of P system:a new algorithm for NP-complete optimization problems[C]//Proceedings of 8th World Multi-Conference on Systems,Cybernetics and Information,2004:109-112.
[5]NISHIDA T Y.An approximatealgorithm forNP-complete optimization problems exploiting P systems[C]//Proceedings of Brain-storming Workshop on Uncertainty in Membrane Computing,Palma de Majorca,2004:185 -192.
[6]张葛祥,潘林.自然计算的新分支:膜计算[J].计算机学报,2010,33(2):208 -214.
[7]黄亮.膜计算优化方法研究[D].杭州:浙江大学,2007.
[8]拓守恒.一种利用膜计算求解高维函数的全局优化算法[J].计算机工程与应用,2011,47(19):27 -30.
[9]郭德龙.基于膜计算的一种新型求解非线性方程组的优化算法[J].计算机应用与软件,2013,30(2):165 -167.
[10]彭勇,吴友情.一种新的聚类有效性函数[J].计算机工程与应用,2010,46(6):124 -126.
[11]冯博,裴峥,伊良忠,等.基于支持向量机的 C波段无线电异常信号识别[J].中国无线电,2013(1):60-62 .
[12]黄春毅.用P系统解决排序问题[J].上海交通大学学报,2008,42(2):206-208.
[13]赖玉霞,刘建平.基于遗传算法的K均值聚类分析[J].计算机工程,2008,34(20):200 -202.
[14]陶志,许宝栋,汪定伟,等.基于遗传算法的粗糙集知识约简方法[J].系统工程,2003,21(4):116 -122.
[15]任永功.基于遗传算法的粗糙集属性约简算法[J].小型微型计算机系统,2006,27(5):862 -865.
[16]NISHIDA T Y.Membrane algorithms:Approximate algorithms for NP-complete optimization[M].Berlin:Springer,2005:301 -312.
[17]ZHANG Q,LEUNG Y W.An orthogonal genetic algorithm for multimedia multicast routing[J].IEEE Trans on Evolutionary Computation,1999,3(1):53 -62.
[18]周世兵,徐振源,唐旭清.新的 K-均值算法最佳聚类数确定方法[J].计算机工程与应用,2010,46(16):27 -31.
[19]纪震,周家锐.智能单粒子优化算法[J].计算机学报,2010,33(3):556-561.
[20]PAUN G.Computing with membrane[J].International Journal of Foundations of Computer Science,2000,11(1):167 -182.
[21]DASH M,LIU H.Feature selection for classification[J].Intelligent Data Analysise,1997:131 -156.