李迎春, 杜永红, 王 帅
(1.装备学院光电装备系,北京101416; 2.中国太原卫星发射中心,山西太原030027; 3.装备学院研究生管理大队,北京101416)
基于抗噪粗糙集的三维目标自动识别
李迎春1, 杜永红2, 王 帅3
(1.装备学院光电装备系,北京101416; 2.中国太原卫星发射中心,山西太原030027; 3.装备学院研究生管理大队,北京101416)
结合粗糙集理论的发展及其在模式识别领域中的优势和不足,提出基于抗噪粗糙集的三维目标自动识别方法。在压扩式非均匀离散化编码和全程归一化处理的基础上,对动态层次聚类分类方法进行了改进,通过对偶然性事件和不相容事件加权概率处理,以可信度的形式将粗糙集的规则训练和抗噪性能结合起来,并提出基于相对最小类间距离的分层识别方法,实现了粗糙集基础上的规则训练与样式识别。通过对多种三维目标的识别仿真表明,该方法具有较好的抗噪性能、处理效率和识别效果。
三维目标;粗糙集;目标自动识别
三维目标识别是目前识别领域的一个热点研究问题[1]。三维目标识别的重要任务是从大量图像数据中获取目标特征数据并进行推理决策,其中涉及如何对大量的冗余数据和不完全数据进行处理。
粗糙集理论[2-5]是一种处理不确定、不完整、不精确知识的新的数学方法。其主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来近似刻画,它无需提供问题所需处理的数据集合之外的任何先验知识或附加信息,不需要预先给予主观评价。
利用粗糙集理论进行三维目标识别研究时,发现传统的粗糙集理论可以处理定性、定量或混合信息,能从大量的实验数据中发掘知识的相关性。但理论本身不包含处理不精确或不确定原始数据的机制,缺乏对偶然性事件和不相容事件的有效处理,抗噪能力较差[6-9]。因此,本文的研究重点是对众多不同取值范围的样例特征属性值进行合理量化编码,对提高的训练规则的提取属性值和待识别样例特征属性的编码,对传统的粗糙集进行改进,提高理论本身的抗噪能力,寻求有效的三维目标识别方法。
在目标识别研究中,人们往往需要根据一些对象的各种属性值(即图像特征值),识别给定对象所属的类型,基于粗糙集的目标识别流程如图1所示。
图1 基于粗糙集的目标识别流程图
在研究中,首先采集三维目标不同视角的二维成像图,然后经过图像预处理和特征提取,获得目标的特征向量。把这些特征值作为条件属性值,把需要做出目标识别可能的类型作为决策属性值,构建整个知识系统的决策表。由于粗糙集的数学基础是集合论,难以直接处理连续的属性,因此必须对其中的连续属性作离散化处理。其后的属性约简是指在保持知识库的分类能力不变的条件下,删除其中不必要的属性。一般来讲,知识库中的属性并不是同等重要的,甚至其中某些属性是不必要的,或者说是冗余的。冗余属性的存在,一方面是对资源的浪费(需要存储空间和处理时间);另一方面也干扰人们做出正确而简洁的决策。经过属性约简,去掉决策表中特征向量的冗余特征。最后用精简后的特征和规则对三维目标进行识别。
进行三维目标自动识别时,把每一类三维目标称为1个对象;每一类目标可能有多个角度的二维图像,把一类目标中某个视角成像的1幅图像称为1个样例。每一个样例经图像处理提取出用于描述图像中目标的特征称为这个样例的条件属性,如:目标的几何特征、目标形状的不变矩、目标轮廓的小波矩等。自动识别的结果就是目标的类别,称为决策属性。自动识别的过程是:根据一个样例图像计算出条件属性,利用某些规则进行决策,判断出目标的类别。
三维目标识别系统决策表中具有多样性的条件属性,反映了多种空间目标的不同特点。这些不同类型的条件属性的取值是非线性的,波动性很大,这对粗糙集中条件属性的离散化编码较为不利,极有可能导致分类过多而缺乏判断共性的不足,或者分类较少不足以描述类间的差别,需要寻求一种有效、统一的离散编码方法。
1)条件属性非线性归一化。设三维目标识别系统决策表为T=(U,C∪D,V,f),其中U= {e1,e2,…,en}表示论域,C和D分别表示条件属性集和决策属性集,V表示全体属性的值域,f表示信息函数。若c∈C为1个连续属性,或在取值区间的1个可取很多值的离散属性,它的取值区间为Vc∈[a,b]。其中,a表示1组训练样例中对应属性的最小值,b为最大值。为了更好地实现离散化编码,先将条件属性值进行归一化,可令:
简单的线性归一化处理面临一个突出的问题:各条件属性值不是均匀地分布在[0,1]区间,某些不同对象的样例条件属性值的变化幅度较小,有些甚至始终集中分布在接近1的较强信号区域或接近0的较弱信号区域。
对线性归一化的条件属性进行非均匀量化。特别是使得数范围较小的条件属性值区间拉大,便于后续的离散化编码。对条件属性进行压扩处理可以表示为在[0,1]之间起扩张作用,显然经过压扩后的属性值仍在[0,1]之间。压扩参数μ、ν的选取,可以通过数据实验经验获得,而对于区式中:μ、ν为压扩参数;X为线性归一化后的条件属性值;Y为对归一化后的条件属性进行非线性压扩的结果。令ν≥0,Xν在[0,1]之间起压缩作用分效果较理想的原始属性值,可以不进行压扩。
2)基于简易动态聚类的条件属性离散编码。用于三维空间目标识别时,决策表中条件属性众多,并且由于空间目标的观测视角并不固定,导致同一个目标在不同角度观测时提取到的特征有着显著的差别,而不同目标在不同角度观测提取到的特征却可能相同或相似。也就是说,虽然输入的特征数据可能差别很大,但在判断空间目标类型时,输出的目标类型可能是同一类;或者,特征数据可能相似,但空间目标类型可能不同,即决策表本身可能是不相容的,这就给条件属性的离散编码带来了很大困难。
本文提出利用简易动态聚类的方法为条件属性进行离散化编码,既借鉴了动态聚类这种根据数据相似性进行聚类分析的思想,又避免了繁琐地计算决策表相容性的工作。
设有M个对象,每个对象有N种样例。对于某个条件属性xk,则有M×N个取值,记为:xk1,xk2,xk3,…,xkN,xk(N+1),xk(N+2),xk(N+3),…, x k(2N),…,x k(MN-N+1),x k(MN-N+2),x k(MN-N+3),…,xk(MN)。
设集合A,B,C为某一简易聚类的3个类,记其中的最小元素和最大元素分别为min({I}), I=A or B or C、max({I}),I=A or B or C。
如果max({A})<min({B}),则称类A为类B的临近前一类;而Dis(A,B)=min({B})-max({A}),称为类A与类B之间的距离。同理可定义临近后一类及距离。
定义简易聚类A的跨度为:D(A)= max({A})-min({A})
基于简易动态聚类思想的条件属性离散化编码步骤如下。
1)为排除随机干扰的影响,增强编码对判决结果分类能力,将M个对象中每一个对象的不同样例属性进行均值化,并按从小到大的顺序排列,即,并将其预分为M类。
3)将类间距离最小的2个子类合并为一类。
4)重复上述简易聚类算法,直到将上述属性值划分为供粗糙集识别所需要的分类个数时,进行判断:如果类间距离均小于邻近类的跨度的一半,就将这2个相邻类合并;否则,分类结束。
5)整理出该属性的离散化编码区间,然后与对应的样例和属性进行比对编码,形成初始决策表。
得到的离散化编码分类结果将为粗糙集的规则训练与提取提供理论上的支持。
为了方便粗糙集的运算,且发挥条件属性的综合判决效果,对条件属性的量化不宜过细,否则会带来决策表的较大浮动,也不利于属性间共性问题的提取与训练。因此,对于不同的条件属性,通常取最多离散化编码数为决策属性的半数。例如,为了识别6种不同的三维目标,通常将条件属性的离散化编码数置为3,即单个条件属性的编码值最多只有3个。
当实际数据集存在噪声或不完整性时,易产生偶然规则或不相容规则。现有的粗糙集理论大都先将不相容的规则或偶然规则采用人工的方式去掉,然后再对条件属性进行约简,最终获取精简的规则并为识别做好准备[7-11]。但当所研究的决策表非常复杂,条件属性和决策属性众多,数据量非常庞大时,则无法用人工的方式提前去除。本文引进可信度这一新的判决指标,使最后的判决规则可以去除偶然规则或不相容规则的影响,具备一定的抗噪声能力和较强的概括能力。
设决策表中的条件属性C(x1,x2,x3,…)的等价集为:E1{e1,e3,e5},E2{e2},E3{e4,e6}, E4{e7},E5{e8},E6{e9},E7{e10},…。
其中,E3{e4,e6}为不相容样例,E7{e10}为偶然样例。定义偶然样例、不相容样例如下。
1)偶然样例:绝大部分(90%以上)条件属性的离散化编码值与普通样例的条件属性离散化编码值不相同或差异较大,判决结果也较特别,常以偶然性事件形式出现,即
式中:Di表示决策等价集D的第i个决策属性; |·|表示集合中的元素个数;符号∩表示“且”。
2)不相容样例:全部或绝大部分条件属性的离散化编码值与普通样例的条件属性离散化编码值相同,而对应的决策表不同,相当于出现规则矛盾情形的样例。判断时,只要所有条件属性的90%符合要求,即
决策表中的任何一个样例,可能是普通样例,也可能是偶然样例或不相容样例,由可信度来表示。将等价集中普通的样例对判决结果的可信度η初始值设为ηnormal=1,对偶然性样例对判决结果的可信度设为ηaccident=0.7,而不相容样例对判决结果的可信度设为ηconflict=0.5。在整个判决与识别过程中,将各规则对结果的判决以动态加权的方式输出判决结果的可信度。于是定义可信度的初始值为
ηJ(i)=[nnormal(i)·ηnormal]/[nnormal(i)·ηnormal+
naccident(i)·ηaccident+nconflict(i)·ηconflict](5)
式中:nnormal(i)表示当前规则下普通等价集中样例的个数,或者是该规则的重复次数;naccident(i)表示该规则偶然性样例的个数,特别地,如果偶然性样例出现的次数多于2个时,就升级为普通样例; nconflict(i)表示该规则对应条件属性集下不相容样例的个数;ηJ(i)表示第i个样例对判决结果的可信度,它是相对于规则的再现性与验证性而言的。在约简过程中,当前处理的样例作为普通样例,并记其重复次数为nnormal(i),然后逐一与其他样例比对,若存在偶然性样例,就在初始偶然性样例个数naccident(i)的基础上加上该样例个数。同样地,对于不相容样例的处理类似。这样,就实现了把受训练的条件属性的不同贡献以初始可信度的形式加在训练规则上。
这与当前粗糙集理论的最大不同在于,在利用粗糙集进行分类训练之前,不需要首先直接剔除重复规则和不相容规则。相应地,结合以上方法在决策表的决策属性中增加1个关联指标,即可信度,然后再进行粗糙集的规则训练。该约简算法的主要步骤如下:
1)将所有不相容样例从决策表中整理出来,列为1个新矩阵;
2)计算条件属性X(x1,x2,…,xn}的等价集和决策属性D的等价集;
3)统计并比较得出重复性样例Erepeat及个数nrepeat、一般性样例Enormal及个数nnormal、偶然性样例Eaccident及个数naccident和不相容样例Econflict及个数nconflict;
4)计算出粗糙集的决策表Tnew=(Unew, Cnew∪{Dnew,ηJ(i)},Vnew,fnew),包括精简后的条件属性集Cnew、决策属性集Dnew和可信度ηJ(i);
5)计算各个属性的正域P(X-{xi},D)、依赖度γ(X-{xi},D)和重要度S(X-{xi}, D)[12],引入可信度对重要度的计算公式进行改进,改进的重要度S(X-{xi},D)为
6)属性约简和一致性判断,如果删除该规则造成决策表的不一致,就保持该规则,否则,删除该属性;
7)在约简后的规则后加上不相容样例,并分别计算各规则的可信度。
这样,能较好地解决偶然性样例和不相容样例对属性约简的影响,实现可控的动态引导式属性和规则的约简。
以6种不同类型的卫星作为研究对象,对有着典型形状特征的卫星进行三维建模,对其进行仿真得到二维图像。每个对象取观察视角相差较大的20幅图像,共120个样例图像。对这些图像进行预处理,然后提取出1组Hu不变矩、仿射不变矩、小波矩和二值图像体态比,共17个属性,然后对其进行归一化处理和压扩式非均匀离散化,并对样例进行分析,自动标记出重复样例、偶然性样例和不一致样例,并在此基础上构建包含可信度的决策表(包含条件属性集、决策集和可信度),然后,将依赖度γ(X-{xi},D)和重要度S(X-{xi},D)与可信度ηJ(i)建立关联关系,利用粗糙集的相关理论对决策表进行约简,得到训练规则。然后,采用分层识别的方法,对同一型号不同角时图像差异较大的样例进行标号,实现分层分类训练与识别,并通过样本间相对最小距离的一致性与近似性,实现对输入样本的有效识别,识别流程如图2所示。
图2 抗噪粗糙集识别流程图
通过仿真,得到的部分训练规则如表1所示。
表1 离散化编码决策表(部分)
简化后的决策表,如表2所示。
表2 非均匀离散化动态聚类分类简化后的决策规则表
由表1、表2可以看出,如果直接采用17个条件属性进行识别,将会造成数据庞大,规则不好提取等问题,给三维目标的正确识别带来较大挑战。而经过抗噪属性约简后,不仅去掉了条件属性之间的冗余关系,而且去除了偶然规则或不相容规则,使得真正用于最后识别的条件属性只剩余了6个,并且判定规则简洁、可信度高。实验数据表明,本文方法能有效完成三维目标的识别,识别正确率达到80%以上,并且计算速度比传统的粗糙集识别方法也有了明显提高。
本文结合粗糙集理论的发展及其在模式识别领域中的优势,采用压扩技术和简易动态聚类对条件属性进行非线性归一化量化编码,利用偶然性样例和不相容样例的数目构建可信度参数用于引导粗糙集的属性约简,使获取的规则具备较强概括能力的同时具有了一定的抗噪声能力。抗噪粗糙集用于三维目标自动识别,抗噪性能好,约简效率高,识别高效,但同时也存在不足,如压扩参数需要人机配合设定,当规则可信度较小时可能出现多判决等。
References)
[1]张天序.成像自动目标识别[M].武汉:湖北科学技术出版社,2005:10-15.
[2]徐立中,李士进,石爱业.数字图像的智能信息处理[M].北京:国防工业出版社,2007:49-63.
[3]张文修,仇国芳.基于粗糙集的不确定决策[M].北京:清华大学出版社,2005:104-122.
[4]苗夺谦,李道国.粗糙集理论、算法与应用[M].北京:清华大学出版社,2008:70,74,195,225-227.
[5]张东波.粗集神经网络集成方法及其在模式识别中的应用[D].长沙:湖南大学,2007:60-79.
[6]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001:57-82.
[7]王智君.粗糙集规则简约的方法在模式识别中的应用[J].微计算机应用,2009,30(5):1-4.
[8]袁修久,高生强,杨宇.分级粗糙集和分级知识约简[J].空军工程大学学报:自然科学版,2009,10(4):91-94.
[9]臧晶.基于粗糙集理论的计算机图像识别系统[J].微处理机,2008(6):119-121.
[10]余春艳,吴明晖,吴明.遥感图像识别中粗糙集理论与神经网络的结合[J].遥感学报,2004,8(4):331-338.
[11]刘超.粗糙集理论及其在不确定性决策中的应用研究[D].哈尔滨:哈尔滨理工大学,2007:3-10.
[12]杨淑莹.模式识别与智能计算:Matlab技术实现[M].北京:电子工业出版社,2008:200-223.
(编辑:孙陆青)
3D Target Automatic Recognition Based on Noise-robust Rough Set
LI Yingchun1, DU Yonghong2, WANG Shuai3
(1.Department of Optical and Electrical Equipment,Equipment Academy,Beijing 101416,China; 2.China Taiyuan Satellite Launch Center,Taiyuan Shanxi 030027,China;
3.Department of Graduate Management,Equipment Academy,Beijing 101416,China)
After briefly reviewing the development of the rough set theory and its advantages and disadvantages on target recognition,this paper proposes the method of 3D target recognition based on noise-robust rough set.On the whole,the data of Condition Attribute Set is disposed by the unequality compand expand disperse technique and normalization which is to change all the feathers to corresponding data form zero to one before training and recognizing,and the dynamic layered cluster algorithm is improved accordingly.And then,we work out the non statistical probability weighted method to cope with the occasional examples and the incompatible examples especially,so the training and recognizing in the rough set and the robustness is banded together by the reliability calculated during the training in the rules reduction steps.Simultaneously,the hierarchical least relative distances between clusters is brought forward for recognition by the improved rough set theory.At last,different kinds of 3D targets pictures with different phases are tested in this paper,the simulation result show that the conceive is with good robustness,high efficiency and fine recognition effect.
3D target;rough set;target automatic recognition
TP 391
2095-3828(2014)02-0071-05
ADOI10.3783/j.issn.2095-3828.2014.02.017
2013-09-18
部委级资助项目
李迎春(1973-),女,副教授,博士.主要研究方向:光电信息处理与对抗.