王 璐,李延伟,,轩春青
(1.中原工学院,郑州450007;2.河南财经政法大学成功学院,郑州451200)
可拓模式识别方法研究综述
王 璐1,李延伟1,2,轩春青2
(1.中原工学院,郑州450007;2.河南财经政法大学成功学院,郑州451200)
介绍了基于可拓理论中物元模型的可拓模式识别方法的基本模型,分析了可拓模式识别方法的特点,总结了该方法在实际应用中模型改进、距及关联函数拓展以及特征权重计算方法优化等方面的研究进展,指出了有待进一步研究的问题.
可拓模式识别;物元模型;关联函数
可拓学是1983年由蔡文提出的一门原创性横断学科[1].它的研究对象是矛盾问题,研究内容是矛盾问题的智能化处理,研究方法是可拓方法.该学科已经发展到多个研究领域,并应用到实际工程当中[2].
模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分.目前,模式识别在很多领域已得到成功应用.然而,由于环境、事物等处于不断的变化中,因此,在对变化的对象进行识别的过程中就会出现矛盾问题,这是模式识别领域中亟待解决的.
而可拓学正是通过研究事物的可拓变换,从而解决矛盾问题.把可拓学的理论应用到模式识别中,称为可拓模式识别方法.可拓模式识别一方面研究变化中的事物的识别方法,另一方面研究如何利用可拓变换,使不能识别变为能识别,以解决模式识别过程中的矛盾问题[3].
本文介绍了可拓模式识别模型及其特点,并总结了可拓模式识别的研究及工程应用的最新进展,最后指出了可拓模式识别有待进一步研究的问题和方向.
可拓模式识别以可拓学中的基元理论和可拓集合理论作为理论基础,把可拓变换方法贯穿到识别过程中,从变换的角度去识别事物.算法描述[4-5]如下:
设有集合P00及其m个分类子集P01,P02,P0m(P0j⊂P00,j=1,2,…,m),待识别对象为P(P⊂P00).记集合P0j(j=1,2…,m)和它的n个特征ci及其标准量值V0ji=<a0ji,b0ji组成的物元模型为:
R00被称为节域物元,R01,R02,…,R0m被称为经典域物元.
记待识别对象P和它的n个特征c1及其量值vi组成的物元模型为:
则待识别对象P的特征ci关于分类P0j(j=1,2,…,m)的关联函数为:
其中:ρ(vi,V0ji)是点vi与区间V0ji之距,且
而ρ(vi,V00i)是点vi与区间V00i之距,且
本组资料显示,治疗有效率方面,观察组和对照组分别为95%%(47/50)、70%(35/50),观察组显著高于对照组。两组治疗前VAS疼痛评分无统计学差异,治疗后,观察组患者的VAS疼痛评分明显低于对照组,两组比较差异均有显著性(均p<0.001)。提示通过中药熏蒸,可以祛风除湿、散寒止痛、活血通络,提高治疗效果,缓解患者的疼痛,提高生活质量,值得推广。
对象P属于分类P0j(j=1,2,…,m)的综合关联程度,由公式(6)来计算:
其中:λi为第i个特征的权重,且
令K=max{Kj(P)}(j=1,2,…,m),若K=Kj(P)(j=1,2,…,m),则判定对象P属于分类子集P0j(j=1,2,…,m).
可拓模式识别方法引入“距”的概念(公式(4)和公式(5)),从而用定量的形式精确刻画出点与区间的位置关系,不仅能够表示点在区间内还是在区间外,而且可以根据距值的不同描述出点在“区间内的程度”或者在“区间外的程度”.
公式(3)中的关联函数利用距来描述待识别对象的每个特征属于分类的程度,该方法根据关联函数可以取负值的特点,使识别能全面地分析对象特征属于分类的程度,同时也有助于从变化的角度来识别变化中的事物.
公式(6)利用权重充分考虑不同特征对分类的决定程度,综合计算待识别对象属于分类的程度,最终决定对象所属的分类.
多特征参数事物的分类识别是一个较为复杂的问题,利用可拓模式识别的思想,建立事物多特征参数的识别模型并以定量的数值表示评定结果,不仅能较完整地反映事物的实际类别,而且能反映事物属于实际类别的程度.
文献[7]提出用第i个特征在第j个分类中的均值uij和方差δij,构造区间<uij-δij,uij>作为经典域,构造区间<0,uij>作为节域.文献[8]首先对特征进行无量纲处理,以消除量纲对识别的影响,然后根据正态分布的“3δ”性质,采用<uij-3δij,uij+3δij>构造经典域,用<0,1>构造节域.在相应的工程应用中,取得了较高的识别率.这些改进使得经典域、节域的构造有了数学依据,可操作性更强.
文献[6]针对文献[7]、[8]提出的经典域、节域构造方法,采用相同的数据进行了大量实验,结果表明,采用文献[8]的方法比采用文献[7]的方法识别率普遍要高.文献[9]在雹云识别的实验中也有相同的结论.
这些对物元模型的改进使得模型中特征量值范围的确定有了数学依据,减少了人为随意性对识别率的影响,拓展了可拓模式识别的应用范围.
根据公式(4)和公式(5)可知,特征ci的值为vi=时,公式(3)中的关联函数取得的值最大,即当特征ci的值为时,最符合分类P(j=0j1,2,…,m).亦即vi在区间V0ji=<a0ji,b0ji>上的最优点是区间V0ji的中点.
但是在实际应用中,却不全是如此.张瑞钢等[10]把可拓模式识别方法用于矿井突水水源的识别中时,由于影响地下水质的因素复杂,各含水层水质指标变化范围具有随机性,导致各特征值的集中趋势往往不在变化范围的中点.因此,引入“侧距”概念来计算点到区间的距 ,以及基于侧距的关联函数来表示特征属于分类的程度.
关联函数为:
其中:v0ji是特征值vi在区间V0ji上的最优值;ρ(vi,v0ji,V0ji)是侧距;
利用该关联函数,建立矿井突水水源判别的可拓识别模型,取得了较好的识别效果,解决了最优值不在区间中点的特殊情况,拓展了可拓模式识别方法的应用范围.
由公式(6)可以看出,特征ci的权重λi的取值对Kj(P)有较大的影响.因此,只有当λi的取值能恰当反映特征ci对分类的决定程度时,最终计算出的Kj(P)才能较好地反映P属于分类P0j的程度.在最初的研究中,研究者简单地把每个权重的值取为(n是物元模型中特征的个数)[5];该方法虽然计算与操作非常简单,但是,它把每个特征对分类的影响程度认为等同,这通常是不确切的.也有不少研究者根据经验来确定权重;该方法受人为因素的影响比较大,采用该方法时,识别结果在很大程度上依赖于人的经验的正确性.
为了解决上述问题,文献[7]在大量实验计算的基础上,最终确定了特征的权重.这种改进使得权重的取值趋于合理,然而容易出现小样本问题,并且实验计算过程中存在计算量大、计算复杂的问题.文献[11]采用BP三层神经网络模拟得到权重;虽然该方法需要样本进行学习、计算量比较大,但是能够比较真实地模拟计算出各个特征的权重.除此之外,还有最大离差法、类间标准差法、CRITIC法、熵值法[6]以及基于区间重叠度[12]的权重计算方法.这些方法都具有一定的理论基础,研究者根据自己问题的实际情况,具体分析,大都取得了比较满意的效果,使得可拓模式识别的应用领域得到了较大拓展.
可拓模式识别模型虽然在很多领域有不少成功的应用,但作为一种新的识别方法,其在理论和工程应用中依然存在不少问题,需要进一步研究和讨论.主要的问题有以下几个方面:
(1)特征的选取方法.李祚泳等[13]选取回波顶高、回波顶温度、负、正温区厚度比、等效反射因子、稳定度5个特征构造物元模型,有效解决了成都地区雹云的模式识别问题.然而,李桂华等采用文献[13]选定的特征构造低纬高原上的雹云模型进行识别时,效果却很不理想;为了解决这个问题,他们在充分研究低纬高原的实际情况之后,在原有特征的基础上增加了两个对低纬高原的雹云识别影响较大的特征——回波整体移速和回波底高,建立了新的物元模型,经过实验,识别效果非常理想[9].
文献[7]、[8]采用可拓模式识别方法对储粮害虫进行识别分类,构建物元模型时选取的特征如果相同,识别效果也不好.由此可见,即使面对同一工程问题,特征选取的不同,对识别的效果也有很大的影响.因此,如何选取特征来构建出恰当的物元模型,将是研究的一个方向.
(2)权重的确定方法.很多实际应用中,不同的工程问题中都使用相同的权重,即(n是特征的个数),这是不确切的.从前面的分析中可以看出,虽然很多研究者在这方面作了改进,但既具有一定的理论基础,又具有较强的适应性的权重确定方法,还需要进一步探寻.
(3)关联函数的选取.综合关联函数的建立可以有多种形式,不同的实际问题对应不同的关联函数.然而目前在工程领域中,大部分都采用基本关联函数,这是不合理的,有时甚至会得出错误的结论.因此,确定适合相应领域的关联函数,是一个有待进一步深入研究的问题.
(4)可拓模式识别虽然在很多方面取得了成功的应用,但在采用可拓变换方法解决识别中的矛盾问题方面的研究还很少.而运用可拓变换方法来解决矛盾问题正是可拓学的核心.因此,尝试用可拓变换方法解决识别中的矛盾问题的研究亟待加强.
可拓模式识别方法是一个较新的研究课题,有着广阔的应用前景.目前,成熟的理论模型和方法尚未形成,很多问题尚未解决,在应用方面的研究更是刚刚开始.因此,在今后的工作中,应注重理论研究与工程应用相结合,并对已有的可拓模式识别的研究成果进行完善与发展.
[1]蔡文.可拓集合和不相容问题[J].科学探索学报,1983,3(1):83-97.
[2]WANG M H.Application of Extension Theory to PD Pattern Recognition in High-voltage Current Transformers[J].IEEE Trans on Power Delivery,2005,20(3):1939-1946.
[3]杨春燕,蔡文.可拓工程[M].北京:科学出版社,2007:155-156.
[4]Cai Wen.Extension Theory and Its Application[J].Chinese Science Bulletin,1999,44(17):1538-1548.
[5]郝航程,朱方海.基于可拓学理论的边坡潜在破坏模式识别方法[J].地下空间与工程学报,2007,3(4):698-702.
[6]张红涛,毛罕平.四种客观权重确定方法在粮虫可拓分类中的应用比较[J].农业工程学报,2009,25(1):132-136.
[7]袁金丽,吉海彦,郭志涛.可拓工程方法在储粮害虫分类识别中的应用研究[J].农业工程学报,2004,20(5):170-172.
[8]张红涛,朱齐亮,毛罕平,等.基于可拓理论的储粮害虫分类方法研究[J].计算机应用研究,2008,25(6):1710-1712.
[9]李桂华,金少华.雹云识别的物元可拓模型在低纬高原的构造及其效果检验[J].高原气象,2005,24(2):280-284.
[10]张瑞钢,钱家忠,马雷,等.可拓识别方法在矿井突水水源判别中的应用[J].煤炭学报,2009,34(1):33-38.
[11]卢宗华.巷道围岩类型模式识别的物元模型[J].山东科技大学学报(自然科学版),2003,22(1):14-18.
[12]袁飞,程韬波,周松斌.基于区间重叠度的可拓模式识别方法[J].现代制造工程,2010(9):139-142.
[13]李祚泳,蔺雷,邓新民.雹云识别的物元可拓模型及其效果检验[J].高原气象,2002,20(2):197-201.
Research of Extension Pattern Recognition Method
WANG Lu1,LI Yan-wei1,2,XUAN Chun-qing2
(1.Zhongyuan University of Technology,Zhengzhou 450007;2.Chenggong College of Henan University of Economics and Law,Zhengzhou 451200,China)
This paper introduces the model of‘Extension Pattern Recognition Method’,which is based on matter-element model of extension theory.It points out the feature of this method,and then summarizes the research progress of the method in practical application about model improvement,the extension of distance and dependent function,and the optimization of weight calculation method of characteristics.Finally,suggestions are provided for future developments and studies.
extension pattern recognition;matter-element model;dependent function
TP391.4
A
10.3969/j.issn.1671-6906.2011.05.014
1671-6906(2011)05-0053-04
2011-09-07
河南省教育厅自然科学研究资助计划项目(2009A520034)
王 璐(1972-),男,辽宁清原人,副教授,博士.