因素空间的属性圆定义及其在对象分类中的应用*

2015-03-19 00:33崔铁军马云东辽宁工程技术大学安全科学与工程学院辽宁阜新12000矿山热动力灾害与防治教育部重点实验室辽宁阜新12000大连交通大学辽宁省隧道与地下结构工程技术研究中心辽宁大连116028
计算机工程与科学 2015年11期
关键词:定义对象分类

崔铁军,马云东(1.辽宁工程技术大学安全科学与工程学院,辽宁 阜新12000;2.矿山热动力灾害与防治教育部重点实验室,辽宁 阜新12000;.大连交通大学辽宁省隧道与地下结构工程技术研究中心,辽宁 大连116028)

1 引言

因素空间理论由汪培庄先生所创,至今得到了一定的发展,先生最新一篇论文[1]描述了因素空间与因素库的具体概念并进行了讨论。针对作者所研究安全系统工程领域[2~6],遇到了使用传统方法难以处理的问题。如作者在另一篇文章中描述了这样一个例子,在对某电器系统安全性进行调研时,对一位操作者提出系统安全性问题后的回答:系统在12 ℃以下多出现故障,工作七八十天后故障较多,系统严重不稳定。这个例子有一些特点,例子是一个多因素决策系统;因素的表达是一个域值,即因素是一个范围;基础数据来源于多个使用者的经验,不同的工作时间和工作环境使他们对系统的评价基础不同;基础数据对事物的描述具有模糊性;如何知晓这些描述的置信度:这些描述能否可以相互佐证?

当然,目前有一些方法可以对描述语义进行处理。钱怡等[7]对对象定位处理中分类信息融合技术进行了研究;余晓敏等[8]利用改进SEaTH 算法研究了面向对象分类特征选择方法;窦丹丹等[9]基于信息熵和SVM 多分类对飞机液压系统故障进行了诊断;牛俊磊等[10]基于全方位优化算法改进了马田系统分类方法;黄恒秋等[11]实现了混合值不完备决策信息系统的粗糙分类方法。但是,就处理如上例特点的问题显得捉襟见肘。

为解决上述问题,笔者将汪先生在文献[1]中提出的因素空间对象的属性表示方法进行了修改,使之在单位属性圆内可以表示无穷多个属性对对象的影响,进而分析对象的相似性,并转化为相似性的数值表达,得到对象集聚类划分的规则。

2 预备知识[1]

因素是分析事物属性与因果关联的要素。因素空间是以因素命名的坐标空间,它是事物描述的普适性的数学框架,是人工智能特别是智能数据科学的基本数学理论。

因素被数学地定义为一种映射。它把一个对象(具体事物)映射成为一个属性值(用自然语言中的形容词来描述),这种映射称为质映射;同时,也映射成为一个性态(用有限维欧氏空间中的实向量来表示),这种映射称为量映射。例如,身高是一个映射,它把一个对象张三映射成性态“很高”,同时,也映射成一个量态1.8(m),如图1所示。任何事物都同时存在着质与量的两种规定性。从量变到质变,量决定质。

基于这一哲理,我们设定这两种映射共存。因素f的量映射形成一个(一维或高维)坐标轴Xf,f的质映射所得的属性值是Xf中的普通或模糊子集。有关模糊子集的形成方法早已由模糊集理论解决。

Figure 1 Personal factors expressed in factor space图1 人的因素空间性态表述

因素是分析,是抽象,回到具体,便是认识的分析综合过程。如图1所示,把诸因素轴联合起来,就得到以因素命名的坐标架,这就是因素空间。任何事物都可以被看成是因素空间中的点。数学的定义便是以因素F为指标集的一个集合族。这里F是诸因素所形成的一个集合,由于因素与因素之间存在着布尔运算,F是一个布尔代数,故因素空间被定义成以布尔代数为指标集的集合族。

因素库是一种新的数据库,它是因素空间理论的数据实现,它对数据的处理采用一系列的基本表格形式。

3 属性圆的概念及性质

如图1所示是汪先生提出的人的因素空间性态表述图。该图能表示因素空间的基本建立思想,即对象集中的某一个对象(一个人)与这个对象属性之间的关系,只要属性确定下来,那么一个实例化的人就确定了。但是,在实际问题中,问题的研究对象往往属性较多,使用图1形式,其属性的大小方向及它们和属性之间的关系难以确定且不直观,难以进行进一步分析。所以,本文提出了属性圆的概念;同时,为表述方便先给出实例中对象x1的属性圆,如图2所示。

定义1 设系统T=(U,C,D)为决策表,U={x1,x2,…,xm}为对象集合,m为对象数量;C={a1,a2,…,an}为条件属性集,n为条件数量;属性是一个连续的区间,和表示该区间的上下界,q∈{1,…,n};D={d1,d2,…,dk}为决策集合,k为决策数量。如需区别对象之间的变量概念,在变量下方添加xi,如表示对象x1的属性a1。

Figure 2 Attributes circle of the object x1图2 对象x1 的属性圆表示

定义2 构建基础信息决策表Ψ(T)表示系统T。表头集合为{U,C,D},其中,C中的属性aq必须归一化。设的真实范围[A,B],对于因素的研究范围[LL,UL],LL≤A,UL≥B,

通过上面的定义可知,Ψ(T)中的数据是经过归一化的,即这为属性圆的建立提供了基础。

定义3 属性圆是在坐标系中的一个单位圆,即半径为1,在这个坐标系统中,属性圆可以表示对象集中的所有对象。属性圆周上某一点aq与圆心a0的连线为属性域线(下文简称“域线”),代表了论域中所有对象在属性上(归一化)的取值范围,域线长为1。在域线上,表示属性域值的起点,表示属性域值的终点。在属性圆中的线段用L(κ1,κ2)表示,κ1、κ2表示属性圆中任意的两个点,如aq域线表示为L(aq,a0)。属性角为域线L(aq,a0)与L(aq+1,a0)之间的夹角。属性圆中的面积使用M(κ1,κ2,…,κο)表示,κ1,κ2,…,κο表示属性圆中任意的多个点,这些点按照出现顺序能组成凸多边形。属性圆定义的规则可总结如式(1)所示的规则:

式中参数见定义1及定义2。

4 基于属性圆的分类方法

为进行分类方法的说明,先给出x1与x6的相似性定义图,如图3所示。首先从几何图示的角度给出对象相似的概念。如图2中,表示了一个凸多边形,其意义为同时表示了对象x1在属性a2、a3上其特征的大小。图3表示x1与x6的属性圆图的重叠图(请注意,x1与x6中面积的底纹不同),那么与的重叠部分可以较大程度地反映x1与x6关于属性a2、a3的相似程度。

Figure 3 Similarity definition between x1and x6图3 x1 与x6 的相似性定义图

但是明显地使用上述方法确定x1与x6的相似程度存在困难。一方面上述方法与的重叠部分同时反映了x1与x6关于两个属性a2、a3的相似程度,不能就单一属性确定。另一方面与的重叠部分需要通过复杂的解析手段才能确定。对于工程应用要求简便快捷的特点显然是不满足的。因此,将相似的属性圆思想转化为数值计算方法进行定义和使用。

从图3 可以看出,在a3属性上和有一部分是重叠的,这部分说明a3属性有一个区域对x1和x6有着相同的影响,也就是说在这个区域中x1和x6是相似的。基于该思想定义相似性。

定义5 在系统T中,xi,xj∈U,则定义S(xi,xj,aq)为xi与xj关 于 属性aq的 相 似 度,S(xi,xj,aq)的确定方法如下:

当i=j时,S(xi,xj,aq)=1,一个对象与自己相比,自身的相似度为1。

当i≠j时,比较与的相对覆盖区域情况。

其中,0≤S(xi,xj,aq)≤1。

上述定义的具体体现可见图3。

定义7 基于xi、xj的总相似度S(xi,xj)的分类规则。设为xi、xj对于单一属性aq的相似性判断阈值,一般地1≥S(xi,xj,aq)≥λaq意为相似,S(xi,xj,aq)=0意为不相似,意为模糊相似。所以,对于意为相似,S(xi,xj)=0意为不相似,0<意为模糊相似。

5 实例

任何理论的价值在于其处理实际问题的能力。上述理论的形成也是从实际问题中提炼出来的。

在对一个电器系统进行可靠性分析时,调研了七位使用过该系统的人员,他们给出了对系统可靠性的评价语言论述。由于他们工作调度等方面的原因使其操作系统的环境不同。实际上,就系统中元件发生故障概率而言,其影响因素是多样的。比如,电器系统中的二极管,它的故障概率就与工作时间的长短、工作温度的大小、通过电流及电压等有直接关系。如果对这个系统进行分析,各个元件的工作时间和工作适应的温度等可能都不一样,随着系统整体的工作时间和环境温度的改变,系统的安全性也是不同的[10]。所以,他们给出的系统可靠性评价的基础环境是不同的。

使用本文提出的方法试图将这些操作人员的描述进行分类,如果得到的对象集(语义描述集合)分类与决策集分类相同,那么说明这些操作人员对系统可靠性评价是客观的,可以相互佐证;如果对象集分类与决策集分类不对应,那么要增加其他操作者的评价才能进一步确定表述的准确性。

根据现场调研情况,如某位操作者的回答为:系统在12 ℃以下多出现故障,工作七八十天后故障较多,系统严重不稳定(由于篇幅所限,七个表述不都给出)。该系统一般100天大修一次,设定使用时间的域为[0d,100d];使用温度考虑到系统位于北方户外且有一定的保护,设定其域为[0 ℃,40 ℃];湿度是根据工作期间的季节气候大体确定的。

Table 1 Basic information decision tableΨ(T)表1 基础信息决策表Ψ(T)

Figure 4 Attributes circle of the object x2 ~x7图4 x2 ~x7 的属性圆

相似:S(x2,x1)=0.3214,S(x5,x3)=0.5906,S(x6,x3)=0.2315,S(x6,x5)=0.2632,S(x7,x4)=0.2592;

模糊相似:S(x3,x1)=0.0238,S(x4,x3)=0.0204,S(x5,x1)=0.0278,S(x5,x2)=0.0321,S(x5,x4)=0.0165,S(x6,x1)=0.0288,S(x6,x2)=0.0306,S(x6,x4)=0.0765,S(x7,x6)=0.0245;

不相似:S(x3,x2)=0,S(x4,x1)=0,S(x4,x2)=0,S(x7,x1)=0,S(x7,x2)=0,S(x7,x3)=0,S(x7,x5)=0。

对象聚类原则为:严格遵照相似与不相似划分,参考模糊相似划分。如S(x2,x1)=0.3214说明对象x2、x1要划分为一组;S(x3,x2)=0说明对象x3、x2不能划分为一组。所以,最终对象集U={{x2,x1},{x7,x4},{x5,x3,x6}}。在考虑表1中决策集D与对象集U的对应关系,发现U→D={{x2,x1}→d1,{x7,x4}→d3,{x5,x3,x6}→d2},这说明对对象的划分就其决策属性而言是非奇异的、准确的。转化为语义即为七位操作人员尽管在不同环境下对系统进行了可靠性评价,但是这些评价语义是相对客观的,所在环境属性域值与决策等级对应较好,评价的语义可以相互佐证。

6 结束语

本文将汪先生提出的因素空间对象的属性表示方法进行了修改,使其在单位属性圆内可以表示无穷多个属性对对象的影响,进而分析对象的相似性,并转化为相似性的数值表达,得到对象集聚类划分的规则。规则应按照严格遵照相似与不相似划分,参考模糊相似划分的要求对对象集合U进行划分。如果对象集U与决策集D的对应关系是非奇异的(U→D={{x2,x1}→d1,{x7,x4}→d3,{x5,x3,x6}→d2}),那么说明尽管系统所处的环境因素不同,但是对系统的某一性质(文中为可靠性)的描述语义群中各条评价论述是相对客观的,可以相互佐证,描述语义群是正确的。如果是奇异的,就需要增加描述语义群的评价论述,进一步加以确定。

Table 2 Similarity table of the objects表2 对象相似表

论文研究中假设了每个属性对于对象的影响权重是相同的,对于权重不同的研究由于篇幅所限将另文论述。

[1] Wang Pei-zhuang.Factor spaces and factor data-bases[J].Journal of Liaoning Technical University(Natural Science),2013,32(10):1-8.(in Chinese)

[2] Cui Tie-jun,Ma Yun-dong.Prediction of periodic weighting based on optimized functional networks[J].Computer Science,2013,40(6A):242-246.(in Chinese)

[3] Cui Tei-jun,Ma Yun-dong.Prediction of soil settlement outside pit based on DE and SVM[J].China Safety Science Journal,2013,23(1):83-89.(in Chinese)

[4] Cui Tei-jun,Ma Yun-dong,Bai Run-cai.Selection of blast scheme based on coupling of genetic algorithm and artificial neural network[J].China Safety Science Journal,2013,23(2):64-68.(in Chinese)

[5] Cui Tei-jun,Ma Yun-dong.Research on multi-dimensional space fault tree construction and application[J].China Safety Science Journal,2013,23(4):32-37.(in Chinese)

[6] Cui Tei-jun,Ma Yun-dong.Traffic route dynamic guidance technology based on coupling of time recursive and artificial neuron network[J].Application Research of Computers,2013,30(10):2932-2935.(in Chinese)

[7] Qian Yi,Lin Ying,Wu Gang-shan.Research of fusing image classification into object localization[J].Application Research of Computers,2013,30(12):3844-3849.(in Chinese)

[8] Yu Xiao-min,Zhan Fei-bing,Liao Ming-sheng,et al.Object-oriented feature selection algorithms based on improved SEaTH algorithms[J].Geomatics and Information Science of Wuhan University,2012,37(8):921-924.(in Chinese)

[9] Dou Dan-dan,Jiang Hong-kai,He Yi-na.Effectively diagnosing faults for aircraft hydraulic system based on information entropy and multi-classification SVM[J].Journal of Northwestern Polytechnical University,2012,30(4):529-534.(in Chinese)

[10] Niu Jun-lei,Cheng Long-sheng.Classification using improved Mahalanobis-Taguchi system based on omni-optimizer[J].Systems Engineering-Theory & Practice,2012,32(6):1324-1336.(in Chinese)

[11] Huang Heng-qiu,Zeng Ling.Rough classification method in incomplete decision information system with hybrid value[J].Computer Engineering and Applications,2011,47(28):48-51.(in Chinese)

附中文参考文献:

[1] 汪培庄.因素空间与因素库[J].辽宁工程技术大学学报(自然科学版),2013,32(10):1-8.

[2] 崔铁军,马云东.基于泛函网络的周期来压预测方法研究[J].计算机科学,2013,40(6A):242-246.

[3] 崔铁军,马云东.基于差异进化支持向量机的坑外土体沉降预测[J].中国安全科学学报,2013,23(1):83-89.

[4] 崔铁军,马云东,白润才.基于ANN 耦合遗传算法的爆破方案选择方法[J].中国安全科学学报,2013,23(2):64-68.

[5] 崔铁军,马云东.多维空间故障树构建及应用研究[J].中国安全科学学报,2013,23(4):32-37.

[6] 崔铁军,马云东.时间递推耦合神经网络的交通路径动态诱导技术[J].计算机应用研究,2013,30(10):2932-2935.

[7] 钱怡,林莹,武港山.对象定位处理中分类信息融合技术研究[J].计算机应用研究,2013,30(12):3844-3849.

[8] 余晓敏,湛飞并,廖明生,等.利用改进SEaTH 算法的面向对象分类特征选择方法[J].武汉大学学报(信息科学版),2012,37(8):921-924.

[9] 窦丹丹,姜洪开,何毅娜.基于信息熵和SVM 多分类的飞机液压系统故障诊断[J].西北工业大学学报,2012,30(4):529-534.

[10] 牛俊磊,程龙生.基于全方位优化算法的改进马田系统分类方法[J].系统工程理论与实践,2012,32(6):1324-1336.

[11] 黄恒秋,曾玲.混合值不完备决策信息系统的粗糙分类方法[J].计算机工程与应用,2011,47(28):48-51.

猜你喜欢
定义对象分类
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
分类算一算
分类讨论求坐标
数据分析中的分类讨论
攻略对象的心思好难猜
教你一招:数的分类
基于熵的快速扫描法的FNEA初始对象的生成方法
成功的定义
区间对象族的可镇定性分析
修辞学的重大定义