郑 伟,刘伟东,王 星
ZHENG Wei1, LIU Wei-dong2, WANG Xing1
(1. 河北北方学院 理学院,张家口 075000;2. 河北北方学院 信息科学与工程学院,张家口 075000)
故障诊断是20世纪60年代发展起来的一门新学科。随着现代科学技术水平的日益提高,尤其是计算机科学和控制科学的飞速发展,现代设备的结构日益复杂,功能越来越完善,规模也越来越庞大,人们对于设备的安全性、可靠性和有效性的要求也越来越高,因此机械设备的故障诊断技术愈来愈受到人们的重视。故障诊断研究需要解决的问题之一是在保证机器状态评价一致的情况下如何选择最少的特征集。也就是说,在保证诊断精度大致不变的情况下,如何尽可能减少特征维数,以降低计算工作量和减少不确定性因素的影响。在诊断过程中,描述状态的特征往往很多,有些特征是相关的,有些是独立的,独立的特征能提供互补信息,应加以保留;相关性特征产生冗余信息,同时会增加计算工作量,需要加以消除[1],基于粗糙集的属性约简正好为去除这种冗余性特征提供了方便。
本文着重研究了粗糙集理论的约简算法利用其从大量的数据中挖掘出其内在的规律,找出有用的信息,可以大大提高故障的诊断精度。
粗糙集(Rough Set,RS)理论是波兰数学家Pawlak在982年提出的,是一种新的软计算方法[2],粗糙集方法的优势在于它不需要任何预备的或额外的有关数据信息,解决一些不确定性问题。如统计中要求的先验概率和模糊集中要求的隶属度,因此其算法具有简单、易于操作等特点。目前粗糙集理论已经在数据挖掘、机器学习、过程控制、决策分析、模式识别等科学与工程领域取得了成功的应用。
决策表中的一个样本就代表一条基本决策规则,如果把所有这样的决策规则罗列出来,就可以得到一个决策规则集合。但是,这样的决策规则集合是没有多大用处,因为其中的基本决策规则没有适应性,只是机械地记录了每个样本的情况,不能适应新的、其他的情况。为了从决策表中抽取得到适应度大的规则,我们需要对决策表进行约简,使得经过约简处理的决策表中的一个记录就代表一类具有相同规律特性的样本,这样得到的决策规则就具有较高的适应性。
决策表属性约简的过程,就是在不损失原有信息的前提下,从决策表系统的条件属性中去掉不必要(对得到决策不重要)的条件属性,从而分析所得约简中的条件属性对于决策属性的决策规则。
传统的属性约简算法有一般属性约简,可辨识矩阵约简、基于属性重要度的约简[3,4]、条件信息熵[5]等,可辨识矩阵约简该算法的不足是论域的对象与属性的规模较大时,差别矩阵将占有大量的存储空间,其次, 差别函数的化简本身就是一个NP-hard问题,基于属性重要度的约简得到是一个最小约简集,并不是最优集,结合信息论中条件信息熵的信息度量功能和属性重要度的作用,本文改进了条件信息熵约简算法,提出了一种基于属性重要度和条件信息熵的属性约简算法。
算法描述:
1)从条件属性集C中求出核属性并放到属性集CORE中,C=C-CORE。
2)计算决策表T中决策属性D相对条件属性C的条件熵H(D|C);
3)计算决策属性相对每个条件属性的条件熵H(D|{ai})(ai∈C),将ai按H(D|{ai})的大小降序排列;
4)令B=C,按H(D|{ai})递减的顺序对每个ai重复1)、2)运算:
(1)计算决策属性集相对条件属性集B在去掉ai后的条件熵H(D|B-{ai});
(2)判断条件熵的变化:如果H(D|C)= H(D|B-{ai}),则属性ai应约简,记为B=B-{ai};如果H(D|C)!= H(D|B-{ai}),则属性ai不被约简,B不变;CORE=CORE+ai;
最后得到CORE集合为约简的最终结果。
内燃机是一种动力机械,它是通过使燃料在机器内部燃烧,并将其放出的热能直接转换为动力的热力发动机。内燃机的供油系统是内燃机的重要组成部分,供油系统产生故障将直接影响内燃机燃烧质量,其结果是降低了内燃机功率和热效率,从而影响内燃机的性能和可靠性。因而查找供油系统的故障部位原因,对于保证设备正常工作具有十分重要的意义。
图1 单缸4冲程柴油机工作原理示意图
表3为内燃机的故障诊断决策表[1],1 表示存在,0 表示不存在;S1 表示低残压,S2 表示高残压,S3 表示压力上升缓慢,S4 表示压力急剧上升,S5表示开启压力提前,S6表示开启压力滞后,S7 表示二次喷射;F1表示喷孔堵塞,F2表示针阀常开或喷油器滴油,F3 表示开启压力过高,F4 表示开启压力过低,F5 表示油管堵塞。
表1 内燃机故障诊断决策表
采用基于属性重要度和条件信息熵的属性约简方法进行故障规则的提取是,先求决策表中特征属性集对应的核属性,核属性为特征S1与特征S6,再对特征集中剩余的特征依次进行条件信息熵计算,最后就可得特征属性的约简结果。表2给出了约简结果。
表2 约简后的内燃机故障诊断决策表
基于属性重要度和条件信息熵的属性约简算法得到的约简结果与采用一般属性约简、可辨识矩阵约简的结果一致,该算计算时间复杂度小地优点。粗糙集约简理论的优势在于它不需要任何预备的或额外的有关数据信息。而统计中要求的先验概率和模糊集中要求的隶属度,因此其算法具有简单、易于操作等特点。目采用该技术用于故障规则提取,提取的特征更具有典型特性,在故障诊断时能够有效地降低故障诊断时间与提高诊断效果。
[1]康世英,姚斌.粗糙集属性约简理论在故障诊断中的应用研究[J].制造业自动化,2009,31(7):13-14.
[2]张文修,吴伟志,梁吉业,李德玉.粗糙集理论与方法[M].科学出版社,北京,2001,12-34.
[3]陈淑珍.基于粗集的几种属性约简算法分析[J].武汉工业学院学报,2005,24(3):118-121.
[4]植小三,印勇,黄扬帆.基于粗糙集理论的一种数据约简算法[J].云南民族学院学报,2008,2003,12(2):86-88.
[5]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机科学,2008,2002,25(7):759-765.