模糊关联规则挖掘模型及其在分解炉中的应用

2011-09-19 13:24党勤华朱晓东吴振杰
自动化仪表 2011年8期
关键词:置信度关联聚类

王 杰 党勤华 朱晓东 吴振杰

(郑州大学电气工程学院,河南 郑州 450001)

0 引言

随着数据库技术的发展以及企业中生产设备自动化程度的提高,许多企业对生产过程中的重要设备都进行了监控。监控的各种状态和数据形成大型数据库,包括设备运行状态的各种特征。但是由于数据本身的杂乱无章,致使数据库包含的特征并不明显[1]。数据挖掘(data mining)就是发现海量的数据中潜在的、有效的知识的过程。关联规则(association rules)的挖掘作为数据挖掘技术中的重要组成部分,其目的就是寻找数据库中事物和属性之间的关系。

水泥工业在国民经济中占据着不可动摇的地位,近些年已经取得了突飞猛进的进展。在水泥生产过程中,参数基本是通过各种仪表进行采集与显示的,但具体的操作实现还需依靠操作人员积累的经验来执行。操作经验因人而异。本文正是通过模糊关联规则挖掘技术,采用聚类方法对生产数据进行聚类划分,并选取合适的支持度与置信度,获取较为完备的生产操作信息,从而解决了专家经验获取的瓶颈,这也为水泥行业各个生产环节的温度和压力等的控制提供了理论指导。

1 模糊关联规则

关联规则最早是由Agrawal等人提出的,它是数据挖掘研究的主要内容之一。并联规则自提出之后,众多学者对此进行了研究并提出了很多算法,比较典型的有 Apriori、FP-Tree、TreeProjiection以及各种方法的改进算法[2-3]。

关联规则挖掘的两个重要概念分别为支持度(support)和置信度(confidence),支持度表示规则在所有数据中的重要程度,置信度意味着规则可以信赖的程度。进行关联规则的挖掘时,首先要确定最小支持度(minsup)和最小置信度(minconf),随后挖掘出满足最小支持度和最小置信度的规则。

由于客观世界的多样性和复杂性,使得对许多事物的描述需要使用模糊的概念。基于模糊概念表示的关联规则就称为模糊关联规则。相对于传统的布尔型关联规则挖掘,模糊关联规则的获取得出的规则更贴近实际、更加准确,符合人们的思维习惯[4]。

设 T={t1,t2,…,tn}为一数据库,I={i1,i2,…,im}为T中全部属性的集合,vij为T中的i个记录的第j个属性的值,对于I中的每一个数值属性ik,都有一个与之相联系的模糊集。模糊关联规则的形式表达为 <X,A>⇒ <Y,B>,其中,X⊂I,Y⊂I,并且X∩Y=Ø,A和B分别为X和Y对应的模糊集,<X,A>表示X中属性取A中相应的值。

对于任意模糊属性集 X={y1,y2,…,yp},X 的模糊支持率为:

模糊关联规则“X⇒Y”的模糊支持率定义为:

模糊信任度定义为:

2 模糊聚类算法的选取

聚类就是将一组对象分成若干个簇的过程。聚类后的结果使得每个簇之内的差异性最小,而簇与簇之间的差异性最大。聚类算法中比较经典的有K-means算法和FCM算法。K-means是一种硬聚类算法,FCM是一种模糊聚类算法。这两种算法均存在需要事先给定聚类个数以及对初始聚类中心相当敏感的问题[5-6]。因此,针对此问题,采用将 K-means和 FCM 算法相结合形成KFCM算法,即利用K-means获取聚类中心,以此聚类中心作为FCM算法的初始聚类中心,避免了在FCM算法的迭代过程中初始聚类中心的选取不当而造成分类错误的问题[7-8]。

对于 X={x1,x2,…,xn}⊂Rs的样本点集合,KFCM算法的具体步骤如下。

① 确定聚类参数:聚类个数k、阈值ε。

②随机选取k个对象作为初始聚类中心,根据相似度准则将数据分配到最接近的聚类中心,初始化隶属度矩阵。

④上述步骤得出的k个聚类中心作为FCM的初始聚类中心 c(i)(i=1,2,…,k)。

相对于K-means和FCM,KFCM聚类方法分类的正确率较高。在实际应用中,面对大量的生产数据,采用该方法聚类将得出更为准确的结果。同时,利用KFCM作为模糊关联规则挖掘的第一步,过程正确率较高,为获取更加准确的规则提供了良好的基础。

3 模糊关联规则流程

本文所采用的模糊关联规则挖掘算法(mining fuzzy association rules,MFAR),具体描述如下[9-10]。

① 应用KFCM算法将数据库数据T={t1,t2,…,tn}离散化,并将数据划分为若干个模糊集等级;

②对于聚类后的数据,其隶属度值构成一个新的数据库;

③在新数据库中计算所有的1-模糊属性集的模糊支持率,得到1-模糊频繁属性集、组合1-模糊频繁属性集,得到2-模糊候选属性集;

④计算所有的2-模糊候选属性集的模糊支持度,删除小于最小支持度的属性集,得到所有的2-模糊频繁属性集并对其组合,得到3-模糊候选属性集;

⑤查看3-模糊候选属性集的子集,删除含有不是2-模糊频繁属性集的3-模糊候选属性集,计算剩余3-模糊候选属性集的模糊支持度,删除小于最小支持度的属性集,得到3-模糊频繁属性集;

⑥采用同样的方法得到k-模糊频繁属性集,从所有的模糊频繁属性集中生成不小于最小支持度和最小信任度的模糊关联规则。

通过应用模糊聚类算法得到了数据归属于某一类的隶属度值,之后选取合适的阈值,从而将变量的数量型属性转化为布尔型,进行关联规则的挖掘。

4 模糊关联规则实现

本文的试验数据来自于河南某水泥公司DCS系统采集的数据,数据量丰富,为数据挖掘提供了良好的数据资源。针对本文的研究目的,首先对采集的数据进行了筛选,挑选出与分解炉控制相关的因素,整理后形成新的数据库。同时,调整参数形成有效的模糊关联规则挖掘模型。

4.1 选取的生产参数

在本文的研究过程中,选用分解炉出口温度作为关联规则的后项输出,根据现场工作人员对分解炉的控制经验,选取与温度控制相关的变量。选取的相关参数如表1所示。

表1 选取的相关参数Tab.1 Selection of related parameters

本文一共利用了五个主要相关变量作为关联规则的前项条件,分别为三次风温度、五级筒出口温度、窑尾烟室温度、预燃室温度和分解炉喂料速度,并选取300个采样点的数据进行研究。

在确定判断参数之后,使用本文的聚类算法进行聚类划分。数据被分为三类,分别取语言值为小、中、大,得出数据在各个类上的隶属度值,并根据隶属度值将初始的数量型属性转化为布尔型,从而可以使用关联规则挖掘算法进行发掘。

选取的参数模糊集合如表2所示,表中S代表语言值“小”(small)、M 代表语言值“中”(middle)、B代表语言值“大”(big)。

表2 选取的参数模糊集合表Tab.2 Fuzzy set of the selected parameters

4.2 具体实现

在规则挖掘过程中设置适当的阈值,大于该阈值的置1,反之置0,从而将规则转化为布尔型。本文阈值设置为0.5,同时对于规则的获取,若设置最小支持度为20%,最小置信度为40%,则可得出60条规则;若设置最小支持度为30%,最小置信度为50%,则可得出21条规则。挖掘的部分规则如表3所示。

表3 挖掘的部分规则Tab.3 Partial mining rules

从挖掘出的部分规则可以看出,规则的置信度都是比较好的,即得出的规则的正确性与可靠性较高。当规则为五级筒温度大、预燃室温度小时,推导出分解炉内温度小,通过和现场专家经验进行比较,表明得出的规则是正确的。

在规则的获取过程中,由于阈值设置、算法支持度和置信度的不同,得出的规则会有不同,对于算法挖掘出的大量规则,需要进行进一步的筛选与调整。

5 结束语

本文采用基于模糊聚类的模糊关联规则对水泥生产中分解炉温度控制的大量历史数据进行分析[11],通过使用模糊聚类KFCM算法,将分解炉温度控制相关因素聚成若干个模糊类别,求出数据在类上的隶属度值;然后运用MFAR算法对模糊化的现场分解炉温度控制的相关参数进行分析,得到了符合实际专家经验的模糊规则。

试验表明,此模糊规则解决了实际工业中专家经验获取的瓶颈问题,也为实际温度控制提供了理论依据,起到了生产优化的作用。

[1]胡锴,徐巍华,渠瑜.改进模糊关联规则及其在故障诊断中的应用[J].组合机床与自动化加工技术,2008(10):8 -12.

[2]谭华,谢赤,储慧斌.基于模糊关联规则的股票市场交易规则抽取[J].系统工程,2007,25(4):92 -97.

[3]Molina C,Sanchez D,Serrano J M,et al.Finding fuzzy association rules via restriction levels[C]∥IEEE International Conference on Fuzzy Systems,2009,Korea:1157 -1162.

[4]闫伟,张浩,陆剑峰.基于模糊聚类的模糊关联规则在流程企业中的应用[J].计算机应用,2005(11):2676 -2678.

[5]陈铁梅.模糊聚类在数据预处理中的应用研究[J].自动化仪表,2008,29(5):36 -39.

[6]陈寿文,李明东.一种混合均值聚类算法的实现[J].计算机工程与应用,2010,46(18):132 -134.

[7]汪军,王传玉,周鸣争.半监督的改进K-均值聚类算法[J].计算机工程与应用,2009,45(28):137 -139.

[8]尹海丽,王颖洁,白凤波.软硬结合的快速模糊C-均值聚类算法的研究[J].计算机工程与应用,2008,44(22):172 -174.

[9]陆建江,张亚非,宋自林.模糊关联规则的研究与应用[M].北京:科学出版社,2008:28 -39.

[10]邹晓峰,陆建江,宋自林.基于模糊分类关联规则的分类系统[J].计算机研究与发展,2003,40(5):651 -656.

[11]程志江,李剑波.基于遗传算法的智能小车模糊控制系统的研发[J].自动化仪表,2009,30(8):4 -7.

猜你喜欢
置信度关联聚类
置信度辅助特征增强的视差估计网络
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
基于K-means聚类的车-地无线通信场强研究
“一带一路”递进,关联民生更紧
正负关联规则两级置信度阈值设置方法
奇趣搭配
基于高斯混合聚类的阵列干涉SAR三维成像
智趣