基于粒度商的连续属性离散化方法

2015-12-30 02:29:06储亚伟
关键词:决策表阜阳粗糙集

李 萍,储亚伟,范 敏

(阜阳师范学院 信息工程学院, 安徽 阜阳 236041)

基于粒度商的连续属性离散化方法

李 萍,储亚伟,范 敏

(阜阳师范学院 信息工程学院, 安徽 阜阳 236041)

连续数值属性的离散化是粒计算理论应用的重要步骤,提出粒度商的连续属性离散化方法。通过给出粒度商的概念,根据粒度商的大小来选取合适的区间粒,从而达到连续属性离散化的目的。最后给出实例分析,说明该算法的有效可行性。

粗糙集;连续属性;离散化;粒度商

粗糙集中提到,在对决策表进行属性约简的过程中,需要考虑属性是连续型的还是离散型,运用粗糙集理论处理离散型属性要比处理连续型属性简便,对属性的离散化能够降低问题的复杂度[1-2]。离散化方法可分为有监督和无监督两种,有监督方法需要把样本数据的类别属性考虑进来,较无监督方法更科学,有监督方法主要包括基于信息熵的离散化方法,基于属性类别关联度的离散方法及基于聚类的k均值方法等[3-4]。粒计算理论是现阶段人工智能领域的新的研究热点,其理论模型主要有两种,分别为以处理不确定性为目标的模型和以多粒度计算为目标的模型,如商空间理论[5-6]。从粒度商的角度对连续属性离散化可分自底向上的逐步粗化和自顶向下的逐步细化。基于自底向上的离散化算法选择初始的区间粒集可以把不同的属性值相互分开,然后按照一定的规则选择相邻的两个或多个区间粒进行合并,得到新的区间粒集,依次循环,直到所得的区间粒集满足一定的终止条件。

本文依据粒度商的值选取合适的粒度集,完成自底向上的对连续属性进行离散化,提出了基于粒度商的连续属性离散化方法该算法。一种基于条件熵的粗糙集连续属性离散化方法在对连续属性进行离散化时需要人为给出由细到粗的区间粒集,通过比较条件熵选出合适的区间粒集,从而达到连续属性离散化的目的,而本文所提方法无需提前给出由细到粗的区间粒集,操作起来更为方便。

1 粒度商相关概念

定义6粒度商。假设S=(U,C∪D,V,f)是一个决策系统,Q⊆C,粒度关联商,也可简称为粒度商定义为:

2 基于粒度商的连续属性离散化方法

对于决策表而言,如果对连续的条件属性划分较粗,可能会出现不相容的情况; 反之,如果划分较细,又会增加属性约简的计算量[8-9]。总之,在对连续属性离散化时,要保证决策表的相容性的条件下,尽可能的对连续属性划分的更粗,从而提高属性约简效率。在对不同的区间粒进行合并时,按照粒度商值变化较小的 那些区间粒度进行合并,在保证决策表相容性的条件下,离散化后的条件属性相对于决策属性的粒度商越小越好。

(1)

每个区间粒只含有一个属性值。然后对相邻的m个区间粒进行合并,直到满足给出的粒化规则,这时所得的每个区间粒对应一个离散值,实现了连续属性离散化的目的。

以下是基于粒度商的连续属性离散化算法:

输出:e的离散后的结果e′。

s1:将e的值由小到大排序;

s2:按照(1)式,选择初始的区间粒集I,然后把具有相同分类属性值的相邻区间粒合并到一起,作为一个新的区间粒,得到新的区间粒集重新记为I;

s4:选择使得粒度商变化量|QG(C∪{e′},D)-QG(C∪{e″},D)|最小的,e′对应的区间粒集I′;如当前步的粒度商变化量小于等于前一步的n倍,令I=I′,转s3;否则转s5;

s5:输出根据I离散化e后的值e′,算法结束。

3 实例分析

根据经验,四个条件属性中b,c,d取值较为确定,直接将它们离散化,将条件属性中的32、0.1、0.5记为1;65、0.2、1记为2;130、0.3、2记为3。记每次合并的区间粒个数m=2,参数n=1,对于条件属性a的值由小到大排序,得出初始区间粒集I1,可由细到粗选取四种区间粒集,把具有相同分类属性值的相邻区间粒合并到一起,作为一个新的区间粒,得到新的区间粒集I2,按照已得的区间粒度集I2对e离散化,离散结果记为e″,计算

表1 材料加工数据

表2 属性a的各步骤所得区间粒集

表3 离散化后的决策表

4 结束语

本文利用粒度商对决策表中的连续条件属性离散化,整个过程既考虑到了决策属性也顾及到了条件属性,利用粒度商的值作为粒化准则对区间粒进行合并,最后,通过实例分析说明该方法的可行性和有效性,并且相对于一种基于条件熵的粗糙集连续属性离散化方法来说操作起来更为方便,对决策表中连续属性的离散化有一定的实际意义和参考价值。目前,从粒度的角度还提出了其他一些连续属性离散化方法,下一步将对这些方法进行深入研究,与本文方法进行比较,在比较的基础上再进行改进。

[1] 贺 跃,郑建军,朱 蕾.一种基于熵的连续属性离散化算法[J].计算机应用,2005,25(3):637-638, 651.

[2] 谢 宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574.

[3] 史志才,夏永祥,周金祖.基于粒计算的离散化算法及其应用[J].计算机科学,2013,40(S1):133-135.

[4]KerberRC.Discretizationofnumericattributes[C]//Proceedingsofthe10thNationalConferenceonArtificialIntelligence:mitpress, 1992: 123-128.

[5] 周丹晨.采用粒计算的属性权重确定方法[J].智能系统学报,2015,10(2):273-280.

[6] 张 钹,张 铃.粒计算未来发展方向探讨[J].重庆邮电大学学报:自然科学版,2010,22(5):538-540.

[7] 周 军,林 庆,胡瑞瑞.基于动态粒度商的属性约简算法[J].计算机应用,2009,29(6):1608-1611.

[8] 丁 剑,白凤伟.一种基于相似性度量的离散化方法[J].西北师范大学学报(自然科学版),2012,48(5):43-47.

[9] 陈 贞,邢笑雪.粗糙集连续属性离散化的k均值方法[J].辽宁工程技术大学学报(自然科学版),2015,34(5):642-646.

[10]闫 华.一种基于条件熵的粗糙集连续属性离散化方法[J].现代制造工程,2009(3):87-89.

Discretizationalgorithmofcontinuousattributesbasedonquotientgranularity

LIPing,CHUYa-wei,FANMin

(CollegeofInformationEngineering,FuyangNormalUniversity,FuyangAnhui236041,China)

Thediscretizationofcontinuousnumericalattributesisanimportantstepfortheapplicationofgranularcomputing.Amethodofdiscretizationofcontinuousattributesbasedonquotientgranularityisproposed.Bycomputingthequotientofgranularity,thesuitablesectiongranularisselectedtodiscretethecontinuousattribute.Intheend,anexampleanalysisshowsthatthisalgorithmisfeasibleandeffective.

roughset;continuousattributes;discretization;quotientgranularity

2015-07-08

安徽省高等学校省级教学研究重点项目(2013jyxm553);安徽省高等学校省级专业综合改革试点项目(2014zy138,2013zy167);阜阳师范学院信息工程学院院级项目(2015FXXSK01 ); 阜阳师范学院信息工程学院院级项目(2015FXXZK01)资助。

李 萍(1985-),女,硕士,助教,研究方向:模式识别、智能计算。

O235

A

1004-4329(2015)04-080-04

10.14096/j.cnki.cn34-1069/n/1004-4329(2015)04-080-04

猜你喜欢
决策表阜阳粗糙集
基于决策表相容度和属性重要度的连续属性离散化算法*
基于Pawlak粗糙集模型的集合运算关系
第二届淮河文化论坛在阜阳举行
合肥至霍邱至阜阳高速公路今年开建
安徽阜阳颍上:“产业花”结出“脱贫果”
今日农业(2019年13期)2019-01-03 15:05:47
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
关于把阜阳建成区域中心城市的思考
正反转电机缺相保护功能的实现及决策表分析测试
两个域上的覆盖变精度粗糙集模型