粗糙集和熵权计算法在多因素指标评价中的应用*

2017-04-16 02:13赵志峰朱凯然
中国安全生产科学技术 2017年9期
关键词:壤土粗糙集含水量

赵志峰,文 虎,樊 恒,朱凯然

(1. 西安石油大学 电子工程学院,陕西 西安 710065;2. 西安科技大学 安全科学与工程学院,陕西 西安 710054)

0 引言

权重系数是用数量形式权衡对比评价系统中各因素相对重要程度的量值。对于同一组指标因素数据,权重系数的不同,会导致截然不同,甚至完全相反的评价结论。因此、评价指标因素的权重确定是非常重要和必要的。指标权重的方法确定,一般有专家评分法,模拟评价法,Delphi法,主观赋权法,沃尔评分法等[1-3]。很多方法都是主观性评价,评价结果具有一定的局限性。为了使评价更具有针对性、适用性和实用性,且避免使用主观性方法,在实际客观数据的基础上,根据粗糙集处理数据的特点,以及熵权计算法的原理和计算权重的客观性,提出将粗糙集和熵权计算法结合进行指标权重的计算。

1 粗糙集和熵权计算法

粗糙集是处理不确定问题的数学工具。它在不需要考虑任何先验信息的条件下,直接通过对观测数据进行分析处理,依靠粗糙集算法从决策表中删除重复的相同信息和冗余项,简化条件属性,精简决策指标,从而进行核心指标的选取和权重系数的计算[4-5]。

熵权计算法是种客观的权重计算方法,其通过信息熵计算出各指标的熵权,再利用熵权对各指标进行权重的修正,因而评价结果更具有较好的客观性[6-7]。

在有T个评价指标(因素)、Y个被分类对象的区域系统内,可以按照定性和定量相结合的原则,Y个被分类对象对应于T个指标的因素值构成评价矩阵R:

(1)

对评价矩阵R作标准化处理,得到矩阵R′ :

(2)

(3)

对于定义评价指标的熵,在有T个指标,Y个被分类对象的区域系统内,定义第v个指标的熵值为:

(4)

(5)

2 客观权重计算法在土壤腐蚀多因素指标评价中的实例应用

针对土壤的腐蚀性因素较多,并且不同地区的土壤环境,其核心影响因素及权重也截然不同的特点,提出应用粗糙集和熵权计算法进行核心指标因素的分析与权重计算。首先根据粗糙集(RS)处理数据的特点,对土壤多指标因素原始数据进行前期数据的分析与挖掘,针对数据的多样性、冗余性、复杂性、异常性和属性关系进行规范化处理和约简,找出核心指标因素,并保证计算权重前数据信息的一致性和准确性。其次应用粗糙集和熵权计算法对处理后的指标因素进行权重计算,最后权重值取2种方法计算值的平均值作为权重系数。

以项目中梁平段管道所在的壤土土壤腐蚀区域为例,针对壤土腐蚀现场埋设的区域和位置情况,按试片取片数据以及采集批次进行6种影响因素的核心指标因素分析与权重计算,具体见表1壤土区管段20组土壤腐蚀实际原始样本指标因素值所示。

表1 壤土区管段20组土壤腐蚀实际原始样本指标因素值

将表1壤土区管段20组土壤腐蚀实际原始样本指标因素值作为决策表,其中把土壤腐蚀选取点作为研究对象U={X1,X2,…,X20}。把土壤腐蚀所选取的影响因素作为条件属性A={土壤电阻率,氧化还原电位,氯离子含量,…,pH值}。把壤土区域的土壤腐蚀等级作为决策属性D={强,较强,一般,弱}={4,3,2,1}。

由于现有的离散化数据方法都有或多或少的丢值问题,并且在属性值增加的情况下,断点数也会增加。断点选择的好坏直接关系到离散化数据的准确性。断点过少会造成严重的失值问题,过多会造成维度和复杂度上升,精度下降。例如等宽、等频区间离散法,统计学离散法,贪心及改进离散法,聚类连续属性离散法,差分演化离散法等[8-9]。论文结合离散化的要求和目的,即保证数据结果的一致性和简单化,以及通过离散化的有效性提高数据集合的分类能力和鲁棒性,减少样本冲突和最小的信息丢失。因此,在土壤腐蚀多因素特点的基础上,针对离散化方法和原理,提出改进其应用,并考虑决策表的具体属性值(监督性离散化方法),根据其相应的土壤腐蚀等级分类[10],见表2土壤腐蚀指标因素分类区间表所示,等级区间选取依据土壤腐蚀等级标准及规范(《NACE SP0502-2010》,《管道风险评价手册》),以及相关参考文献[11-13]等标准建立,对表1进行离散化处理,从而解决了数据中的丢值问题,保证了数据离散时的稳定性。壤土区管段土壤腐蚀因素离散化表见表3所示,将数据冗余项2(或10,17)、项4(或7,12)、项9(或15)、项11(或18)、项16(或19,20)中的括号内数据删除,得到的新决策表按约简决策规则进行属性约简,以及权重值分析。

表2 土壤腐蚀指标因素分类区间

表3 壤土区管段土壤腐蚀因素离散化

结合壤土区域管道土壤腐蚀数据,定义整个数据集合为U,T和J分别为条件属性集和结果属性集,其中条件属性集T含有:土壤电阻率为a,氧化还原电位为b,氯离子含量为c,硫酸根离子含量为d,含水量为e,pH值为f。结果属性集J是壤土区域土壤腐蚀等级[14-15]。因此:U/J={{2,3,8,16},{1,4,5,6,9,11,13,14}};

U/T={{1,16},{2},{3,6},{4},{5},{8},{9},{11},{13},{14}};

U/T-a={{1,16},{2,5},{3,4,6},{8},{9,13},{11},{14}};

U/T-b={{1,16},{2,8,9},{3,6},{4,11},{5,13},{14}};U/T-c={{1,16},{2},{3,6},{4,14},{5},{8},{9},{11},{13}};

U/T-d={{1,16},{2},{3,6},{4},{5},{8},{9},{11},{13},{14}};

U/T-e={{1,2,3,6,16},{4,5},{8},{9},{11},{13},{14}};

U/T-f={{1,16},{2},{3,6},{4},{5},{8},{9},{11},{13},{14}}。

结果属性对各类的正域为:

POST(J)={2,4,5,8,9,11,13,14};

POST-a(J)={8,9,11,13,14};

POST-b(J)={4,5,11,13,14};

POST-c(J)={2,4,5,8,9,11,13,14};

POST-d(J)={2,4,5,8,9,11,13,14};

POST-e(J)={4,5,8,9,11,13,14};

POST-f(J)={2,4,5,8,9,11,13,14}。

各属性的重要度:

根据以上的计算可知,该壤土区域的腐蚀影响因素的重要性排序为:土壤电阻率=氧化还原电位>含水量>硫酸根离子含量=氯离子含量=pH值。由于硫酸根离子含量、氯离子含量和pH值=0,表明上述3个条件属性对结果无意义,可以删除。同时删除数据中的非正域项(第1,3,6,16项),见表4壤土区管段RS土壤腐蚀约简项所示。则土壤电阻率等于氧化还原电位的权重值为:

含水量的权重值为:

表4 壤土区管段RS土壤腐蚀约简项

将表4对应的实际数据值代入公式(1)至(5)算出权重值,从计算结果发现所得的土壤电阻率权重计算值为0.338 5,含水量权重计算值为0.332 8,氧化还原电位权重计算值为0.328 7。排序顺序为土壤电阻率>含水量>氧化还原电位,但这与粗糙集计算的权重值的排序存在明显的不一致。通过分析发现在含水量指标因素中,其与评价等级的关系并不是单纯的随着指标越小越优,或是随着指标越大越优,而是随着指标越大越差,但到达一定范围值时就转变为随着指标越大越优的形同抛物线的比例关系,因此需针对含水量指标因素中的熵权计算法的无量纲化处理公式做同级变形,即根据实际指标值所在的区间利用公式6统一处理为随着指标越小越优的情况。

(6)

因此,将编号4号、11号和14号中的含水量值代入公式6进行同级变换,再进行熵权值计算,从计算结果可看出:土壤电阻率权重计算值0.361 3,含水量权重计算值0.287 9,氧化还原电位权重计算值0.350 8。排序顺序为土壤电阻率≈氧化还原电位>含水量,这与粗糙集计算的权重值的排序基本一致。从对比结果可以看出,以上的应用改进提高了熵权计算法在土壤腐蚀性权重计算分析的正确性,为土壤腐蚀评价权值计算提供了应用方法指导。

从实例的应用可以看出,此方法能够根据客观数据和指标因素的特点进行权重计算,适应性的解决了粗糙集离散化要求,以及熵权计算法由于非线性关系导致无量纲化处理时所造成的结果偏差,提高了客观权重分析的准确性。

该方法主要应用于多因素评价体系里以客观数据为前提,且指标阈值已确定的权重计算。应注意的是,当评价指标等级优劣关系中出现非线性问题而进行公式同级变换时,需统一按一种标准要求进行转化,即都按指标越大越优处理,或都按指标越小越优的一致性进行处理,以保证处理数据无量纲化时的统一性。

3 结论

1)针对土壤腐蚀多因素的特点,为了改进粗糙集应用中离散化数据时丢值的问题,提出依据土壤腐蚀等级的分类离散化方法,减少了离散数据时的失值问题,动态的进行了土壤腐蚀多因素的核心指标因素分析和实际离散化方法的应用,增加针对其核心指标因素和权重分析的适用性和客观性。

2)通过分析20个点的实际土壤腐蚀数据来看,壤土区域的核心因素为土壤电阻率、氧化还原电位和含水量,从而客观验证了,不同区域不同地质环境下,土壤的腐蚀核心因素是不同的,不能片面的选取单因素或同一类核心因素来进行多因素评判,需考虑不同地域环境条件下,土壤核心因素选取的适应性和有效性。

3)针对多指标因素权重计算的特点,根据非线性关系导致熵权计算法中无量纲化处理时标准的不统一,提出利用同级变换公式进行转化,其计算结果得到了粗糙集权重排序的验证,增加了针对权重系数分析的实用性和可靠性,同时也说明了应用时的盲目性将导致结果的偏差和不正确。

[1]李军,张宏,梁海滨.基于模糊综合评价的燃气管道第三方破坏失效研究[J].中国安全生产科学技术,2016,12(8):140-145.

LI Jun,ZHANG Hong,LIANG Haibin. Study on failure of gas pipeline due to third party damage based on fuzzy comprehensive evaluation[J]. Journal of Safety Science and Technology,2016,12(8):140-145.

[2]国家能源局. 油气管道风险评价方法第一部分半定量评价法:SY 6891.1-2012T [S].北京:石油工业出版社,2012.

[3]文虎,赵志峰,郭军. 集对理论聚类分析法综合预测煤与瓦斯突出[J].西安科技大学学报,2015,35(5):547-554.

WEN Hu, ZHAO Zhifeng, GUO Jun. Comprehensive forecast of coal and gas outburst on the basis of set pair theory and clustering analysis method[J].Journal of Xi'an University of Science and Technology,2015,35(5):547-554.

[4]Pawlak Z. Rough sets[J].International Journal of Information and Computer Science. 1982,11(5):341-356.

[5]张延松,赵英凯.基于PCA和粗糙集构建决策树的变电站故障诊断[J].电力系统保护与控制,2010,38(14):104-109.

ZHANG Yansong, ZHAO Yingkai. Fault diagnosis of substation by the constructed decision tree based on principal component analysis(PCA) and rough set[J]. Power System Protection and Control, 2010, 38(14):104-109.

[6]王书明.煤矿安全投入系统分析及其决策的研究[D].北京:中国矿业大学,2008.

[7]ZHAO Zhifeng,WEN Hu, GAO Weixin. The pipeline soil corrosion comprehensive prediction method of multi-method integration[J].International Journal of Simulation: Systems, Science and Technology,2016,17(26):19-26.

[8]张鹏飞.一种基于熵的连续属性离散方法[J].燃气涡轮试验与研究,2014,27(6):49-52.

ZHANG Pengfei. A Method of Continuous Attributes Discretization Based on Entropy[J].Gas Turbine Experiment and Research,2014,27(6):49-52.

[9]李慧.一种基于粗糙集理论的连续属性离散化新算法[J].计算机应用研究,2010,27(1):77-78.

LI Hui. Novel algorithm for discretization of continuous attributes based on rough set theory[J].Application Research of Computers,2010,27(1):77-78.

[10]赵志峰,文虎,高炜欣,等.长输管道完整性管理中的数据挖掘和知识决策[J].西安石油大学学报(自然科学版),2016,31(4):109-114.

ZHAO Zhifeng, WEN Hu, GAO Weixin, et al. Data mining and knowledge decision in the integrity management of long-distance pipeline[J].Journal of Xi an Shiyou University(Natural Science Edition),2016,31(4):109-114.

[11]张江江,张志宏.雅克拉气田天然气西气东输管道腐蚀与检测评价[J].腐蚀与防护,2015,36(3):234-239.

ZHANG Jiangjiang,ZHANG Zhihong. Corrosion detection and evaluation of west to east nature gas transmission pipeline in yakela gas field[J].Corrosion & Protection,2015,36(3):234-239.

[12]柳华伟,陈杨. 模糊综合评价法在埋地管道腐蚀状况评价中的应用[J].石油工程建设,2011,37(5): 43-45.

LIU Huawei, CHEN Yang. Application of fuzzy integrated evaluation method in evaluating corrosion state of buried pipeline[J]. Petroleum Engineering Construction,2011,37(5):43-45.

[13]张弛,王凯全.基于可拓学的燃气管道土壤腐蚀性评价[J].油气储运,2010, 29(11): 848-851.

ZHANG Chi, WANG Kaiquan. Soil Corrosivity assessment of gas pipeline based an extenics[J]. Oil & Gas Storage and Transportation, 2010, 29(11): 848-851.

[14]赵志峰,文虎,郭军. 基于多方法融合的煤与瓦斯突出综合预测[J].煤矿安全,2015,46(11):160-163.

ZHAO Zhifeng,WEN Hu,GUO Jun. Comprehensive forecast of coal and gas outburst based on multiple methods[J].Safety in Coal Mines,2015,46(11):160-163.

[15]杨林娟,沈士明.基于粗糙集理论的故障树重要度分析[J].南京工业大学学报〔自然科学版),2007,29(1):60-64.

YANG Linjuan, SHEN Shiming. Importance analysis of the fault tree based on rough set theory[J].Journal of Nanjng University of Technology,2007,29(1):60-64.

猜你喜欢
壤土粗糙集含水量
粗糙集与包络分析下舰船运行数据聚类算法
基于Pawlak粗糙集模型的集合运算关系
压力、含水量和温度对生活垃圾在模拟填埋过程中降解的影响
土壤质地及砧木影响苹果根际微生物功能多样性及其碳源利用
成熟期玉米自交系籽粒含水量的快速测定方法
左家林场核桃良种基地选址调查报告
CONTENTS
成熟期玉米籽粒含水量与主要农艺性状的相关分析
一种基于粗糙集理论的社交网络潜在路径研究
杨树育苗管理技术