基于关联规则算法的水体污染预警研究

2014-10-20 06:04:54董文倩张麒彭佳红
电脑知识与技术 2014年25期
关键词:Apriori算法数据挖掘预警

董文倩 张麒 彭佳红

摘要:关联规则是一种重要的数据挖掘技术,结合水体污染的特点,应用关联挖掘中的Apriori算法,分析水体污染排放量和水体中重金属含量之间的关系,同时分析工业、生活分别与水体重金属含量之间的关系,对水体重金属污染物有一定的预警作用。

关键词:数据挖掘;Apriori算法;水体污染;重金属;预警

中图分类号: TP301 文献标识码:A 文章编号:1009-3044(2014)25-5985-03

1 概述

随着社会经济的迅猛发展和工业化程度的不断提高,污染物的排放已使环境日趋恶化,直接或间接给生物的生存带来威胁,并危及人类健康。重金属污染与其他有机化合物的污染不同,具有富集性,很难在环境中降解。近年来,工矿业废水、生活污水等未经适当处理即向外排放,污染土壤和废弃物堆置场受流水作用,以及富含重金属的大气沉降物输入, 城市生活污水、工业废水和矿山开采、金属冶炼等所产生的污染物通过不同方式进入水中, 使水体中的重金属含量急剧升高,如随废水排出的重金属汞(Hg)、铜(Cu)、铬(Cr),导致水体受到重金属污染[1]。我国各大江河湖库普遍受到不同程度的重金属污染,其底质的污染率高达80.11%[2],而且已经开始影响到水体的质量,严重影响着人类及其它生物的健康与生存。

数据挖掘是从大量的数据中提取隐含在其中的、人们事先不知道的、但又潜在的有用信息和知识的过程。数据挖掘得到的信息和知识的表现形式为规则、概念和模式等,它可以帮助决策者分析历史数据以及当前数据的特征和规律,以便进一步预测未来。[3]关联挖掘作为数据挖掘的一个重要研究分支,其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。[4]本文采用数据挖掘的关联规则技术从现有的生活、工业两方面的废水排放量、化学需氧量排放量、氨氮排放量以及水体中汞、镉、铅的含量数据进行处理,并用关联规则中的Apriori算法获取相应的关联规则,形成水体污染预警知识,便于水体重金属污染的预防和治理。

2 材料与方法

2.1 数据来源

本文数据来源于2011年环境统计年报[5]。选取六个对于水体重金属污染有一定作用的影响因子:工业废水排放量、生活废水排放量、工业化学需氧量排放量、生活化学需氧量排放量、工业氨氮排放量、生活氨氮排放量,并选取了汞、镉、铅三种最具重金属代表性的元素作为分析因子,具体数据如表1所示。

2.2 关联规则及Apriori算法描述

1994年由R.Agrawal等人提出来的Apriori算法是关联规则挖掘的一个经典算法[6],关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。关联规则侧重于确定数据中不同领域之间的联系,找出满足给定支持度和置信度阈值的多个域之间的依赖关系[7]。关联规则能够从大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。为了在数据挖掘任务中得到有用的和可靠的规则,需要通过支持度和置信度两个阈值来保证。关联规则 X=>Y 在 D 中的支持度是 D 中事务包含 XUY 的百分比,即概率 P(XUY),它是对关联规则重要度的衡量,表示关联规则的频度。关联规则X=>Y 在 D 中的置信度是包含 X 的事务中同时包含 Y的百分比,即条件概率 P(X=>Y),它是对关联规则准确度的衡量,表示关联规则的强度[8]。Apriori算法的核心思想是把发现关联规则的工作分为两步:第一步通过迭代检索出事务数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值;第二步从频繁项集中构造出满足用户最低信任度的规则[9]。对于满足最小支持度和最小置信度要求的关联规则称为强规则[10]。

2.3 数据处理

利用Weka软件,采用关联规则中的Apriori算法,对表1的数据进行处理,得到的关联规则如所示:

Apriori

Minimum support: 0.25 (2 instances)

Minimum metric: 0.9

Number of cycles performed: 15

Generated sets of large itemsets:

Size of set of large itemsets L(1): 24

Size of set of large itemsets L(2): 28

Size of set of large itemsets L(3): 24

Size of set of large itemsets L(4): 16

Size of set of large itemsets L(5): 6

Size of set of large itemsets L(6): 1

Best rules found:

1. Ammonia emissions from industrial='(-inf-29.82]' 3 ==> Mercury='(-inf-1.505]' 3 conf:(1)

2. COD emissions of industrial='(-inf-452.07]' 2 ==> Lead='(482.96-525.73]' 2 conf:(1)

3. Lead='(482.96-525.73]' 2 ==> COD emissions of industrial='(-inf-452.07]' 2 conf:(1)

4.Industrial wastewater emissions='(233.43-237.82]' 2 ==> Ammonia emissions from industrial='(-inf-29.82]' 2 conf:(1)

5. Industrial wastewater emissions='(233.43-237.82]' 2 ==> Mercury='(-inf-1.505]' 2 conf:(1)

6. Cadmium='(-inf-38.14]' 2 ==> Industrial wastewater emissions='(233.43-237.82]' 2 conf:(1)

7. Industrial wastewater emissions='(233.43-237.82]' 2 ==> Cadmium='(-inf-38.14]' 2 conf:(1)

8. Lead='(-inf-183.57]' 2 ==> Industrial wastewater emissions='(233.43-237.82]' 2 conf:(1)

9. Industrial wastewater emissions='(233.43-237.82]' 2 ==> Lead='(-inf-183.57]' 2 conf:(1)

10. Wastewater discharge life='(-inf-245.25]' 2 ==> Ammonia emissions from industrial='(39.9-42.42]' 2 conf:(1)

11. Cadmium='(102.46-inf)' 2 ==> Wastewater discharge life='(-inf-245.25]' 2 conf:(1)

12. Wastewater discharge life='(-inf-245.25]' 2 ==> Cadmium='(102.46-inf)' 2 conf:(1)

13. Lead='(482.96-525.73]' 2 ==> Wastewater discharge life='(-inf-245.25]' 2 conf:(1)

14. Wastewater discharge life='(-inf-245.25]' 2 ==> Lead='(482.96-525.73]' 2 conf:(1)

15. COD emissions of industrial='(-inf-452.07]' 2 ==> Mercury='(-inf-1.505]' 2 conf:(1)

相应的规则解释如下:

规则1:工业氨氮排放量<29.82万吨时,则汞排放量<1.505吨,置信度为100%;

规则2.3:工业化学需氧量排放量<452.07万吨时,则铅排放量<183.57吨,置信度为100%;

规则4:工业废水排放量为233.43-237.82亿吨时,则工业氨氮排放量<29.82万吨,置信度为100%;

规则5:工业废水排放量为233.43-237.82亿吨时,则汞排放量<1.505吨 ,置信度为100%;

规则6.7:工业废水排放量为233.43-237.82亿吨时,则镉排放量<38.14吨, 置信度为100%;

规则8.9:工业废水排放量为233.43-237.82亿吨时,则铅排放量<183.57吨, 置信度为100%;

规则10: 生活废水排放量<245.25亿吨,则工业氨氮排放量为39.9-42.42万吨 置信度为100%;

规则11.12:生活废水排放量>245.25亿吨时, 则镉排放量>102.46吨 置信度为100%;

规则13.14:生活废水排放量<245.25亿吨时,则铅排放量为482.96-525.73吨 置信度为100%;

规则15:工业化学需氧量排放量<452.07万吨时,则汞排放量<1.505吨 置信度为100%;

3 结果分析

由关联规则Apriori算法得出的15条规则结果分析,可以得到如下结论:

1) 重金属与氨氮排放量关系。当工业氨氮排放量<29.82万吨时,则汞排放量<1.505吨,说明工业氨氮排放量较低时,重金属元素汞的排放量低;

2) 重金属与废水排放量关系。当工业废水排放量为233.43-237.82亿吨时,则汞排放量<1.505吨,镉排放量<38.14吨,铅排放量<183.57吨,说明工业废水排放量较低时,重金属汞、镉、铅的排放量较少;当生活废水排放量>245.25亿吨时, 则镉排放量>102.46吨,说明生活废水排放量比较高时,重金属镉的含量比较高。生活废水排放量<245.25亿吨时,则铅排放量为482.96-525.73吨,说明当生活废水排放量比较高时,重金属铅的含量比较高。

3) 重金属与化学需氧量排放量关系。工业化学需氧量排放量<452.07万吨时,则汞排放量<1.505吨,说明当工业化学需氧量排放量比较少时,重金属汞的含量比较低。工业化学需氧量排放量<452.07万吨时,则铅排放量<183.57吨,说明化学需氧量排放量较少时,铅的排放量较少。

4 结论

水体中金属污染具有富集性、不可降解性等特点,已经对我国各大江河湖库造成了严重污染,影响人类和其他生物的健康和生存,因此,提高对水体中重金属污染的成因认识,了解水体污染物排放对几大重金属的影响,加强对水体重金属污染排放的控制,显得尤为重要。采用数据挖掘关联规则Apriori算法,对近十年来的全国污染物和重金属排放量数据利用weka进行离散化处理后,获取相关的关联规则知识,分析了工业、生活两方面的废水排放量、氨氮排放量、化学需氧量与水体重金属汞、镉、铅含量之间的关系 ,从而对水体重金属污染进行预警,对水体重金属污染的预防和治理的决策上起到了一定的指导作用,帮助控制环境污染。

参考文献:

[1] 邱小香,朱海燕.水体重金属的污染及其处理方法[J].湖南农业科学,2010(14):34-35.

[2] 周启艳,李国葱,唐植成.我国水体重金属污染现状与治理方法研究[J].轻工科技,2013(4):98-99.

[3] 李梅,张阳,蔡晓妍.关联规则挖掘在学生成绩分析中的应用[J].中国电力教育,2014(20):94-95.

[4] 司晓梅.数据挖掘中关联规则的研究及应用[D].武汉:武汉理工大学,2007.

[5] 罗毅.中国环境统计年报2011[N].中国环境科学出版社,2012-12-1(1)

[6] 秦亮曦,史忠植.关联规则研究综述[J].广西大学学报:自然科学版,2005,30(4):310-317.

[7] 吴昊.基于关联规则的道路交通事故数据挖掘的研究[D].长春:吉林大学,2005.

[8] 何兵.关联规则数据挖掘算法的相关研究[D].成都:西南交通大学,2001.

[9] 罗凤娥.基于Web的农业数据挖掘平台技术研究[D].长沙:湖南农业大学,2010.

猜你喜欢
Apriori算法数据挖掘预警
探讨人工智能与数据挖掘发展趋势
法国发布高温预警 严阵以待备战“史上最热周”
今日农业(2019年12期)2019-08-13 00:50:02
园林有害生物预警与可持续控制
现代园艺(2017年22期)2018-01-19 05:07:01
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
基于Hadoop平台的并行DHP数据分析方法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
关联规则挖掘Apriori算法的一种改进
中国市场(2016年36期)2016-10-19 04:10:44
机载预警雷达对IFF 的干扰分析
一种基于Hadoop的大数据挖掘云服务及应用