丁健 邱俊强 吴笑笑
摘 要:随着时代的不断变迁,我们的生活方式更加便捷。然而,于此同时,我们所生存的环境由此变恶劣了,虽然现在我们在不断地治理环境,然而还是未能制止住环境的恶化。因此,我们现在在治理环境的同时,也要预防环境的变化。所以,本文利用关联规则算法,通过数据挖掘,找出环境数据的CONDITION、AQI、PRES、HUM这四项数据进行研究,得到了如下结论:研究数据的变化与天气变化情况关联不大,尤其是AQI值的变化难以推断。最后,本文证实了根据CONDITION、AQI、PRES、HUM这四项数据难以推测出天气的变化。
关键词:关联规则;数据挖掘;
一、引言
如今的环境气候的变化难测,虽然总体是呈现温度上升,但气候的升升跌跌难以猜测。所以,为了方便我们的日常穿衣出行,我们需要做出环境气候变化的预测。
因此,环境的大数据分析成为了一项十分重要的用来预测天气变化的武器。通过关联规则,分析出环境中各个成分的变化的联动性,从而的出环境中各个成分的关联性,用来预测未来环境中各个成分的变化情况从而得出气候的变化趋势,有利于我们对气候变化的把握。
在利用关联规则对环境数据进行分析时,本文选取了我国南京地区的2016年~2018年的CONDITION、AQI、PRES、HUM这四项数据进行实证研究。为了使数据更具有可比性、价值性、直观性,对数据进行筛选,剔除了没有成效的数据。
二、相关研究
我国主要通过环境统计分析,通过检测空气中各成分的变化,利用环境模糊聚类分析、环境判别分析、环境主成分分析和环境因子分析这些常用的环境统计分析模型;也有少数利用现代环境数据处理常用的人工神经网络方法和空间统计分析方法。不过这些都存在一些局限性:缺乏有关制度的结合,主要是环境监测制度,排污许可证制度和环境信息公开制度;指标体系还不完善;缺乏数据质量保障制度和规范。
三、关联规则对我国环境数据的分析
(一)关联规则简介
关联规则的一般性描述是: 设I={Itemset 1 , Itemset 2 , ? ,Itemset m }是项的集合, D是数据库事务的集合,其中每个事务T是一个非空项集,使得T∈I,关联规则是形如A =>B的蕴涵式,其中A∈I , B∈I,A≠?,B≠?,并且 A∩B = ?,对于关联规则 A =>B 在事务集D中成立:
支持度: Sup=P(A?B)=|A?B|/|D| (1)
置信度: Conf=P(B|A)=|A?B|/|A| (2)
其中 P(A?B) 表示事务数据库D中包含A∪B的概率,P(B|A) 事务数据库D 中包含 A的事务同时也包含 B的事务的概率。定义同时满足最小支持度阈值(min_Sup)和最小置信度阈值(min_Conf)的规则称为强关联规则。强关联规则不一定都是有趣的,在此引入提升度来扩充关联规则的支持度-置信度框架,过滤掉无趣的相关规则。
提升度: Lift=P(B|A)/P(B)=Conf(A=>B)/Supp(B)(3)
即B在包含A 的事务集中出现的概率與B在事务数据库D中出现的概率的比值,探究A的出现“提升”B出现的程度。若提升度大于1,则说规则是有趣的。若规则提升度等于1,则两者相互独立,没有相关性。若该规则提升度小于1,实为负相关的伪规则,可能会对决策产生误导。
(二) 算法简介
Apriori 算法是Agrawal和R.Srikant 于1994年提出的一种发现频繁项集的基本算法, 使用逐层搜索的迭代方法,其思想是利用已知的高频数据项集推导更高层的高频数据项集。Apriori 算法是一种宽度优先算法,其具体步骤过程为:
S1:首先扫描数据库,计算 D 中所有单个项集的支持度, 找出1- 频繁项集的集合,记为 L1。
S2:利用已生成的L k-1 ,即(k-1)-频繁项集来生成Lk,即 k-频繁项集。
S3:第S2步利用先验性质压缩搜索空间,其应用分为以下两步过程:
连接步:假定事务或项集中的项按字典序排序。对L k-1中的元素两两进行比对, 如果它们前k-2项相同 ,而最后一项不同,则将二者进行连接得到k-候选项集。
剪枝步:对候选k-项集C k 进行剪枝,从C k 中删除所有(k-1)-子集不全包含在L k- 1 中的项集,从而得到k-频繁项集。
S4:依次循环调用连接步和剪枝步,直至产生所有频繁项集。
(三)通过环境数据的算法实现
首先我们将我们需要的数据导出来,这里我先用2016年1月的数据做例子,见表1:
因为我们想要观察这些数据之间的联系,为了输入数据的方便,我们首先设立事件:
将COND数据中的晴设置为事件1,多云设置为事件2,阴设置为事件3,小雨设置为事件4,雨夹雪设置为事件5,小雪设置为事件6,小到中雪设置为事件7。
同理,将AQI中的1~50设置为事件a,51~100设置为事件b,101~150设置为事件c,151~200设置为事件d,201~250设置为事件e,251+设置为事件f。
PRES中,1011~1015设置为事件g,1016~1020设置为事件h,1021~1025设置为事件i,1026~1030设置为事件j,1031+设置为事件k。
HUM中,1~20设置为事件l,21~40设置为事件m,41~60设置为事件n,61~80设置为事件o,81~100设置为事件p。
接下来,我们需要设立支持度和置信度,就暂且将支持度和置信度都先设置为0.6。
四、分析结果
首先看表2,表2是将数据转换之后的图,接下来我们将表2中的数据导入到算法中,带入计算。我们首先通过天气分类,将为同一类型的天气的各成分输入其中,通过设置最小支持度和最小置信度,从而得出天气状况和环境成分的关联。
表3是事件1即晴的时候将最小支持度和最小置信度设为0.1所得到的结果。通过观察可以猜测数d,j,p这三个类型与晴天的关联较大,即出现d,j,p时,晴天可能性较大;表4是事件2即多云的时候将最小支持度和最小置信度设为0.1所得到的结果。有结果可推出d,i,p这三个因素对应着多云着一天气情况;表5是事件3即阴天的时候将最小支持度和最小置信度设为0.1所得到的结果。结果表明i,o,p对其影响较大,但由于o,p同属于HUM中,所以需要取舍,由F1的出现频率所以选p......表6和表7的结果以此类推即可得出。
不过,经过检查发现,通过这样得到的结果并不完全可靠,其中还欠缺不少未考虑到的因素,例如:国家政策对AQI值的影响,节假日对环境的影响等。所以我们统计的结果在与之后的数据对比中,发现不少有出入的地方。所以我们暂且还不能单凭一些环境成分就能准确地预测出未来的天气状况。我们还需要加以改进。
参考文献:
[1]杨恩. 关联规则挖掘方法的改进及应用研究[EB/OL]. 北京:中国科技论文在线 [2009-05-06].
[2]崔妍, 包志强. 关联规则挖掘综述[J]. 计算机应用研究, 2016, 33(2): 330-334.
[3]刘林东,齐德昱.一种改进的关联规则挖掘算法研究[J]. 2018.6
[4]王晓峰,王天然,赵越.一种自顶向下挖掘长频繁项的有效方法[J].计算机研究与发展,2004,41(1):148-155.
*双创项目:南京审计大学金审学院双创项目201813994005Y