朱玉梅
(新疆生产建设兵团农业广播电视学校,乌鲁木齐830002)
Apriori算法在棉花病虫害分析中的应用
朱玉梅
(新疆生产建设兵团农业广播电视学校,乌鲁木齐830002)
为了快速准确地掌握棉花虫害发生趋势,提高虫情测报的时效性和准确性,采用Apriori算法数据挖掘关联规则,对棉花上的3种害虫棉铃虫、棉叶螨、棉蚜的发生趋势进行综合分析。通过Apriori算法寻找出了气候因素与棉花三大害虫的发生发展有密切的关系,尤其气温变化直接影响到棉花害虫的发生种类、发生期及发生量。关联规则数据挖掘技术,在处理大量农业信息数据中起着非常重要的作用,Apriori算法在棉花病虫测报工作中将是一项新的技术,具有非常广泛的应用前景。
关联规则;Apriori算法;数据挖掘;Weka平台;棉花病虫预测预报;应用前景
现代信息技术的迅速发展使中国农业迈向了大数据时代,现代化的农业必然与大数据发生各种联系,农业大数据的挖掘和应用对于现代农业的发展具有非常重要的作用。
农业发展过程中积累了大量的农业数据信息,涉及到与农业生产过程密切相关的耕地、播种、田管、水肥、植保、收获及储运等各个农事作业环节,包括各类作物的苗情、土情、肥情、水情、虫情、气象和灾害等农业数据,这些数据信息是指导现代农业精准作业的宝贵财富[1-2]。但这些复杂而丰富、多维又动态的数据信息具有不完整和不确定性,导致人们在利用这些农业数据时总陷入“数据丰富而知识贫乏”的境地[3-5]。如何利用好这些大数据,从中挖掘其背后隐藏的信息,已成为当前加快推进农业现代化发展急需解决的问题,也是一个值得思考和实践的课题。
信息技术在农业生产中已广泛应用,通过利用数据挖掘技术对大量的信息进行分析[6-9],寻找各相关因素间内在联系与规律,从中发掘出潜在的信息价值,为农业生产提供科学依据,对于实现农业高产、优质、高效和可持续发展具有十分重要的意义[10-13]。因此,笔者采用Apriori关联规则挖掘算法,以新疆棉区3种害虫棉铃虫、棉叶螨和棉蚜的发生情况为实例,对气温、有效积温和降雨量3个气象因子与3种害虫发生量进行数据挖掘,借此找出气象因子与虫情发生发展的内在联系和规律,以期帮助基层测报站工作者快速准确掌握各类虫情发生发展的趋势,通过对虫情动态信息的正确分析,提高测报的时效性和准确性,进一步为虫害的防控决策提供强有力的参考价值和科学依据。
关联规则是近年数据挖掘领域的一个研究热点,关联规则数据挖掘技术已在多个领域取得令人满意的应用效果[14-17]。从海量数据中,通过关联规则可以发现数据中项集之间隐含的联系,并揭示数据间未知的依赖关系,可以依据这种依赖关系,从某一数据对象的信息推断出另一数据对象的信息[18-19]。
1.1 Apriori算法概述
Apriori算法1994年由Edu等人[20]提出,是发现事务数据库中频繁项集的最有影响的数据挖掘算法之一,Apriori算法是关联规则数据挖掘中的典型算法,目前已应用于商业、林业、电信和教育等方面[14-19]。Apriori算法是利用一个层次顺序搜索的循环方法来完成产生关联规则的频繁项集的挖掘工作,包含k个项的集合为k项集,k项集用于探索(k+1)项集。关联规则的挖掘在Apriori算法中分为两步,一是利用候选项集生成频繁项集,频繁项集满足“支持度大于最小支持度阈值”,二是利用最终的频繁大项集生成关联规则,规则满足“置信度大于最小置信度”,其中的最小支持度阈值和最小置信度阈值都由用户事先设定[14,16],也就是依据支持度找出所有频繁项集(频度)、依据置信度产生关联规则(强度)。
1.2 Apriori算法步骤
采用连接步和剪枝步2种方式,Apriori算法从中找出所有的频繁项集,形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。1.2.1连接步为找Fk,通过将Fk-1与自己连接产生候选k项集的集合,该候选集的集合记做Lk;设F1和F2是Fk-1中的项集;执行连接Fk-1∞Fk-1,其中Fk-1的元素F1和F2是可以连接的。
1.2.2 剪枝步Lk是Fk的超集,Lk的成员可能是也可能不是频繁的,所有的频繁k项集都包含在Lk中。扫描数据库确定Lk中每个候选集计数,判断是否小于最小支持度计数,如果不是,则认为该候选是频繁的,并利用Fk-1剪掉Lk中的非频繁项,从而确定Fk。
近年来农业病虫害频繁发生,危害各种农作物,病虫害直接影响农作物的产量和质量。中国每年因病虫害造成的经济损失达15%~25%[21-22],在病虫害预测预报工作中,植保部门每年都积累了大量的病虫情报数据,随着大量数据不停的收集和存储,从数据库中挖掘关联规则显得越来越有必要性。笔者以新疆兵团农业团场种植棉区常年发生的3种害虫棉铃虫、棉叶螨和棉蚜的发生情况为实例,采用关联规则Apriori算法对3个气象因子气温、有效积温和降雨量与3种虫情发生规则进行数据挖掘。
2.1 实例数据
棉铃虫、棉叶螨和棉蚜的发生期、发生量与自然因素有着密切的关系,受气象因子的影响,害虫发生种类及发生特点也不同。通过收集该地区2014年4—8月,连续5个月3种害虫发生量的相关数据,包括:有螨(虫、蚜)株率(%)、百株螨(虫、蚜)量(头)、百株卵量(粒),采用主因子分析、回归分析等方法,选取相关程度密切的3个气象因子:月平均气温(℃)、>10℃的月有效积温(℃)、月降水量总量(mm)。数据见表1。
2.2 数据预处理
表1 2014年不同月份棉铃虫、棉叶螨和棉蚜虫口发生量及气象因子
为了更好地进行关联规则挖掘,由于所有的分析数据均为非离散的数值属性,因此对数据信息进行离散化处理;各数据:月平均气温、>10℃有效积温、降水总量及棉叶螨、棉铃虫、棉蚜属性值分别表示成A、B、C、D、E、F,有螨(虫、蚜)株率、百株螨(虫、蚜)量及百株卵量的属性值分别表示为a、b、c,各因子离散化等级见表2,并对各个数据因子从Ar_001~Ar_011进行编号,采用Weka平台离散化后的数据[23]如图1。
通过Apriori算法进行关联规则挖掘,设置最小支持度min_sup为50%,最小置信度min_conf为90%,关联规则挖掘结果见图2。
表2 数据离散化参数
图1 离散化后的数据
图2 关联规则挖掘结果
通过Weka平台用Apriori算法挖掘的关联规则,并非每条规则都有现实意义,因此对挖掘出的规则进行筛选,得到有参考价值的关联规则,数据见表3。
表3 Apriori算法产生的关联规则
3.1 虫害发生与气象因子的关系
结果表明,棉叶螨、棉铃虫和棉蚜的发生量与气候因子密切相关。3种虫害的发生程度受平均气温影响显著,置信度在100%,在平均气温相同情况下,虫害发生量和为害级别为棉铃虫>棉叶螨>棉蚜,当平均气温达到25~30℃时,棉铃虫有虫株率达到15%~20%;当平均气温达到15~25℃时,棉铃虫百株虫口在35头以上,棉叶螨百株螨量10~20头,有螨株率10%~15%,棉蚜有株蚜率10%~15%,百株蚜量达到10~20头。
3.2 虫害发生与季节的关系
随着季节变化气温逐步回升,特别进入高温季节,各类虫害也会迅速进入发生高峰期,关联规则结果显示,棉花三大害虫的发生高峰期主要在5、6月份,置信度均为100%,5月份平均气温在20℃以上,棉铃虫百株虫口数36头,棉叶螨的百株螨量和百株卵量分别是13头和5粒,棉蚜有蚜株率和百株蚜量达到23%和43头。6月份气温升高对棉铃虫发生影响最明显,当气温在24.5℃时,棉铃虫有虫株率在达到32%。这与在实践经验中总结得到的规律是基本相符的。
Apriori算法对农业病虫害数据分析,可以预测某时段内害虫发生种类及发生趋势,从而为农业植保部门病虫害预测和防治提供决策支持。笔者通过有效的关联分析,对不同季节的气象因子与棉花三大虫害发生的规则挖掘,得到三大虫害的发生与气象因子关系密切,尤其气温变化直接影响到棉花害虫的发生种类、发生期及发生量,以上有价值的信息分析结果已在实践经验中得到了验证和证实。但是种植结构、栽培制度、防治手段及棉花品种抗虫能力的不同,对害虫的发生及调查也会产生一定的影响。
关联规则还可以集中在病虫害动态监测及其风险评估等方面应用,关联规则在农业病虫害中的应用有待进一步调查研究和总结。利用数据关联关系挖掘农作物病虫害产生的原因与环境等因素之间隐藏的内在联系,可以验证已知的经验规律,揭示出未知的隐藏信息,对于有效识别、预防及防治农作物病虫害具有重要的作用和意义。
[1]刘春玲,崔凌云,贾冬青,等.数据挖掘技术在农业领域的应用[J].农机化研究,2010,32(7):201-204.
[2]罗凤娥,彭佳红,胡建强.数据挖掘在农业领域中的应用研究[J].农业网络信息,2009(1):55-58.
[3]刘丽.基于关联规则的数据挖掘技术综述[J].现代计算机:专业版, 2011(7):25-27.
[4]Fonseca B M,Golgher P B,De Moura E S,et al.Discovering Search Engine Related Query Using Association Rules[J].Journal of Web Engineering 2003,2(4):215-227.
[5]Zhang C,Qin Z,Yan X.Assocaition-Based Segmentation for Chinese-Crossed Query Expansion[J].IEEE Computer Society,2005, 5(5):18-25.
[6]李增祥.数据挖掘技术在农业生产中的应用[J].微计算机信息, 2010,26(18):150-151.
[7]李文圃,廖桂平.数据挖掘技术在农业信息网站中的应用研究[J].中国农学通报,2012,28(6):269-275.
[8]梁川,王文生,谢能付.农业信息资源上数据挖掘的应用[J].中国农学通报,2009,25(11):243-247.
[9]劳飞,朱玉业.数据挖掘技术在农业中的应用[J].安徽农业科学, 2007,35(13):4053-4053,4082.
[10]白利果,乔钢柱,曾建潮.关联规则挖掘在农业产值分析中的应用[J].太原科技大学学报,2008,29(5):335-338.
[11]陈桂芬,曹丽英,马丽.数据挖掘在精准农业中的应用现状及发展趋势[J].吉林农业大学学报,2008,30(4):621-626.
[12]张爱国,高鹤,王丽维.数据挖掘技术在现代农业上的应用[J].湖北农业科学,2011(21):4531-4534.
[13]张家爱.数据挖掘技术在农业决策支持系统中的应用[J].吉林农业科技学院学报,2010(1):56-57.
[14]马冬来,张文静,屈赟.基于改进Apriori算法的农业病虫害诊断[J].湖北农业科学,2014(1):203-205.
[15]郑继刚,张静梅,唐智英.数据挖掘技术在茶叶病虫害预警中的研究与应用[J].湖北农业科学,2013(24):6172-6174.
[16]黄世国,林思祖,林大辉.Apriori算法在杉木伴生树种选择中的应用[J].福建农林大学学报:自然科学版,2008,37(1):70-72.
[17]王晓峰,王天然,程远杰,等.Apriori算法在红外光谱数据挖掘中的应用[J].计算机与应用化学,2001,18(5):477-483.
[18]谢艳新.数据挖掘技术在水稻病虫害系统中的设计与实现[J].湖北农业科学,2011,50(11):2340-2342.
[19]邢平平,施鹏飞,熊范纶.数据挖掘技术在农业数据中的有效应用[J].计算机工程与应用,2001,37(2):4-6.
[20]Edu H C S,Rakesh Agrawal,Ramakrishnan Srikant.Fast algorithm for mining association rules[C].International Conference on Very Large Bata Bases,1994:487-499.
[21]唐智英,王祖凤.关联规则挖掘技术在茶叶病虫害中的研究与应用[J].计算机光盘软件与应用,2012(15):114-115.
[22]黄光明.Apriori算法在农业病虫害分析中的应用[J].安徽农业科学,2009,37(13):6028-6029.
[23]周红红.基于Apriori算法的Weka数据挖掘应用[J].科技信息,2011 (36):I0104-I0104.
Application of Apriori Algorithm to Analysis of Cotton Diseases and Insect Pests
Zhu Yumei
(Agricultural Broadcasting and Television School,Xinjiang Production and Construction Corps,Urumqi 830002,Xinjiang,China)
To quickly and accurately know the trend of cotton insect pest and improve the timeliness and accuracy of forecast,we applied data mining technology using association rules in Apriori algorithm to comprehensively analyze the occurrence trend of three kinds of cotton pests including cotton bollworm,cotton spider mites and cotton aphid.The results showed that the occurrence of the three major cotton pests had a close relationship with climatic factors.In particular,the changes of temperature directly affected the species, period and amount of pest occurrence.Data mining technology using association rules plays a very important role in dealing with a large number of agricultural information data.Apriori algorithm is a new technology in forecasting cotton pest and has broad application prospect.
Association Rule;Apriori Algorithm;Data Mining;Weka Platform;Forecast of Cotton Diseases and Pests;Application Prospect
S431.9
A论文编号:cjas16030023
师域发展支持计划“机采杂交棉等行距优质高产栽培综合调控技术研究”(2015AF016)。
朱玉梅,女,1978年出生,甘肃皋兰人,农艺师,讲师,硕士,从事新型职业农民教育及农业科技培训。通信地址:830002新疆乌鲁木齐市天山区碱泉街2号新疆生产建设兵团农业广播电视学校,Tel:0991-2652138,E-mail:125505367@qq.com。
2016-03-28,
2016-09-08。