杨洪泽,胡晓航
(1.新疆农业科学院经济作物研究所,乌鲁木齐 830091;2.国家糖料作物改良中心,哈尔滨 150080;3.黑龙江大学现代农业与生态环境学院,哈尔滨 150080)
这是一个知识和信息的时代,信息几乎是爆炸式增长。农业被认为是人类最古老的行业。由于气候变化,病害,虫害等各种各样的因素,农业生产的状况正在恶化。因此,在农业领域使用计算机具有非常广阔的前景,其中数据挖掘技术,这一新兴技术在农业中的发展十分迅速[1]。农业专家系统在农业中得到了广泛的应用。为了评估、证明、升级和修改现有的农业专家系统,各种分析方法也得到了发展[2]。本文回顾了聚类分析在农业中的应用。
在讨论数据挖掘的应用,尤其是聚类分析在农业领域的应用之前,首先回顾一下聚类是什么以及用于聚类的各种方法和技术。
将物理或抽象对象的集合分成由[3]类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在面向对象的编程范例中,以将簇与类进行比较。 簇和类之间的细微差别在于,类中的每个对象在属性上都完全相同,而在簇中,每个对象与簇中的其他对象非常相似,另一方面,如果基于对象的某些特定属性进行比较,则与其他聚类的对象不同[4]。
聚类的方法有很多种,这些技术分为以下几类:分区方法、分层方法、基于密度的方法、基于网格的方法、基于模型的方法、高维数据的方法和基于约束的聚类[5]。 然而在这里,我们的讨论仅限于层次凝聚聚类法,模糊聚类,分裂层次聚类法和Kohonen自组织特征映射,因为它们是农业和相关科学领域中广泛使用的数据挖掘方法。
分层聚集聚类的典型例子是物种分类。分层凝聚方法也称为自下而上方法,首先将每个对象放在自己的集群中。下一步是将这些原子簇合并为连续更大的簇,直到所有对象都被限制在单个簇中或直到终止。大多数层次聚类方法属于此类别,它们的不同之处仅在于它们对簇间相似性的定义[6]。
上面讨论的分区聚类方法主要涉及关于合适的相似性度量将一组实体划分成多个同构聚类的任务,这也被称为硬聚类。换句话说,在硬集群中,数据元素被划分为不同的集群,其中每个数据元素恰好属于一个集群,在已经完成分区的基础上,我们可以通过知道数据元素的特定属性来预测任何数据元素与集群的关联[7]。许多实际问题也可能具有模糊性,由于其模糊性,遵循Lotfi Zadeh[8]开发的一般模糊集理论开发了许多模糊聚类方法。
在模糊聚类(也称为软聚类)中,数据元素可以同时属于多个聚类,并且与每个元素相关联的是一组隶属度级别[9]。模糊聚类是分配这些成员的资格级别,然后使用它们将数据元素分配给一个或多个集群的过程[10]。传统硬聚类和模糊聚类的主要区别可以以此概括。在硬聚类中,实体只属于一个聚类,而在模糊聚类中,实体允许属于具有不同程度成员资格的多个聚类。在几种可用的算法中,最广泛使用的模糊聚类算法是模糊C均值(FCM)算法[11]。
分层方法创建是给定数据对象集的分层分解。根据分层分解是如何形成的,它可以被归类为凝聚性的,如前面所讨论的或分裂的[12]。分裂层次聚类方法(也称为自上向下方法)以同一群集内的所有对象开始,在连续迭代中,一个聚类被分成几个较小的聚类,直到最终每个对象被放置在它自己的聚类中,或者直到终止条件成立[13]。
自组织特征映射(SOM)是用于聚类分析的最常用的神经网络方法之一。 Kohonen网络由芬兰研究员Tuevo Kohonen于1982年推出。虽然最初应用于图像和声音分析,但Kohonen网络是聚类分析的有效机制。Kohonen网络代表了一种自组织映射(SOM),它本身代表了一类特殊的神经网络[14]。
SOM的目标是将高维输入信号转换为更简单的低维离散信号。在SOM中,一组节点以几何图案排列。SOM是一种受大脑神经网络启发的算法,它通过将高维数据映射到二维或三维特征图来形成聚类。SOM的目标是通过低维(通常为2-D或3-D)目标空间中的点来表示高维源空间中的所有点,从而保留距离和邻近关系(并因此保留拓扑)尽可能多[15]。
对于SOM,通过让几个单元竞争当前对象来执行聚类,权重矢量最接近当前对象的单位成为获胜或活动单位。为了更接近输入物体,调整获胜单位的权重以及其最近邻居的权重。SOM假定输入对象之间存在某种拓扑或排序,并且这些单元最终会在空间中采用这种结构。SOM被认为与大脑中可能发生的处理相似,并且可用于在二维或三维空间中对高维数据进行可视化[16]。
精准农业主要关注技术的使用和各种技术与农业的结合。随着科学技术领域的进步,技术成本日益下降。此外,这项技术也被嵌入到各种农业设备中。由于这种整合,当今的农业设备变得更加富有成效,更新并且对农民有用。
这也导致由这些设备产生的信息泛滥,如GPS作物生长传感器,肥料使用传感器和高分辨率卫星或航空成像。这些传感器生成空间数据集。因此,必须考虑采用这些特殊性质的方法来应对精准农业中遇到的任务[17]。
Mohamma他们的研究中使用模糊聚类技术检测黄瓜作物的叶斑病[18]。在他们的研究中提出了一种基于模糊聚类算法的黄瓜作物叶片分割技术。
图像分析和模式识别的第一步是图像分割。可以将分段视为群集问题。它是图像分析和模式识别的非常关键和不可避免的组成部分。这是决定图像分析质量的任务。图像分割是通过将图像划分成与强度或颜色有关的某些标准的均匀不相交区域来执行的,并且任何两个相邻区域的并集都不应该是均匀的。分割技术可以确定区域的区别,但情况可能并非总是如此。图像中的区域可能不会非常精确地定义,并且在图像处理过程的每个级别可能存在一些不确定性[19]。
模糊集理论提供了一些机制来表示和操纵模糊性和不确定性。模糊集理论提供了一种功能,可以为任何图像中的模糊性或不确定性建模提供一种自然的方法。在传统的集群技术中,这里只有两个二进制值,0或1来确定数据点与集群的归属或关联[20]。现实世界中用于图像分析的情况尤其与此非常不同,其中群集之间的边界并不总是明确定义,但可能存在灰度强度的重叠。特别是在植物图像的情况下,组织之间的边界没有很好地定义,并且边界区域中的成员本质上基本上是模糊的。因此模糊聚类结果特别适合于植物图像的分割[21]。
因此,FCM算法成为检测植物疾病的最适合算法,可以通过检查叶子来感知。虽然这项研究的目的是黄瓜植物,但这种方法也可以扩展到其他作物。
伊朗的气候具有复杂的空间和时间变化模式特征,具有广泛的不可预测的降雨波动,这种波动在每年和每个地区都有所不同。因此,很难了解降水的区域变化。 Saeed Soltani在对伊朗降雨模式及其分类的研究中使用了分裂聚类[22]。这项研究与任何作物没有直接关系,而是与整个农业直接相关。当不能预测降雨量时,在这种情况下,降雨模式的识别就成为区域和地方规划者和管理者的一项重要任务。水文学家一直关注水文事件的分类,以简化水文卷积,从而缩短时间并节省他们的计划和策略预算。多变量技术被强调为适合和强大的工具,可以根据降雨量找到同质区域,或者对降雨等气象数据进行分类。主要成分分析,因子分析和不同的聚类技术已被用于分类每日降雨模式及其与大气条件的关系。
Shafaatunnur Hasan[22]应用聚类方法,即自组织图(SOM),在稻米生产力领域做得很好。大米被认为是世界大多数人口食物的组成部分。这种谷物的生产力的提高总是令人钦佩。
在他们的努力下,他们借助聚类分析工具,特别是Kohonen自组织地图(SOM),尝试在水稻害虫的天敌作为寄生虫,捕食者和病原体的帮助下征服水稻害虫的战斗。据估计,由于昆虫、鸟类和老鼠造成的水稻作物损失高达10%-15%。他们通过实施空间分析和Kohonen自组织图,提出了一个智能解决方案,将多种害虫类型聚为一类,从而在马来西亚实现更好的农业水稻害虫管理。
研究结果证明,害虫如老鼠、蠕虫的种类是影响水稻生产的因素之一。害虫和杂草是马来西亚水稻产量损失的主要因素。因此,需要智能解决方案来缓解水稻生产力问题。因此,基于SOM网络的智能聚类已成功应用于马来西亚综合害虫管理(IPM)的空间分析。
随着国内经济的快速发展与现代化工业设备的高度普及,我国农业生产迅速发展,严重影响地区水环境生态安全。控制农业水环境污染,保护农业生产环境具有重大意义。王惠[23]等采用数据挖掘技术Kmeans聚类算法对 2013年我国各地区农业水环境中化学需氧量、氨、氮、总磷、石油类、挥发酚、铅、汞、镉、六价铬、总铬、砷的排放量等指标进行聚类分析,并参照地表水环境质量标准GB3838-2002对污染种类与等级进行预警。并将全国31个地区分为5类水环境等级,从结果中了解到了全国各地区农业水环境污染形成的原因,能够辅助农业水污染的预防和治理。
王官[24]等通过聚类分析将15份甜高粱种质资源分为4大类,各类群间农艺性状差异明显,其中两类群体性状优良,可作为核心种质资源进一步挖掘利用。
猕猴桃花期授粉质量是猕猴桃品质重要影响因素之一[25]。针对猕猴桃授粉机器人的研究,由于缺少猕猴桃花朵识别方法,现有授粉机器人自动化程度低。刘浩洲[26]等提出基于 K-means聚类的猕猴桃花朵识别方法。首先,原图像通过K-mean聚类分割,得到包含花蕊图像在内的4个类别图像; 然后,由经过训练的卷积神经网络对这4个类别图像进行分类,自动选出花蕊图像; 再通过形态学运算对花蕊图像进行去噪,计算余下各个区域形心,找到各花朵在图像中位置并标出,最终完成猕猴桃花朵识别。该算法识别成功率为92.5%,满足现有授粉机器人要求,利于提高其自动化程度。
赵乐杰[27]等以1份秋甘蓝种质资源为试材,对13个农艺性状进行相关性、主成分和聚类分析。其中聚类分析将11份秋甘蓝种质资源在遗传距离为8时分为4类,其中第Ⅰ类和第Ⅲ类的优势明显,可作为秋甘蓝育种的亲本材料。
为了合理利用小麦种质资源,给小麦新品种选育提供材料,程晓明[28]等收集了国内七大小麦生态区23份品种为试验材料,对茎蘖数、叶绿素含量、苗期株高、拔节期、抽穗期、开花期、成熟期、千粒质量、成穗数、穗粒数10个农艺性状进行主成分及聚类分析。用拔节期生长因子、开花期生长因子、成穗数产量因子、抽穗期生长因子、千粒质量产量因子这 5 个主成分因子为综合指标进行系统聚类,在遗传距离为26.64的水平上将23个品种划分成4个类群,即春性弱春性类、冬性半冬性类、强春性类、强冬性类。春化生育特性相近的大部分被分在1个类群,同时表明主成分中以拔节期、抽穗期、开花期构成生长因子,千粒质量、成穗数构成产量因子,较能真实地表现春化生育特性,尤其以拔节期为主效应,至抽穗期、开花期等快速生长阶段表现更具反映春化发育特性的本质。
在第三世界的国家,没有适当的灌溉设施,适当的肥料分配,适当的管理,保护和储存等等,而且几乎整个农业和经济主要依赖于降雨量, Saeed Soltani[29]所做的这项研究的成功应用可以带来巨大的变化。我们坚信数据挖掘和聚类分析应该是农业的一部分,因为它们可以提高决策的准确性。集群启发式允许将数据组合成有用的模式,这可能会促成更好的决策。
在目前的情况下,聚类分析的应用已经得到了长足的发展,仍然有很多领域仍然需要大量的努力。我认为,各种数据挖掘方法和技术,如k-均值,pCluster和STING等将在这项大型工作中发挥重要作用。