解 蕾,狄光智
(运城师范高等专科学校,山西 运城 044000)
农业发展的方向为精准农业(Precision Agriculture)[1],其在技术上采用的手段是农业信息化的方法,通过采集温度、湿度等农业信息,利用决策支持系统对农业信息进行分析以辅助客户进行决策。其实施过程一般包括农田信息的获取、管理、分析和实施4个部分[2]。目前,农业信息化方面的障碍主要分为两个:一是如何低成本、高准确率和快速获得农业信息[2];二是如何对农业信息进行全面、快速、准确的检索,本文主要针对这两项问题进行研究。
在农业信息采集过程中,为保证农业信息采集的全面性,需要较大的信息采集面积,采集设备需要适应各类复杂地形,工作环境恶劣。无线传感网络(Wireless Sensor Network,WSN)具有分布密度高、可大范围实施、适应性强和成本低的特点,且可进行数据的控制、计算、无线通信等功能,可以大量、实时地获取信息,广泛的应用于农、林、牧业信息的采集和传输。
在采集到各类农业信息后,需要对农业信息进行分析并探索数据之间的动态关联及变化趋势[3-4]。聚类算法是一种信息分析方法,可以根据信息的相似度进行高速、高质量的分类,包括信息数据的分布情况和数据特征,获得隐藏的信息。本文将无线传感网络和聚类算法结合起来,设计了农业信息采集系统,并对系统的运行进行了试验验证。
农业信息采集系统主要由无线传感网络、中央处理器和计算机、结果输出端和用户接收端组成,如图1所示。
图1 农业信息采集系统流程图
无线传感网络硬件组成为传感器节点、汇聚节点和GSM网络。该无线网络是由多个不同类型的传感器节点构成的拓扑结构,且节点在进入或离开时不会影响系统正常工作,而是由系统重新构建拓扑结构[5]。为了采集比较全面的农业信息,传感器和无线网络需要适应不同的季节、不同的作物类型和地形结构,网络层次过多则会在数据传输方面造成困难。因此,本文采用两层的通信网络,其结构如图2所示。其中,第一层为各传感器节点、簇和汇聚节点组成的通信网络,第二层为汇聚节点和GSM网络之间的通信网络。汇聚节点作为无线传感网络的枢纽,主要组成为无线接收装置、微控制器和GSM模块。
图2 两层无线通信网络结构图
工作流程如下:相邻区域的传感器组成簇,其中的某个传感器节点作为簇头节点,用于接收所在簇区域的数据,并将数据处理压缩发送给汇聚节点。汇聚节点的无线接收装置用于接收数据,微处理器作为汇聚节点的核心部件用于对接收到的数据进行处理,经由GSM网络将数据传输给中央处理器。簇的形成和簇头节点则根据LEACH网络协议[5]进行选取。
为减少无线网络的能量消耗,一般将其设定为周期性信息采集模式。在这种模式下,传感器节点周期性工作或者休眠,定期向中央处理器传送数据,用户可以根据数据的变化趋势调节节点工作周期;若某个区域需要重点观测,则将此区域设定为定点采集模式,此区域的节点将高频向计算机传送数据;若有异常事件发生,则此区域的节点自动调节为突发模式用于此区域的数据采集,直到此异常事件结束。
中央处理器和计算机为一体机,用于对接收到的数据进行处理、分析,汇总进入总数据库并存储,将分析结果输出并反馈给用户。数据的处理包括对数据进行清洗、审核、修改和数据总结,然后通过聚类算法对处理的数据根据需要进行分析。
系统的聚类算法流程图如图3所示。
图3 系统聚类算法流程图
聚类分析过程:①获取数据集并对数据进行处理,筛选出可用数据。②确定聚类算法,对数据进行聚类分析。通过分析比较数据挖掘的各类算法,谱聚类算法具有求解速度快、对数据类型不限制及可对数据进行降维的优点,但对数据空间要求为凸空间分布,因此采用谱聚类算法对数据进行处理。③确定数据点之间的相似度。④通过约束聚类过程,取得最优解。⑤输出最优解,即为聚类结果。
中央处理器将聚类算法处理的数据结果输出,反馈给用户接收端,以便用户采取后续的措施。
谱聚类的关键点是如何确定各数据点的相似程度,并将相似图中的点划分到对应簇。农业数据信息呈椭球形分布的特点,传统的谱聚类算法相似度计算采用高斯核函数,得到相似矩阵为
对该矩阵进行稀疏化处理得到连接矩阵W,处理方法为K-相邻或者全联通。但是,该相似度计算的前提是数据的空间分布呈凸空间,因农业数据具有大量和维数多的特点,该方法不能精确、高效地对数据进行聚类,且无法将数据点的一致性反映出来,因此对谱聚类算法中数据点相似程度的计算方法进行改进,算法流程如图4所示。
图4 改进的谱聚类算法流程图
针对椭球形的数据空间,闵可夫斯基距离测量方法可以对大量的高维数据进行聚类,且能反映数据之间的关系,提高数据的计算精度和速度[6]。设定数据集R的两个n维变量M和N分别为
M=(x1,x2,…,xn)
N=(y1,y2,…,yn)∈Rn
则M和N两变量之间的距离定义为
其中,p为变量,闵氏距离随着p的变化而变化,当p=1时,D1为曼哈顿距离,此时有
当p=2时,D2为欧式距离,此时有
当p趋于无穷大时,D3为切比雪夫距离,此时有
该距离算法更能适应复杂的农业数据及复合聚类算法全局一致性的要求。根据此算法得到各数据点的相似性S矩阵为
对上式进行稀疏化处理得到连接矩阵W,矩阵中Wij>0,Wij=Wji,i=1,2,…,n。变换连接矩阵W得到度矩阵E,则有
计算非归一化拉普拉斯矩阵L[7],即
L=E-W
归一化拉普拉斯矩阵Ls和Lr为
Lr=E-1L=I-E-1W
通常Ls为对称矩阵,Lr为非对称矩阵。根据需要选择采用Ls或者Lr进行计算。选取前k个特征值,k为信息聚类的数量, 此时每个特征值有对应的特征向量,由此得到聚类结果。
为测试该农业信息采集系统的工作性能,需要对其进行两方面的性能测试:①无线传感网是否能够高效准确地将采集到的信息数据传输至中央控制中心;②验证本文所采用的改进的谱聚类算法的可行性。
在设定的区域A、B、C区域内采用周期采集模式,周期设定为2h,采集被监控区域温湿度和pH值信息;在正常工作4h后,改变采集周期为1h,并在正常工作2h后人为修改A区域的温度作为异常事件。试验结果如表1所示。
表1 A、B、C区域农业信息测试结果
由表1可知:该无线传感网络可以完成农业数据信息的传递,且信息采集周期可以根据需求改变,当有异常事件发生时,可以及时做出响应,缩短数据信息采集周期。
为了验证改进的谱聚类算法的可行性,采用机器UCI数据集中的农业方面的聚类数据—Seeds数据集。其中,p=1.2,σ=9,分别采用谱聚类算法和改进的谱聚类算法对数据进行聚类分析,统计错误聚类的类别、个数和聚类时间。为保证结果的准确性,试验进行5次,结果取平均值,结果如表2所示。
表2 谱聚类算法和改进的谱聚类算法聚类分析试验结果
由表2可知:改进的谱聚类算法较谱聚类算法精度和速度均有提高,错误率明显下降,可以满足农业信息系统对于信息数据处理精度高、速度快点的要求。
1)采用适用性强和成本低的双层无线传感网络对农业信息进行采集和传输,解决了农业信息较难采集和远程传输的困难,实现了农业信息资源的统一,降低了生产成本。
2)根据农业信息椭球形空间分布的特点,需要对信息进行高速、高质量的分类,提出了改进的谱聚类算法。
3)为验证该农业信息采集系统的性能,对该系统机型试验测试,结果表明:该信息采集系统可以高效准确地传递农业信息,采用改进的谱聚类算法对信息处理精度高、速度快,能够满足用户的使用要求。