基于K-means的时参模型温室控制模式分析方法研究

2022-03-26 06:29宋赫严李强肖杨田博
新型工业化 2022年1期
关键词:温室阈值聚类

宋赫,严李强,肖杨,田博

(西藏大学大学 信息科学技术学院,西藏 拉萨 850000)

0 引言

我国农业现代化规划大力推进设施农业[1]在农业中的战略结构性调整,促进科技转化指导农业发展,完善农业基础设施建设,为我国农业长期、稳定、高质量发展提供了条件[2]。机器学习在农业领域的融合[3]为我国现代化农业带来了重要发展机遇,以机器学习理论为基础[4]的设施农业需求解决方案[5]随之增加。温室是设施农业的重要装备,温室控制涉及的变化量多,外界环境变化快、波动范围广、干扰因素复杂,是农业温室控制研究的难点和关键,通过对大量农业数据进行挖掘与分析而生成控制模式的方法[6]应运而生。郭萧[7]在基于机器学习算法的智慧农业决策系统研究中针对现有的智慧农业决策问题,提出了一种阈值优化方法,设计了智慧农业决策平台;陈晓雷[8]等提出的智慧农业时序组合预测模型,采用神经网络校正拟合曲线,提高了温室温度预测的精度。然而,农业温室的控制模式提取问题依然没有较好的解决方法,缺乏应用机器学习的农业温室控制模式的分析方法研究。

文章尝试建立一种农业温室的时间参数与温室控制参数生成的控制模式[9],基于现有的机器学习数据挖掘和模式识别方法,解决温室控制模式分析的问题。分析K-means聚类算法对实地采集到的温室数据[10],评价聚类结果的平方和误差,进而总结实验结果在温室控制中的效果,显著区别于人工总结的温室控制模式,为温室控制模式的分析与提取提供了方案。

1 基本概念

1.1 设施农业温室及其模式控制

现代设施农业主要将农业温室分为塑料大棚、日光温室和玻璃温室三大类。农业温室中配备风控装备、温控装备、光控装备等设施农业装备[11]。文章研究的温室为配备了卷帘机和温度传感器的智能日光温室和玻璃温室。

农业温室控制的主要目的是环境控制,通过调控温室中各类装备的工作状态、方式间接控制环境[12]。温室设备协同工作,在影响温室的环境同时受环境本身的反馈影响。

在数据中寻求某种描述了环境条件与设备状态关系体现在控制上的规律,当大量数据都能够反映一类规律时,就可将其规律总结为模式。农业温室模式控制[13]指,在出现某种环境参数及其变化趋势或特定阈值组合时,有着一套或多套与之对应的在一定阈值范围内的动态控制参数,应用于温室控制决策,则这些参数组合即控制模式。温室控制模式是对某一组控制参数和温室控制响应形成的趋近结果所做的总结,一组控制数据的总结对应着该控制数据产生的决策。

1.2 K-means聚类

K-means聚类算法是一种常用的机器学习聚类算法,该算法通过分析多组未经标签的数据,在数据中迭代寻找数据的中心点坐标,并将其他点包含坐标范围中,并使包含于该点的所有其他点的平均距离最小,该点称之为聚类中心。其算法基本流程如图1所示。

初始化样本数据集为n个向量X。

其中,X为样本数据集向量,n为样本的总数,a,b……k为第i、j个向量的第k维的数值。

随机初始化K个聚类中心,K值的选取通常使用手肘法[14]来确定。手肘法通过遍历K值并获取其对应的SSE[15],作K-SSE曲线并寻找变化率最大的拐点。通过计算样本X中向量与聚类中心间的欧氏距离,将与样本距离最小的聚类中心作为该样本的类。

计算该聚类中心所有样本的平均距离中心。

其中,P、Q是样本向量,m是聚类中心φ所分配到样本的数量。

对比当前聚类中心与平均距离中心的误差是否满足误差精度,若满足误差精度则以当前聚类中心作为最终确定的聚类中心,若不满足则以寻找最靠近当前平均距离中心且属于当前聚类中心的点作为新的聚类中心。然后再次计算新的聚类中心和所有样本间的距离,并判断样本是否属于更新后的聚类中心,如果距离不再是最小,则重新分配该样本到新的聚类中心。

经上述过程迭代调整聚类中心和重新分配样本,直到聚类中心和样本所属不再变动且平方和误差收敛,最终得到K个符合要求的聚类中心。

2 基于K-means的温室时参模型控制模式分析方法

2.1 温室的时参模型控制模式

文章中的温室控制模式分析基于温室时参模型对温室数据进行挖掘,建立规定阈值的时参模型控制模式。由温室时参数据构成的模型即温室时参模型,温室的时参模型是文章研究温室控制模式的基础。时参模型控制模式根据时参对控制的干涉,建立时参与控制决策的关系。文章的温室时参模型控制模式的模型,即在某一时刻、温度达到某一值时的卷帘机的工作状态,在那一时刻的时间与温度阈值对应的卷帘机工作状态阈值即一种控制模式。由此建立的时间-设备状态-温度即时参模型。

温室的控制模式可通过多种方法获得。现有的模式识别、提取与分析方法多基于机器学习数据挖掘技术,大量分析温室数据得出参数与控制决策的关系,生成控制模式。如通过拟合方法建立的控制预测方程;通过决策树建立反映参数对设备控制影响的控制树;通过模式识别方法从数据中识别可能存在的控制模式;通过数学生成式模型建立控制的概率模型;使用统计学理论和人工分析控制模式等。传统内置在设备中的控制算法需要更多的算力,而阈值判断法又过于单一,因此控制模式的出现使得控制设备本身不需要进行复杂的运算,直接通过对模式的选择实现控制,降低了控制设备的运算压力,提高了控制决策的速度。

2.2 基于K-means温室时参模型控制模式分析方法

温室控制模式与K-means聚类之间有着与上述相同的关系。文章从农业温室的控制模式角度,提出一种基于K-means聚类的温室控制模式分析方法,用于挖掘温室数据中蕴藏的控制模式,进而对温室控制模式进行提取和识别。

时间数据需要先经过预处理成为能够对其划分阈值的时参模型,即通过阈值来限定范围的未经标签的数据,在预处理后的数据中随机初始化K个由时间-设备状态-温度数据对应的向量,代表了随机初始化的K个模式。聚类后每个聚类中心都是通过聚类所得到的类别,每个聚类中心实际包含的点形成了该空间的边界,将每个坐标轴划分到了一定的阈值内,这些阈值限制了坐标轴所对应的参数的范围,这样形成的聚类中心就是新生成的模式。

计算其他向量与初始化聚类中心的欧式距离,由于在本模型中训练的三个参数为时间(time,记为t)、卷帘机状态(State,记为S)、温度(Temperature,记为T)组成的三维向量,将样本向量P代入公式(2)计算对应的欧氏距离,有:

其中,t为时间,S为设备状态,T为温度,n为训练集总训练数据的数量,在文章中n=3。

计算出的两个空间点的欧氏距离,从空间距离的角度评判温室数据和当前控制模式之间的差异,从而将这些向量所对应的数据点分配到K个聚类中心去。

计算每个聚类中心里所有样本的平均距离中心,有:

其中,Pi和Qj分别代表要求欧氏距离的在第i个和第j个(任意不相同的两个)数据,t为时间,S为设备状态,T为温度,n为训练集总训练数据的数量,在文章中n=3。

平均距离中心为该控制模式中所有控制数据的均值,对比此均值和当前聚类中心的差异更新聚类中心。计算聚类评价指标SSE,所有组距离误差的均值,其计算如公式(5)。

其中,i代表当前的聚类中心,C代表当前聚类中心点坐标,X代表第k个属于该聚类中心的空间点坐标,n为训练集总训练数据的数量。

单个距离代表了当前在该分类下实际的平均度量中心与当前聚类中心的不同,而所有距离的均值SSE则代表了该聚类中心对于所有在该类中的数据的偏差程度,通常SSE越小代表聚类效果越好,当前选取的聚类中心越接近越能代表该类别的真实中心。然后以同样的方法迭代更新这些聚类中心;经过多次迭代后,最终得到的聚类中心在由时间-设备状态-温度数据构成的坐标,得到的坐标及其边界将参数限定在了空间内,由坐标轴限定阈值,由阈值在坐标轴上划分的空间构成模式。基于K-means聚类的温室时参模型分析流程如图2。

图2的算法流程可扩展为以下步骤。

Step1:处理数据中的空缺值和非法数据,按照时参模型建立符合K-means聚类要求的数据集;

Step2:导入数据,通过手肘法选取K值,随机初始化K个聚类中心;

Step3:使用K-means聚类算法对数据进行聚类分析,计算聚类中心到其他各点的欧氏距离并计算该聚类中心中的距离均值,比较当前聚类中心与均值病更新聚类中心;

Step4:计算归属于各聚类中心的点到该聚类中心的欧氏距离的平方和误差SSE;

Step5:通过迭代1000轮以上或SSE误差预期评价聚类效果。若结果良好,则将聚类结果保留,反之则打乱数据集并重复Step2-Step5;

Step6:分析聚类结果,将结果转换为控制模式。

将新获取的数据带入模型中即可获得该点属于的控制模式,进一步将该点在该模式中划到模式中的点附近,从而得出当前状态下应有的控制决策。而聚类中心再根据数据预处理的方式将逆向还原成可用的数据,即可得到控制模式。

3 实验验证

3.1 实验数据

文章使用的时参数据来自于拉萨市智昭产业园,共21615组温度数据,经处理后以开、关作为卷帘机工作状态选取1732组数据。

3.2 实验结果

遍历K值,K≥8的时由于聚类中心过多经常无法寻得更多新的聚类中心,且K=1时的聚类中心是整个数据集的空间中心,总是接近定值,对文章的实验没有意义,故选取K=2~7使用手肘法的SSE计算最佳K值。如图3所示。

由图3可见,随K值的变化其折线在区间内呈减缓趋势,根据手肘法在K值上升的同时SSE变化趋势寻找最佳拐点,制作K-SSE的变化率[16]如表1所示。由表1可见,在K=4时的拐点变化率最大且在SSE较小,将K=4作为手肘的拐点最合适。故选取K=4的实验结果做进一步分析。

表1 K-SSE变化率拐点表

当K=4时,生成的聚类中心坐标如表2所示,聚类结果的可视化如图4所示。

表2 K=4时的聚类结果表

表2展示了K=4时两次聚类产生的聚类中心坐标。图4分别为聚类结果向二维的投影与聚类结果的可视化图,从二维投影图中部分点因重叠而无法从上面显示,从正面可视化图中可见聚类结果按照时间将温度和设备状态数据分成了一定的层次,一种颜色代表一个类别,不同颜色的组合展示了不同层次中温度和设备状态在时间上的聚类类别区分。

3.3 结果分析

将聚类结果取平均值并转换成温室时参模型控制模式,如表3。

表3 聚类结果转换成的温室时参模型控制模式

表3的结果为对应的时间和温度状态下,卷帘机应具有的开关程度。从表3中可见,在温度较高的27.9℃时,卷帘机的开关程度仅为0.01;在温度较低的10℃时,卷帘机开关程度达到了0.86;而在温度适中的17.9℃和13.48℃时,卷帘机开关程度则为相对中间开的0.42和中间闭的0.65;这与采集地的实际情况基本相符。所生成的控制模式需以归属于本聚类中心的其他点作为边界,在实际使用时将实时测得的数据导入控制模式模型中,计算模式进而形成控制决策。

4 结论

基于K-means的温室控制模式分析方法采用了机器学习聚类理论,提出了温室的时参模型控制模式,阐释了温室时参模型与控制模式之间的关系,并基于此模型设计了温室控制模式分析实验。选取拉萨市智昭产业园的温室数据作为实数据集,按照时参模型处理数据,根据SSE选取K值,应用K-means聚类对数据集进行聚类分析,转换成4组温室控制模式,结果表明应用K-means聚类算法导出的时参模型控制模式符合拉萨市智昭产业园中温室的工作模式。文章的时参模型分析方法可应用于温室控制模式的生成,降低了温室控制模式的提取难度,节约了人力资源,为现代设施农业温室的控制提供了一种分析思路,给以控制模式为基础的温室控制提供了模式的生成方案。

猜你喜欢
温室阈值聚类
一种傅里叶域海量数据高速谱聚类方法
土石坝坝体失稳破坏降水阈值的确定方法
基于小波变换阈值去噪算法的改进
苍松温室 苍松灌溉
苍松温室 苍松灌溉
苍松温室 苍松灌溉
一种改进K-means聚类的近邻传播最大最小距离算法
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
改进小波阈值对热泵电机振动信号的去噪研究
可以避免一个温室化的地球吗?