张 晶,冯 波,康之增,李梦宇,安亚刚
(1.国网河北省电力有限公司,河北 石家庄 050022;2.国网河北省电力有限公司营销服务中心,河北 石家庄 050035)
我国作为农业大国,农业是基础产业,也是第一产业[1]。农业的发展对我国经济水平的提升有较大的影响,农业灌溉作为农业产业发展中的关键部分在保障粮食安全和农业可持续发展方面有着非常重要的作用,面对水资源短缺问题,提高水资源利用率成为节约用水的必由之路[2]。然而,不同农业灌溉用户之间存在着巨大的差异,包括其需求、水资源利用情况和灌溉方式等。因此,准确识别农业灌溉用户成为了优化农业灌溉系统、提高水资源利用效率的关键一步。
传统上,农业灌溉用户识别主要依赖于人工调查和统计数据分析[3]。然而,这种方法存在着数据收集困难、成本高昂以及主观性强等问题。近年来,随着机器学习技术的快速发展,基于机器学习的农业灌溉用户识别方法[4]逐渐受到研究者们的关注。基于机器学习的农业灌溉用户识别方法可以分析农业大数据样本,自动识别不同类型的农业灌溉用户。本文首先针对种植不同作物的用户样本进行统计分析,建立了基于特征分析的农业灌溉用户识别规则模型,在此基础上构建了基于随机森林的农业灌溉用户识别多分类模型。
在农业灌溉中,用户识别与用电量有着密切的关联。本文可以为农业灌溉系统提供一个智能化的解决方案,电力大数据的应用可以帮助我们更好地了解用户用电情况,通过模型可以有效甄别农业灌溉、非农业灌溉用户,辅助提升“以电折水”精度,同时发现水电档案匹配错误、灌溉用电与其他用电混合计量以及一表多井等问题,可以优化水资源利用效率,并最大程度地减少资源浪费,减少人力成本,提高农业生产效率,促进农业可持续发展。
密度聚类算法是一种基于密度的聚类方法,其主要思想是通过计算样本点周围的密度来判断样本点的聚类归属。密度聚类算法相较传统的基于距离的聚类方法,具有对噪声数据的鲁棒性以及能够发现任意形状的聚类簇的优势。
密度聚类算法最著名的也是最具代表性的是DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,其通过两个全局参数半径ε与最小邻居数目MinPts将具有足够高密度的区域划分为簇,可在带噪声的空间数据集中发现任意形状的类簇[5]。算法的核心思想是通过计算每个样本点的ε领域内的样本数目来判断其是否为核心点、边界点还是噪声点,如图1所示。
图1 DBSCAN算法图解
总的来说,密度聚类算法通过计算样本点的密度来判断其聚类归属,具有对噪声数据的鲁棒性以及能够发现任意形状的聚类簇的优势。他在许多实际应用中都表现出良好的聚类效果,并且在处理大规模数据集时也具有较好的可扩展性。
机器学习是一种使计算机可以自主做出决策的科学[6]。不同学者对机器学习的定义往往不同,但最终都有一个目标,让计算机像人类一样做出决策。随机森林[7]是机器学习中的一种常见的算法。他是由Leo Breiman 和Adele Cutler 于2001年提出的,被广泛应用于机器学习和数据挖掘领域。该算法主要是通过将变量与数据进行随机化处理,生成大量的决策树,每个决策树又由各个节点对应的特定属性进行随机选择来构造,最后通过投票或平均的方式来整合结果,进行最终的决策,如图2所示。
图2 随机森林算法示意
图3 农业灌溉用户用电特征
图4 混合灌溉用户用电特征
图5 非灌溉用户用电特征
图6 概率大于0.8的用户用电习惯
随机森林是集成思想的一个体现,由多棵决策树整合而成[8],比单一决策树具有更好的抗噪性[9],适用于分类、回归问题的研究,能够在不改变计算成本的情况下能获得良好的计算预测精度[10]。
随机森林在处理高维数据和大规模数据时具有较好的效果,能够处理具有复杂特征和非线性关系的数据,是一种强大的集成学习方法。
深化农业灌溉用户识别分析需要对不同农业灌溉用户的特征进行清楚的了解和分析[11]。本文将农业灌溉用户分为3种不同的类型,农业灌溉用户,混合灌溉用户和非灌溉用户。对于每种类型的用户,其特征和需求都会有所不同。以下是对不同农业灌溉用户特征的一些分析。
1)农业灌溉用户:农业灌溉用户在3-7月和11月集中用电,其余月份用电量相对较少。
2)混合灌溉用户:混合灌溉用户月均用电1 000 k Wh以上,3-6月用电相对较多,2月用电频次减少。
3)非灌溉用户:非灌溉用户月均用电2 000 k Wh以上,每月用电频次相对稳定,夏季电量略高于其余月份。
此外,还需要考虑其他因素对农业灌溉用户的影响,如地理位置、气候条件、农作物种类等。不同地区的农业灌溉用户在水资源需求、灌溉方式和技术要求等方面可能存在差异。
在深化农业灌溉用户识别分析中,可以采用数据分析和统计方法,对农业灌溉用户的特征进行量化和分析。通过对这些数据分析,可以获得不同农业灌溉用户的特征和需求的更清晰认识。
针对已知种植作物的用户,根据种植作物的不同进行分类研究,分别统计各类农户的历史用电量、用电频次、种植面积等指标特征,在所有特征参数中,通过基尼系数指标来衡量特征重要性,选择对农业灌溉用户和非农业灌溉用户的分类具有显著影响的特征。
基尼系数是一种常用的特征选择方法,可以从大量的特征中筛选出最具有代表性的特征,从而提高模型的准确性和泛化能力。基尼系数也是衡量数据集纯度的一种指标,取值范围在0~1,值越大表示数据集的纯度越高。
在特征选择中,首先计算每个特征的基尼系数评估其重要性,对于多分类问题基尼系数的计算公式为
式中:p i表示第i类样本的比例。
然后按照基尼系数从大到小的顺序对特征进行排序,选择基尼系数比较高的特征。
采用Max Min数据标准化方法,用户日用电量进行处理,并划分等级。将日用电量在[0,0.25]划分为正常,(0.25,0.5]为一般,(0.5,0.75]为较大,(0.75,1]为很大。
结合降雨量等气象数据,总结农业灌溉的通用行为规律,例如农业灌溉电量与降雨量整体相关性强,一般下雨后2~3天不需要再次灌溉,将降雨后出现用电的情况判定为非灌溉用电。具体来说,降雨等级为中雨时,将用电等级为较大和很大的划分为非灌溉用电,降雨等级为大雨时,将用电等级为一般、较大和很大的划分为非灌溉用电。此时灌溉农业用户概率公式为
根据具有降雨特征的农业用户识别模型结果,农业用户概率越高,表明该机井用户与农业灌溉用户用电行为越相似。结合用户日用电量曲线,选取0.80作为分类成功的阈值,将农业用户概率高于0.80及以上的用户分为农业灌溉用户。
通过过去一年用电量、用电频次趋势折线图的绘制等方式,结合各类作物的实际生长周期和需水量,整合提取若干类作物的典型农业灌溉特征,根据提取的典型作物灌溉特征和农业灌溉的通用行为规律编写规则,建立基于降雨特征的农灌用户识别规则模型,识别非农灌用户、农灌用户。
首先,依托数据中台中用电信息采集系统数据、天气系统数据,结合水利厅提供的灌溉机井用户档案数据,通过挖掘农业灌溉用户日用电趋势,在原AFM 特征:月均/次均电量、月灌溉次数、月总电量的基础上,新增周电量、季度电量、方差等有效表征用户用电趋势的特征指标,并利用DBSCAN 密度聚类算法构建用户聚类分析模型,对用户进行自学习分类,分析聚出的簇群特点,计算用户类别标签,识别农业灌溉用户、非农业灌溉用户。
然后根据聚类结果构建随机森林分类模型,使用指标特征与标签数据训练随机森林模型,根据训练集的表现进行调优,通过调整决策树数量、特征子集大小等参数以提高模型的准确性和泛化能力。
不育系柱头外露情况是影响不育系异交结实的关键因子[4]。2017年8月中旬对EK2S和广占63S的开花情况进行调查,结果显示EK2S柱头外露率为 74.6%, 而广占 63S仅为 50.4%,EK2S要明显高于广占63S,且持续张颖时间EK2S也明显长于广占63S。本研究中广占63S的柱头外露率数据显著低于杨振玉等[5]1999年在合肥调查的数据,这可能是不育系的柱头外露率除品种之间存在差异外,还受其他因素的影响,尤其是抽穗扬花期的温度和湿度影响较大,这也说明杂交水稻制种选择最适宜的地方和最佳花期可以获得更高的制种产量[6]。
最后,将具有降雨特性的农业用户识别与具有用电特性的农业灌溉用户模型结果融合,构建混合农业灌溉用户分类模型,如图7所示,2个模型中均被判别为农业灌溉用户的用户最终类别为农业灌溉用户;仅具有降雨特性或仅具有农业灌溉用电特征的用户最终类别为混合农业灌溉用户;降雨特性和农业灌溉用电特征两者均不具备的用户最终类别为非农业灌溉用户。
图7 混合农业灌溉用户分类模型
为进一步提升农业灌溉用户分类模型准确率,深化农业灌溉用户识别模型,增加节气、峰度、波动率等特征参数,将基于降雨特征和农业灌溉用电特征的用户识别模型进行融合,实现纯农业灌溉、混合农业灌溉和非农业灌溉三类用户识别。
选取某试点试验用户在2022年通过用电总采集系统得到的40万数据为样本,以及试点已有种植作物标签的用户档案数据、用电量数据、种植面积,匹配关联用电量数据、气象等数据;对数据进行去重、异常值剔除、缺失值填充等数据处理操作。
机井编号 深浅层 灌溉面积/亩____种植作物日期用电量/k Wh____降雨量/mm__001浅25小麦 08-23 60.00 0 001浅25小麦 08-24 40.00 1.80 001浅25小麦 08-25 0 0 002浅40果树 08-23 0 0 003浅13大棚蔬菜 10-03 4.55 1.10 063深66药材 05-28 84.82 0…………………158浅65玉米 03-28 230.50 0 158___浅_________________________65玉米_10-01_____0_____________47.80
将完成特征选择的数据按8∶2划分为训练集和测试集。一般地,将大部分数据用于训练模型,保留一小部分用于评估模型的性能。
选取某个区域的用户数据作为试验用户,建立基于降雨特征的农业灌溉用户识别模型;然后使用训练集数据训练随机森林模型,并根据训练集的表现进行调优,模型的性能达标后,输出规则分类标签;最后进行模型融合,构建混合农业灌溉用户分类模型,进行农业灌溉用户、混合农业灌溉用户、非农业灌溉用户的判别。
根据输出的用户分类结果整理成清单,将清单推送至水利部门进行下一步核查摸排。
2023年6月,建立灌溉用电与其他用电混合计量用户识别模型,依据模型计算结果在现场核实,准确率达90%,相比常见基于用电数据的kmeans聚类用户类别模型,精度显著提升,具体见表2。
___算法模型 农业灌溉用户 混合用户 非农用户 综合精度本文模型精度95 84 26 90常用算法精度______82______________________________________76 53 80
将基于降雨特征和农业灌溉用电特征的用户识别模型进行融合,实现纯农业灌溉、混合农业灌溉和非农业灌溉三类用户识别。通过对已关联匹配的30万用户进行分析,结果如图8所示,识别农业灌溉用户27.3万,占91.00%,混合农业灌溉用户2.24万,占7.47%,非农业灌溉用户0.46万,占1.53%。
2022年,获取试点机井用户灌溉取水量,通过用户识别模型后剔除非农业灌溉用户水量,经混合用电模型优化后剔除混合灌溉用户非灌溉用电,共计减少约18亿m3,得到了最终测算水量。
针对农业灌溉用户用电识别设计了基于机器学习的算法,通过应用电力大数据,从数据特征进行用户类别识别,构建农灌用户识别多分类模型,进行相互验证,规范化机井档案,可以更好地了解和分析这种关联,进而提升取用水量测算精度,提高农业灌溉的效率和节约用电成本。并且相较于单一的农业灌溉用户用电识别算法,此模型效果更佳。总之,基于海量用电数据的农业灌溉用户识别方法具有巨大潜力,能够辅助发现水电档案匹配以及一表多井等问题,并且在优化农业灌溉系统和提高水资源利用效率方面发挥重要作用。本研究将为电力大数据在农业灌溉用户识别领域的进一步研究和应用提供有价值的参考和指导。