袁寿新
(甘肃钢铁职业技术学院,甘肃 嘉峪关 735100)
基于核主元分析法的灌溉用水量预测法
袁寿新
(甘肃钢铁职业技术学院,甘肃 嘉峪关 735100)
因需灌溉是节约农业用水,实现农业增产增收的有效办法。基于核主元分析法的农业灌溉用水量预测法可以起到节约灌溉用水的作用。将土壤及环境相关信息作为模型输入向量,提取出非线性特征,消除向量之间的多重共线性,进而确定输入空间的主要特征变量。然后采用最小二乘支持向量机回归建模,反映原始输入输出数据之间的复杂关系。通过仿真结果比较,表明基于KPCA-SVM的灌溉用水量预测法具有较高的预测精度,为灌溉用水量预测提供了一种新方法。
核主元分析;灌溉用水量;预测法;支持向量机
农业总用水量占我国总用水量的60%以上,其中,灌溉总用水量占农业总用水量的90%以上,由于灌溉技术落后等原因,我国目前灌溉水有效利用系数仅为0.50[1],灌溉用水浪费十分严重。适时适量地进行科学灌溉是节约农业用水,实现农业增产增效的有效办法。
由于灌溉对象是一个大惯性、非线性和纯时延的系统[2],无法对其建立精确与统一的数学模型。国内外学者多以产量最大作为目标函数,一般是基于作物水分需求与作物产出的关系来建立模型[3]。目前采用的预测方法主要有线性随机模型、神经网络模型、灰色预测模型、组合模型等方法[4]。线性随机模型需要假设序列是线性相关的,人为拟定一个线性回归方程来进行模拟;神经网络模型具有良好的非线性映射能力,但是收敛速度慢,容易陷入局部最小点;灰色预测方法只适合预测呈近似指数增长规律的数据序列[5-7]。另一类预测方法是通过分析作物水分需求,采用土壤水量平衡方法研究灌溉用水量预测模型研究。这类模型法需要大量与土壤及环境相关的信息作为模型输入变量,因为影响因素太多,导致模型复杂化,进而出现系统复杂性增加等问题。
故此提出一种简化的预测模型,将与土壤及环境相关的信息作为模型输入向量,由于这些原始特征之间存在严重的相关性,通过核主元分析方法的非线性映射处理原始输入数据,使变量之间存在严重的相关性,在映射到高维特征空间后,原始数据的非线性特征转化为高维空间的线性特征,再用线性方法作特征选择,消除了输入变量的多重相关,然后在精简输入空间的基础上建立灌溉用水预测模型,减小灌溉系统模型的复杂性。
基于核函数的主元分析法(KPCA)是先对样本进行非线性变换,由非线性函数将输入数据从原空间映射到高维特征空间,然后在特征空间执行主元分析(PCA)。定义并计算下面的核函数:
特征空间中的PCA通过求解下面的方程得到特征值λ和特征向量υ;
其中特征值λ≥0。将每个输入变量与式(3)内积,得
将式(3)、(5)代入式(4),得:
根据式(6),有:
输入样本经核主成分分析后,可求得各核主成分,选择前m个主成分,使它们的累计贡献率足够大,重构输入相空间,简化输入空间维数。
支持向量机是基于Mercer核展开定理,通过非线性映射,把样本空间映射到一个高维特征空间,使特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。最小二乘支持向量机是将传统支持向量机中的不等式约束改为等式约束,且将误差平方和(Sum SquaresError)损失函数作为训练集的经验损失,这样就把解二次规划问题转化为求解线性方程组问题,提高求解问题的速度和收敛精度。设样本为n维向量,某区域的l个样本及其表示为:
这样非线性估计函数转化为高维特征空间的线性估计函数。利用结构风险最小化原则,寻找就是最小化:
其中本次建模选用了高斯径向核:
基于核方法的精准灌溉用水量预测模型具体过程是:
(1)收集样本数据。由于灌溉用水量受到土壤湿度和温度、空气湿度和温度、PH值、光照强度、土壤养分、CO2浓度等物理量参数的影响,灌溉用水量预测可看作是这些参数的时间序列间复杂的高维非线性函数关系的逼近问题。对样本数据进行预处理,见式(16)。然后,由各变量构成初始的时间序列作为初始的输入矩阵。
(2)由于各参数时间序列数据量大,导致预测模型结构复杂,影响模型预测时间,本文采用核主元分析方法(KPCA)进行非线性特征提取,精简输入向量。利用核函数将输入矩阵转换到特征空间,形成维的矩阵,然后在特征子空间中用线性PCA方法对该l维矩阵进行特征提取,得到p+q维的非线性特征主元。核函数的选择关系到建模的精度,故采用了高斯核函数。
(3)以p+q维的线性不相关主元作为样本数据,利用SVM信息融合方法得到灌区用水量估计模型。
在预测日前一天,每隔1小时记录一次土壤湿度和温度、空气温度和湿度、PH值、光照强度、土壤养分、CO2浓度等物理量参数,这样,每天测得24组,将以上数据作为一天的输入样本数据。
采用120组样本数据作为训练样本集,为具代表性,样本数据分布在12个月中,每组数据包括土壤湿度和温度、空气温度和湿度、PH值、光照强度、土壤养分、CO2浓度等物理量参数,共8维向量;样本数据经标准化后,构成输入矩阵,各输入数据之间存在复杂的相关关系,根据KPCA原理,计算各个特征量。
根据KPCA算法,可计算出经KPCA提取的主成分、与主成分对应的各特征值及特征值的累积贡献率。表1为各主成分对应的贡献率及累计贡献率。选取前6个主成分,它们的总累计方差贡献率已达到93.77%,可认为这6个主成分已无相关性,并且包括了原始数据的绝大部分信息。
为了进行比较,采用3种方案进行实验:①用线性典型相关分析(PCA)进行相空间重构,并用LS-SMV回归建立模型;②用非线性典型相关分析(KPCA)进行相空间重构,用LS-SMV建立模型;③用LS-SMV建立模型。
表1 主元分析结果
分别利用100组训练样本训练基于PCA-SVM、 KPCA-SVM和LS-SMV的灌溉用水量预测模型后,对20组测试样本进行预测,模型的训练精度和泛化能力都用均方根相对误差(RMSPE)检验,其定义为:其中:是预测值;是实际值;是训练样本长度;是检验样本长度。
训练数据预测值的均方根相对误差RMSPE为2.117%,测试数据预测值的均方根相对误差RMSPE为2.482%。表2是2015年某灌区实际用水量与KPCA模型预测用水量的比较。表3是采用PCA+SVM、KPCA+SVM和LS-SVM三种模型的预测结果比较,结果表明KPCA-SVM模型的预测结果最好,PCA-SVM和LS-SVM模型预测精度相差不多。
表2 2015年某灌区预测数据和实际数据比较
针对灌溉用水量所受影响因数多,建立用水量预测模型输入变量多,导致系统复杂性增加等问题,提出了一种基于核主元分析的灌溉用水量特征提取方法,采用KPCA方法提取非线性特征向量,较好地反映了原始输入数据之间的复杂关系,精简了输入数据阵的维数,再利用最小二乘支持向量机回归建模,实现灌溉用水量的预测。仿真结果证明,基于KPCA-SVM预测模型具有较好的非线性数据处理能力,预测精度高,该预测模型对节约水资源,提高灌溉效益具有重要意义。
[7]郑玉胜,黄介生.基于神经网络的灌溉用水量预测[J].灌溉排水学报,2004,23(2):59-61.
[8]趟酋才,唐延芳,顾拓,等.灌溉用水量的并联型灰色神经网络预测[J].农业工程学报,2009,25(5):26-29.
表3 3种预测方法的精度比较
[1]冯宝清,我国不同尺度灌溉用水效率评价与管理研究[D].中国水利水电科学研究院,2013.
[2] 郭正琴,王一鸣,等.基于模糊控制的智能灌溉控制系统[J].农机化研究,2006,(12):103-105.
[3] K.SRINIVA RAJU.Irrigation PIanning using genetic aIgorithm[J].Water Resouces Management,2004,(18):163-176.
[4] 谢芳,唐德善. 农业灌溉用水量的LS-SVM预测模型研究[J].安徽农业科学,2010,38(19).
[5] 罗毅,雷志栋,杨诗秀.一个预测作物根系层储水量动态变化的概念性随机模型[J].水利学报,2008,31(8):80-83.
[6]拜存有,冯旭,张升堂,等.灰色等维信息模型在灌溉用水量预测中的应用研究[J].西北农林科技大学学报:自然科学版,2004,32(9):115-118.
[9] 禹华钢,高俊,黄高明.基于核典型相关分析的五元平面十字阵无源定位算法[J].系统丁程与电子技术,2011,33(8):1707-1712.
[10]王华忠,俞金寿.核函数方法及其模型选择[J].南京大学学报(自然科学版),2006,5(4):500-503.
[11] DENG N Y,TIAN Y J.New Method of Data Mining-Support Vector Machine[M].Beijing:Science Press,2004.
[12] 顾艳萍,赵文杰,吴占松.最小二乘支持向量机的算法研究[J].清华大学学报(自然科学版),2010,50(7):1063-1071.
The prediction method of agricultural irrigation water consumption based on KPCA
Yuan Shou Xin
(Gansu Iron and Steel Vocational Technical College, Jiayuguan, 735100)
Irrigation is an effective way to save agricultural water and increase the income of agricultural. The prediction method of agricultural irrigation water consumption based on KPCA (kernel principal component analysis) can play a role in saving irrigation water. In the way information of soil and environment are regarded as input vectors, kernel canonical correlation analysis is used to extract nonlinear character of input vectors and eliminate the existing multicollinearity reasonably among the vectors. Then main character variables are determined. Finally the model based on Least squares SVM (support vector machine) were completed which reflects the complex relationship between original input and output data and the array dimension of input data is simplified. Results show that the method is effective and suitable for forecasting irrigation water requirement.
KPCA;Irrigation water consumption ; Prediction method ;SVM
S274.2
A
1671-3818(2016)09-0026-03
袁寿新(1966-),女,甘肃嘉峪关人,学士学位,副教授,主要从事自动化仪表及控制方面的教学和研究。