基于GSA-SVM的畜禽舍废气监测缺失数据恢复方法

2015-11-30 08:56:23刘金明谢秋菊马铁民
东北农业大学学报 2015年5期
关键词:监测数据废气种群

刘金明,谢秋菊,王 雪,马铁民

(黑龙江八一农垦大学信息技术学院,黑龙江 大庆 163319)

基于GSA-SVM的畜禽舍废气监测缺失数据恢复方法

刘金明,谢秋菊,王 雪,马铁民

(黑龙江八一农垦大学信息技术学院,黑龙江 大庆 163319)

针对畜禽舍内废气监测过程中因传感器故障等原因造成部分监测数据缺失的问题,将遗传模拟退火算法与支持向量机相结合,提出一种基于GSA-SVM的缺失数据恢复方法。该方法综合考虑畜禽舍废气监测值对应的时间、空间和环境等多种影响因素,建立支持向量机回归预测模型对缺失的监测数据进行恢复性估算;为获得更好的预测结果,使用遗传模拟退火算法对模型参数进行优化。以氨气浓度数据的恢复为例,随机选取某养殖场3 d的监测数据验证。结果表明,缺失数据估算最大相对误差为6.69%,平均相对误差为1.87%,估算数据与监测数据误差很小,可有效对缺失性数据进行恢复,为畜舍废气监测提供可行数据恢复处理方法。

遗传模拟退火算法;支持向量机;畜禽舍;废气监测;数据恢复

网络出版时间2015-4-30 14:32:00 [URL]http://www.cnki.net/kcms/detail/23.1391.S.20150430.1432.008.html

刘金明,谢秋菊,王雪,等.基于GSA-SVM的畜禽舍废气监测缺失数据恢复方法[J].东北农业大学学报,2015,46(5):95-101.

Liu Jinming,Xie Qiuju,Wang Xue,et al.Method of missing data recovery of waste gases monitoring in animal buildings based on GSA-SVM[J].Journal of Northeast Agricultural University,2015,46(5):95-101.(in Chinese with English abstract)

畜禽饲养过程中产生的各种有害气体,对畜禽健康生长和食品安全产生影响[1-2]。因此,连续可靠地监测养殖场内废气浓度[3],精确计算废气排放量,对分析各种有害气体排放规律和影响因素[4],采取有效措施控制和处理有害气体有重要意义。在生猪饲养过程中,为分析畜禽舍内有害气体排放规律,需在畜禽舍内安装多种有害气体浓度检测传感器,实时监测其浓度,将监测数据保存到上位机的数据库中供相关人员查看、分析。然而,畜禽舍内复杂环境可导致传感器漂移或损坏,造成监测数据偏差或错误[5-6]。监测过程中采集到的废气浓度数据在传输过程中,也可能由于线路问题导致失真或丢失。为保证监测数据完整性和准确性,需要对缺失废气浓度监测数据进行恢复。但畜禽舍内废气浓度与时间、空间和环境等多种因素相关,各因素之间存在相互作用,是复杂的非线性系统,使用线性插值方法进行缺失数据恢复误差较大。朱伟兴等提出使用神经网络进行废气监测缺失数据处理,取得较好估算结果[5-6]。但神经网络存在局部极小值问题,容易出现过学习。

支持向量机(Support vector machine,SVM)是基于小样本统计学习理论和结构风险最小化原则的机器学习方法[7],具有良好泛化能力,弥补神经网络不足,能有效处理各种非线性问题,广泛用于各种回归预测问题的求解[8-9]。SVM相关参数选取直接关系到SVM预测精度,采用网格搜索方法进行SVM参数寻优时,寻优步长设置较小时才可能获得较好寻优效果,但需要大量计算时间。因此,学者提出基于粒子群算法(Particle swarm opti⁃mization,PSO)[10-11]、遗传算法(Genetic algorithm, GA)[12-13]等智能算法对SVM参数进行优化。其中,GA有较强鲁棒性和全局优化搜索能力,适用于SVM参数寻优问题求解,但存在早熟问题,在进化后期搜索效率较低。因此,本文将模拟退火算法(Simulated annealing algorithm,SA)的退温思想和Metropolis判别准则引入GA的种群进化过程中,构建遗传模拟退火算法(Genetic simulated annealing algorithm,GSA)克服标准GA的早熟问题,提高其后期优化搜索能力,使用GSA对SVM参数进行寻优,提出一种基于GSA-SVM预测模型的畜禽舍废气监测缺失数据恢复方法。

1 材料与方法

1.1 GSA-SVM理论基础

GA和SA都是优秀的智能计算方法[14]。GA是一种具有高度非线性映射、自适应和自组织功能的智能全局优化算法,广泛用于各种组合优化问题求解,但其存在容易过早收敛和进化后期搜索效率低缺点。SA计算过程简单,鲁棒性强,选优能力强,适用于求解复杂非线性优化问题,但其性能对初值依赖性强、全局搜索最优解的能力差。将二者相结合形成GSA混合算法,可利用SA 为GA提供更加多样性搜索空间,有效避免陷入局部最优;GA选择、交叉和变异操作为SA提供新解,增强SA爬山能力;SA算子得到的解有选择地为GA提供新种群,提高GA收敛速度,使混合算法在较短时间内得到近似全局最优解。

SVM非线性回归基本思想是利用非线性变换将原问题映射到高维特征空间的线性问题上,并在该空间中进行线性回归,而这种非线性变换通过定义适当的内积函数实现。在高维特征空间中,线性问题中的内积运算可用核函数代替,常用有线性核函数、多项式核函数、径向基(Radial basis function,RBF)核函数、Sigmoid核函数等。在选定核函数基础上,SVM预测模型参数选取对预测精度影响很大。结合交叉验证的网格搜索算法是比较常用的SVM参数优化方法,但其耗时且性能有待提高。GSA具有全局搜索能力强、收敛速度快优势,能直接依据SVM预测值与真实值的误差在编码后的种群中搜索SVM最优参数,通过选择、交叉、变异和模拟退火选择复制等操作在指定范围内随机地进行SVM参数寻优。经过若干代遗传进化后,得到适应度最佳的个体即可作为SVM预测模型最优参数。

1.2 SVM输入输出确定及处理

为实现对缺失的废气监测数据进行恢复性估算,综合考虑畜禽舍内废气浓度与时间、空间和环境等多种因素的关系,建立SVM多输入单输出预测模型,对某一时刻废气监测缺失数据进行恢复。多个输入包括:缺失数据采样点前一时刻废气浓度监测数据、相邻采样点相邻采样时刻废气浓度变化量,以及缺失数据采样点处对应环境温度、相对湿度和风速监测值。输出为缺失数据采样点废气浓度估算值。通过长时间连续监测数据对SVM进行训练,得到模型保存输入自变量与输出因变量之间非线性映射关系,成为缺失数据估算器。当出现监测数据缺失时,只需取相应数据输入SVM预测模型,即可完成缺失数据的恢复性估算。但在使用输入输出数据对SVM进行训练和预测前,应对数据进行归一化处理,公式如下:

式中,y为归一化后的数据,x为归一化前的监测数据,xmax为监测数据最大值,xmin为监测数据最小值,ymax为设定的归一化后数据最大值,ymin为设定的归一化后数据最小值。若xmax与xmin大小相等,即监测到某一数据相同,直接设定y=ymin。通过多次测试后发现,将输入自变量的归一化区间设定为[-1,1],将输出因变量的归一化区间设定为[0,1],SVM预测模型估算效果最佳。

1.3 SVM核函数选取

SVM核函数建立原始样本空间到特征空间的一个隐式映射,其基本思想是将原始空间中线性不可分问题转化为高维特征空间中线性可分问题。在利用SVM解决回归预测问题时,选择恰当的核函数是影响SVM预测精度的重要因素。王霞等研究可知,在求解非线性多因素预测问题时,RBF核函数SVM预测模型表现明显优势,预测精度最高[15]。因此,本文采用RBF核函数作为SVM预测模型核函数,计算公式如下:

1.4 SVM参数GSA寻优

SVM预测模型参数选取对预测精度影响大,本文采用K折交叉验证结合GSA对SVM预测模型的参数进行优化,待优化参数包括惩罚参数C、核函数参数γ和不敏感损失函数参数ε。

1.4.1 编码和种群初始化

利用GSA对SVM进行参数寻优时,采用的编码方式为二进制实数编码。SVM的3个参数C、γ 和ε对应染色体的3个基因,每个基因编码成k位二进制数。

染色体结构如图1所示。

图1染色体结构Fig.1 Structure of chromosome

其中,二进制序列a1a2…ak为参数C编码基因,二进制序列b1b2…bk为参数γ的编码基因,二进制序列c1c2…ck为参数ε的编码基因。以参数C的编码基因a1a2…ak为例,其对应的实数解码公式为:

式中,[U1,U2]为参数C的取值范围,k为单个基因的二进制码长,本文取k=20,则染色体码长为60位。

在进行种群初始化时,随机产生一个N×M的二元矩阵即可,其中N为初始种群中染色体数量,M为染色体码长。

1.4.2 适应度函数设计

本文采用K折交叉验证结合GSA对SVM参数进行最优化,而SVM预测模型的目的是预测值与实际值误差尽量小,可直接把K折交叉验证均方误差(Mean squared error,MSE)作为目标函数。结合温度参数对适应度函数定义如下:

式中,f(x)为当前染色体的目标函数值,fmin为当前代种群中最小目标函数值,t为当前代温度值。

结合温度参数设计适应度函数,算法在高温时计算的适应度值差异较小,有效避免个别优良个体充斥整个种群造成早熟;而低温时优良个体具有相对更大的适应度函数值,易遗传给下一代,加快算法搜索速度。

1.4.3 遗传操作设计

GA遗传操作包括选择、交叉和变异3种。选择操作采用结合最优保留策略的赌轮选择方法,交叉操作采用单点交叉,变异操作采用多位变异。

1.4.4 初温确定及退温操作

初温确定采用t0=Kδ的形式,其中K是正整数,δ=fmax-fmin,fmax和fmin为初始种群中最大和最小目标函数值。

退温操作采用tn+1=αtn的形式,其中0<α<1,α决定降温速度。

1.4.5 邻域解的构建

依据算法编码方式,邻域解的构建采用多位变异策略,具体方案为:分别在当前染色体3个基因中随机选取一位进行位变异。

1.4.6 状态接收函数

将每一代经GA遗传操作后的种群作为模拟退火算法种群,对种群中每个染色体构建邻域解后进行基于Metropolis判别准则的选择复制。假设为染色体i构造邻域解j,令Δf=fit(j)-fit(i),若Δf≥0,则接受邻域解j到下一代种群;若Δf<0,则生成随机数r∈[0,1],当r<exp(Δf/tn)时,仍接受邻域解j到下一代种群;否则,将原染色体i复制到下一代种群中。

采用此选择复制策略,在高温时接受劣质解能力较强,保证种群多样性,避免早熟,低温时优良染色体更易遗传给下一代,加快算法收敛速度。

1.5 SVM缺失数据预测

在完成SVM 参数寻优后,可将优化后参数C、γ、ε和训练集带入训练函数进行训练,进而建立SVM预测模型,然后再使用测试集对该预测模型进行测试评价,完成缺失监测数据恢复性估算。在使用该预测模型进行恢复性估算时,测试集每个样本中前一时刻的废气浓度监测数据这个属性应是上一样本的废气浓度估算值,即由前一时刻估算值结合当前时刻的其他属性预测当前时刻值,是一个典型时间序列预测问题。

运用GSA-SVM预测模型进行缺失数据恢复估算具体流程见图2。

图2 缺失数据恢复流程Fig.2 Flowchart of missing data recovery

2 结果与分析

2.1 数据来源

本文以美国印第安纳北部某畜禽养殖场连续监测3 d氨气浓度历史数据处理为例,对缺失数据恢复方法进行评测。其中,氨气浓度和环境参数等相关监测数据采样1次·h-1,3 d共计72组数据样本。测试系统时,以前48个样本作为训练集,后24个样本作为测试集。经预处理后的部分数据样本如表1所示。

表1 部分试验数据Table 1 Some experimental data

2.2 相关参数设定

运用K折交叉验证结合GSA对SVM预测模型进行参数最优化时,相关参数设定包括:种群规模为20,遗传代数为50,初始温度参数K为100,退温系数α为0.8,惩罚参数C、核函数参数γ和不敏感损失函数参数ε寻优范围分别是[0,100]、[0,100]和[0.001,1],交叉概率0.7,变异概率0.7/M(M为染色体码长),采用5折交叉验证。测试得到最佳预测模型对应SVM参数寻优结果为:C为30.7696,γ为0.1062,ε为0.0353。参数寻优进化过程如图3所示。

图3 参数寻优过程Fig.3 Optimization process of parameters

由图3可知,在进化前期(高温时)GSA求得的平均目标函数值与最佳目标函数值差异较大,而进化后期(低温时)平均目标函数值更接近最佳目标函数值。原因在于GSA结合温度参数设计适应度函数,引入基于Metropolis判别准则的选择复制策略。在高温时,不同染色体对应适应度函数值差异较小,接受劣质解能力较强,保证种群相对多样性,有效避免早熟;在低温时,优良染色体具有更大适应度函数值,遗传给下一代,加快算法收敛速度。

2.3 仿真结果分析

将参数C、γ、ε和训练集带入训练函数进行训练后得到SVM预测模型,对应训练结果见图4。

图4 训练集回归拟合结果Fig.4 Regression results of training set

由图4可知,GA-SVM预测模型能很好拟合训练集,其MSE为0.0009。

采用训练好的SVM预测模型对测试集进行测试验证时,针对这个时间序列预测问题,没有采用MSE作为评价标准,而是采用相对误差对预测结果进行评价。通过多次测试,得到最佳预测模型对应的测试集回归拟合结果为:最大相对误差为6.69%,最小相对误差为0.03%,平均相对误差为1.87%。测试集回归拟合结果如图5所示。

图5 测试集回归拟合结果Fig.5 Regression results of test set

为测试GSA-SVM预测模型在缺失数据恢复方面的性能和效率,本文与BP神经网络方法、网格搜索参数寻优SVM(简称网格-SVM)和遗传算法参数寻优SVM(简称GA-SVM)三种预测模型的回归预测精度进行对比。在Win7 64位系统下,使用MATLAB R2012b和LibSVM-3.1工具箱对各预测模型进行评测。硬件设备中CPU为Xeon E1230v2,内存容量为8 GB。不同回归预测模型预测效率和性能对比结果如表2所示。

表2 不同模型预测结果对比Table 2 Comparison of predict results with different models

由表2可知,三种SVM预测模型的执行时间明显少于BP神经网络,且三种SVM预测模型平均相对误差均小于BP神经网络预测模型,说明SVM预测模型在回归问题求解方面具有优势。而GSASVM模型与其他SVM预测模型相比,虽然执行时间稍高,但其最大相对误差、最小相对误差和平均相对误差均最小,说明GSA-SVM预测精度最高,实现效率和性能统一,预测效果最好。其中GA-SVM和GSA-SVM为多次测试保存的最佳预测结果。在进行实际缺失数据恢复时,只需保存多次测试获得的最佳预测模型,并用此模型对后续出现缺失数据进行恢复性估算。

在进行各种SVM预测模型仿真测试时发现,除网格-SVM能够获得固定预测结果外,使用GA 和GSA两种智能算法优化SVM 参数得到的C、γ和ε差异较大,每种算法多次测试结果不同,虽然对应训练集拟合结果均很好,但相应测试集回归拟合结果差异较大,GA-SVM和GSA-SVM两种预测模型100次测试得到总平均相对误差分别为2.78% 和2.49%,小于BP神经网络和网格-SVM两种预测模型预测误差。可见GSA-SVM预测模型恢复性估算精度最高,可满足畜禽舍内有害气体排放规律分析需要。

3 结 论

通过综合考虑畜禽舍内废气浓度与时间、空间和环境等多种因素关系,建立GSA-SVM回归预测模型,对废气监测缺失数据进行恢复性估算。通过估算数据与监测数据对比试验研究表明,缺失数据估算的平均相对误差为1.87%,与BP神经网络预测方法、网格和GA参数寻优SVM预测方法相比,增强传感器之间的数据互补性,提高监测系统可靠性,为准确计量养殖场某一段时间内连续排放的废气总量,分析畜禽舍内废气排放规律,采取有效措施对畜禽排放有害气体进行控制和处理提供依据。

[1]谢秋菊,苏中滨,刘佳荟,等.基于L-M优化算法的猪舍氨气浓度预测模型研究[J].东北农业大学学报,2014,45(10):74-79.

[2]高玉红,孙新胜,曹玉凤,等.密闭肉牛舍冬季有害气体的日变化和垂直分布规律研究[J].东北农业大学学报,2013,44(11): 143-146.

[3] Heber A J,Ni J Q,Lim T T,et al.Quality assured measurements of animal building emissions:Gas concentrations[J].Journal of the Air and Waste Management Association,2006,56(10):1472-1483.

[4] Bottcher R W,Keener K M,Munilla R D,et al.Dust and odor emission from tunnel ventilated swine buildings in North Carolina and comparison of different odor evaluation methods[J].Applied Engineering in Agriculture,2004,20(3):343-347.

[5] 朱伟兴,李丽,庞敏.基于神经网络的数据融合在废气测量中的应用[J].中国安全科学学报,2007,17(6):162-165.

[6] 黄建清,朱伟兴,李丽.BP神经网络在废气测量中的应用[J].农机化研究,2009,31(4):191-195.

[7] Vapnik V N.The nature of statistical learning theory[M].New York:Springger,2000.

[8] 都平平.基于支持向量机的综合地质环境评价研究[J].采矿与安全工程学报,2012,29(4):555-558.

[9] 戴栋,黄筱婷,代州,等.基于支持向量机的输电线路覆冰回归模型[J].高电压技术,2013,39(11):2822-2828.

[10] 刘伟,王建平,刘长虹,等.基于粒子群寻优的支持向量机番茄红素含量预测[J].农业机械学报,2012,43(4):143-147.

[11] 单亚锋,孙朋,徐耀松,等.基于PSO-SVM的煤岩声发射源定位预测[J].传感技术学报,2013,26(3):402-406.

[12]刘希亮,赵学胜,陆峰,等.基于GA-SVM的露天矿抛掷爆破抛掷率预测[J].煤炭学报,2012,37(12):1999-2005.

[13] 陈伟根,滕黎,刘军,等.基于遗传优化支持向量机的变压器绕组热点温度预测模型[J].电工技术学报,2014,29(1):44-51.

[14] 贺小亮,毕义明.基于模拟退火遗传算法的编队对地攻击火力分配建模与优化[J].系统工程与电子技术,2014,36(5):900-904.

[15]王霞,王占岐,金贵,等.基于核函数支持向量回归机的耕地面积预测[J].农业工程学报,2014,30(4):204-211.

Method of missing data recovery of waste gases monitoring in animal buildings based on GSA-SVM

LIU Jinming,XIE Qiuju,WANG Xue,MA Tiemin(School of InformationTechnology,Heilongjiang BayiAgricultural University,Daqing Heilongjiang 163319,China)

In order to solve the data missing problem caused by sensor faults during the waste gas monitoring in animal buildings,a method for missing data recovery was presented based on support vector machine(SVM)combined with genetic simulated annealing algorithm(GSA).Multiple factors that influenced monitoring values of the waste gas in animal buildings,such as temporal,spatial and environmental,were considered to established a SVM regression prediction model to estimate the missing data of the waste gas monitoring.Meanwhile,to obtain a better prediction accuracy,model parameters were optimized by the GSA.The data processing of the ammonia concentration was taken as an example,monitoring data of 3 d were randomly selected in a farm to test the presented model in this paper.The results showed that there was a very little error between the estimated data and monitoring data,the maximal relative error was 6.69%, the average relative error was 1.87%.It was an effective method for missing data recovery and a practical way of data processing for waste gases monitoring in animal buildings.

genetic simulated annealing algorithm(GSA);support vector machine(SVM);animal buildings;waste gas monitoring;data recovery

TP183

A

1005-9369(2015)05-0095-07

2014-11-13

黑龙江省青年科学基金项目(QC2013C065)

刘金明(1981-),男,讲师,硕士,研究方向为计算机在农业中的应用。E-mail:jinmingliu2008@126.com

猜你喜欢
监测数据废气种群
山西省发现刺五加种群分布
今日农业(2022年15期)2022-09-20 06:54:16
船舶废气脱硫蒸发冷却器数值模拟
节能与环保(2022年3期)2022-04-26 14:32:40
有机废气处理方法探讨
液吸汽提法处理粘胶废气中二硫化碳的研究
土壤修复过程中的废气控制与治理
GSM-R接口监测数据精确地理化方法及应用
中华蜂种群急剧萎缩的生态人类学探讨
红土地(2018年7期)2018-09-26 03:07:38
GPS异常监测数据的关联负选择分步识别算法
基于小波函数对GNSS监测数据降噪的应用研究
变电站监测数据采集系统
电测与仪表(2014年3期)2014-04-04 09:08:32