玉米秸秆磷含量近红外漫反射光谱的建模研究

2021-07-29 07:57李冬冬王浩瑛李国梁何思洋陈绍江刘文欣
中国农业大学学报 2021年8期
关键词:光谱秸秆建模

李冬冬 王浩瑛 王 蒙 王 铭 李国梁 何思洋 陈绍江 刘文欣*

(1.中国农业大学 农学院/作物杂种优势研究与利用教育部重点实验室/作物遗传改良北京市重点实验室/国家玉米改良中心,北京 100193;2.中国农业大学 国家能源非粮生物质原料研发中心,北京 100193)

玉米是我国重要的主粮作物,产量高且具有饲料和能源等多重价值。玉米产量的稳产和高产在保障我国粮食安全方面发挥了重要作用。磷是植物生长必须的大量元素,参与植物体内许多重要的代谢途径[1]。然而我国大量土地处于缺磷状态[2],土壤中绝大部分磷素以难溶性磷酸盐和有机磷形式存在,有效磷的含量较低[3],磷短缺将成为玉米生产的一大挑战[4]。我国每年磷肥施用量超过700万t[5],一定程度上提高了农业生产成本,但施磷肥并不能从根本上解决问题,且过量使用会给环境带来一定的负面影响[6]。从长远来看,培育耐低磷和磷高效利用的玉米品种是更为有效的手段,要实现这一育种目标,首先需要能快速准确测量植物磷含量的方法。

目前测定植物磷含量的方法有很多,如比色法[7]、原子吸收光谱法[8]、电感耦合等离子质谱法[9]和原子发射光谱法[10]等。但这些方法均需对样品进行前处理,存在程序繁琐、成本高以及易受干扰等问题,因此急需创制一种简单便捷且易用有效的植物磷含量测定技术。

上个世纪六十年代,使用近红外光谱(NIRS)来进行物质测定的研究就已经开始[11]。近年来,随着光谱学技术的发展,近红外光谱测量已成熟应用于定性与定量分析。定性分析如李伟等[12]使用机器学习方法对玉米单倍体种子进行鉴别,使用朴素贝叶斯、决策树、K近邻及支持向量机(SVM)等常用方法构建出了近红外玉米单倍体鉴别模型,其中前馈神经网络和偏最小二乘(PLS)的模型效果最好。定量分析如对土壤全磷含量[13]和烟草中磷含量[14]的测定等,其中土壤磷含量的预测相关系数为 0.83,在0.05显著水平下,利用近红外光谱技术所得的烟草根、茎和叶中磷含量的预测值与测定值之间不存在显著差异。目前近红外定量分析技术已应用于植物秸秆组分的分析,Payne等[15]利用PLS建立的近红外物质测定模型,对玉米秸秆、水稻秸秆和高粱秸秆等多种原料组成的物质中的葡聚糖、木聚糖、木质素和灰分都起到了很好的预测效果,决定系数(R2)在0.90左右;Hu等[16]将可见光和近红外反射光谱和改进的PLS相结合,建立了预测不同水稻群体木质素单体含量的校正模型,建立了预测对羟基苯基、愈创木酚和丁香基木质素单元含量及其总量的4个最佳方程;Fan等[17]采用NIR监测了高粱秸秆固态发酵过程,PLS在糖、乙醇、水和pH的含量预测中表现良好,其多元回归模型的R2分别为 0.93、0.94、0.87和0.95,而均方根误差(RMSE)仅分别为0.013、0.006、0.008和0.150。这些研究表明,近红外光谱是一种快速准确的可用于秸秆组分分析的方法。

近红外光谱分析法具有速度快、无损和操作简便的优点,但目前针对玉米秸秆磷含量的快速检测模型未见报道。本研究比较了PLS、最小绝对值收敛和选择算子(LASSO)、SVM和回归树(RT)这几种建模方法,旨在建立玉米秸秆磷含量快速精确的预测模型,为NIRS技术应用于植物磷含量测定提供依据,为磷高效玉米材料的筛选和遗传学研究奠定基础。

1 材料与方法

1.1 试验材料

试验材料来源于本课题组2018年种植于中国农业大学上庄试验站磷长期定位试验地的玉米自交系群体。该群体来源广泛,包含106个温带、48个热带和亚热带的种质资源。玉米成熟后,混合收获其地上部分的茎和叶组织,于65 ℃烘箱烘干至恒重,再用植物粉碎机粉碎,封存于纸袋中并储存在干燥避光的环境中。

1.2 近红外光谱数据的采集

将等量粉末状样品小心放入样品盘中,用压样器压样并刮去多余样品。采用Thermo Scientific公司Antaris系列傅立叶近红外仪和附带软件采集样品光谱,光谱范围4 000~10 000 cm-1,扫描10次,分辨率为4 cm-1。

1.3 磷含量的化学测定

利用钼锑抗比色法测定样品的磷含量,具体方法参照国家标准NY/T 2421—2013[18],该试验由中国农业大学国家能源非粮生物质原料研发中心分析测试中心完成。

1.4 模型建立与评价

使用pls[19]、lars[20]、kernlab[21]和rpart[22]R语言程序包中的PLS、LASSO、SVM和RT 4种方法建模,并使用caret[23]R语言程序包计算PLS模型的最优主成分数。

采用5折交叉验证策略评价模型预测准确性和精度[24],将200份样品按4∶1进行随机抽样,分别作为训练集(training set)和测试集(test set),用以建立模型和评价模型。该步骤重复1 000次。对于PLS而言,由于每次抽样所得训练集包含的个体不一样,所以在评价模型时,所选用主成分数量也不相等。而PLS的主成分数量选择十分关键,对预测结果的影响较大,本研究首先使用训练集来选取最优的主成分数,具体方法为将训练集再分为5份,其中1份作为验证集,选择不同的主成分数量来进行交叉验证,最终选取RMSE最小的主成分数量来对测试集进行预测。LASSO使用训练集进行5折交叉验证来确定最优解的步数,SVM选取最佳的核函数,RT也选择最适合的参数。将测试集真实值与预测值的相关系数(rtest)和训练集真实值与预测值的相关系数(rtraining)作为模型的评价指标。相关系数越大,所建立模型的预测准确性越高。

1.5 光谱数据预处理

用11种方法对光谱数据进行预处理,包括一阶导数(First Derivative, d1)、二阶导数(Second Derivative, d2)、多元散射校正(Multiplicative Scatter Correction, MSC)、归一化(Scale)、平滑化(Smooth)、标准正态变换(Standard Normal Variate, SNV)、一阶导数+多元散射校正(d1_msc)、一阶导数+归一化(d1_scale)、平滑化+一阶导数(sm_d1)、平滑化+一阶导数+归一化(sm_d1_scale)和平滑化+二阶导数(sm_d2)预处理。所有预处理均使用matlab软件完成。

2 结果与分析

2.1 近红外光谱数据

200份玉米秸秆样品的原始光谱如图1所示,每条光谱由1 557个变量组成。由图1可知,光谱曲线趋势一致,且不同样品的光谱吸收有差异,这说明光谱数据可用于近红外定量分析。

图1 200份玉米秸秆样品的原始近红外光谱图Fig.1 Original NIRS of 200 maize straw samples

2.2 玉米秸秆磷含量的化学测定

利用钼锑抗比色法测定的200份玉米秸秆磷含量分布如图2。磷含量变化范围为0.62~2.79 mg/g,平均值为1.41 mg/g,中位数为1.33 mg/g,变异系数为32.58%。这表明本研究选取的200份玉米秸秆样品的磷含量变异较大,具有代表性。

图中虚线表示均值。The dotted line in the figure represents the mean value.图2 200份玉米秸秆样品的磷含量分布Fig.2 Distribution of phosphorus concentration of 200 straw samples

2.3 磷含量预测模型最佳参数的选择

对于PLS 模型,在训练集中进行5折交叉验证,来选择最佳的主成分数目。其中,主成分数目最多可以选择到训练集数目减去1,在此过程中,模型的RMSE先逐步下降再缓步上升(图3(a)),但在选取的主成分数目过大时,模型很不稳定,出现了RMSE的陡升,但主成分数目选择并不受影响。对于SVM,核函数对于结果的影响很大,于是我们对SVM的6种不同的核函数进行了比较,最终选取的是表现最佳的线性函数“vanilladot”(图3(b))。LASSO也是在训练集中进行了5折交叉验证,用RMSE来选取最优解的步数。在RT中, rpart函数中的参数“method”,选取最适合本研究的“anova”。

(a)中虚线表示选取的RMSE最小时的主成分数;(b)中不同小写字母代表差异性显著(LSD法,α=0.05)。下同。The dotted line in Figure (a) represents the number of principal components when the selected RMSE is the smallest. Different letters represent a significant difference in Figure (b) (LSD method, α=0.05). The same below.图3 PLS最佳主成分数和SVM最佳核函数的选择Fig.3 The best selection of number of principal components for PLS and kernels for SVM

2.4 不同模型预测磷含量的准确性

利用PLS、LASSO、SVM和RT等4种算法构建光谱数据与化学测定结果的数学关系模型,各模型预测准确性表现如图4。结果显示,4种算法对于训练集和测试集的预测准确性均具有显著性差异。其中,PLS表现最优,对训练集的拟合准确性为0.97±0.03,对测试集的预测准确性达到了0.80±0.05。LASSO通过限制回归方程各系数绝对值之和,达到降维的效果,它会压缩部分系数为0,从而会导致部分信息丧失,因而模型效果并不理想,测试集的预测准确性为0.67±0.08;SVM的最终性能是由核函数直接决定的,本模型中选取的是线性核函数,但其拟合和预测效果都不及PLS,测试集的预测相关系数为0.69±0.08;RT所得模型的测试集预测相关系数仅为0.03±0.15,训练集拟合的相关系数为0.68±0.03,拟合与预测效果在4种方法中表现最差,这说明该方法不适用于本类型的数据建模。

图4 4种模型预测的相关系数Fig.4 The prediction correlation coefficients of the four models

2.5 多种光谱预处理方法对磷含量建模精度的影响

基于以上结果,PLS为筛选出的最优建模方法。将PLS结合不同预处理方式来探究不同光谱预处理方法对磷含量预测相关性的影响,结果如图5(a)和5(b)所示,主成分数量的选取如图5(c)所示。结果表明,对于训练集的预测,原始数据、归一化和平滑化表现最好,二阶导数和平滑化+二阶导数表现最差;对于测试集的预测,也呈现出相似的趋势。这说明对于磷含量的预测,原始数据的表现已经很好,所采取的这些预处理方法意义不大,是否有更好的预处理方法,值得我们进一步的探究。

图5 不同预处理方法结合PLS所得模型的预测相关系数和选取的主成分数量Fig.5 The prediction accuracy of different pre-processing methods combined with PLS model and the number of principal components selected

2.6 训练集和测试集的样品比例与模型精度的关系

通常情况下样本量的大小影响建模的精度和实用性。为了探究建模所需的最少样本数,本研究将200份样品分成了不同比例,探索训练集与测试集不同比例(分别为2∶8、3∶7、4∶6、5∶5、6∶4、7∶3、8∶2 及9∶1)时,对测试集的预测效果。结果显示,随着训练集数目的增多,训练集的拟合相关系数和测试集的预测相关系数均不断上升。但是训练集数目达到160,即训练集∶测试集为8∶2时,测试集的相关系数达到了0.80,再增大训练集比例也并没有显著提高预测准确性。留一法是只将一个样本作为测试集,剩下的样本都作为训练集,最大限度地选取了训练集,能够计算模型的最大预测相关性[25]。留一法的拟合结果如图6(c)所示,呈现出较好的拟合效果,但是其得到的rtest与5折交叉验证无显著差异(图6(b))。这说明,对于本研究来说,5折交叉验证已经足够,无需采取计算难度更大的留一法。

(b)中虚线为留一法测试集的预测相关系数;(c)中红色点代表真实值最大的15个样品,蓝色点代表真实值最小的15个样品。In Figure (b), the dotted line is the rtest of Leave-One-Out method. In Figure (c), the red dots represent the 15 samples with the largest true values, and the blue dots represent the 15 samples with the smallest true values.图6 不同训练集比例和留一法结合PLS模型的预测相关系数Fig.6 The prediction correlation of different training set ratios and Leave-One-Out method combined with PLS model

3 讨论与结论

近红外光谱是研究分子运动的吸收光谱[26],主要基于C-H、N-H、O-H和C-O这些基团的振动倍频和合频的吸收,其中振动效应的特殊性为物理化学提供了大量的独立的高价值光谱信息[27],因为不同样品对近红外光谱的选择性吸收,可以对物质进行定性和定量分析,应用于物质磷含量的测定。Murguzur 等[28]使用NIR对植物叶片磷含量进行测定,决定系数为0.76;Lin等[29]使用NIR对混合土壤全磷含量进行测定,决定系数约为0.60。前人的研究也充分证明了使用近红外光谱建立磷含量测定的模型有较高的研究价值。

本研究是将近红外光谱技术应用于玉米秸秆磷含量的定量分析,比较了不同建模方法和不同预处理方式对模型预测准确性和稳定性的影响,并研究了建模时所需的最小样本数目。在玉米秸秆磷含量的定量分析中,对4 000~10 000 cm-1波段的光谱数据采用PLS进行建模,所得模型最优。所得模型的训练集的拟合相关系数为0.97±0.03,测试集的预测相关系数为0.80±0.05。Baye等[30]的研究证明了PLS在NIR预测玉米籽粒营养物质方面也具有卓越的性能,尤其是对玉米籽粒中蛋白质含量的预测准确性达到了0.90,对淀粉含量的预测相关性达到了0.87。Kahrman等[31]的研究也获得了类似的结果。这说明,PLS非常适合用于建立玉米干物质含量NIR定量分析的模型。Carra等[32]开发了PLS模型用NIR预测土壤中磷含量,其测试集的决定系数达到了0.95,这进一步说明了NIR和PLS在快速检测磷含量上的应用价值,也说明本研究模型还有待改进。前人的研究及我们得到的结论均表明,近红外光谱技术可应用于玉米秸秆磷含量的快速测定,这为植物磷含量的测定提供了一种快速、简便和实用的方法,使得大量样本的测定变得更加方便。

在生产上,采用化学方法测定物质含量是十分繁杂的,而近红外光谱的测定则十分容易,只需要采用化学方法测定小部分样品的物质含量,作为训练集,建立PLS模型,便可以快速预测大量的样本,大大加快科学研究的进程。

猜你喜欢
光谱秸秆建模
基于三维Saab变换的高光谱图像压缩方法
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
解读“一号文件”:推进秸秆综合利用
推广秸秆还田 有效培肥土壤
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
秸秆综合利用模式探索
新型环保吸声材料——菌丝体胶合秸秆
星载近红外高光谱CO2遥感进展
苦味酸与牛血清蛋白相互作用的光谱研究