王丽萍,赵兴忠,陈文杰,田建华,李殿荣
(陕西省杂交油菜研究中心,国家油料作物改良中心陕西分中心,陕西大荔 715105)
近红外光谱分析技术(NIRS)是一种高效、快速的现代分析技术。该法操作简单、分析速度快、测试效率高,特别是可以非破坏性地同时分析多项指标、测试过程无污染等优点,使其在农业领域得到广泛应用[1]。芥酸、硫苷及油份含量是油菜籽最重要的育种品质指标,国内外应用近红外光谱技术测定油菜籽芥酸[2,3]、硫苷[4,5]和含油量[6-8]已有大量的文献报道。众所周知,影响近红外模型预测性能的因素有很多,来源主要包括样品、仪器和操作者三种因素,而样品的代表性是近红外建模及维护过程中影响模型预测性能的首要因素。通常情况下,为了获得一个稳健的近红外预测模型,定标集样品选择一定要有代表性,数量太少,不足以反映待测样品的群体常态分布规律,数量太多将增加分析和筛选的工作量[9]。徐志龙等为减小温度对模型的影响,提出包含温度影响因子的混合建模方法[10]。姚胜等研究了实验误差对模型准确性的影响,认为精确度越高模型的准确性越好[11]。在近红外模型测定中,近红外预测值与化学值之间都存在一定的偏差,只是偏差大小的区别。由此设想存在一定偏差的样品有可能是模型之外的样品。因此我们将这些不同偏差的样品添加至原模型后对模型的预测性能进行了考察。在此基础上,本文着重从偏差角度出发,以含油量模型为例,探讨了近红外模型维护时样品选择的一些基本规律,以期为提高近红外光谱分析法在油菜籽品质测定中的准确性提供一定的科学参考。
光谱采集使用德国BRUKER公司的MPA型傅里叶变换近红外光谱仪(配有镀金积分球,样品旋转器和4.2 cm石英样品杯,单粒样品台和2.0 cm安培瓶,镀金背景和 PbS检测器),谱区范围12000~4000 cm-1,分辨率8 cm-1,扫描次数64次,室温26~27℃,OPUS 5.5软件包用于数据分析。
所用实验材料均由陕西省杂交油菜研究中心育种分析室提供,选取水分含量基本一致,含油量变化范围大,千粒重、粒色不同而且包括特殊种质在内的多种基因型样品223份,建立标准模型样品集和检验集。
残余法(化学法)测定油菜籽的含油量(化学法GB/T 10359-1989)。
测定油菜籽中的含油量。
在近红外建模过程中,一个好的数学模型要求建模样品具有代表性。为此,所选用223份样品基本覆盖了预测集可能出现的含量范围,同时含量分布均匀。并对这些样品采集近红外光谱和测定化学值。
在近红外光谱分析中,由近红外光谱仪采集得到的光谱除包含有样品的自身信息外,还包含一些无关信息和噪声(噪声主要来源于3个方面:仪器、样品以及操作)。如果直接使用这些原始光谱信号进行定量分析,必然会影响最终所建模型的准确性与精度[12]。为滤除噪音的影响,在 OPUS 5.5软件分析包中,首先对采集的光谱数据进行光谱预处理,其方法主要包括矢量归一化(VN)、多元散射校正(MSC)、线性补偿差减法(COE)、直线差减法(SLS)、最大-最小归一法(MMN)、一阶导数(FD)和二阶导数(SD)等。然后运用偏最小二乘法(PLS)对经过不同数学预处理的光谱进行分析,建立并优化近红外光谱法测定值与化学测定值的关系模型,其交互验证的相关图及误差分布如图1所示。所建模型的交互验证均方根误差(RMSECV)和决定系数(R2)分别为 0.39 和 0.9891,偏差在 ±1.2%之间。
近红外模型的维护工作是一项重要的工作,一般情况下,维护应该是校正,而不是重建,即保持模型的原有状态。若添加少量特殊样品,模型自动检测为异常值,若添加大量特殊样品,则极易使原模型失效。这与近红外建模样品的选择相比,要求更苛刻一些。因此,样品的选择在近红外模型的维护中同样十分重要。在近红外测定过程中,我们经常会遇到近红外预测值与化学测定值出现一定偏差的情况,本研究主要征对上述情况进行了一些探讨。即添加至模型中的样品偏差对模型的预测性能有无影响,以及不同偏差的样品对模型预测性能的改善效果是否一致。为此,设计了如下四个模型:A模型是向原模型添加偏差小于0.5%的样品,B模型是向原模型添加偏差介于0.5% ~1%之间的样品,C模型是向原模型添加偏差介于1%~2%之间的样品,D模型是向原模型添加偏差介于0~2%之间的样品。用于建模样品的品质参数见表1。添加不同样品至原模型所建立的模型参数见表2。从表2可以看出A和B两个模型的RMSECV和R2均优于原模型,C模型参数变化不显著,而D模型由于添加了偏差较大的样品使模型的参数变差。然而,一个优秀的校正模型不但要有较小的RMSECV和较高的R2值,还要有良好的预测性能,并且应以模型的预测性能作为模型质量的最终评判指标。
图1 油菜籽含油量交互验证预测值与化学值的相关性(A)及误差分布(B)Fig.1 Correlation between NIRS predicted results and chemical determinationvalues(A)and error distribution(B)of oil content in rapeseed
为了全面评价各模型的预测性能,共选用了四个预测集。第一预测集是偏差小于0.5%的样品集,第二预测集是偏差介于0.5% ~1%之间的样品集,第三预测集是偏差介于1%~2%之间的样品集,第四预测集是偏差介于0~2%之间的样品集。其评价结果见表3。由3表可以看出对于同一预测集,A、B、C、D四个模型检验的结果分别是,A模型对第一预测集的预测性能最好;B模型对第二预测集的测性能最好;C模型对第三预测集的预测性能最好,D模型对第四预测集的预测性能最好。这表明所添加样品的偏差对模型的预测性能有重要的影响,而且当向原模型添加某一偏差区间的样品后,所建立的模型可以更好地修正相应区间的近红外预测值。另外,对第一预测集而言,A、B、C模型的均方根预测误差(RMSEP)依次变大及R2依次变小,这说明当用大偏差的样品修正小偏差的模型时,模型的预测性能会变差。也就是说如果添加大量特殊样品会降低模型的整体预测性能。对第三预测集而言,A、B、C模型的RMSEP依次变小及R2依次变大,这说明小偏差的样品可以改善大偏差模型的预测性能,但此时添加大偏差的样品对模型的修正效果更好。同时,D模型对第四预测集的预测效果明显优于其它模型,这是由于预测集的样品覆盖了整个偏差区间,而D模型则是通过向原模型添加各个偏差区间的样品而建立的。由此可以得出,要修正整个偏差区间必须向模型添加各个偏差区间的样品,而且我们还发现B模型对第四预测集的预测性能仅次于D模型,即添加中等偏差的样品至原模型,仍可以获得较好的预测效果。在近红外模型的维护过程中,考察样品的偏差,实质上是综合考虑了样品栽培地的生态类型、籽粒形状、含量分布、光谱的独特性等因素的影响。因此,按照偏差大小选择校正集样品也是近红外模型维护过程中选取代表性样品的一条重要途径。
表1 NIRS建模样品的品质参数Tab.1 Quality factors of NIRS calibration samples
表2 油菜籽含油量不同预测模型的建模参数比较Tab.2 Parameter comparison of oil content in rapeseed in different calibration models
表3 四个预测集对定标模型质量的评价结果Tab.3 Validation results of four test sets to calibration models
本文从偏差的角度出发提出了近红外模型维护过程中,样品选择的一些规律。结果发现,添加样品的偏差对改善模型的预测性能有重要影响。因此,在近红外模型的修正过程中,首先应分析原模型的预测偏差分布情况,然后结合模型的特点选择一些偏差合适的样品。这样不仅避免了片面追求样品的特殊性,而且克服了样品选择的盲目性,从而为建立高效、实用的近红外模型提供了依据。
[1]康月琼,郝风,柴勇,等.油菜品质近红外检测模型建立的研究[J].中国农学通报,2011,27(5):144-148.KANG Yueqiong,HAO Feng,CHAI Yong,et al.Study on construction of determination model of rapeseed quality with near-infrared spectroscopy[J].Chinese Agricultural Science Bulletin,2011,27(5):144-148.
[2]丁小霞,李培武,刘培,等.无效变量消除法在油菜籽芥酸近红外无损速测中的应用[J].中国油料作物学报,2010,32(3):441-446.DING Xiaoxia,LI Peiwu,LIU Pei,et al.Application of uninformative variables elimination in intact prediction of rapeseed erucic acid with near-infrared reflectance spectroscopy[J].Chinese Journal of Oil Crop Sciences,2010,32(3):441-446.
[3]陈蛋,陈斌,陆道礼,等.近红外光谱分析法测定菜籽油中芥酸的含量[J].农业工程学报,2007,23(1):234-237.CHEN Dan,CHEN Bin,LU Daoli,et al.Determination of the erucic acid content in rapeseed oil by near-infrared spectroscopy[J].Transactions of the CSAE,2007,23(1):234-237.
[4]杨翠玲,陈文杰,赵兴忠,等.近红外光谱法同时分析油菜9种品质参数的研究[J].西北农林科技大学学报(自然科学版),2006,34(3):61-67.YANG Cuiling,CHEN Wenjie,ZHAO Xingzhong,et al.Determination of quality factors in intact rapeseed by near infrared reflectance spectroscopy(NIRS)[J].Journal of Northwest Sci-Tech University of Agriculture and Forest(Nat Sci Ed),2006,34(3):61-67.
[5]芮玉奎,黄昆仑,王为民,等.近红外光谱技术在检测转基因油菜籽中芥酸和硫甙上的应用研究[J].光谱学与光谱分析,2006,26(12):2190-2192.RUI Yukui,HUANG Kunlun,WANG Weimin,et al.Detection of erucic acid and glucosinolate in intact rapeseed by near-infrared diffuse reflectance spectroscopy[J].Spectroscopy and Spectral Analysis,2006,26(12):2190-2192.
[6]高建芹,张洁夫,浦惠明,等.近红外光谱法在测定油菜籽含油量及脂肪酸组成中的应用[J].江苏农业学报,2007,23(3):189-195.GAO Jianqin,ZHANG Jiefu,PU Huiming,et al.Analysis of oil,oleic acid and erucic acid contents in rapeseed by near infrared reflectance spectroscopy(NIRS)[J].Jiangsu Journal of Agriculture Science,2007,23(3):189-195.
[7]甘莉,孙秀丽,金良,等.NIRS定量分析油菜种子含油量、蛋白质含量数学模型的创建[J].中国农业科学,2003,36(12):1609-1613.GAN Li,SUN Xiouli,JIN Liang,et al.Establishment of math models of NIRS analysis for oil and protein contents in seed of brassica napus[J].Scientia Agricultura Sinica,2003,36(12):1609-1613.
[8]贺启川,蒙大庆,李芝凡,等.近红外光谱仪快速检测油菜硫苷、芥酸及油份含量数学模型的建立[J].激光生物学报,2009,18(6):815-818.HE Qichuan,MENG Daqing,LI Zhifan,et al.Establishment of mathematical models for glucosinolates,erucic acid and oil content analysis in Rapeseeds by near-infrared reflectance spectroscopy[J].Acta Laser Biology Sinica,2009,18(6):815-818.
[9]李勇,魏益民,王锋.影响近红外光谱分析结果准确性的因素[J].核农学报,2005,19(3):236-240.LI Yong,WEI Yimin,WANG Feng.Affecting factors on the accuracy of near-infrared spectroscopy analysis[J].Acta Agriculturae Nucleatae Sinica,2005,19(3):236-240.
[10]徐志龙,赵龙莲,严衍禄.减小样品温度对近红外定量分析数学模型影响的建模方法[J].现代仪器,2004,5:29-31.XU Zhilong,ZHAO Longlian,YAN Yanlu.A method of modeling the mathematical model of NIR quantitative analysis for diminishing influence of sample temperature[J].Modern Instruments,2004,5:29-31.
[11]姚胜,武国峰,周舒珂,等.实验误差对近红外模型准确性的影响[J].光谱学与光谱分析,2011,31(5):1216-1219.YAO Sheng,WU Guofeng,ZHOU Shuke,et al.The influence of reference data noise on the NIR prediction results[J].Spectroscopy and Spectral Analysis,2011,31(5):1216-1219.
[12]吴静珠,李慧,王克栋,等.光谱预处理在农产品近红外模型优化中的应用研究[J].农机化研究,2011,3:178-181.WU Jingzhu,LI Hui,WANG Kedong,et al.Application of spectrum preprocessing algorithms in optimizing NIR models of agricultural products[J].Journal of Agricultural Mechanization Research,2011,3:178-181.