高红秀, 金 萍, 杨 亮, 邹德堂, 宁海龙
(东北农业大学 农学院, 黑龙江 哈尔滨 150030)
近红外光谱分析技术具有无需预处理、分析速度快、不损坏样品、能同时测定多个成分、安全无污染等优点[1],在许多领域特别是在农业领域得到了广泛的应用,已成为粮食品质分析的重要手段。近红外光谱分析技术中最重要的是定标模型的建立,定标的合理性决定了近红外分析准确度和稳定性。模型初建时标样的选择、数量及其设计也影响到预测的准确度[2]。本文着重讨论了近红外光谱分析中的定标过程及定标的验证与优化。
近红外光谱分析技术是一种间接的测量方法[3],首先需要选择一批具有代表性的样品,用该批样品建立样品近红外光谱与化学值之间的定标模型,然后采集未知样品的光谱数据,与校正模型相对应,计算出样品的组分[4]。定标过程见图1。
图1 近红外定标流程图
样品数量对定标模型有明显的影响,样品数量不是越多越好,采用合适数量的样品进行光谱扫描,可以提高模型的预测精度[5-6]。样品应具有代表性,样品范围要广,要包含不同季节、不同区域、不同品种、不同年份等的样品[7]。定标集样品应尽量覆盖待分析样品的变化范围,分布应尽量均匀[8-9],避免定标样品几乎一致而造成定标模型不具代表性。
在做湿化学分析前,须先对样品进行扫描。由于现代近红外光谱分析是通过化学计量学多元校正方法,依靠样品间光谱信息的细微差别来对样品进行定性和定量分析,所以对仪器的性能指标有很高的要求。根据测量对象的不同可选择透射、漫反射和漫透射方式。对于育种研究而言,希望能够在不破坏籽粒的情况下就可以得到分析结果,以便继续种植繁育。
扫描过的样品(同一份样)要及时送交实验室进行湿化学分析。送交实验室样品必需放置于密封的容器中(最好用样品储藏罐且罐口需用胶带密封;封口样品袋也可接受),以防止水分和挥发物的损失。所使用的实验室分析方法必须是官方认可的标准方法,对于浓度极端的样品,需采用标准方法进行双平行或三平行分析。
并不是所有的样品都能参与定标,定标集样品的选择直接影响所建模型的适用性和准确性,所以首先要确定哪些样品是“好”样品——参与定标建模的样品。“好”样品是光谱具有总体相似性,并能代表光谱间最大差异的样品(与其他样品不重复)。定标集样品的挑选最常用的方法是GN距离法[10]。该方法以全局距离来界定定标集样品范围,以邻域距离来剔除相似样品,根据不同的全局和邻域距离组合挑选出定标集样品建模。多数近红外的化学计量学软件在进行主成分分析过程中,都使用马氏距离计算GH,但只有FOSS的WINISI软件有计算任意2点间NH的功能。
得到所有的信息(样品的扫描数据和准确的湿化学数据)后,就可以建立数学模型来预测未知样品已建立定标成分的值。近红外光谱定标方法主要有MLR(多元线性回归);PLS(偏最小二乘法)和ANN(人工神经网络),3种方法比较见表1。天然样品近红外定标最常用的定标技术为PLS。
表1 3种定标模型方法比较
1.5.1 多元线性回归
此方法主要用于简单样品,若光谱没有叠加,则通常借助所分析成分的纯品吸收光谱进行定标波长的选定,所选定的波长具有经验性和近似性。此法在全谱带农产品近红外分析中已不使用,目前主要用于滤光片式近红外定标。由于不同农产品各成分随基体组分的变化产生吸收峰漂移,因此滤光片式近红外在采用MLR对农产品近红外定标时误差较大。
1.5.2 偏最小二乘法
采用主成分分析技术将光谱数据转化为主成分数据,然后和化学分析数据相关联进行定标建模,是目前近红外分析较常使用的方法。对农产品分析而言,PLS永远优于MLR。处理的数据库大小有一定限度(几百个为宜),过大的样品数据库存在吸收非线性,分析存在误差。
1.5.3 人工神经网络
处理大样品数据库,模型的适用范围广,减少或降低定标模型的调整工作。大数据库定标可以提高定标测试的适用范围,原定标基本不需要调整;向原定标中添加新样品时,不影响原定标的测试准确度。
在定标方程建立后,应采用一组没有参与定标的独立样品组(即验证样品集)对方程的预测性能进行验证。验证样品集样品应具有很好的代表性,成分应覆盖一定的范围,传统实验室参考数据必须准确可靠,以便给出合理的验证结果。验证样品集的样品数量应足够多以便进行统计检验[11]。当样本总数一定时,以70%的样本建立定标模型,其余30%样本作为验证样本,可以获得较好的预测效果[4]。
完成定标方程后,刚开始使用定标方程时要同时进行化学分析,当认为定标方程性能已经可以了,便可以进行常规分析。定期收集每类样品6~8份,对所用定标模型数据库进行验证。如果样品的验证效果符合要求,则不需要进行定标的调整;如果验证效果不符合要求,则从手工分析的准确性和定标模型的适用性等方面找出原因并作相应的再验证,直到符合要求定标才能使用。
由于自然样品(分析样品)的成分随着种植季节、施肥、降雨量和种植条件的不断变化,可以说定标方程永远都处在调整状态。定标方程应定期采用新样品的扫描光谱和化学分析数据进行调整和升级,对模型进行升级将使模型的预测性能更稳定。利用所得定标进行日常分析过程中,可通过GH和NH继续选择新的样品填补原有数据库中的空白点,进一步完善定标,此操作的目的是使定标方程不断适用待测样品的变化。
定标模型的建立一般采用已有的软件。在需要测定未知样品时,必须使用这一模型及测定的未知样品的光谱计算其组成或性质。因此,近红外光谱分析技术实际上是一个二级分析方法。它所能得到的准确度不能超过在建立模型时所用测定组成或性质方法的准确度。同时,模型的建立需要投入很多的人力、物力和财力[12]。人们希望能长期使用已有的模型,这样就要求测定吸收谱图的检测手段,即光谱在长时期(几年)内是不变的,其中包括谱图的横轴(波长)及谱图的纵轴(吸光度)的长期稳定,—般相对误差应小于1/1000。为了能使同一模型在不同仪器上使用(即模型共享),也就是说,每台仪器间的重现性也要达到上述要求,当然这对硬件的要求似乎过分苛刻。近年来,人们在力求仪器的稳定性和重现性接近上述要求的同时,也在软件方面做了大量工作,称作模型传递技术。例如,经典校正模型传递、分段直接传递、有限脉冲响应(FTR)等,但如何实现更有效的模型传递,则仍是大量推广近红外光谱技术的研究课题之一。
[1] 吴海云,刘洋,左月明.近红外光谱数据分析方法的研究进展[J].农产品加工·学刊, 2010(3):76-79.
[2] 汪庆平,董宝生.绿色快速分析技术:近红外及其应用[J].云南农业科技,2003(6): 11-13.
[3] 李军会,秦西云,张文娟,等.局部偏最小二乘回归建模参数对近红外检验结果的影响研究[J].光谱学与光谱分析,2007,27(2):262-264.
[4] 韩春亮,郑利宇,崔凤霞.近红外光谱的原理及应用[J].河南教育学院学报:自然科学版,2009,18(4):19-21.
[5] 党文新,卢晓宇,龚红菊.样本集选择对稻谷千粒重NIR模型预测精度的影响[J].江西农业学报,2011,23(5):22-24.
[6] 陈斌,叶静,颜辉,等.定标集样品数对茶叶近红外光谱分析精度的影响[J].江苏大学学报:自然科学版,2009,30(4):330-333.
[7] 李军会,秦西云,张文娟,等.样品年份、化学值分布参数对近红外检测结果的影响[J].光谱学与光谱分析,2007,27(2):1754-1756.
[8] 芦永军,曲艳玲,朴仁官,等.近红外光谱分析技术定标和预测中的相似样品剔除算法[J].光谱学与光谱分析,2002,4(2):158-161.
[9] 林家永.近红外光谱分析技术在玉米品质分析中的研究进展[J].中国粮油学报,2010, 25(4):108-115.
[10] 吴静珠,王一鸣,张小超,等.近红外光谱分析中定标集样品挑选方法研究[J].农业机械学报,2006,37(4):80-82.
[11] 褚小立,王艳斌,陆婉珍.近红外光谱定量校正模型的建立及应用[J].理化检验:化学分册, 2008,44(8):796-800.
[12] 徐坤,刘鹏起,张玉娜,等.近红外光谱分析技术及应用[J].莱阳农学院学报,2001,18 (3):237-240.