基于k-means聚类挑选特征样品建立烟草近红外光谱模型

2016-12-12 10:21招云芳王献友黄文勇米津锐尚关兰李克强秦家文李瑞东孙
中国新技术新产品 2016年19期
关键词:中国烟草校正烟草

招云芳王献友黄文勇米津锐尚关兰李克强秦家文李瑞东孙 莉

(1.云南烟叶复烤有限责任公司技术中心,云南 昆明 650031;2.美国赛默飞世尔科技(中国)有限公司,北京 100007)

基于k-means聚类挑选特征样品建立烟草近红外光谱模型

招云芳1王献友1黄文勇1米津锐2尚关兰1李克强1秦家文1李瑞东1孙莉1

(1.云南烟叶复烤有限责任公司技术中心,云南 昆明 650031;2.美国赛默飞世尔科技(中国)有限公司,北京 100007)

为突破建立近红外光谱模型需要大量实验数据这一瓶颈,实现快速建立烟草近红外光谱预测数学模型,本研究利用k-means聚类分析算法挑选出具有代表性的特征样品光谱,采用偏最小二乘(PLS)回归法建立了烟草6项常规化学指标的近红外光谱模型,并对模型进行了优化及外部验证。结果表明:烟草6项常规化学指标预测模型的相关系数(R)较大,在0.9356以上,交叉验证均方差(RMSECV)在0.867以内,外部验证均方差(RMSEP)小于1.71,预测值和标准值没有显著差异。同时,预测结果还与用大量样品建立的模型的预测结果进行了t检验方式的比较,其结果无显著性差异,说明用挑选特征样品建立的模型和使用大量样品建立的模型分析效果一致,可用于批量烟草样品常规化学指标的快速检测。

k-means聚类分析;近红外光谱预测数学模型;化学指标;优化验证

目前,近红外光谱法已被广泛应用于烟草成分的定量测定。但目前近红外光谱建模的研究都是依靠大量的样品光谱及对应的样品化学分析数据,这给建模工作带来了巨大的压力,即要耗费大量的人力和物力,更要为之付出大量的时间,使得建模周期比较长。为突破建立近红外光谱模型需要大量实验数据这一瓶颈,本文采用k-means聚类分析算法对采集的光谱进行聚类分析,挑选出特征光谱进行化学分析检测后,应用多元校正技术中的偏最小二乘法,建立了测定复烤行业常规化学指标:水溶性总糖、还原糖、烟碱、总氮、氯、钾的校正模型,并对影响建模效果的光谱数据预处理方法、异常值等进行了讨论。此外,校正模型分别采用交叉验证和外部验证进行预测评价,预测效果良好。

1.仪器与材料

AntarisⅡ傅里叶变换NIR光谱仪(美国Thermo Nicolet公司,配有积分球漫反射采样系统、Result操作软件、TQ Analyst分析软件);625烘箱(德国FREAS公司);AA3连续流动分析仪(德国SEAL公司)。青州标样对照品(中国烟草总公司青州烟草研究所),蒸馏水,其余试剂为分析纯。

2.方法

2.1样品的制备

以2014烤季云南烟叶复烤公司所属10个复烤厂(石林厂、泸西厂、麒麟厂、大理厂、楚雄厂、文山厂、保山厂、师宗厂、宣威厂、陆良厂)的烤烟为示范性研究对象。样品来自云南省不同地区、不同品种、不同等级、不同部位的烤烟,样品共计1534个,用粉碎机粉碎,过40目筛,样品装入密封袋中,在低温(0~4℃)条件下密封避光保存。

2.26项化学指标标准值的测定

分别采用行业标准《烟草及烟草制品 钾的测定 连续流动法》YC/T 217-2007,《烟草及烟草制品 氯的测定 连续流动法》YC/T 162-2011,《烟草及烟草制品 总氮的测定 连续流动法》YC/T 161-2002,《烟草及烟草制品 水溶性糖的测定 连续流动法》YC/T 159-2002,《烟草及烟草制品 总植物碱的测定 连续流动法》YC/T 160-2002,对烟草样品进行6项指标的检测。

2.3光谱采集

取预先制备好的烟草样品,装入样品杯中,利用积分球漫反射采样系统采集其NIR光谱。光谱采集条件:以仪器内置背景为参比,波数范围10000~3800cm-1,扫描次数为64次,分辨率为8cm-1,见表1。

2.4k-means聚类分析原理

k-means聚类算法是一种以距离为相似性依据的聚类方法,本研究在对近红外光谱的主成因子进行欧氏距离计算,距离公式如式(1)所示。

其中:d为距离,P为主成分,下标a,b代表样品编号,下标i代表第i维主成分因子。

之后对距离进行聚类,该聚类算法流程如图1所示。

本研究取烟草的近红外光谱贡献率超过95%的前6维主成分因子,代入k-means矩阵算法中进行聚类计算。聚类后从每类中选取一个样品光谱作为代表性样品参与建模。

本实验共采集样品光谱1534条,使用k-means聚类选取的特征样品光谱415条。

3.1定量校正模型中检测指标的统计描述

表2为复烤行业主要化学指标常规方法检测的标准值的统计描述。建立模型时全部样品都用作校正集。由表2可知,校正集样品化学指标的含量范围较宽,且含量分布均匀。

3.2光谱数据的处理

烟草是一种复杂的天然产物,其近红外光谱中谱峰重叠严重,因此建模前通常采用导数处理来消除光谱基线的平衡、漂移及平缓背景的干扰,但同时导数处理也放大了光谱信号,噪声信号也被放大,因此在对原始光谱求导前,首先对光谱数据进行平滑处理,然后分别考察原始光谱、一阶导数和二阶导数光谱对所建校正模型的影响。

从图2和图3对比可以看出,光谱数据经过导数处理后,可消除基线偏移,扣除本底吸收,从而更为细致地反映样品的光谱特征。

经过Norris导数平滑滤波后的光谱数据分别经多元散射校正技术(MSC)和标准正态变量变换技术(SNV)处理后,又分别考察了原始光谱、一阶导数和二阶导数光谱对所建校正模型的影响,并采用偏最小二乘(PLS)回归法建立定量校正模型。考察结果如图4所示,图4为RMSEC/R的比值做的折线图。由于校正集样品的校正标准偏差(RMSEC)越小,相关系数(R)越大,说明模型优化的越好,所以RMSEC/R值越小,模型效果越好。从图4看出,总糖、烟碱、总氮、钾的预测模型采用SNV处理光谱并对光谱进行二阶导数后建立的模型的RMSEC/R值最小;还原糖、氯的预测模型采用SNV处理光谱并对光谱进行一阶导数后建立的模型RMSEC/R值最小。

3.3定量校正模型的建立

应用TQ Analyst分析软件中的偏最小二乘回归(Partial least-square regression,PLS)算法,把采集的近红外漫反射光谱与标准方法测定的烤烟水溶性总糖、还原糖、烟碱、总氮、氯、钾的标准值,全部用做校正集来建立定量校正模型。由于PLS主因子数关系到模型的稳定性,主因子选取太小会丢失有用信息,包含过多噪音,出现“欠拟合”,太大则会出现“过拟合”,因此,本研究按留一交叉验证的方法确定最终的偏最小二乘因子数。采用校正标准偏差(Standard error of calibration,SEC)、外部验证均方差即预测标准偏差(Standard error of prediction,RMSEP)、交叉验证均方差(RMSECV)和决定系数(R2)对PLS模型的性能进行评价。RMSEC和RMSEP越小,R越大,表示模型的性能越好。所有参数的计算方法见文献。校正模型初步建立以后,需要对模型进一步优化,即用不同的样品检验模型,剔除建模样品中的异常值,修改建模的谱区和其他参数,以提高模型的稳定性和可靠性。本研究采用最直观、最简单的判别方法对异常值进行剔除,即用外部验证样品的真实值和拟合值(Ture/Fit)的散点图进行查看,并结合马氏距离和杠杆值等联合判断,采用交叉验证(Cross validation)逐步剔除这些强影响点。

3.4PLS主因子数的选择和交叉验证结果

采用PLS法建立定量校正模型时,为避免出现“过拟合”现象,需要对主因子数进行合理选择。本研究采用留一交叉验证法,考察了主因子数对RMSECV的影响如图5所示。由图中可以看出,PLS主因子数依次为总糖17,还原糖18,烟碱18,总氮19,氯18,钾21。

3.5模型的外部验证

模型自身的外部验证:将建立的定量校正模型用于对云南烟叶复烤公司所属10个复烤厂挑选出的不同地区、不同品种、不同部位、不同等级的60个样品进行6项化学指标的预测。预测值和标准值有较低的预测均方差和较高的相关系数(表3)。

与用大量样品建立的成熟模型的对比验证:为了进一步验证模型的准确性,本研究还选取一些验证样品与其他单位用大量样品建立的成熟的模型进行预测对比,预测样品数为40个,同样得到了较低的预测均方差和较高的相关系数(表4)。同时,预测结果使用t检验方式进行检验。假设两种方法建立的预测模型检测的6项化学指标的均值在风险水平α=0.05时,计算得到的t值均小于t临界值,则说明两种方法建立的预测模型的检测结果无显著差异。由表4看出,6项化学指标的t检验值均小于临界值,两种方法建立的模型检测结果无显著差异,说明挑选特征样品建立的模型和使用大量样品建立的模型分析效果一致。

结论

采用k-means聚类分析选择特征样品光谱,用PLS法建立了烟草常规化学指标的近红外定量预测模型,并用未参与建模的众多样品进行了外部验证,验证的均方差(RMSEP)分别为总糖1.71,还原糖1.35,烟碱0.18,总氮0.28,氯0.14,钾0.32。与用原始方法建立的成熟模型相比,验证均方差均在0.9403以上,两种的检测结果也无显著差异。由此说明,本研究采用k-means聚类分析挑选特征样品建立近红外光谱模型的方法解决了实际建模过程中需要大量化学实验数据的这一瓶颈,所建立的烟草近红外光谱模型可运用于烟草化学6项化学指标的快速检测。为了使模型具有更宽的检测范围,本研究还在收集不在模型范围内的检测数据。从而获得更完善的模型,指导复烤行业生产过程质量的在线监测,为实现复烤行业均质化生产模式提供了理论依据。

[1]滑荣,韩建国,齐晓,等.近红外漫反射光谱法预测紫花苜蓿草颗粒营养价值[J]. 光谱学与光谱分析,2008(12):2826-2829.

[2]陈昭,吴志生,史新元,等. Bagging 偏最小二乘和 Boosting 偏最小二乘算法的金银花醇沉过程近红外光谱定量模型预测能力研究[J].化学分析,2014(11):1679-1686.

[3]王冬,闵顺耕,曹金莉,等.温度对烟草总植物碱近红外定量分析模型的影响[J].中国烟草科学,2013-08,34(4):103-106.

[4]王家俊,梁逸曾,汪帆.偏最小二乘法结合傅里叶变换近红外光谱同时测定卷烟焦油、烟碱和一氧化碳的释放量[J].化学分析,2005(6):793-797.

[5] Balabin R M, Safieva R Z. Biodiesel classification by base stock type (vegetable oil)using near infrared spectroscopy data[J]. Analytica Chimica Acta, 2011,689: 190-197.

[6]梁俐俐,吴正举,苏明亮,等.云贵产区烟叶近红外检测分模型和总模型的对比分析[J].中国烟草科学,2008,29(2):42-46.

[7]邱军,王允白,张怀宝,等.近红外光谱法预测烟气总粒相物中的烟碱含量[J].中国烟草科学,2006(2):12-13.

[8] Barbin D F, Kaminishikawahara C M, Soares A L. Prediction of chicken quality attributes by near infrared spectroscopy[J]. Food Chemistry,2015, 168: 554-560.

[9] Haughey S A, Graham S F, Cancouët E, et al. The application of Near-Infrared Reflectance Spectroscopy (NIRS) to detect melamine adulteration of soya bean meal[J]. Food Chemistry,2013, 136: 1557-1561.

[10] 邱军,张怀宝,宋岩,等.近红外光谱分析技术在烟草行业的应用[J].中国烟草科学,2008,29(1):55-59.

[11]董小卫,马 强,厉昌坤,等.近红外检测把烟叶片化学成分技术研究[J].中国烟草科学,2008,29(4):10-14.

[12] 付秋娟,张怀宝,邱军,等.近红外光谱法快速测定烟草中的总挥发碱[J].中国烟草科学,2005,26(4):14.15.

[13] 王宏铝,王筑临,许小双,等.基于在线烟碱预测模型的烟叶复烤均质化加工[J].烟草科技,2015,48(6):73-77.

[14] 温亚东,王毅,王能如,等.近红外光谱的投影分析方法在工业分级与复烤模块配方中的应用[J].中国烟草学报,2009,15(5):6-10.

O657

A

中国烟草总公司云南省公司2015年度科技计划项目(基于烟叶外观与生化表征的均质化复烤控制技术开发,NO.2015YN33)。

猜你喜欢
中国烟草校正烟草
烟草具有辐射性?
"中国烟草科教网"平台简介
劉光第《南旋記》校正
基于完全垄断体制下的中国烟草企业伦理管理浅析
一类具有校正隔离率随机SIQS模型的绝灭性与分布
机内校正
《中国烟草科学》2017年征订启事
烟草依赖的诊断标准
烟草中茄酮的富集和应用
中国烟草博物馆