近红外光谱检测烟叶化学成分的整叶采样方式研究

2018-05-14 09:36宾俊范伟刘仁祥
中国烟草科学 2018年3期
关键词:烟碱点数烟叶

宾俊 范伟 刘仁祥

摘要:为了解决近红外漫反射光谱分析技术用于烟叶整叶检测时,由于烟叶叶面积大、化学成分分布不均,光谱采集代表性和重复性无法保证的问题,对烟叶整叶采样方式进行了系统研究。首先通过信息散度与梯度角正切相结合的光谱相似性方法(SID-GA)计算了7种整叶采样方式获得光谱的相似程度,并采用排序差异和值方法(SRD)对不同采样方式下烟叶总糖、还原糖、烟碱、总氮、钾和氯的偏最小二乘(PLS)定量模型进行了评估。结果表明,B2F、C3F、X2F烟叶样本的最适宜采样方式分别为“8点法”、“6点法”和“8点法”,综合考虑采样点数与模型预测性能,“8点法”被认为是烟叶的最佳光谱采集方式,“6点法”次之。采样点数少、代表性高、重复性好的烟叶整叶近红外光谱采样方式,对提高烟叶品质现场快速分析效率和准确性具有现实意义。

关键词:近红外光谱;SID-GA:排序差异和值法;PLS定量模型:整叶采样:8点法

近年来,近红外光谱技术由于样品前处理简单、分析速度快、绿色无损等特点在烟草领域获得了广泛的应用。烟叶作为叶用经济作物,叶长通常在55~75cm,叶宽在15-45cm,叶片薄而大。Bruton、王建安、杨晨龙等研究认为烟叶叶片中烟碱、叶绿素、总糖、蛋白质、氯、钾等化学成分的分布不均匀,因此,对烟叶整叶直接的、无规律性的光谱采集存在代表性无法保证、重复性较差等问题,所以,目前普遍先对烟叶样本进行粉碎、过筛等前处理,以保证分析试验的精度:但是前处理会导致样品被破坏,且制样时间较长,不能满足现场实时品质分析的需求。另外,随着便携式、手持式以及在线近红外光谱仪器的广泛应用,采用近红外光谱技术在烟叶田间采收、分级定级、打叶复烤等现场进行原位品质分析势在必行。王建安、杨晨龙、董小卫、李佛琳、章英、李向阳、傅里峰,等分别采用“48点法”、“12点法”、“10点法”、“8点法”、“6点法”、正反面扫描法等对烟叶整叶进行了光谱采集,但是都没有对烟叶采样点位置和个数进行系统性的分析以明确何种采样方式更具代表性。鉴于此,本文基于烟叶主要化学成分的叶面分布规律,结合光谱相似性原理和主要化学指标校正模型,试图找到一种采样点数少、代表性好、重复性高、适合便携式近红外光谱现场采样的方案,实现真正意义上的烟叶整叶无损分析,为烟叶现场实时品质分析提供参考。

1材料与方法

1.1试验材料

供试烟草品种为K326,于2015年自云南腾冲收集完整国标仿制烟样150片,其中B2F、C3F和X2F等级烟叶各50片,样品中总糖、还原糖、烟碱、总氮、氯含量根据行业标准采用连续流动法测定,钾含量采用火焰光度法进行测定。具体样本信息见表1。

1.2试验设计

试验设8个不同的烟叶近红外光谱采样处理,以烟叶磨粉处理后采样为CK,在采样前先将烟叶平整铺开,以80cmx80cm玻璃板平压24h,不同处理的具体采样示意图见图1,研究表明烟叶化学成分分布沿主脉基本对称,因此,部分试验处理仅对烟叶半片进行光谱采样,以减少采样点数,提高采集效率。

T1处理:将整片烟叶从叶尖至叶基方向划分为9个等份,沿主脉方向左右各划分为4等份,将烟叶分为48个小区域,任取其中一个半叶进行光谱采集,共24个采样小区域。

T2处理:将烟叶以主脉为轴分为a和b两大区域,从叶尖到叶基均分为12等分,共24个小区域,任取其中一个半叶进行光谱采集,共12个采样区域。

T3处理:将叶片沿主脉纵向3等分为叶尖、叶中、叶基,叶尖取3个小区域,呈正立三角形,中部取4个小区域呈菱形,叶基取3个小区域呈倒立三角形,任取其中一个半叶进行光谱采集,共计10个小区域。

T4处理:将烟叶纵向4等分,靠近边缘的两个区域4等分,靠近叶梗的两个区域5等分,共18个小区域,任取其中一个半叶进行光谱采集,共9个小区域。

T5处理:将烟叶以主脉为轴对称划分出上下2个大区域a和b,其中每个大区域再由叶尖至叶柄均分为4个小区域,共计8个采样区间。

T6处理:将烟叶分成三部分(叶基段,叶中段,叶尖段),叶基段占烟叶的面积的15%,叶尖段大约150mm,又以主脉为对称轴划为两部分,共6个区域。

T7处理:在采样方式T6的基础上,增加了烟叶背面的光谱采集,在烟叶背面相对应位置划分6个小区域,共12个小区域。

CK处理:待所有采样完成后去除烟叶主脉,利用旋风式粉碎机将其粉碎,过60目筛,然后进行光谱采集,每个样本重复3次所得平均光谱作为该烟叶的光谱。

1.3光谱采集

按照1.2节试验设计方案以及相关文献使用光栅型i-Spec近红外光谱仪(B&w Tek,Inc.)以漫反射模式采集烟叶整叶近红外光谱,扫描次数为32次,光谱平均分辨率为3.5 nln,光谱采集范围为900~1700 mm,每个小区域随机选取3个样点分别进行扫描(避开较大叶脉,点与点的间隔不超过0.1~0.5 cm,若采样点位置出现破损,则适当偏移,就近取点)。测量时光纤探测器与样品垂直呈90°,探测器头部下端紧压烟叶叶面,将每张烟叶所有样点的反射光谱的平均光谱作为该烟叶样本的最终光谱。烟叶进行光谱采集前置于温度为(224±1)℃、相对湿度为(804±2)%的恒温恒湿箱中平衡48 h,以保证不同烟叶样本的含水率相同,尽量减小由于样本含水率不一致给光谱测量带来的影响。所有试验于25℃室温、相对湿度80%下进行。

1.4试验方法

光谱相似度表示光谱之间的近似程度,是进行光谱分类、图像压缩、谱异常探测等图像处理的操作基础。两个光谱的相似度可以用两者之间的距离表示,距离越大相似度越小。除了使用距离计算外,还可以用夹角余弦、相关系数、光谱信息散度等方法来度量,但是这些方法只注重光谱的相似性,对差异的区分度则较低,而光谱梯度角可从局部辨别光谱曲线的差别,因此,文章采用信息散度与梯度角正切相结合的方法(SID-GA)来进行光谱相似性度量,该方法能够从整体上反映出两条光谱曲線的相似性,同时可将他们之间的微小差异放大。

排序差异和值法(SRD)是一种既简单又相对公平的模型和方法比较评价算法,其基本评价准则是通过计算模型或者方法多次排名的差异和值的大小来判断该模型或方法的稳定性和可靠性,多次排名结果越一致,排名差异和值就越小,相应模型或方法的稳健性越高。具体的计算步骤如下:(1)数据归一化处理,使不同量纲和评价方式的数据统一:(2)确定排序参考标准,一般可选择均值、最大值或最小值;(3)根据参考标准排序并计算SRD值:(4)根据SRD值进行排序。

1.5模型评价和统计软件

PLS预测模型利用10折交互验证法优化主成分数,以样品模型决定系数(R2)、交互检验均方误差(RMSECV)和预测平均相对偏差(RADP)作为评价模型的有效指标。数据分析处理通过Excel2010和Matlab R2015a软件平台完成。

2结果

2.1近红外光谱的特征

图2分别为B2F、C3F、X2F等级烟叶原始光谱,从图中可以看出,光谱谱线轮廓光滑清晰,光谱差异较大的位置基本位于波峰与波谷。由于CK是粉末样,所以其与T1-T7处理的光谱偏差较大,B2F的T1-T6处理光谱相似度较高,而T7处理所得光谱与其他处理光谱有一定的偏差:C3F各处理所得光谱都有一定偏离,在1470-1700nm内偏差增大,其中T5和T7偏离T1较远:X2F各处理所得光谱900~1400 nm范围内相互偏差都较大。因此,由于不同部位烟叶各处理所得光谱之间有一定的偏差,所以需要进行系统性的分析以明确光谱的代表性。

2.2相似性计算

由于CK处理样品状态为粉末,与其他处理样品状态存在明显差异,在相似度计算中,我们将T1处理光谱作为参照,分别计算了其与T2-T7处理光谱之间的相似程度。由于样品的吸收光谱存在较显著的基线漂移现象,故在相似度计算之前需要对样品光谱进行预处理,采用Norris一阶导数法结合Savitzky-Golay平滑法消除基线的干扰。从图3的相似度计算结果箱式分布图可以直观地看出各处理相似度分布规律,3组样本不同处理下的光谱相似度都非常高,B2F和C3F等级的所有处理,样本相似程度都在0.99以上,X2F等级仅有少量处理样本相似程度在0.95-0.99,但是整体分布在0.99以上,这说明叶片较大、采样点数较少时,光谱代表性降低。3组样本中T7处理与T1的相似度较其他处理差,可能是烟叶的正面与背面的油分、分泌物等不同导致,因此,T7处理不太适合作为整叶光谱采集的方式。基于相似性计算结果(不考虑CK和T1处理),不同采样处理B2F样本相似度从高到低顺序为:T3、T4、T2、T6、T5、T7:C3F为:T2、T4、T3、T5、T6、T7:X2F为:T3、T5、T2、T4、T6、T7。

由于单纯的光谱相似度分析并不能完全说明光谱采样方法的优劣,因此对不同处理下烟叶总糖、还原糖、烟碱、总氮、钾和氯6种常规化学成分的PLS预测模型进行了评估。采用SPXY方法将B2F、C3F和X2F三个烟叶等级样本中的40个划作训练集,余下10个作为验证集。各等级PLS模型预测决定系数(R2)、交互检验均方误差(RMSECV)和预测相对平均偏差(RADP)见表2~4。

2.3校正模型验证

从表2可知,在B2F的各模型中除T7处理外,其他各处理模型都能取得较好的性能指标,达到或与CK模型相差不多的效果。总糖模型中,T2模型决定系数最高,性能最佳,甚至超过了CK和T1模型,此说明烟叶整叶取点采集光谱是可行的,且建立的模型有可能不会较磨粉建模差:还原糖、烟碱、总氮、钾和氯模型都以CK表现最优,其中部分采样点数较少的T5、T6处理模型比采样点数较多的T2、T3模型性能好,这说明并非采样点数越多,所得模型性能越佳,考虑到相似度计算结果,也并非相似度越高,所得模型越好。

从表3可知,在C3F等级烟叶样本所建的PLS校正模型中,CK模型与T1模型性能指标较一致且较其他模型优秀,这说明磨粉采样与“24点法”采样处理相差不大。在总糖模型中,T5、T6模型性能较接近CK.T1模型,而还原糖、烟碱和总氮模型各处理都较为接近,钾和氯模型中除T7处理较差,其他模型比较接近。总体来说,各模型都取得了较好的预测结果,除CK和T1模型明显较优外,其他模型难分优劣。

从表4可知,X2F的烟碱、总氮、钾和氯模型各处理指标都较接近,预测结果相差不大,但在总糖模型中,T4、T5、T6和T7处理的模型预测能力较其他处理差,其R2都低于0.9。T1~T7处理的所有成分模型几乎都较CK处理模型差,有可能是由于烟叶面积太大,采样点数较少以致得到的光譜代表性不足。在3个等级模型的预测相对误差比较中,可以看出C3F烟叶还原糖模型的RADP值较B2F和X2F模型高,说明C3F的还原糖模型预测效果较其他两个等级烟叶还原糖模型差,其他成分模型的预测相对误差与其在不同等级烟叶中含量变化规律一致。

由于模型个数较多,且每个模型有3个评价指标,综合评价存在较大困难,因此,我们采用一种新颖的模型或方法评估算法——排序差异和值法(SRD)来进行不同处理间的模型比较。模型R2越大、RMSECV和RADP越小,模型越好,在SRD计算中分别选取行最大值、行最小值和行最小值作为R2、RMSECV和RADP行的参考标准。表5为采用SRD方法计算的差异和值结果,从中可知,模型的某些指标差异和值为0,这说明多次排序的结果没有变化,模型的稳健性较好。当不同处理下的差异和值相等时,采样点数少的模型较优。此外,不同处理下的不同成分模型有好有差,尽量选择一种最稳健的处理进行建模。图4为各处理的模型排名结果,将各等级模型SRD值相加得到最终总SRD值,总排名前三分别为:CK、T5、T6,由于CK为磨粉处理,因此,可以认为T5处理是最符合实际情况的整叶采样方式,T6次之。

3讨论

近红外光谱是一种快速无损分析技术,应充分发挥其优势,采样点数越少,光谱扫描越方便快捷。与传统的磨粉测量相比,取点采样光谱扫描虽有一定偏差,但只要误差在容许范围内即可接受,且随着模型样本量的增加和模型的不断优化,模型预测准确度将进一步提高。出现光谱相似度较高,但是化学成分模型预测准确率不高的原因可能是光谱相似度计算了整条光谱与标准光谱之间的系统性相似程度,而某一种化学成分可能仅与光谱中的某些波长或波段相关,从而导致相似度计算结果与模型预测率有一定的偏差。

王建安等将烟叶划分为48个小区域,并对每个区域的烟碱、总糖、钾和氯含量进行了分析,根据分析结果,4种成分是基于烟梗近似对称的。本文研究表明,T5、T6处理所建模型稳健性高于T2、T3和T4处理,这可能是由于T5和T6处理是对烟叶的两个半片都进行了光谱采集,平均光谱更具代表性。杨晨龙等研究表明,初烤烟叶从叶尖至叶基方向,化学成分在近叶基处都有一明显拐点,之后含量变化速度明显加快,从烟叶外缘至叶梗方向,大部分化学成分变化较小,因此,其采用“12点法”进行光谱采集。但是在本文中T2处理排名较靠后,并非最佳的处理方案,可能是由于本文考虑的模型个数和指标较多,更能反映实际情况,而文献的主要目的是用于打叶复烤的分切,找出成分分布的最佳拐点。董小卫等采用“10点法”采集近红外光谱,并建立了数学模型,烟碱、总糖、还原糖、钾和氯模型相关性均在0.9以上,这与本文研究结果較一致。其也进行了几种采样方式的比较研究,但是其他处理仅从这10个点中选择部分进行组合,无法保证光谱代表性,与之相比,本文试验设计更加合理。此外,其仅对组合光谱本身进行比较分析,没有进行建模处理比较,认为光谱越相似代表性越好,这与本文光谱相似度越高,所建模型并非最好的结论不相符。李佛琳等根据烟叶化学成分的分布规律研究了同一叶片8个部分的光谱反射率的差异,结果表明各个部分光谱有差异,因此在叶片测定时需要对部位和点数统一规定,由于其仅采用此方式进行光谱采集,并没有与其他采样方式进行比较,故不能判断此采样处理的好坏。章英等采用“8点法”采集烟叶光谱信息进行烤烟烟叶自动分级研究,其认为8点平均光谱能代表整张烟叶的光谱特征,且分组模型校正集正确识别率为100%,预测集正确识别率平均为97.86%。李向阳等采用“6点法”获取了烟叶的代表光谱,并用烟碱模型进行了验证,预测值与实测值差异极小,所以其认为这是一种较合理的烟叶整叶光谱采集方式。上述文献研究成果与本文结论较一致,“8点法”、“6点法”是较合适的整叶采样方式。傅里峰等研究表明采用正、反面扫描法进行光谱采集能得到较多的烟叶外部信息,包含的内部信息较少,这与本文研究结果较一致,T7处理采集的光谱建立的烟叶内部化学成分模型性能较其他处理模型差。

4结论

利用取点采样法对烟叶整叶采集光谱是可行的,建立的近红外模型能达到或接近磨粉模型的预测效果,且光谱采集点数并非越多越好,较少采样点数处理建立的模型可能比采集点数较多的模型更好。B2F、C3F、X2F烟叶分别采用“8点法”、“6点法”、“8点法”采样处理较合适:综合考虑采样点数与模型的预测性能,3个等级烟叶都采用“8点法”采样建模比较合理,据此可推广应用于其他等级烟叶的光谱采集。基于烟叶整叶的近红外光谱采集,无需前处理,不破坏烟叶,有利于更加及时、准确地判断烟叶质量,实现真正意义上的无损检测。

猜你喜欢
烟碱点数烟叶
郴州烟叶自动化收购模式探讨
全球75%蜂蜜受杀虫剂污染
晒烟叶
烟叶饲喂山羊要小心谨慎
画点数
破解心灵感应
紫外分光光度法测定电子烟油中的烟碱
英国新烟碱农药申请遭驳回
巧猜骰子
移牌