刁 航,吴永明,杨宇虹,欧阳进,李军会,劳彩莲,徐兴阳*
1. 中国农业大学现代精细农业系统集成教育部重点实验室,北京 100083 2. 云南省烟草公司昆明市公司,云南 昆明 650051 3. 云南省烟草农业科学研究院,云南 昆明 650021
田间原位光谱的鲜烟叶成熟度判别模型的研究
刁 航1,吴永明2,杨宇虹3,欧阳进2,李军会1,劳彩莲1,徐兴阳2*
1. 中国农业大学现代精细农业系统集成教育部重点实验室,北京 100083 2. 云南省烟草公司昆明市公司,云南 昆明 650051 3. 云南省烟草农业科学研究院,云南 昆明 650021
在田间原位对烟叶成熟度进行判别,能够有效减少由于对成熟度判断错误而导致的烟叶损失率升高、质量下降的问题,而传统的人眼结合叶龄的田间成熟度判别方法缺少客观性,因此提出采用光谱特征参数结合支持向量机的方法对田间原位烟叶成熟度进行判别。以专家评定并在田间原位进行测量的五个成熟度等级共351个烟叶反射光谱作为试验样品,五个成熟度等级分别为M1,M2,M3,M4,M5。通过对反射光谱的分析发现,不同成熟度烟叶的光谱在可见光波段能够得到区分,而在近红外波段区分不明显,因此在可见光波段进行分析建模。分别采用可见光范围内的连续光谱(350~780 nm)、特征波段(496~719 nm)、光谱特征参数(绿峰幅值、绿峰位置、红边幅值、蓝边幅值、红边面积、蓝边面积、红边位置、蓝边位置)作为输入变量,采用支持向量机方法(supportvector machine,SVM)建立烟叶成熟度判别模型。结果表明,应用可见光光谱特征参数作为输入变量所建立的模型的正确识别率达到98.85%,而应用可见光连续谱、可见光特征波段作为输入变量的正确识别率分别为90.80%和93.10%。因此使用可见光光谱特征参数建立支持向量机的鲜烟叶成熟度判别模型对田间原位烟叶成熟度进行判别是可行的。
可见光谱; 光谱特征参数; 支持向量机; 烟叶; 成熟度
烟叶成熟度判别是生产优质烟叶的关键之一。通过准确地掌握田间鲜烟叶的成熟度,并且选择恰当的时机进行采收,可以降低烟叶的田间损失率和烘烤损失率。目前国内对于田间烟叶成熟度的判别一般采用行业专家的目测评定方法,主观性较强,而且费时费力。因此,研发出一种客观而又快速的烟叶成熟度判别方法将为烟草采收提供科学指导,以保证生产过程中的烟叶质量。
光谱分析技术是依靠分子的振动、转动以及能量跃迁,从而反应官能团以及整个分子特征的一种分析方法[1]。由于其快速、无损等特点,被广泛应用于农产品检测[2-3]、工业生产监测[4-5]、食品分析[6-7]、烟草[8-10]等领域。植物叶片中的叶绿素、类胡萝卜素等色素对可见光波段的红光和蓝紫光有特征吸收; 植物叶片的结构,总糖、总氮、烟碱等生理生化组分和水分含量影响近红外波段。研究表明,烟叶的成熟度不同,颜色、厚度等外观特征以及叶绿素、类胡萝卜素等色素含量也不同,所表现的反射光谱特征也不同。王建伟等研究发现不同烟叶成熟度的光谱在550~680 nm的波长范围内能够得到区分[9]; 余志虹等利用比值植被指数与叶绿素含量相关性高的特点,构建了烤烟中部鲜烟叶成熟度监测模型[10]。
为了更好地将光谱分析技术应用于指导烟叶采收时的质量控制,研究开发一种在田间原位进行鲜烟叶成熟度判别的方法以田间测量为基础,以烟草的鲜烟叶为研究对象,使用便携式地物波谱仪结合支持向量机方法建立田间烟叶成熟度的光谱判别方法。
1.1 试验与材料
试验于2014年在云南省昆明市石林县上赵进行,试验地肥力中等,试验品种为K326。样品是由专家选出的、具有代表性的鲜烟叶。光谱采集时间从烟草下部叶生青时开始,直到上部叶的过熟叶片采集完毕后结束。鲜烟叶成熟度评判标准由烟叶成熟度评判专家结合生产经验与文献[11]给出,如表1所示。
表1 鲜烟叶成熟度等级标准
1.2 田间光谱采集
烟叶反射光谱的测量在大田环境中进行。测量仪器为ASD FieldSpec3便携式地物波谱仪,波长范围是350~2 500 nm,分辨率3 nm@700 nm,10 nm@1 400 nm, 2 100 nm,接触式叶片测量还需使用光谱仪配套的植被探头和叶片夹持器。试验共采集351个鲜烟叶光谱,包含上部叶、中部叶、下部叶三个部位,其中M1等级70个,M2等级63个,M3等级73个,M4等级75个,M5等级70个,对每一个选定的叶片样本,在叶面中部、中脉两侧各选取两个点采集光谱,每个点重复采集三次。将每个烟叶样本4个点所采集得到的12条光谱取平均值作为该烟叶样本的反射光谱。
1.3 模型输入变量的确定
如图1(a)为鲜烟叶的原始反射光谱图,为了更加方便观察不同成熟度之间的光谱差异,图1(b)展示了对原始光谱进行归一化处理并在每个成熟度下求取平均值的反射光谱图,可以发现不同成熟度的光谱在可见光范围内(350~780 nm)可以得到区分,且存在成熟度等级越高光谱反射率越高的趋势,这与不同成熟度时期的烟叶颜色变化规律相符,而烟叶成熟度在近红外区域的区分却不明显。对区分明显的可见区反射峰面积做方差分析如图2,发现各成熟度之间有不同程度的重叠,不能直接使用峰面积作为判别依据。因此,通过对光谱的观察分析,确定在可见光波段内选取参数作为模型的输入变量。
为了研究模型的输入变量对建模结果的影响,我们选取三种用于建模的输入变量,并对建模结果进行对比。三种输入变量分别为: 可见光连续谱、可见光特征波段和可见光光谱特征参数。下面分别介绍三种输入变量。
(1)可见光连续谱是将可见光范围内(350~780 nm)的所有波长点共431个作为模型的输入变量。
(2)可见光特征波段的选取方法是在每个波长下对两两成熟度之间的反射光谱样本逐一使用方差分析的方法,选出均达到显著水平(p<0.05)的光谱点作为输入变量。
图1 烟叶原始反射光谱图、不同成熟度烟叶 的平均归一化反射光谱图
Fig.1 Original reflectance spectra(a)and Average- Normalized reflectance spectra at different maturity levels (b)of tobacco leaf
图2 烟叶光谱可见区反射峰面积的箱线图
(3)可见光光谱特征参数是光谱中用于表示颜色信息的参数。本文中选用一些可见光波段常用的光谱特征参数,分别有王建伟等提出的8个参数[9]: 绿峰幅值、绿峰位置(绿光范围内反射率的最大值以及最大反射率对应的波长)、红光吸收谷幅值、红光吸收谷位置(红光范围内反射率的最小值以及最小反射率对应的波长)、红边幅值、蓝边幅值(光谱一阶导数中红边与蓝边范围内的最大值)、红边面积、蓝边面积(光谱一阶导数曲线在红边和蓝边范围内所围成的面积)。以及在此基础上增加的2个参数: 红边位置(红边幅值对应的波长)和蓝边位置(蓝边幅值对应的波长),总共10个光谱特征参数。由于10个光谱特征参数与烟叶成熟度的相关程度不同,因此对这10个光谱特征参数使用方差分析的方法进行筛选,选出对烟叶成熟度判别贡献大的参数,方法为: 在每两个成熟度之间使用方差分析,选出两两组间差异均不低于显著水平(p<0.05)的光谱特征参数,使用选出的光谱特征参数作为建模的输入数据。最终在10个光谱特征参数中选出8个作为输入变量,见表2。
表2 光谱特征参数的选择
1.4 建模方法
支持向量机是目前应用广泛的一种可用于分类的模式识别方法,在解决小样本以及高维模式识别中表现其优势,被前人用于解决分类问题[12-13],因此被选择来解决样本数量小、维数相对较高的问题。支持向量机是建立在统计学习理论中的VC维理论和结构风险最小理论基础上的,基本思想是: 将n维样本空间映射到特征空间中,并在此高维特征空间中构造最优线性决策函数,即使得分类间隔最大的决策函数[14-15]。
使用可见光连续谱、可见光特征波段和筛选出来的光谱特征参数这三种变量作为支持向量机的输入,建立烟叶成熟度判别模型,比较三种输入变量所建模型差别,并最终确定烟叶成熟度判别方法。可见光特征光谱的选取、光谱特征参数的选取、比对与支持向量机的建模、检验使用Matlab R2012a软件和台湾大学林智仁教授的LIBSVM工具箱(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)实现。
2.1 烟叶部位对成熟度判别的影响
使用的351个不同成熟度的鲜烟叶光谱样本来自上部叶、中部叶、下部叶三个部位,因此需要判断不同部位的烟叶是否会对成熟度判别产生影响。对可见光连续波段的光谱进行主成分分析,查看样本的空间分布情况。不同成熟度光谱的第一、第二维主成分空间分布如图3所示。
由图3可见,三个部位在同一成熟度下无明显区别的分布在一起,不能得到区分。五个成熟度下光谱的第一和第二主成分贡献率总和分别为97.59%,98.66%,99.34%,96.36%,96.40%,前两个主成分的贡献率很高,可以很好表达光谱的信息。因此,在成熟度判别时,可以排除部位因素的影响,合并三个部位的样本进行建模。
图3 不同部位可见光波段烟叶光谱的主成分分析得分图
2.2 应用可见光连续谱作为输入建立模型
对351个五个不同成熟度的鲜烟叶样本按照3∶1的比例随机划分建模集和检验集,然后使用支持向量机方法建立成熟度判别模型。支持向量机核函数选择高斯函数RBF,对于高斯核函数的参数g和惩罚参数c的选择,选用网格搜索法以及K折交叉验证(K=10),K折交叉验证能够有效的避免过学习以及欠学习的发生。
将可见光连续谱(350~780 nm)共431个波长点作为支持向量机的输入,建立成熟度判别模型,模型的惩罚参数c和高斯核函数参数g分别为9.190和0.109,模型的建模集正确识别率和检验集正确识别率如表3所示。由表3可知,使用可见光连续谱作为输入变量建立的支持向量机模型中,建模集的正确识别率为96.97%,检验集正确识别率为90.80%。模型输入变量过多,建模速度比较慢,模型正确率有待提高。造成正确率不高的可能原因: 光谱中包含冗余的信息,将可见光连续谱不加筛选的作为输入变量,其中所包含的冗余信息也参与建模,影响模型质量,导致模型正确率下降,为此在下面两节中,使用筛选、处理过的光谱数据进行建模。
2.3 应用可见光特征波段作为输入建立模型
使用1.3中介绍的方法,对可见光连续谱进行特征波长提取,提取了496~719 nm,共224个波长点作为可见光特征波段。将特征波段的光谱作为支持向量机的输入变量进行成熟度判别建模,模型的惩罚参数c和高斯核函数参数g分别为27.858和0.574,模型的建模集正确识别率和检验集正确识别率如表3所示。由表3可知,使用可见光特征波段作为输入变量建立的模型中,建模集正确识别率为98.11%,检验集正确识别率为93.10%。相较使用可见光连续谱作为输入变量的模型正确识别率有所提升,输入变量个数减少到224个,可以看出使用筛选过后的特征光谱能够减少光谱中的冗余信息,提高模型质量和模型的正确识别率,但依然存在模型输入变量多、建模时间长的问题。
2.4 应用光谱特征参数作为输入建立模型
将可见光光谱特征参数共8个变量作为支持向量机的输入,建立成熟度判别模型,模型的惩罚参数c和高斯核函数参数g分别为3.031和5.278,模型的建模集正确识别率和检验集正确识别率如表3所示。可见光光谱特征参数主要是表达颜色信息的参数,可以将数量大的光谱信息融合成几个具有代表性的特征变量,进一步减少了光谱中的冗余信息,同时也减少了建模所需要的输入变量个数。由表3可知,模型的建模集正确识别率为99.24%,检验集正确识别率为98.85%,优于使用可见光连续谱和可见光特征波段作为输入变量的建模结果。同时由于输入变量数明显下降,建模所需要的时间也明显缩短。因此,应用光谱特征参数作为输入变量建立模型有利于建模时间的缩短和烟叶成熟度判别模型识别效果的提高。
表3 三种输入变量的烟叶成熟度判别模型的性能比较
进一步对光谱特征参数作为输入变量的模型中发生误判的样本进行分析,建模集中M2的正确识别率为97.87%,M4的正确识别率为98.21%,其余三个成熟度的正确识别率为100%,误判中,M2被误判为M1,M4被误判为M5; 检验集中M5的正确识别率为94.44%,其余四个成熟度的正确识别率为100%,误判中,M5被误判为M4。误判均发生在相邻两个成熟度之间,即若M2发生误判,只会被误判为M1或者M3,而不会被误判为M4和M5,不存在越级误判的情况。
建立了一种基于光谱技术的田间原位烟叶成熟度判别方法。实验结果表明,应用可见光光谱特征参数作为支持向量机输入变量的模型,其建模集和检验集的正确识别率均达到98%以上,并且通过分析证明部位因素对烟叶成熟度判别没有影响,模型可用于烟草的各部位。说明使用光谱特征参数结合支持向量机的方法进行田间原位烟叶成熟度判别是可行的。本方法具有快速、无损等特点,能够减少由于人为判断的主观性差异产生的失误,为烟叶成熟度判别提供了一种更加客观的方法。在此研究基础上,为提高模型的稳定性和普适性,还需要在后续工作中继续增加不同年份的样本、样本数量以及烟草的品种来对模型进行修正。
[1] YAN Yan-lu, ZHAO Long-lian, HAN Dong-hai, et al(严衍禄,赵龙莲,韩东海,等). Foundation and Application of NIR Spectra Analysis(近红外光谱分析基础与应用). Beijing: China Light Industry Press(北京: 中国轻工业出版社), 2005. 13.
[2] WANG Ren-hong, SONG Xiao-yu, LI Zhen-hai, et al(王仁红,宋晓宇,李振海,等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2014, 30(19): 191.
[3] QIAO Hong-bo, SHI Yue, SI Hai-ping, et al(乔红波,师 越,司海平,等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2014, 30(20): 172.
[4] Cruz M V, Sarraguca M C, Freitas F, et al. Journal of Biotechnology, 2015, 194: 1.
[5] Wu Yongjiang, Jin Ye, Li Yerui, et al. Vibrational Spectroscopy, 2012, 58: 109.
[6] Laroussi-Mezghani S, Vanloot P, Molinet J, et al. Food Chemistry, 2015, 173: 122.
[7] Arana V A, Medina J, Alarcon R, et al. Food Chemistry, 2015, 175: 500.
[8] TIAN Kuang-da, QIU Kai-xian, LIU Zu-hong, et al(田旷达,邱凯贤,刘祖红,等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(12): 3262.
[9] WANG Jian-wei, ZHANG Yan-ling, LI Hai-jiang, et al(王建伟,张艳玲,李海江,等). Tobacco Science & Technoligy(烟草科技), 2013, (5): 64.
[10] YU Zhi-hong, CHEN Jian-jun, LÜ Yong-hua, et al(余志虹,陈建军,吕永华,等). Tobacco Science & Technoligy(烟草科技), 2013, 2: 77.
[11] YANG Shu-xun(杨树勋). Chinese Tobacco Science(中国烟草科学), 2003, 24(4): 34.
[12] Wang Y, Yang M, Wei G, et al. Sensors and Actuators B: Chemical, 2014, 193: 723.
[13] Devos O, Downey G, Duponchel L. Food Chemistry, 2014, 148: 124.
[14] Burges C J C. Data Mining and Knowledge Discovery, 1998, 2(2): 121.
[15] Fu JuiHsi, Lee SingLing. Expert Systems with Applications, 2012, 39(3): 3127.
(Received Mar. 12, 2015; accepted Jul. 5, 2015)
*Corresponding author
Study on the Determination of the Maturity Level of Tobacco Leaf Based on In-Situ Spectral Measurement
DIAO Hang1,WU Yong-ming2,YANG Yu-hong3,OUYANG Jin2,LI Jun-hui1,LAO Cai-lian1,XU Xing-yang2*
1. Key Laboratory of Modern Precision Agriculture System Integration, Ministry of Education, China Agricultural University, Beijing 100083, China 2. Yunnan Tobacco Company Kunming Branch, Kunming 650051, China 3. Yunnan Academy of Tobacco Agricultural Sciences, Kunming 650021, China
Discriminating the maturity levels of tobacco leaf with in-situ measurement can effectively reduce loss rate and quality decline due to misjudgment of the maturity levels of tobacco leaf. In the meantime, the regular way we use to determine the maturity levels of tobacco, which is depend on tobacco leaf age and judgment of tobacco grower, lacks of objectivity. So this paper proposed a method to identify maturity levels of tobacco leaf by using spectral feature parameters combined with the method of support vector machine (SVM). In this paper, a total of 351 tobacco leaf samples collected in 5 maturity levels including immature (M1), unripe (M2), mature (M3), ripe (M4), and mellow (M5) determined by experts were scanned by field spectroscope(ASD FieldSpec3) with in-situ measurement for getting their reflectance spectrum. Through spectral analysis we found that the spectrum of tobacco leaf with different levels of maturity can be distinguished in visible band but not easily be distinguished in near-infrared band, so we use the tobacco leaf spectrum in visible band as the sensitive bands to analyze and model. To find the most suitable input variables for modeling, we use continuous spectrum (350~780 nm), feature band (496~719 nm) and spectral feature parameters (the reflectance of green peak, location of green peak, first order differential value of red-edge and blue-edge, red-edge and blue-edge area, location of red-edge and blue-edge) in visible region as the input variables, and using these three kinds of input variables in the method of SVM to establish a discriminant model for identifying maturity levels of tobacco leaf. The result shows that, the model using spectral feature parameters gains the accuracy rate of 98.85%. While the accuracy rates of other two models were 90.80% and 93.10%, respectively. The conclusion was drawn that using spectral feature parameters in visible spectrum as the input variables in SVM can improve the model performance. It is feasible to use this method to identify maturity level of tobacco leaf with in-situ measurement.
Visible spectrum; Spectral feature parameters; SVM; Tobacco; Maturity level
2015-03-12,
2015-07-05
国家自然科学基金项目(61144012)和中国烟草总公司云南省公司项目(2013YN17)资助
刁 航,1990年生,中国农业大学信息与电气工程学院硕士研究生 e-mail: diaohang1027@163.com *通讯联系人 e-mail: yy_xxy@sina.com
S132
A
10.3964/j.issn.1000-0593(2016)06-1826-05