王胜鹏,龚自明
(湖北省农业科学院 果树茶叶研究所,湖北 武汉 430064)
近红外光谱技术的恩施玉露原产地鲜叶收购价格评估
王胜鹏,龚自明
(湖北省农业科学院 果树茶叶研究所,湖北 武汉 430064)
【摘要】为科学客观地评估鲜叶收购价格,应用近红外光谱技术结合人工神经网络方法和联合区间偏最小二乘法,建立了三种鲜叶收购价格预测模型并比较了预测效果.应用联合区间偏最小二乘法筛选最佳光谱区间为5 750~6 000 cm-1, 7 750~8 000 cm-1, 8 250~8 500 cm-1, 8 500~8 750 cm-1, 9 500~9 750 cm-1和9 750~10 000 cm-1,并对上述光谱进行主成分分析.前5个主成分累计贡献率为99.87%,并以此为输入值建立收购价格人工神经网络预测模型(R2=0.968 7,RMSEP=4.625).模型预测结果优于全波长人工神经网络模型(R2=0.855 1,RMSEP=5.218)和联合区间偏最小二乘法模型(R2=0.581 6,RMSEP=25.433)的预测结果.近红外光谱技术结合人工神经网络和联合区间偏最小二乘法,能够快速、准确、客观的评估鲜叶收购价格,有利于统一鲜叶收购价格标准,有效地减少纠纷.
【关键词】恩施玉露茶鲜叶;收购价格;近红外光谱;联合区间偏最小二乘法;人工神经网络
绿茶是我国传统优势茶类,含有很多对人体有益的成分,具有良好的保健功能[1],备受大家喜爱.恩施玉露是我国著名的蒸青绿茶[2],也是国家地理标志产品,保护范围为湖北省恩施市芭蕉侗族乡、舞阳坝街道办事处现辖行政区域.该区域气候常年温暖湿润,朝夕云雾缭绕,昼夜温差大,非常利于光合产物积累,茶树芽叶蛋白质、氨基酸和生物碱等内含成分非常丰富,这为恩施玉露优异品质形成奠定了充分的物质基础.
在收购恩施玉露原产地鲜叶时,收购人员通常依靠嗅觉、视觉和触觉等感官器官和个人经验阅历来制定收购价格,然而人的感官灵敏性易受自身工作经验、当时的生理状况及外界条件(如周边环境、天气、温湿度)等因素的影响,具有较大的主观性和随意性.因此,急需建立一种客观、公正、快速的判定鲜叶收购价格的方法.
近红外光谱技术具有快速、准确和无需对样品做任何预处理等特点,目前已经广泛应用于农业[3-4]、石化行业[5]、纺织业[6]和医药行业[7-8]中.在茶行业领域,近红外光谱技术已经成功地实现了对咖啡碱[9]、茶多酚总量[10]的预测以及对茶叶溯源地的判定[11]等.近红外光谱技术结合联合区间偏最小二乘法和人工神经网络[12]等方法已经被用来建立模型预测茶叶成分含量[13].但将二者结合起来建立鲜叶收购价格的预测模型还未见诸报端.
本文以不同采摘标准的龙井43茶鲜叶为研究对象,扫描获得鲜叶近红外光谱后,应用联合区间偏最小二乘法筛选反映鲜叶价格的特征光谱区间,然后对上述特征光谱进行主成分分析,以主成分数为输入值建立鲜叶收购价格人工神经网络预测模型,试图实现鲜叶收购价格的快速、准确预测.
1材料与方法
1.1茶鲜叶样品及其分类
所有112个茶鲜叶样品均采自湖北省恩施市恩施玉露保护区范围内,采摘时间为:2015-04-01—2015-05-03,采摘标准为:芽,一芽一叶、一芽二叶和一芽三叶.根据鲜叶样品收购价格高低,将样品分为校正集和验证集2个集合,其中校正集84个样品(价格为16~124元/kg),验证集28个样品(价格为17~120元/kg),用于检验校正集模型的稳健性.
1.2光谱采集
采用美国尼高力Antaris Ⅱ型傅里叶近红外光谱仪(FT-NIR),选用积分球漫反射光学平台;光谱扫描范围4 000~10 000 cm-1;分辨率8 cm-1,检测器为InGaAs;每个样品采集10次光谱,每次扫描64次,取10次采集光谱的平均值作为该样品的最终光谱.光谱采集前,将仪器预热1 h,保持室内温度和湿度基本一致后,将样品装入与仪器配套的旋转杯中采集光谱(图1).
图1 112个恩施玉露鲜叶样品近红外光谱Figure 1 NIR spectra of all 112 fresh tea leaves
1.3光谱预处理
在光谱采集过程中,经常会产生高频噪声和基线漂移等影响模型预测效果的噪声信息,因此,在建立模型前需要对光谱进行预处理.应用TQ Analyst 9.4.45软件包对光谱进行多元散射校正和平滑等预处理,经比较建模结果,以平滑预处理方法最佳,最后将光谱全部转化为成对的数据点,用于后续建模分析.
1.4联合区间偏最小二乘法
联合区间偏最小二乘法是一种有效的特征光谱筛选方法,它在建立模型[14]过程中,将全部样品光谱均等划分为10~24个光谱子区间,然后将这些区间联合起来(3个、4个或5个区间)建立偏最小二乘模型,直到交互验证均方根方差(RMSECV)最小时,建立的联合区间偏最小二乘法模型为最佳,得到的光谱区间即为筛选的特征光谱区间.
1.5人工神经网络模型
人工神经网络方法是一种广为使用的建模方法,它能够实现输入值与输出值之间的高度非线性关系.其中,连接输入层与输出层之间的为隐含层,一般为Sigmoid型函数.目前,该方法已经成功应用于脐橙可溶固形物的快速测定[15]以及盐酸二甲双胍片的过程控制[16].由于鲜叶近红外光谱具有典型的非线性特性,于是为了增强模型的稳健性并减少模型的输入值,本研究以联合区间偏最小二乘法筛选出的特征光谱区间的主成分为输入值建立收购价格预测模型,模型结果以预测均方差(RMSEP)和相关系数(R)表示.
2结果与分析
2.1鲜叶样品质量与价格关系
鲜叶样品质量与其收购价格密切相关.在本研究中,芽,一芽一叶,一芽二叶和一芽三叶与其平均收购价格的关系见图2.
图2 鲜叶质量与其收购价格关系 Figure 2 Relationship between the quality and the price of tea fresh leaves
从图2可以看出,随着鲜叶质量从芽到一芽三叶逐渐降低,其收购价格也从最高的124元/kg快速下滑至16元/kg.这是由于随着鲜叶质量的降低,其成熟度逐渐增加,纤维素和其它支持组织部位的含量也在相应地增加.但是,这些内含成分含量的增加与鲜叶质量呈负相关关系,鲜叶加工后饮用价值大大降低,销售价格也会偏低,必然造成其收购价格也会大大降低.
2.2特征光谱筛选
从图1可以看出,不同质量鲜叶光谱变化趋势趋于一致,其中两个最大的吸收峰出现在6900 cm-1和5100 cm-1附近,这是水-OH组合频和二级倍频吸收峰.由于鲜叶中含水量所占比重最大,水-OH吸收峰掩盖了与收购价格有关的光谱信息.因此,在应用联合区间偏最小二乘法单独建立预测模型时,模型预测效果可能会较差.在本研究中,先应用联合区间偏最小二乘法筛选特征光谱区间,当光谱被分为24个波段时,此时得到的RMSECV最小值为24.874,得到的光谱区间为[8 16 18 19 23 24],对应的光谱波数为:5 750~6 000 cm-1, 7 750~8 000 cm-1, 8 250~85 00 cm-1, 8 500~8 750 cm-1, 9 500~9 750 cm-1和9 750~10 000 cm-1.这些特征光谱区间排除了水吸收峰的影响,有助于提高模型的预测精度.
2.3近红外光谱预测模型建立
2.3.1主成分分析结果
图3 特征光谱区间的前5个主成分累计贡献率Figure 3 Accumulating contribution of the top 5 principle components for the selected spectral ranges
应用主成分分析法,对筛选的特征光谱区间进行主成分分析.分析后得出PC1贡献率为92.87%,前5个主成分的累计贡献率为99.87%(图3).因此,PC1—PC5可以完全代表上述特征光谱的信息.以前5个主成分为输入变量,建立鲜叶收购价格BP-ANN预测模型.同时,对鲜叶的全光谱进行主成分分析,前6个主成分的累计贡献率为99.11%,同样用来建立鲜叶收购价格的近红外光谱预测模型.
2.3.2人工神经网络预测模型
以上述筛选的特征光谱区间的前5个主成分为输入变量,通过多次优化隐含层数量,最终得到了5-4-1的三层人工神经网络预测模型.得到模型后,应用验证集样品对建立的模型进行稳健性检验,所得结果见图4.从图4可以看出,验证集模型相关系数(R2)和交互验证均方根方差(RMSEP)分别为0.968 7和4.625.因此,建立的鲜叶收购价格BP-ANN预测模型具有很高的稳健性,没有出现过拟合现象.同样,建立了鲜叶全波长BP-ANN价格预测模型,模型结构为6-5-1,即输入层为6个,隐含层为5个,输出层为1个,所得结果见表1.
从表1可以得出,建立的价格组合siPLS-BP-ANN模型校正集相关系数(R2)为0.989 7,交互验证均方根方差(RMSECV)为4.012;当用验证集样品进行检验时,得到验证集模型R2为0.968 7,RMSEP为4.625.通过主成分分析,建立的鲜叶全波长光谱信息BP-ANN校正集预测模型R2为0.897 5,RMSECV为4.714;当用验证集样品进行检验时,得到验证集模型R2为0.855 1,RMSEP为5.218.siPLS方法建立的鲜叶价格预测模型校正集R2为0.631 1,RMSECV为24.874,验证集模型R2为0.581 6,RMSEP为25.433.因此,在建立的三种鲜叶收购价格近红外光谱预测模型中,以组合模型siPLS-BP-ANN的预测效果最佳,效果最差的为单独应用siPLS方法建立的预测模型.
表1 鲜叶价格不同建模方法结果比较
图4 最佳组合siPLS-BP-ANN模型验证集结果Figure 4 Prediction result of the optimal model combined with siPLS-BP-ANN model
3讨论与结论
在绿茶加工季节收购茶鲜叶时,我国和日本一般按照鲜叶品种、采摘时间和嫩度为标准,然后由收购人员采用感官方法来制定鲜叶收购价格,这种方法具有较大的主观性和不确定性,容易造成茶农不满,滋生茶厂和茶农间的矛盾.因此,为了客观、准确、快速的预测鲜叶收购价格,达到公平交易,我们尝试应用多种方法建立鲜叶收购价格的近红外光谱预测模型.由于鲜叶光谱中存在大量的干扰信息和噪声,当用全部光谱信息建立预测模型时,会严重影响模型的预测精度.因此,有必要先筛选特征光谱信息再建立预测模型,以有利提高模型的稳健性.先应用联合区间偏最小二乘法(siPLS)筛选特征光谱区间,分别为5 750~6 000 cm-1, 7 750~8 000 cm-1,8 250~8 500 cm-1,8 500~8 750 cm-1,9 500~9 750 cm-1和9 750~10 000 cm-1,筛选出的光谱信息占全部光谱信息的25%,大大降低了建模的光谱数据量,剔除了大量噪声信息,利于模型的稳健;然后对筛选的特征光谱区间进行主成分分析,前5个主成分的累计贡献率为99.87%,可以完全代表这些光谱信息;再以前5个主成分为输入变量,建立了一个5-4-1三层BP-ANN价格测模型(R2=0.968 7,RMSEP=4.625),siPLS-BP-ANN模型预测效果最佳,分别优于单一方法建立的siPLS模型和全波长的BP-ANN模型的预测效果.
通过比较三种模型的预测结果,siPLS-BP-ANN模型更加简洁和稳健.我们可以推断出,非线性BP-ANN建模方法要优于线性建模方法效果,这可能是由于鲜叶近红外光谱信息中存有大量的噪声信息,非线性特征明显,影响着鲜叶收购价格模型的预测效果,致使线性化学计量学方法的建模效果要劣于非线性化学计量学方法的预测效果.在建模过程中,通过运用siPLS方法剔除大量无用信息,减少了噪声信息,在此基础上建立的BP-ANN预测模型效果就有可能优于全波长光谱信息的BP-ANN预测模型,而且建立的模型更加简洁,稳健.
在建立模型过程中,本文还存在一些不足之处,比如为了扩大预测模型在恩施市的使用范围,可以更为准确的预测鲜叶的收购价格,还需进一步扩充样品范围,如采集更多茶树品种的鲜叶和不同采摘时间的鲜叶样品等,这都是下一步还需解决的问题.
【参考文献】
[1]BAHORUN T, LUXIMON-RAMMA A, GUNNESS T K, et al. Black tea reduces uric acid and C-reactive protein levels in humans susceptible to cardiovascular diseases[J]. Toxicology,2010,278(1):68-74.
[2]恩施市质量技术监督局.DB42/351-2009,地理标志产品恩施玉露[S].北京:中国人民大学出版社,2006.
Enshi Environment Monitoring Center. DB 42/ 351-2009, Product of geographical indication-Enshi yulu[S]. Beijing: Renmin University of China Press,2006.
[3]ZHOU Xingfan, YANG Zengling, HAUGHEY S A, et al. Classification the geographical origin of corn distillers dried grains with solubles by near infrared reflectance spectroscopy combined with chemometrics:a feasibility study[J]. Food Chemistry,2015,189:13-18.
[4]LIU Xuemei, LIU Jianshe. Using short wave visible-near infrared reflectance spectroscopy to predict soil properties and content[J]. Spectroscopy Letters,2014,47(10):729-739.
[5]WU Changfu, WU Tzonggang, HASHMONAY R A, et al. Measurement of fugitive volatile organic compound emissions from a petrochemical tank farm using open path Fourier transforminfrared spectrometry[J]. Atmospheric Environment,2014,82:335-342.
[6]TAVANAIE M, ESMAEILIAN N, MOJTAHEDI M. Olive hue visible near infrared camouflage properties of high speed melt spun poly(ethylene terephthalate) multifilament yarn[J]. Dyes and Pigments,2015,114:267-272.
[7]BLANCO M, PEGUERO A. Analysis of pharmaceuticals by NIR spectroscopy without a reference method[J]. TrAC Trends in Analytical Chemistry,2010,29(10):1127-1136.
[8]LEE M, SEO D, LEE H, et al. In line NIR quantification of film thickness on pharmaceutical pellets during a fluid bed coating process[J]. International Journal of Pharmaceutics,2011,403(1,2):66-72.
[9]LEE M, HWANG Youngsun, LEE J, et al. The characterization of caffeine and nine individual catechins in the leaves of green tea (Camellia sinensis L.) by near-infraredreflectance spectroscopy[J]. Food Chemistry,2014,158:351-357.
[10]HUANG Yue, DU Guorong, MA Yanjun, et al. Near-infrared determination of polyphenols using linear and nonlinear regression algorithms[J]. Optik International Journal for Light and Electron Optics,2015,126:2030-2034.
[11]HE Wei, ZHOU Jian, CHENG Hao, et al. Validation of origins of tea samples using partial least squares analysis and Euclidean distance method with near infrared spectroscopy data[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2012,86:399-404.
[12]吴瑞梅,赵杰文,陈全胜,等.近红外光谱技术结合特征变量筛选快速检测绿茶滋味品质[J].光谱学与光谱分析,2011,31(7):1782-1785.
WU Ruimei, ZHAO Jiewen, CHEN Quansheng, et al. Determination of taste quality of green tea using FT-NIR spectroscopy and variable selection methods[J]. Spectroscopy and Spectral Analysis,2011,31(7):1782-1785.
[13]CHEN Quansheng, ZHANG Dongliang, PAN Wenxiu, et al.Recent developments of green analytical techniques in analysis of tea’s quality and Nutrition[J]. Trends in Food Science & Technology,2015,43:63-82.
[14]REN Dong, QU Fangfang, LYU Ke, et al. A gradient descent boosting spectrum modeling method based on back interval partial least squares[J]. Neurocomputing,2015,162:101-111.
[15] LIU Yande, SUN Xudong, OUYANG A. Nondestructive measurement of soluble solid content of navel orange fruit by visible-NIR spectrometric technique with PLSR and PCA-BPNN[J]. LWT-Food Science and Technology,2010,43:602-607.
[16]WU Jia, LUO Wei, WANG Xuekai, et al. A new application of WT-ANN method to control the preparation process of metformin hydrochloride tablets by near infrared spectroscopy compared to PLS[J]. Journal of Pharmaceutical and Biomedical Analysis,2013,80:186-191.
【文章编号】1004-1540(2016)02-0167-05
DOI:10.3969/j.issn.1004-1540.2016.02.008
【收稿日期】2016-01-22《中国计量学院学报》网址:zgjl.cbpt.cnki.net
【基金项目】国家青年科学基金资助项目(No.31400586),国家茶叶产业技术体系项目(No.CARS-23),湖北省农业科学院青年科学基金资助项目(No.2015NKYJJ08).
【作者简介】王胜鹏(1982-),男,河北省唐山人,博士,主要研究方向为茶叶加工和茶叶品质无损检测.E-mail:wwsspp0426@163.com 通信联系人:龚自明,男,研究员.E-mail:ziminggong@163.com
【中图分类号】O657.3
【文献标志码】A
Evaluation of the purchasing price of Enshi Yulu fresh tea leaves using near infrared spectroscopy
WANG Shengpeng, GONG Ziming
(Institute of Fruit and Tea, Hubei Academy of Agricultural Sciences, Wuhan 430064, China)
Abstract:Near infrared spectroscopy combined with the back propagation artificial neural network algorithm and the synergy interval partial least square algorithm was used to evaluate the purchasing price of fresh tea leaves. The nearinfrared spectra regions of 5 750 cm-1to 6 000 cm-1, 7 750 cm-1to 8 000 cm-1, 8 250 cm-1to 8 500 cm-1, 8 500 cm-1to 8 750 cm-1, 9 500 cm-1to 9 750 cm-1and 9 750 cm-1to 10 000 cm-1were selected to establish a model by using the synergy interval partial least square algorithm. The first five principal components that explained 99.87% of the variability of the selected spectral data were used to build tea leaves’ purchasing price model with the back propagation artificial neural algorithm. The performance of this model (R2, 0.968 7; RMSEP, 4.625) was superior to those of the back propagation artificial neural model (R2, 0.8551;RMSEP, 5.218) and the synergy interval partial least square model (R2, 0.581 6; RMSEP, 25.433). The near infrared spectroscopy combined with the synergy interval partial least square algorithm and the back propagation artificial neural network algorithm could be used to evaluate the price of Enshi Yulu tea leaves accurately, quickly and objectively.
Key words:Enshi Yulu fresh tea leaves; purchasing price; near infrared spectroscopy; synergy interval partial least square; back propagation-artificial neural network