张景川,张 晓,白铁成,石鲁珍,*
(1.塔里木大学机械电气化工程学院,新疆阿拉尔 843300;2.新疆维吾尔自治区普通高等学校现代农业工程重点实验室,新疆阿拉尔 843300;3.塔里木大学信息工程学院,新疆阿拉尔 843300;4.南疆农业信息化研究中心,新疆阿拉尔 843300)
基于近红外光谱与PLS-DA的红枣品种识别研究
张景川1,2,张 晓3,白铁成4,石鲁珍3,*
(1.塔里木大学机械电气化工程学院,新疆阿拉尔 843300;2.新疆维吾尔自治区普通高等学校现代农业工程重点实验室,新疆阿拉尔 843300;3.塔里木大学信息工程学院,新疆阿拉尔 843300;4.南疆农业信息化研究中心,新疆阿拉尔 843300)
新疆红枣品种繁多,采后红枣在加工过程中需要将其他品种的红枣挑选出,本研究应用近红外光谱分析技术结合偏最小二乘判别分析(PLS-DA)法对新疆红枣品种进行判别。结果表明,采用一阶导数对原始光谱进行预处理,并使用方差分析法选择波长变量结合PLS-DA方法对校正样本建立判别分析模型,其验证集预测结果与实际分类结果的相关系数(RP)均大于0.92,预测标准偏差(RMSEP)都小于0.27,最后模型对验证集中的骏枣、灰枣和冬枣3个品种的识别率都为100%。该结果为新疆红枣品种快速识别提供理论依据。
近红外光谱,PLS-DA,品种识别,红枣,方差分析
新疆红枣为新疆特有的地理标志产品,红枣又称为“黄金寿枣”,补气养血。民间有“一日食仨枣,百岁不显老”、“要使皮肤好,粥里加红枣”之说,高度赞扬了红枣的食补功效[1]。新疆红枣产业发展虽已初具规模,但是由于发展历史较短,各方面技术落后,甚至多方面无现成经验借鉴[2-3]。红枣加工厂从枣农那里收购来的红枣需要进行加工处理,在加工过程中需要将其他品种的红枣挑出,目前该过程是由人工完成,速度慢,效率低,并且漏选率高,因此急需研究出一种简单、快速的检测方法。
近红外光谱技术是20世纪90年代以来发展最快,最引人注目的光谱分析技术[4],并已经用来检测红枣的水分、糖度和VC含量[5-7]。近红外光谱判别分析方法最常见的有两种SIMCA(蔟类的独立软模式方法)[8-9]和PLS-DA(偏最小二乘判别法)[10-11],其中SIMCA算法的思想是对校正集中的每一类样本的光谱矩阵分别进行主成分分析(PCA),建立每一类的主成分分析数学模型,然后在此基础上对未知样本进行分类。PLS-DA方法同时对光谱阵和类别阵进行分解,加强了类别信息在光谱分解时的作用,以提取出与样本类别最相关的光谱信息[12-16],即最大化提取不同类别光谱之间的差异,因此PLS-DA方法通常可以得到比SIMCA方法更好的分类和判别结果[4]。本研究尝试用近红外光谱结合PLS-DA方法来对新疆的骏枣、灰枣和冬枣三个品种进行判别分析,将样本分成校正集和验证集,用校正集光谱和三类样本的分类变量建立PLS-DA判别模型,然后用判别模型对验证集样本进行判别。
1.1 材料与仪器
骏枣、灰枣和冬枣 于2016年10月采集于新疆生产建设兵团农一师十团,挑选出没有伤疤、损伤的红枣,每个品种数量各118颗,共计354颗,对其依次进行去除灰尘处理并编号,沿着红枣的赤道部位(间隔120°)标记3点作为光谱数据采集点。
Antaris Ⅱ FT-NIR型光谱仪 赛默飞世尔科技,美国。
1.2 实验方法
1.2.1 光谱采集 Antaris Ⅱ FT-NIR型光谱仪以仪器内部空气为背景,设置每次采集样品前都要采集背景一次,波数的测量范围为4000~10000 cm-1,采样点数为1557点,每个样品设置光谱扫描次数为64次,分辨率设置为8 cm-1,仪器使用InGaAs检测器,漫反射采集附件为积分球。
光谱采集前,先将红枣放入实验室内2 h,室内温度在23~26 ℃,相对湿度25%~30%;测样方式:近红外光谱仪开机预热2 h后,采集单个完好红枣光谱,分别对红枣样本赤道部位每隔120°标记的3点采集漫反射光谱,共采集三次,取平均光谱。共采集354张红枣近红外原始光谱图。
1.2.2 校正样本划分和分类变量的建立 采用KS(kennard-Stone)方法分别从骏枣、灰枣和冬枣样品中各选出100颗作为校正集样本,其他各18颗作为验证集样本。
在建立PLS-DA模型之前首先要按照样本的实际类别特征,赋予校正集和验证集的样本分类变量值,如表1所示。
表1 3个不同品种红枣的分类变量Table 1 The categorical variables of three variety jujubes
1.2.3 算法原理 PLS-DA法是一种基于变量的回归方法,将光谱阵与分类变量进行线性回归,具体实现过程为:
建立样品的分类变量,若有三类,可以设置第一类样品分类变量为[1 0 0],第二类样本为[0 1 0],第三类样品分类变量为[0 0 1];
建立光谱数据与分类变量的PLS(偏最小二乘)模型;
根据建立的PLS模型对验证的样本进行计算预测值(分类变量),若某未知样本的PLS预测值介于-0.5~0.5,则该样本不属于该类,若介于0.5~1.5,则该样本属于该类。
1.3 数据处理
所有的算法应用在Matlab R2012a(Mathworks,美国)上,文章中用到的所有matlab程序均自己编写。Result软件(Antaris II,赛默飞世尔科技,美国)用于近红外光谱数据采集。
2.1 光谱数据预处理
图1是骏枣、灰枣和冬枣的近红外原始光谱图。
图1 三种品种红枣的原始近红外光谱图Fig.1 The original NIR spectrum of three variety jujubes
红枣原始近红外光谱是通过近红外光谱仪来采集的,它包含背景信息和除样品外的噪声信息。为了获得可靠、精确和稳定的模型,因此需要对原始光谱进行数据预处理,表2给出了两种预处理得到模型验证集的结果。
从表2中可以看出,使用多元散射校正得到的结果比原始光谱得到的模型结果还要差;虽然,一阶导数和原始光谱得到的模型识别率都达到了100%,但是一阶导数处理后得到的模型使用的主成分数为7,小于原始光谱得到的模型10个,使模型变得简洁。图2是骏枣、灰枣和冬枣的一阶导数光谱,从图中可以明显看出骏枣和灰枣一阶导数光谱变化趋势相同,而冬枣与二者差异较大,因此选择一阶导数光谱可以更好地体现3种红枣光谱的差异性。
表2 不同预处理方法的PLS-DA模型的验证结果Table 2 The identificated results of PLS-DA correction model based on different pretreatment methods
表3 方差分析法和全谱的PLS-DA模型的验证结果Table 3 The identificated results of PLS-DA correction model based on full Spectrum and the wavelengths selected by deviation analysis
图2 三个不同红枣品种的一阶导数光谱Fig.2 The first derivative spectrum of three variety jujubes
注:RP为验证集相关系数;RMSEP为预测均方根误差。
2.2 波长变量选择
从图2可以看出,3种红枣光谱大多数的波长趋势是相同的,而只有少数波长变量对应的吸光度变化较大,如果可以找出这些少数波长对应的吸光度,并用这些吸光度建立PLS-DA模型,必然可以使模型变得更为简洁,并减少了建模时间,使得模型鲁棒性强,因此使用方差分析法来选择波长变量。
图3中黑线是校正集光谱阵在各波长的标准偏差,标准偏差越大的波长说明其光谱变动越显著。选择阈值为0.0006,大于该阈值的波长对应的吸光度被选择建立模型(图中五角星为选中的波长变量)。
表3是将全谱建立的PLS-DA模型和使用方差分析选中的波长变量建立的PLS-DA模型对验证集的预测结果,从表中可以看出,虽然,两者得到的模型验证集相关系数(RP)和预测标准偏差(RMSEP)都差不多,识别率也都是100%,但是方差分析法得到变量数为356个,远小于全谱的1557个,选择的最佳主成分数为5也小于全谱的7个,因此使用方差分析法得到模型结果要好于全谱得到的模型。
2.3 PLA-DA判别模型
图4是校正集中骏枣、灰枣和冬枣各100颗的前3个主成分得分图,从图中可以明显看出,冬枣光谱与骏枣、灰枣光谱几乎没有重叠,可以很明显地分开;骏枣和灰枣大部分聚类在一块,但是也有少量重叠在一块,这说明冬枣最容易判别,而骏枣和灰枣相对困难。
图4 3个品种红枣校正集前3个主成分得分图Fig.4 The first three principal component scores of three variety jujubes in calibration set
图5为所有校正集样本(骏枣、灰枣和冬枣3类)分裂变量的PLS预测值与真实值的回归图,从图中的直线是PLS模型的校正集预测结果与实际分类的回归线。从图中可以看出,PLS模型都能够将该3类样本分开,即分散在实际值为1的线上的红枣样本点和实际值为0的线上的其他2个品种的红枣样本明显分开。
图5 PLS-DA校正模型样本分类变量的PLS预测值与真实值回归图Fig.5 The regression diagram of Predictive values and the real value based on categorical variables of PLS-DA correction model
PLS-DA模型建立好之后,利用验证集对模型进行验证,图6是模型对骏枣、灰枣和冬枣各18个样本进行判别分析,图6(a)是验证集样本中的骏枣样本,从图中可以看出验证集中骏枣样本的分类变量的预测值都接近于1,在0.5~1.5范围之内,而其他2类红枣的分类变量的预测值基本为0,在-0.5~0.5范围之内,根据PLS-DA法的判别准则可知,验证集中的所有骏枣样本都被正确的识别,即识别率为100%,而其他2类红枣样本不具有骏枣样本的特征。
图6 验证集中红枣样本的PLS-DA模型的判别结果Fig.6 The identificated results of PLS-DA correction model for jujubes in validation set
应用PLS-DA法建立骏枣、灰枣和冬枣三个品种的红枣判别模型,结果表明采用不同的预处理方法对原始光谱进行预处理,可以得到较好的判别模型;选择方差分析法筛选波长得到PLS-DA模型相对于全谱建立的模型使用的主成分数少,减少建模时间、使模型变得简洁、提高模型的稳定性,3个品种的红枣样本分类变量模型对验证集样本的识别率为100%。说明近红外光谱结合PLS-DA法能够有效地识别新疆红枣品种。该结果的重要意义在于为近红外在线识别红枣品种提供理论依据。
[1]郭裕新,单公华.中国枣[M].上海:上海科学技术出版社,2010:1-3.
[2]李林,倪座山,张文新,等.新疆南疆地区红枣产业现状分析及发展战略思考[J].落叶果树,2008(3):34-36.
[3]彭云发.近红外光谱技术在南疆红枣品质快速无损检测中的应用研究[D].新疆:塔里木大学,2015.
[4]褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社,2011:293-295.
[5]彭云发,詹映,彭海根,等. 用遗传算法提取南疆红枣总糖的近红外光谱特征波长[J].食品工业科技,2015(3):303-307.
[6]彭云发,罗华平,王丽,等. 3种不同红枣水分检测方法的比较[J]. 江苏农业科学,2016(1):308-310.
[7]石鲁珍,张景川,蒋霞,等. 光谱测定南疆鲜冬枣VC含量方法的研究[J]. 塔里木大学学报,2015(4):93-98.
[8]周晶,孙素琴,李拥军,等.近红外光谱和聚类分析法无损快速鉴别不同辅料奶粉[J].光谱学与光谱分析,2009(1):110-113.
[9]张宁,张德权,李淑荣,等.近红外光谱结合SIMCA法溯源羊肉产地的初步研究[J].农业工程学报,2008,24(12):309-312.
[10]杨忠,任海青,江泽慧.PLS-DA法判别分析木材生物腐蚀的研究[J].光谱学与光谱分析,2008,28(4):793-796.
[11]郝勇,孙旭东,高荣杰,等. 基于可见近红外光谱与SIMCA和PLS-DA的脐橙品种识别[J].农业工程学报,2010(12):373-377.
[12]Eva Borràs,Joan Ferré,Ricard Boqué,et al. Olive oil sensory defects classification with data fusion of instrumental techniques and multivariate analysis(PLS-DA)[J]. Food Chemistry,2016,203(14):314-322.
[13]Leonardo Valderrama,Patrícia Valderrama. Nondestructive identification of blue pen inks for documentoscopy purpose using iPhone and digital image analysis including an approach for interval confidence estimation in PLS-DA models validation[J]. Chemometrics and Intelligent Laboratory Systems,2016,156(8):188-195.
[14]Ewa Szymańska,Edoardo Saccenti,Age K Smilde,et al. Double-check:validation of diagnostic statistics for PLS-DA models in metabolomics studies[J]. Metabolomics,2012,8(1):3-16.
[15]Zewei Chen,Zhuoyong Zhang,Ruohua Zhu,et al. Diagnosis of patients with chronic kidney disease by using two fuzzy classifiers[J]. Chemometrics and Intelligent Laboratory Systems,2016,153(4):140-145.
[16]Torres,Carolina A,Lorenzo León,et al. Spectral fingerprints during sun injury development on the tree in Granny Smith apples:A potential non-destructive prediction tool during the growing season[J]. Scientia Horticulturae,2016,209(9):165-172.
Jujube species identification based on near infrared spectroscopy and PLS-DA
ZHANG Jing-chuan1,2,ZHANG Xiao3,BAI Tie-cheng4,SHI Lu-zhen3,*
(1.College of Mechanical Electrical Engineering,Tarim University,China Tarim University,Alar 843300,China; 2.Xinjiang Uygur Autonomous Region General Institutes of Higher Education, Key Lab of Modern Agriculture Engineering,Alar 843300,China; 3.College of Information Engineering,Alar 843300,China; 4.Agricultural Information Research Center in Southern Region of Xinjiang,Alar 843300,China)
There are a variety of jujubes in Xinjang. It’s necessary to pick out other varieties of jujubes in jujube processing. This research was conducted to attempt to discriminate jujube varieties by the method that near-infrared spectroscopy combined with partial least squares discriminant analysis(PLS-DA)method. The discriminatory analysis models of jujube varieties was established by using first derivative(FD),the wavelength selection method of deviation analysis and partial least square discriminant analysis(PLS-DA).The experimental results showed that the correlation coefficient(RP)of validation set predictions with the actual classification was greater than 0.92,the standard error of prediction(RMSE)was less than 0.27. Finally,the model recognition rate for three varieties of Jun-jujube,Hui-jujube and Dong-jujube was 100%. The result offered theory evidences for the varieties identification of jujube in Xinjang.
near infrared spectroscopy;PLS-DA;species identification;jujube;deviation analysis
2016-10-18
张景川(1977-),男,硕士,副教授,研究方向:光学应用,E-mail:1483023190@qq.com。
*通讯作者:石鲁珍(1972-),女,硕士,讲师,研究方向:光谱分析,E-mail:shiluzhen08@yeah.net。
国家自然科学基金项目(61501314;41561088;61462074);应急管理项目(61640413)。
TS207.3
A
1002-0306(2017)08-0068-05
10.13386/j.issn1002-0306.2017.08.005