董小玲
DONG Xiao-ling
(华东交通大学外国语学院,江西 南昌 330013)
(School of Foreign Languages,East China Jiaotong University,Nanchang,Jiangxi330013,China)
菜籽品种是决定蔬菜品质、制约蔬菜产量的主要因素之一[1]。一些不法商贩往往混淆品种,以次充好,谋取暴利,严重影响了市场秩序及菜农权益。形态学方法、农艺性状法、蛋白质电泳技术检验法、DNA分子标记技术检验法等传统菜籽品种评价方法,耗时、费力、准确性差。随着消费者对蔬菜数量及品质要求的不断提高,迫切要求采用快速检测手段,现场识别菜籽的品种及优劣,维护市场秩序、保障菜农权益。
经过物料漫射的可见近红外光谱中含有丰富的含氢基团信息,可表征物料的物理及化学信息,具有快速、绿色、无损等优点,利用农产品种子的可见近红外光谱信息,可进行种子品种鉴别。国内科技人员建立了枇杷[2]、奶茶[3]、茶叶[4]、小麦[5]、葡萄[6]、草莓[7]、玉米[8-10]、大米[11]、人参[12]、稻米[13]、鲜枣[14]、大豆[15]等农作物种子品种识别研究,并建立了相应的数学模型。在建模过程中,可见近红外光谱包含上千个波长点甚至更多的信息,若将全部光谱作为分类算法的输入变量,会影响算法的收敛速度和收敛性。通常做法是将光谱数据压缩成几个主成分,作为输入变量训练数学模型,预测未知样品。笔者在前期白菜籽品种识别试验[16]中,采用了若干主成分(PCA)表征原光谱信息的方法。该方法虽可表征绝大多数光谱信息,但因线性变换过程少量信息会自然损失,原光谱信息并未充分利用。所以,采用部分主成分表征原光谱信息的方法,在一定程度上影响了品种识别的精度[17]。线性判别分析(LDA)是以样本的可分性为目标,寻找一组线性变换,使样本类内离散度最小而类间离散度最大的分类方法[18]。LDA方法高效、便捷,可较为有效地解决光谱分类问题[19,20]。但LDA光谱数据分类应用报道较少,主要是LDA面对高维小样数据时,易产生过拟合现象,面对不同试验数据,需优选适宜的特征变量,更易发挥LDA算法特长。
为了提高菜籽品种可见近红外光谱识别率,提出了一种基于主成分载荷向量和LDA的菜籽品种识别方法。根据主成分载荷向量峰谷变化趋势,筛选特征光谱变量,作为LDA的输入向量,进行6种菜籽品种的判别分析,并与PCA-LAD的分类判别结果对比,验证方法的可靠性。
光谱仪:Handheld Field SpecPro,美国Analytical Spectral Devices公司。
性能参数:光谱范围325~1 075 nm,采样间隔1.5 nm,探头视场角20°,光源卤钨灯14.5 V。试验中采用漫反射方式,使用仪器自带ASD ViewSpec Pro软件采集光谱。
菜籽:鑫丰70白菜籽,青麻叶白菜籽,山东五号白菜籽,四季抗热芥菜籽,特选大坪埔芥菜籽,芥菜笋籽,港种四九菜心籽,十月红菜心籽,九月鲜菜心籽,广东四九菜心籽,白皮苦瓜籽,长绿苦瓜籽,春华苦瓜籽,金禾莴笋籽,花红柳绿莴笋籽,金发莴笋籽,汉城白玉萝卜籽,广东短叶萝卜籽,浙大长萝卜籽,马耳萝卜籽,南昌某种子公司;试验样品的具体品种及数量见表1。
采用直径60 mm的培养皿装样,盛满压实后供试验使用。每个品种的菜籽样品搅拌均匀后等分若干份。采集光谱前,将每份样品置于约30℃的室温环境中约24 h,达到室温后采集可见近红外光谱。
表1 不同品种菜籽样品统计结果Table1 Statistical result of the different varieties of vegetable seeds
采用漫反射方式,采集菜籽样品的可见近红外光谱。采集样品光谱前,先采集聚四氟乙烯标准白板光谱,作为参比光谱,采集参比及样品的积分时间均为272ms。每份菜籽样品采集10条可见近红外光谱取平均,并利用ASD ViewSpec Pro软件转化成反射率光谱,供后续数据分析使用。试验中共采集660份样品光谱,即660条光谱。
菜籽的可见近红外光谱数据处理采用unscrambler X10.1和Matlab 2010a软件。数据读取、转换均在Matlab 2010a中完成。PCA和LDA均在unscrambler X10.1中完成,采用误判率评价品种鉴别结果的准确性。
不同品种菜籽的可见近红外光谱响应特性见图1。试验中采集到的菜籽原始光谱范围是325~1 075 nm,因为325~450 nm和1 000~1 075 nm处于检测器的两端,信噪比较低,在数据分析中予以剔除,故数据分析中选用450~1 000 nm波段的光谱数据。由图1可知,不同品种菜籽形态各异,在光谱上体现为不同品种菜籽在相同波长点处的反射率不同,苦瓜籽粒最大,反射率也最大,菜心籽粒最小,反射率也最小。不同菜籽色泽各异,也会导致光谱趋势变化,700 nm处是拐点,700 nm后不同品种的可见近红外反射率光谱差异变大,其中苦瓜籽和莴笋籽与其余菜籽的光谱变化趋势略有不同,后续分析中,苦瓜籽和莴笋籽也未被误分入其它种类中。
图1 不同品种菜籽的可见近红外反射率光谱曲线Figure 1 Visible near-infrared reflectance spectral curves of the different varieties for vegetable seeds
可见近红外光谱通常包含上千个波长点以上的数据,若将所有数据都作为输入训练熟悉模型,势必导致计算速度和收敛性变差。通常采用将原光谱数据压缩成若干个主成分,表征原光谱数据信息。试验中采用PCA方法将菜籽的可见近红外光谱压缩成20个主成分因子,得到20个主成分累积贡献率曲线,因第8主成分后累计贡献率曲线基本不变,故绘制了前7个主成分贡献率曲线见图2。由图2可知,增加主成分因子数,主成分累积贡献率也随之增加,当增加到第4主成分时,累积贡献率基本保持不变,在图上呈现为一条水平直线。前4个主成分累积贡献率为99.99%,较为全面地包含了原始光谱信息,剩余16个主成分累积贡献率为0.01%,所包含原始光谱信息极少。试验中分别采用前4、7和21个主成分因子作为LDA的输入变量。
不同品种菜籽可见近红外光谱的第1和第2主成分得分图见图3,其中第1和第2主成分贡献率分别为94.97%和4.22%。由图3可知,6个品种菜籽在主成分得分图上大致分成三类,其中苦瓜籽(KG)、莴笋籽(WS)和其他菜籽分成三类,除KG和WS外,其余菜籽混在一起,从图3中难以分辨出来。
图2 不同品种菜籽可见近红外光谱主成分累计贡献率曲线Figure 2 Cumulative contribution rate curve of principal component for different varieties of vegetable seeds
图3 不同品种菜籽可见近红外光谱第一和第二主成分得分图Figure 3 Score plots of first and second principal components for different varieties of vegetable seeds
菜籽可见近红外光谱的前7个主成分因子载荷曲线见图4,其中载荷曲线的波峰和波谷处,表示不同品种引起的光谱载荷变化较大处。由图4可知,第1主因子(PC1)主要反映不同菜籽反射率大小引起的载荷曲线变化,其中673 nm为峰值,被选为特征光谱变量。第2、3、4、5、6和7载荷曲线主要反映了不同品种菜籽在 507,518,545,569,586,611,668,673,721,734,748,754,804,851,881,918,966 nm 处的差异较为明显。507,518,545,569,586 nm 可能是由于菜籽表皮的黄绿色变化引起的,611,668,673 nm可能是由于菜籽表皮的红色变化引起的,734和748 nm可能与菜籽中某些成分的C—H键4倍频振动有关,918和966 nm可能由菜籽中某些成分的C—H键3倍频和O—H伸缩振动引起。507,518,545,569,586,611,668,673,721,734,748,754,804,851,881,918,966 nm共17个光谱变量与菜籽的外观或内部特征相关联,也作为线性判别分析的输入变量。
图4 不同品种菜籽的主成分载荷向量曲线Figure 4 Cures of principal components for different varieties of vegetable seeds
图5 不同主成分和变量输入的菜籽品种线性判别分析结果(PCs:主成分)Figure 5 Results of linear discriminantanalysiswith the input vectors of principal components(PCs)and variables
LDA是基于Fisher判别准则的判别方法,通过最大化类间距离和最小化类内距离的方法,提高了类别间的区分能力。然而,LDA难以适应高维数据,且要求输入变量是非奇异的。试验中的光谱范围450~1 000 nm,共551个光谱变量,难以直接作为LDA的输入变量。试验采用PCA将光谱数据压缩成20个主成分因子,且主成分因子间线性无关。但主成分分析过程中,保留了大量的光谱共性信息,损失了部分的样本类别差异信息。为此,数据处理中采用主成分载荷向量峰谷变化,选择了17个与类别信息相关的光谱变量,作为LDA的输入变量,同时作为对比组,分别选择20、7和4个主成分因子作为LDA的输入变量,进行对比,结果见图5。由图5可知,随着输入LDA的主成分数的增加(4,7,20),误判率逐步下降(12.27%,5.00%,2.42%),20个主成分时误判率最小为2.42%。但从主成分贡献率曲线上看,从第5个主成分开始,贡献率基本没有变化,故使用20个主成分作为LDA的输入变量,发生了过拟合现象。采用17个光谱变量作为LDA输入变量的判别结果与20个主成分时一致,误判率都达到了2.42%,但优于7和4个主成分作为LDA输入变量的判别结果。由此,可采用主成分载荷曲线图选择光谱变量,而不是将主成分因子直接作为LDA的输入变量,可以提高LDA判别的精度。
表2 不同品种菜籽的线性判别分析结果Table2 Results of linear discriminant analysis for different varieties of vegetable seeds
表2 不同品种菜籽的线性判别分析结果Table2 Results of linear discriminant analysis for different varieties of vegetable seeds
a:主成分数为20,b:主成分数为7,c:主成分数为4,d:17个变量,*表示正确判别,**表示误判,例如90a*表示某种菜籽在主成分数为20时的90个样品被正确判别,9c**表示某种菜籽在主成分数为4时9个样品被误判。
品种BC CX JC KG LB WS BC 90a*/90b*/75c*/90d*KG LB WS 6c**9c**CX 1b**/2c**76a*/72b*/67c*/76d*14a**/17b**/21c**/14d**JC 1b**/10c**2a**/14b**/30c**/2d**118a*/105b*/80c*/118d*000 90a*/90b*/87c*/90d*0 0 0 0 0 00000 150a*/150b*/150c*/150d*000 000 000 3c**120a*/120b*/120c*/120d*0
不同品种菜籽的LDA判别结果见表2,其中上标标注a、b、c和d的结果,分别为20、7、4个主成分和17个光谱变量作为LDA输入的判别结果,*表示样品被正确判别个数,**表示样品被误判个数。采用17个光谱变量作为LDA输入变量的判别结果最优,其中白菜籽(BC)、苦瓜籽(KG)、萝卜籽(LB)和莴笋籽(WS)均未发生误判,2份芥菜籽(JC)样品被误判为菜心籽(CX),14份菜心籽被误判为芥菜籽,总的误判率为2.42%。
本试验采用可见近红外光谱技术和LDA方法进行了6种菜籽品种鉴别研究。根据主成分载荷曲线峰谷变化趋势筛选出17个光谱变量,作为LDA的输入变量,解决了PCA压缩光谱矩阵损失类别信息的问题,提高了菜籽品种的判别精度,误判率达到2.42%,试验结果表明可见近红外光谱结合LDA的菜籽品种鉴别方法具有简单、快速、准确、无损等优点,在农产品种子鉴别和质量控制方面具有参考价值。
1 黄玲,钟新民,李必元,等.春白菜品种比较试验[J].山东农业科学,2010(90:13~14,26.
2 Fu X P,Ying Y B,Zhou Y,et al.Application of probabilistic neural networks in qualitative analysis of near infrared spectra:Determination of producing area and variety of loquats[J].Analytica Chimica Acta,2007,598(1):27~33.
3 Liu F,Ye X J,He Y.Application of visible/near infrared spectroscopy and chemometric calibrations for variety discrimination of instantmilk teas[J].Journal of Food Engineering,2009,93(2):127~133.
4 He Y,Li X L,Deng X F.Discrimination of varieties of tea using near infrared spectroscopy by principal component analysis and BP model[J].Journal of Food Engineering,2007,79(4):1 238~1 242.
5 Carlos M.Discrimination of European wheat varieties using near infrared reflectance spectroscopy[J].Food Chemistry,2008,106(1):386~389.
6 Cao F,Wu D,He Y.Soluble solids content and pH prediction and varieties discrimination of grapes based on visible-near infrared spectroscopy[J].Computers and Electronics in Agriculture,2010,71(S1):S15~S18.
7 牛晓颖,邵利敏,赵志磊,等.基于BP-ANN的草莓品种近红外光谱无损鉴别方法研究[J].光谱学与光谱分析,2012,32(8):2 095~2 099.
8 卢洋,梁先扬,李卫军,等.基于近红外光谱短波段的玉米品种鉴别研究[J].河南大学学报(自然科学版),2012,42(3):239~243.
9 覃鸿,王徽蓉,李卫军,等.基于DPLS特征提取的LDA方法在玉米近红外光谱定性分析中的应用[J].光谱学与光谱分析,2011,31(7):1 777~1 781.
10 王徽蓉,李卫军,刘扬阳,等.基于遗传算法与线性鉴别的近红外光谱玉米品种鉴别研究[J].光谱学与光谱分析,2011,31(3):669~672.
11 周子立,张瑜,何勇,等.基于近红外光谱技术的大米品种快速鉴别方法[J].农业工程学报,2009,25(8):131~135.
12 黄亚伟,王加华,李晓云,等.基于近红外光谱的人参与西洋参的快速鉴别研究[J].光谱学与光谱分析,2010,30(11):2 954~2 957.
13 梁亮,刘志霄,杨敏华,等.基于可见/近红外反射光谱的稻米品种与真伪鉴别[J].红外与毫米波学报,2009,28(5):353~356.
14 张淑娟,王凤花,张海红,等.鲜枣品种和可溶性固形物含量近红外光谱检测[J].农业机械学报,2009,40(4):139~142.
15 朱大洲,王坤,周光华,等.单粒大豆的近红外光谱特征及品种鉴别研究[J].光谱学与光谱分析,2010,30(12):3 217~3 221.
16 董小玲.基于可见近红外光谱技术的白菜籽品种主成分和聚类分析研究[J].农业机械·粮油加工,2012(12):102~104.
17 成忠,诸爱士.近红外透射光谱结合规范变量分析用于化学模式分类[J].光谱学与光谱分析,2009,29(3):624~628.
18 王晓慧.线性判别分析与主成分分析及其相关研究评述 [J].中山大学研究生学刊(自然科学、医学版),2007,28(4):50~61.
19 张凯,赵辽英,厉小润.基于约束线性判别分析的非监督高光谱影像分类方法[J].机电工程,2009,26(8):41~44.
20 胡兰萍,张琳,李燕,等.主成分—线性判别法对大气易挥发性有机化合物的预警[J].分析化学,2007,35(3):345~349.