基于稀疏主成分分析的近红外光谱法鉴别黄花梨的成熟度

2017-05-10 06:01付建华周新奇刘辉军
理化检验-化学分册 2017年2期
关键词:黄花梨采收期成熟度

付建华, 周新奇, 刘辉军, 林 敏*

(1. 中国计量学院 计量测试工程学院, 杭州 310018; 2. 聚光科技(杭州)股份有限公司, 杭州 310052)

基于稀疏主成分分析的近红外光谱法鉴别黄花梨的成熟度

付建华1, 周新奇2, 刘辉军1, 林 敏1*

(1. 中国计量学院 计量测试工程学院, 杭州 310018; 2. 聚光科技(杭州)股份有限公司, 杭州 310052)

从同一果园的12棵果树上,在8月的4个不同日期各采集5个黄花梨样品,共采集240个样品。从每个样品上采集光谱数据。通过稀疏主成分分析(SPCA)和主成分分析(PCA)提取光谱中与成熟度相关的特征并进行解析,结合人工神经网络(ANN)建立黄花梨成熟度的鉴别模型。从所得载荷向量图可知:① SPCA能有效提取光谱中与成熟度有关的特征,其7个稀疏主成分分别反映了黄花梨的糖类物质、水分、色素和硬度等信息;② SPCA-ANN的成熟度鉴别模型的预测总识别率为93.33%,高于PCA-ANN的鉴别模型的预测总识别率91.67%。

近红外光谱法; 稀疏主成分分析; 黄花梨; 成熟度

水果采收期的成熟度决定了果实的贮藏品质和口感[1-2],适宜的采收成熟度对提高水果的耐贮性和商品价值至关重要。目前,水果的成熟度鉴别主要依据观察水果外观变化及化学方法检测内部品质变化,这些方法主观性强,破坏水果、耗时费力、成本较高,无法实现水果成熟度的快速无损检测。因此,研究一种快速无损技术对水果成熟度进行鉴别具有实际意义。

近年来,近红外光谱技术已被应用到水果的品质检测中,并取得了一些研究成果。现有报道多集中在水果品质的定量分析方面,如表面色泽[3]、可溶性固形物[4]、酸度[5]和硬度[6]等指标。在水果成熟度定性鉴别方面的报道相对较少,文献[7]中使用近红外光谱技术结合簇类独立软模式法(SIMCA)对4类不同成熟度的杏进行鉴别,其识别率为87%;文献[8]中根据可溶性固形物和酸度把不同成熟度的葡萄分为两类,并使用可见-近红外光谱结合偏最小二乘判别分析(PLSDA)对不同成熟度的葡萄进行鉴别,其识别率分别为89%,83%;文献[9]中使用近红外光谱技术分别结合马氏距离判别分析、SIMCA和最小二乘支持向量机(LS-SVM)等3种方法对3类不同成熟度的李果实进行鉴别,其识别率分别为96.3%,87.04%,83.33%。

梨是日常生活中的主要水果之一,梨在成熟过程中,其水分、糖类物质等内部品质和色素、硬度等外部形态都随之变化,而这些变化与其成熟度密切相关[1]。本工作通过稀疏主成分分析(SPCA)和主成分分析(PCA)提取光谱中与成熟度相关的特征,分析其与样品物理化学指标的具体对应关系,从而有效解析样品光谱,并与人工神经网络(ANN)相结合建立了黄花梨成熟度的鉴别模型,以实现对未知样本的快速无损鉴别。

1 试验部分

1.1 仪器与试剂

Zeiss MCS600型单波束二极管阵列型光纤光谱仪,配直径为35 mm的自制积分球漫反射附件;Aspect Plus光谱采集软件;Matlab 7.11数据分析软件。

1.2 仪器工作条件

光谱采集范围为450~1 650 nm;扫描次数为5次;采集光谱3次;温度为(25±1) ℃。

1.3 试验方法

1.3.1 样品的收集及处理

样品采自某果园,选择12棵果树,分别于2013年8月9日、8月16日、8月23日和8月30日进行采摘,每次由有经验果农从选定的上述果树上各采摘5个黄花梨样品,同一采摘期的60个黄花梨样品成熟度相近,共采摘240个。采摘后,将黄花梨样品的表皮擦拭干净,置于室温(25 ℃)下保存24 h。

1.3.2 光谱采集

试验前仪器先预热30 min,每个样品沿赤道线间隔120°采集3条光谱,取其平均光谱为样品光谱。

1.3.3 成熟度的确定

黄花梨在成熟过程中种子颜色由黄白色逐渐变为黑褐色,把不同颜色的种子分为4个等级:种子黄白色的为0级;种子整个表面的1/3以下为黑褐色的为1级;种子整个表面的1/3~2/3为黑褐色的为2级;种子整个表面的2/3以上为黑褐色的为3级。定义各采收期种子的转色指数,按公式(1)计算:

种子转色指数=

由公式(1)计算4次采收期种子的转色指数,定义种子转色指数达到75%时对应采收期的黄花梨为成熟[10],因此,成熟前2周对应采收期的黄花梨为未成熟,成熟前1周对应采收期的黄花梨为部分成熟,成熟后1周对应采收期的黄花梨为过熟,见表1。

表1 黄花梨成熟度的定义Tab. 1 Definition of maturity for Huanghua pears

1.3.4 样品集的划分

将不同成熟度的黄花梨样品以2∶1∶1的比例划分为训练集、验证集和预测集,参照Kennard-Stone算法[11]优先挑选训练集样品,再分别挑选验证集样品和预测集样品,以保证样品集的合理性和代表性,样品集的划分见表2。

表2 样品集的划分Tab. 2 Division of sample sets

1.3.5 数据处理

通过稀疏主成分分析和主成分分析对不同成熟度黄花梨的光谱进行特征提取并解析,结合人工神经网络建立黄花梨成熟度的鉴别模型。

稀疏主成分分析是在主成分分析的基础上,通过引入惩罚函数把载荷向量中的部分元素置零,凸显主成分中的主要部分,更能有效提取光谱中有效信息的特征提取方法。试验采用文献[12]中提出的基于“弹性网”惩罚结构的稀疏主成分算法。算法的具体实现步骤如下:

1) 计算一般主成分的前K个主成分对应的载荷向量(αj)。

2) 在给定A=(α1,…,αk)的情况下,利用最小角回归算法解如下的“弹性网”回归问题:

λ‖βj‖2+λ1,j‖

式中:βj为弹性网络回归系数;X为光谱数据;λ为l2范数的调节参数;λ1,j为l1范数的调节参数;T为转置。

3) 对于给定的B=(β1,…,βk),计算XTXB=UDVT(U、D、V为变量)的奇异值分解(SVD),并且令A=UVT。

4) 重复步骤2),3)至收敛。

人工神经网络模型具有较强的自学习、自组织和自适应能力,能够实现输入与输出之间的高度非线性映射。反向传播(BP)神经网络是一种按误差逆传播算法训练的多层前馈网络,在光谱判别分析中具有广泛应用[13-14]。试验采用3层BP神经网络:输入层、隐含层和输出层,输入层与隐含层、隐含层与输出层之间的传递函数分别用Logsig函数和Purelin函数,训练函数采用Trainlm,隐含层节点数为6,输出层节点数为4,目标误差为1×10-8,设定训练迭代次数为1 000次。

2 结果与讨论

2.1 不同成熟度黄花梨的光谱分析

不同成熟度黄花梨的漫反射平均光谱图见图1。

1-未成熟;2-部分成熟;3-成熟;4-过熟图1 不同成熟度黄花梨的漫反射平均光谱图Fig. 1 Average reflection spectra of Huanghua pears with different maturity

由图1可知:未成熟黄花梨与过熟黄花梨的漫反射光谱差异较明显,部分成熟黄花梨与成熟黄花梨的漫反射光谱重叠严重,相似度高,且不同成熟度的黄花梨在672.3,974.7,1 186,1 431.5 nm附近有明显的吸收。672.3 nm处附近为叶绿素的吸收,而在974.7,1 186,1 431.5 nm处附近主要是水分和糖的吸收。

不同波长处黄花梨的漫反射平均光谱图见图2。

由图2可知:由于在成熟过程中黄花梨果皮从青褐色逐渐变成黄褐色,叶绿素逐渐减少,故反射率呈增大趋势,见图2(a)。随着黄花梨的成熟,果汁不断增加,故反射率呈减小趋势,见图2(b)、(c)和(d)。为了探究不同成熟度对上述4个波长点处样品反射率的影响,试验采用统计产品与服务解决方案(SPSS)数据分析软件中的方差分析(ANOVA)对不同成熟度下4个波长点处所有样品的反射率进行了方差分析,结果表明不同成熟度下上述4个波长点处的反射率差异显著(P≤0.01)。说明对不同成熟度黄花梨的光谱进行区分有意义。

2.2 主成分聚类分析

对不同成熟度的240个黄花梨光谱数据经小波去噪、二阶导数和归一化后,进行主成分分析,可以得到不同成熟度黄花梨的主成分聚类效果图,见图3。

由图3可知:未成熟黄花梨与过熟黄花梨区分显著,部分成熟黄花梨与过熟黄花梨区分也显著,但由于黄花梨果实中各成分含量分布的连续性,相邻成熟度间的样品聚集紧密,难以采用聚类的方法进行区分。

2.3 光谱特征提取与解析

对黄花梨光谱进行小波去噪、二阶导数和归一化处理后,再利用PCA和SPCA进行特征提取。主成分分析和稀疏主成分分析的载荷向量图见图4。

由图4可知:主成分分析的载荷向量图复杂,稀疏主成分分析的载荷向量图简单明了,能清楚地表达每个稀疏主成分所反映的信息,增强稀疏主成分的可解释性。其中,第一稀疏主成分载荷向量对应的波长为1 360~1 378 nm和1 454~1 456 nm,主要反映黄花梨中糖类物质和水分的信息[15];第二稀疏主成分载荷向量对应的波长为1 189~1 192 nm、1 265 nm和1 289~1307 nm,主要反映黄花梨中糖类物质的信息[16];第三稀疏主成分载荷向量对应的波长为544~568 nm和873~879 nm,主要反映黄花梨中色素和硬度的信息[6,17];第四稀疏主成分载荷向量对应的波长为839~856 nm,主要反映黄花梨中硬度的信息[6];第五稀疏主成分载荷向量对应的波长为1 221~1 237 nm和1 448 nm,主要反映黄花梨中糖类物质和水分的信息[15-16];第六稀疏主成分载荷向量对应的波长为915~935 nm,主要反映黄花梨中硬度的信息[6];第七稀疏主成分载荷向量对应的波长为662~682 nm和703~706 nm,主要反映黄花梨中色素的信息[17]。可见,稀疏主成分分析能够提取并解析黄花梨光谱中与成熟度相关的特征,包括水分、含糖量、色素及硬度等,体现了稀疏主成分分析在光谱解析中的优势,对黄花梨成熟度的鉴别具有指导意义。

(a) 640~720 nm (b) 940~1 040 nm

(c) 1 140~1 220 nm (d) 1 400~1 480 nm1-未成熟;2-部分成熟;3-成熟;4-过熟图2 不同波长处黄花梨的漫反射平均光谱图Fig. 2 Average reflection spectra of Huanghua pears at different wavelengths

图3 主成分得分聚类图Fig. 3 Scores scatter plot of PCA

2.4 基于BP神经网络的判别分析模型

为减小神经网络规模以缩短训练时间,分别以前7个稀疏主成分的得分和前7个主成分的得分作为输入变量,输出采用Compet函数,即将具有最大输出值的节点置1,剩余3个节点置0,分别定义输出[1000]为未成熟、[0100]为部分成熟、[0010]为成熟和[0001]为过熟。为防止过度拟合现象,在模型的预测过程中,首先用验证集对训练集的参数进行优化,然后对预测集进行预测。不同鉴别模型下4组黄花梨样品(每组15个)成熟度的预测结果见表3。

(a) 第一 (b) 第二

(c) 第三 (d) 第四

(e) 第五 (f) 第六 (g) 第七图4 主成分分析和稀疏主成分分析的载荷向量图Fig. 4 Loading vector diagrams of PCA and SPCA

模型不同成熟度的样品数未成熟部分成熟成熟过熟识别率/%SPCA⁃ANN1320086.67015001000013286.6700015100PCA⁃ANN1410093.331140093.330113186.670101493.33

由表3可知:SPCA和PCA结合人工神经网络建立的黄花梨成熟度鉴别模型均具有较满意的识别效果。其中,SPCA-ANN模型下不同成熟度黄花梨的预测总识别率(93.33%)优于PCA-ANN模型下不同成熟度黄花梨的预测总识别率(91.67%)。在SPCA-ANN模型下,成熟与过熟的黄花梨更容易同未成熟与部分成熟的黄花梨区分开,其中部分成熟和过熟黄花梨的识别率均为100%,未成熟和成熟黄花梨的识别率均为86.67%,这可能是由于种子转色指数与黄花梨的成熟度相关,但单一参照种子转色指数定义黄花梨成熟度与实际成熟度之间存在一定差异。

本工作利用SPCA和PCA结合ANN建立了黄花梨成熟度的快速无损鉴别模型。采用SPCA对近红外光谱进行特征提取,能有效提取光谱中与成熟度相关的特征,其中第一、第二和第五稀疏主成分主要反映黄花梨中糖类物质和水分的信息,第三、第四、第六和第七稀疏主成分主要反映黄花梨中色素和硬度的信息,这为近红外光谱解析提供了新的方法;SPCA结合ANN建立的黄花梨成熟度鉴别模型优于传统的PCA结合ANN建立的黄花梨成熟度鉴别模型,其预测总识别率为93.33%,结果表明所建模型具有较好的精度。

[1] KADER A A. Fruit maturity, ripening and quality relationships[J]. Acta Horticulturae, 1999,485(27):203-208.

[2] 赵京献,李联地,杜子春,等.梨果采收期与果实品质及耐贮性关系[J].林业科技开发, 2014,28(2):25-29.

[3] 郝勇,孙旭东,潘圆媛,等.蒙特卡罗无信息变量消除方法用于近红外光谱预测果品硬度和表面色泽的研究[J].光谱学与光谱分析, 2011,31(5):1225-1229.

[4] JIANG H, ZHU W X. Determination of pear internal quality attributes by Fourier transform near infrared (FT-NIR) spectroscopy and multivariate analysis[J]. Food Analytical Methods, 2013,6(2):569-577.

[5] 李东华,纪淑娟,重滕和明.南果梨糖、酸度近红外光谱模型适用的贮藏期研究[J].农业工程学报, 2009,25(4):270-275.

[6] 王加华,陈卓,李振茹,等.洋梨硬度的便携式可见/近红外漫透射检测技术[J].农业机械学报, 2010,41(11):129-133.

[7] BERARDINELLI A, CEVOLI C, SILAGHI F A, et al. FT-NIR spectroscopy for the quality characterization of apricots (Prunus armeniaca L.)[J]. Journal of Food Science, 2010,75(7):462-468.

[8] GUIDETTI R, BEGHI R, BO L. Evaluation of grape quality parameters by a simple Vis/NIR system[J]. Transactions of the Asabe, 2010,53(2):477-484.

[9] 牛晓颖,贡东军,王艳伟,等.基于近红外光谱和化学计量学的李果实成熟度鉴别方法研究[J].现代食品科技, 2014,30(12):230-234.

[10] 纪淑娟,李江阔,张鹏,等.不同采收期对南果梨常温货架贮藏品质的影响[J].食品科学, 2009,30(2):260-263.

[11] KENNARD R W, STONE L A . Computer aided design of experiments[J]. Technometrics, 1969,11(1):137-148.

[12] ZOU H, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J]. Journal of Computational and Graphical Statistics, 2004,15(2):2006-2025.

[13] 张初,刘飞,孔汶汶,等.利用近红外高光谱图像技术快速鉴别西瓜种子品种[J].农业工程学报, 2013,29(20):270-277.

[14] 郭文川,王铭海,岳绒.基于近红外漫反射光谱的损伤猕猴桃早期识别[J].农业机械学报, 2013,44(2):142-146.

[16] LI J, HUANG W, CHEN L, et al. Variable selection in visible and near-infrared spectral analysis for noninvasive determination of soluble solids content of 'Ya' pear[J]. Food Analytical Methods, 2014,7(9):1891-1902.

[17] JAMSHIDI B, MINAEI S, MOHAJERANI E, et al. Reflectance Vis/NIR spectroscopy for nondestructive taste characterization of valencia oranges[J]. Computers and Electronics in Agriculture, 2012,85(5):64-69.

NIRS Identification of Maturity of Huanghua Pears with Sparse Principal Component Analysis

FU Jian-hua1, ZHOU Xin-qi2, LIU Hui-jun1, LIN Min1*

(1.CollegeofMetrologyandMeasurementEngineering,ChinaJiliangUniversity,Hangzhou310018,China;2.FocusedPhotonics(Hangzhou)Inc.,Hangzhou310052,China)

Five Huanghua pears were collected from each of 12 pear trees in a same fruit yard in each of 4 definite dates in August, giving totally 240 pear samples. Spectral data was collected with each sample. Characteristic informations related to maturity in spectra were extracted by SPCA and PCA, and explanations were made. Discriminant models for maturity of the Huanghua pears were built by SPCA and PCA in combination with artificial neural network (ANN). As shown in the loading vector diagrams, it was found that: ① SPCA was effective to extract specific characteristics related to maturity from the spectra. The seven sparse principle components were found to reflect separately informations about saccharides content, moisture content, pigmentation, hardness and so on of pears; ② Total recognition in prediction of maturity by models built by SPCA-ANN were attained to 93.33%, which is higher than 91.67% the total recognition attained by PCA-ANN.

NIRS; Sparse principal component analysis; Huanghua pears; Maturity

O657.33

A

1001-4020(2017)02-0146-06

猜你喜欢
黄花梨采收期成熟度
遭雷击的黄花梨
产品制造成熟度在型号批生产风险管理中的应用
整机产品成熟度模型研究与建立
黄花梨推手——明熹宗朱由校
不同成熟度野生水茄果实的种子萌发差异研究
价可夺金的明朝黄花梨床
厚朴叶营养成分随不同采收期的变化分析
刚好够吃6天的香蕉
揭秘黄花梨为什么这么贵
5个采收期女贞子中5种成分的动态变化