基于近红外光谱仪与模式识别方法的不同年份陈皮无损鉴别研究

2021-11-17 06:59余梅李嘉仪范伟郑郁李跑蒋立文刘霞
食品研究与开发 2021年19期
关键词:内囊外壁模式识别

余梅,李嘉仪,范伟,郑郁,李跑,3*,蒋立文,刘霞

(1.湖南农业大学 食品科学技术学院 食品科学与生物技术湖南省重点实验室,湖南 长沙 410128;2.湖南师范大学 医学院,湖南 长沙 410013;3.湖南省农业科学院 湖南省农产品加工研究所,湖南 长沙 410125)

陈皮是由成熟柑橘皮经长时间干制存储而成的一种食药同源产品,主要包括挥发油、黄酮类等功效成分,具有理气健脾、燥湿化痰的功能。陈化年份不同,陈皮在药理作用和化学成分的积累上均有差别,市场价格同样具有较大的差别,因此市场中出现以低年份陈皮冒充高年份陈皮进行售卖的现象[1]。目前对于陈皮年份的鉴别多采用感官评价法、高效液相色谱法(high performance liquid chromatography,HPLC)[2]、液相色谱-质谱联用(liquid chromatography-mass spectrometry,LC-MS)[3]及气相色谱-质谱联用(gas chromatography-mass spectrometry,GC-MS)[4]等。感官评价法是对陈皮外部特征(颜色、气味)等差异实现鉴别分析,具有操作简单、快速等优点,但鉴别的准确度易受主观条件及客观环境因素的干扰。理化检测法主要通过对陈皮中的成分组成和含量进行测定以实现不同年份陈皮鉴别分析,准确度高,但需要破坏样品,且样品前处理繁琐,检测时间长、检测成本高。因此,亟需开发一种快速、无损、绿色的不同年份陈皮的无损鉴别方法。

近红外光谱主要包含氢基团化学健伸缩振动倍频及合频信息,作为近年来快速发展起来的一种新型绿色无损检测手段,近红外光谱技术具有重现性好、检测成本低、操作简单等特点[5-6]。可直接实现对未知样品组分的定性定量分析[7-9],在农业、食品、石油化工等领域皆有应用[10-12]。在陈皮无损鉴别研究方面,郭念欣等[13]通过傅立叶近红外光谱仪采集了不同产地陈皮光谱,结合主成分分析法实现了对陈皮产地的鉴别分析。周欣等[14]利用傅立叶变换红外光谱法对7个产地陈皮中的挥发油进行了分析,实现了新会陈皮和广西陈皮的鉴别分析。但由于傅立叶近红外光谱仪器存在价格较高、体积较大的问题,而光栅型便携式近红外光谱仪因具备轻便、成本低、易携带、功耗低等优点得到了广泛研究[15-17]。胡甜等[18]采用Micro NIR1700微型近红外光谱仪实现了霍山石斛的快速鉴别研究。李晓云等[19]通过便携式近红外漫反射结合偏最小二乘回归法建立了牛奶脂肪、蛋白质和干物质的定量分析模型。然而现阶段尚缺乏利用便携式近红外光谱仪用于陈皮的研究。其次,便携式近红外光谱中常存在较为严重的背景、基线漂移以及噪声干扰,随着对近红外光谱的深入研究,发现结合预处理方法可以扣除光谱中存在的干扰情况,常见的预处理方法包括:去偏置(De-bias)[20]、去趋势(de-trend,DT)[21]、标准正态变量变换(standard normal variable,SNV)[22]、多元散射校正(multivariate scattering correction,MSC)[22]、最大最小归一化(maximum-minimum normalization,Min-Max)[23]、一阶导数(first derivative,1st)[24]、二阶导数(second derivative,2nd)[24]和连续小波变换(continuous wavelet transform,CWT)[25],然而不同光谱预处理方法消除的干扰情况有所不同,DT和De-bias常被用于消除光谱中存在的基线漂移干扰,SNV和MSC被用于消除由样品颗粒分布不均匀及颗粒大小不同对光谱所造成的散射干扰,Min-Max用于消除光谱的绝对吸收值及多余信息,1st、2nd和CWT等求导算法常用于消除由仪器原因对光谱造成的背景或基线漂移等干扰,在实际分析中,由于仪器或者样品的原因,光谱中往往存在多种干扰情况,仅用单一预处理方法无法实现对光谱的优化,常需结合和预处理组合方式以消除光谱中存在的多种干扰。因此本研究以5年、10年、15年、20年和25年新会陈皮为研究对象,通过光栅型便携式近红外光谱仪采集不同年份陈皮内囊和外壁光谱信息,采用化学计量学方法对不同年份陈皮光谱进行优化,最后基于无监督模式识别的主成分分析(principal component analysis,PCA)以及有监督模式识别的独立软模型 (soft independent modeling of class analogy,SIMCA)和Fisher线性判别分析(fisher linear discriminant analysis,FLD)方法以建立不同年份陈皮的准确鉴别模型。

1 材料与方法

1.1 材料

样品:江门市新会区岭南臻宝陈皮茶叶有限公司成品包装陈皮,分别为陈化年份5年、10年、15年、20年和25年新会陈皮,每个年份样品分别制备30份,共计150份样品。不同年份陈皮见图1。不同年份的陈皮在外观上具有较大相似性,仅凭肉眼较难区分各年份陈皮。

图1 不同年份陈皮Fig.1 Different-age Citri Reticulatae Pericarpium

1.2 仪器

i-Spec Plus光栅型便携式近红外光谱仪:必达泰克光电科技(上海)有限公司,用于采集不同年份陈皮漫反射光谱信息。

1.3 光谱采集

采集不同年份陈皮内囊和外壁的漫反射光谱信息,采集范围11 190 cm-1~5 800 cm-1,为了减小由试验操作带来的误差,每一样品重复3次,取平均值作为该样品的原始光谱。

1.4 光谱数据分析

1.4.1 光谱数据分组

光谱数据分析在MATLAB R2010b(The Mathworks,Natick,USA)软件中实现,光谱数据按照 Kennard-Stone方法以样本个数比7∶3的比例分为105个校正集和45个预测集。

1.4.2 光谱预处理

为减小陈皮表皮厚度的不一致性和表面特征不均匀等因素的影响,需要采用预处理方法优化光谱,试验采用De-bias等8个单一预处理和1st-DT、1st-SNV、1st-MSC、CWT-SNV和CWT-MSC等组合预处理方法优化光谱。

1.4.3 模式识别方法

为了实现不同年份陈皮无损鉴别分析,结合PCA、SIMCA和FLD方法分别建立不同年份陈皮鉴别模型。PCA是一种常见的无监督的模式识别方法。该方法不需要先验知识,鉴别能力较弱;SIMCA和FLD是两类常见的有监督模式识别方法,其原理有所不同,前者是在对每类样品建立独立的PCA模型的前提下对未知样品进行分类;而后者是在类内差异小且类间差异大的前提下将数据在低维度上进行投影,以实现不同样品的分类。此外,FLD方法要求样本数为变量数的3倍~5倍,常采用PCA方法对数据进行降维处理,利用得到的主成分建立FLD模型。

2 结果与分析

2.1 不同年份陈皮原始光谱分析

图2为不同年份陈皮内囊和外壁的原始光谱图。

图2 陈皮内囊及外壁原始光谱图Fig.2 Original spectra of the inner capsule and outer skin of Citri Reticulatae Pericarpium

由图2可知,内囊和外壁光谱在11 190 cm-1~10 500 cm-1、6 000 cm-1~5 800 cm-1范围均出现了明显的噪声干扰;虽然谱线大致走向趋势一致,但光谱中出现了较为严重的基线漂移及谱峰重叠等干扰;光谱同时存在吸收峰强度弱、特征峰位不突出等问题,仅有两个较为明显的峰,在8 300 cm-1~8 000 cm-1附近处出现的吸收峰可能与C-H键伸缩振动的二倍频吸收带有关。在7 000 cm-1光谱中出现了较为明显的吸收峰,可能是由于O-H键伸缩振动的二倍频吸收带有关。内囊及外壁的光谱差异较小,且仅根据原始光谱无法鉴别不同年份的陈皮,可能是由于陈皮在成分含量及组分组成上具有一定的相似性。

2.2 基于PCA方法的不同年份陈皮的鉴别分析

为了实现对不同年份陈皮的鉴别分析,采用预处理方法优化光谱数据后结合PCA方法建立鉴别模型见图3。

图3 不同年份陈皮PCA结果Fig.3 PCA results of different-age Citri Reticulatae Pericarpium

图 3(a)、图 3(b)为不同年份陈皮内囊和外壁原始光谱数据的PCA结果,采用第一主成分(PC1)与第二主成分(PC2)进行PCA分析,不同年份陈皮的置信椭圆都存在不同程度的重叠,仅根据原始光谱的PCA无法实现不同陈化陈皮的鉴别。为了提高鉴别结果,采用单一及组合预处理方法对光谱进行优化。图3(c)为内囊数据结合最佳预处理(CWT)得到PCA结果,鉴别率为44%,图3(d)为外壁数据结合最佳预处理(DT)得到的PCA结果,其鉴别率为35%。和原始光谱的PCA结果相比,采用预处理后的鉴别率略有提高,表明预处理方法可以有效消除光谱中的干扰。然而,采用PCA方法仍然无法实现对不同年份陈皮的准确鉴别分析。

2.3 基于SIMCA方法的不同年份陈皮的鉴别分析

为了实现不同年份陈皮鉴别分析,采用SIMCA模式识别法结合预处理方法建立不同年份陈皮的鉴别模型。SIMCA方法得到的鉴别率见表1。

表1 通过SIMCA和不同的预处理方法获得的鉴别率Table 1 Identification accuracies obtained by SIMCA and different pretreatment methods

对于内囊数据,采用原始光谱数据结合SIMCA模式识别法可实现不同年份陈皮94%的鉴别分析;采用单一预处理后光谱得到了优化,采用De-bias、DT、Min-Max和1st预处理方法在一定程度上提高了鉴别结果,鉴别率为96%。采用组合预处理方法对光谱进行优化后,仅有CWT-SNV预处理后的结果达到了94%,其余4种组合预处理方法得到的鉴别率反而有所降低,可能是多种预处理把差异信息也进行了消除。对于外壁数据的分析,采用原始光谱结合SIMCA模式识别法的鉴别率为88%,采用SNV预处理后鉴别准确率提高至94%。采用组合预处理方法对光谱优化后,鉴别率有所降低,以1st-SNV和1st-MSC预处理后得到的结果为较佳,鉴别率为84%。以上结果表明,采用SIMCA结合预处理方法基本可以实现对不同年份陈皮的鉴别分析;与原始光谱和单一预处理结果相比,运用组合预处理方法可能会消除光谱中的有用信息,从而降低了鉴别率。

2.4 基于FLD方法的不同年份陈皮的鉴别分析

采用SIMCA模式识别依然无法实现不同年份陈皮的100%鉴别。为进一步提高鉴别准确率,通过FLD模式识别法结合不同预处理方法用于不同年份陈皮的鉴别分析。FLD模式识别法结合不同预处理方法的鉴别率见表2。

表2 通过FLD和不同的预处理方法获得的鉴别率Table 2 Identification accuracies obtained by FLD and different pretreatment methods

与PCA和SIMCA模式识别法的结果相比,采用FLD方法后,内囊原始数据的鉴别率上升到了96%;采用SNV预处理方法后可以实现100%的鉴别分析;结合组合预处理方法优化内囊数据后,其鉴别率反而有所下降,以1st-SNV和1st-MSC预处理后98%鉴别率为较佳。对于外壁数据,采用FLD方法结合原始光谱便可实现不同年份陈皮96%的鉴别;光谱采用Min-Max、1st和CWT等单一预处理优化后鉴别率提高至98%;在组合预处理方法的结果中,以1st-DT和CWT-MSC的结果较佳,鉴别率为98%。

为了更直观地反映鉴别的效果,根据FLD前3个得分绘制三维图见图4。

图4 利用SNV预处理内囊数据和Min-Max处理外壁数据得到的FLD得分图Fig.4 FLD scores of inner capsule data with SNV and outer skin data with Min-Max

图4(a)和图4(b)分别为采用SNV预处理内囊数据得到的FLD结果和Min-Max预处理外壁数据的FLD结果,可以看到不同年份陈皮得到了较好的鉴别。结果表明,采用FLD方法可有效实现对不同年份陈皮的鉴别分析。其可能原因是FLD方法利用了先验知识,在保证类内差异越小且类间差异越大前提下,将数据在低维度上进行投影以实现最佳的鉴别分析;而PCA方法是一种无监督的分类方法,没有利用先验知识,单纯利用方差信息进行分类,鉴别能力较差;SIMCA方法是通过对每一类数据分别建立PCA模型,

再利用这些模型对未知数据进行分类,依旧存在鉴别能力不够强的问题,对于类间差异很小的样本分析往往得不到满意的结果。

3 结论

基于光栅型便携式近红外光谱仪结合光谱预处理方法以及PCA、SIMCA和FLD等不同模式识别方法建立对不同年份陈皮的鉴别模型。由于仪器的限制,光谱中存在较为明显的背景、基线漂移以及噪声干扰,预处理方法可以有效消除光谱中存在的多种干扰。与主成分分析方法和软独立模式分类法结果相比,FLD方法结果最优,Min-Max、1st和CWT等单一预处理或1st-DT、CWT-MSC等组合预处理方法结合外壁数据得到的鉴别率为98%,而采用内囊数据结合原始光谱便实现了不同年份陈皮100%鉴别分析。采用光栅型便携式近红外光谱仪结合合适的化学计量学方法能有效实现对不同年份的鉴别分析。

猜你喜欢
内囊外壁模式识别
进展性纹状体内囊梗死应用替罗非班干预的疗效及其预测因素分析
液体火箭发动机推力室身部外壁快速电铸成型技术
内囊前肢破坏术治疗强迫症的效果分析
厚玻璃杯预热更容易炸裂
常规CT上瘤内囊变对腮腺良恶性肿瘤的鉴别诊断价值
万福矿井副井井筒掘砌技术探讨
磁共振弥散张量成像在婴幼儿痉挛型脑瘫中的应用
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
烧水时烧水壶外壁为何会“出汗”
卷积神经网络分类模型在模式识别中的新进展