基于拉曼光谱的广陈皮年份检测方法

2023-02-08 14:44李静敏辛志昂聂青青罗甲白华高强
食品工业 2023年1期
关键词:曼光谱拉曼陈皮

李静敏,辛志昂,聂青青,罗甲,白华,高强*

天津工业大学电子与信息工程学院(天津 300387)

自古以来,陈皮以其独特的风味并作为一种药材为大众所熟知,而广陈皮作为陈皮的优良品种更是享有美誉[1-2]*。广陈皮具有丰富的药用价值,可用于缓解胸腹胀满、脾虚食欲不振等症状,还可燥湿化痰、利水通便,适当地食用广陈皮对人体消化系统、呼吸系统、心血管系统和泌尿系统等多个系统器官都有正面作用[3-6]*。市面上的广陈皮因年份不同,导致优劣质量也有所不同,而广陈皮的质量会影响其药用价值的发挥。因此需要研究如何有效鉴别陈皮年份,使陈皮能够更好地投入使用。

为了对不同年份的广陈皮进行分析研究,需要对其进行信息采集。拉曼光谱提供快速、简单、可重复、无损伤的定性定量分析,而且可以对有机物及无机物进行分析,在中药化学成分的鉴别中起着重要的作用。由于陈皮在陈化过程中,其化学成分、药理作用均与贮藏年份呈正比[7]*,有着“陈久者良”的说法[8-11]*,而且相较于检测时间长、样品提取复杂、对试验要求高的质谱法、色谱法,利用快速、简便的拉曼光谱研究陈皮成分[12-14]*得到广泛关注。

有研究通过拉曼光谱分析不同年份陈皮的化学成分[15-19]*,也有许多研究通过统计学分析或模式识别方法对乳制品、干细胞、血清等进行分析[20-24]*,但对于利用统计学分析或模式识别方法结合拉曼光谱实现陈皮年份鉴别方面的研究,却鲜有报道。主成分分析法作为模式识别的一种,在统计学、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法,且t检验作为统计学分析方法的一种,常用于判定2个平均数之间的差异是否显著,因此使用t检验和主成分分析法结合拉曼光谱对陈皮年份进行鉴别,有着重要的研究意义。

试验利用t检验的统计学分析方法对不同年份的广陈皮拉曼光谱进行定量和定性研究,并使用主成分分析的模式识别法建立回归模型,对广陈皮的年份进行鉴别预测,有助于使陈皮更好地发挥自身的药用价值。

1 数据采集与预处理

1.1 数据采集

试验用Maya 2000便携式拉曼光谱仪(美国海洋光学公司,激光器波长785 nm)采集样本数据,使用的陈皮样本来自于广东新会陈皮。分别对2012,2015和2019年的广陈皮进行拉曼光谱采集,将每一年份的陈皮分为9组样本。考虑到实际检测过程中陈皮放置方式的不确定性,故样本分别在正面和反面采集数据(陈皮的内里为正面、外壁为反面,下同),以消除在检测时陈皮放置方式对其成分的影响。每一年份采集3个陈皮样本,每个陈皮样本分为3瓣,每瓣在正面和反面分别采集3个点以消除误差,共采集得到162组数据,正反面各81组,采集到的原始光谱数据如图1所示。

通过观察图1中的原始拉曼光谱图可知,随着拉曼位移的变化,其对应的光谱强度也随之发生变化,而所有陈皮的光谱中,强度在拉曼位移270 cm-1*前开始急剧上升,出现大量无效信息,故在后续的研究分析过程中只考虑拉曼位移270 cm-1*后的光谱信息。

图1 不同年份广陈皮原始拉曼光谱图

1.2 数据预处理

光谱中普遍存在背景噪声以及荧光,仅通过仪器的精度和准确度来消除检测干扰受到仪器自身的限制远远不够,因此采用去基线的方法对数据进行预处理。在光谱分析中,去基线能够非常有效地提高谱图信噪比,降低随机噪声的影响。

基于拉曼位移270 cm-1*前出现大量无效信息,故读取原始数据后,选择拉曼位移270~2 170 cm-1*作为特征波段,对这部分的数据进一步处理。使用PeakFit软件对原始光谱去基线,找到光谱基线趋势的拐点,选择2nd-DerivZero,即通过不同方程(如线性、多项式、对数等)的方法,拟合光谱基线,图2为去基线后的拉曼光谱图。

图2 去基线后的拉曼光谱图

去基线后的拉曼光谱比原始拉曼光谱的拉曼特征峰更明显一些,拉曼光谱的特征峰位反映物质化学键的振动或转动频率,因此不同位置的拉曼特征峰可以代表不同的化学键,从而反映出分子的结构信息。

无论是原始光谱图还是去基线后的光谱图,在不同年份正反面广陈皮的光谱图中,峰的绝对强度数值差别较大,为了更好地对广陈皮中的化学成分进行定量和定性分析,对去基线后的拉曼光谱进行归一化处理。归一化可以校正由于微小光程引起的光谱变化,消除在测量过程中产生的数据在数量级之间的差异。通过观察发现,在绝大部分广陈皮的拉曼光谱中,拉曼位移492 cm-1*处的绝对强度最高,故将其作为参照值对其他特征峰进行归一化,如式(1)所示。

式中:I’为归一化后的相对强度;I为归一化前特征峰对应的数值;I492nm是该组光谱数据中拉曼位移为492 cm-1*处测量得到的绝对强度。

由于采集的样本组数偏少,且取均值的操作能够大幅减小在试验中的误差,故对同一年份的同一片陈皮所采集的数据进行取均值处理,如式(2)所示。

式中:I’为新生成的光谱数据;n为某一片陈皮所采集的数据数;Xi(i=1,2,…,n)为第i组数据的光谱值。提到采集3个年份的陈皮数据,每年采集3个陈皮样本,每个陈皮样本分为3瓣,根据上述方法计算正面和反面每一年份的均值、每一个陈皮样本的均值、每一瓣陈皮样本的均值,分别生成6,18和54组数据,共生成新的78组广陈皮数据,正、反面各39组,作为后续主成分分析模型的验证数据,以验证模型的准确性。

图3为经过归一化和取均值处理后的拉曼光谱图,图3(a)为反面光谱,图3(b)为正面光谱,f表示反面,z表示正面,为了清晰起见,光谱垂直移动。经过预处理后拉曼位移相对强度在特定的区间0~1内,消除数量级的影响,便于后续数据的对比分析。

图3 归一化平均拉曼光谱

2 模型的建立及结果分析

2.1 拉曼光谱t检验

2.1.1 拉曼特征峰归属

拉曼光谱是一种无损的分析技术,该技术基于光和材料内化学键的相互作用,可以提供样品化学结构、相和形态、结晶度及分子相互作用的详细信息。一张拉曼光谱图通常由一定数量的拉曼峰构成,每个拉曼峰代表相应的拉曼散射光的波长位置和强度。每个谱峰对应于一种特定的分子键振动,其中既包括单一的化学键,如C—C,C=C,N—O,C—H等,也包括由数个化学键组成的基团的振动,如苯环的呼吸振动、多聚物长链的振动及晶格振动等。

从广陈皮去基线后的拉曼光谱图(图2)中可以看出,广陈皮的拉曼光谱在不同年份的同一位置出现多个拉曼特征峰,对广陈皮主要的特征峰进行归属[25-34]*,结果在表1中列出。

表1 广陈皮拉曼峰归属表

在进行拉曼光谱定量分析时,由于拉曼光谱数据的信息量庞大,除特征峰之外的数据存在信息重叠问题,故将预处理后拉曼光谱中19个特征峰对应位置的峰强度进行统计,并进行相应的分析。

2.1.2 光谱统计学分析

据广陈皮正面和反面的归一化平均拉曼光谱(图3)显示,年份改变时,特征峰的位置和宽度没有明显变化,然而从图3(a)可以明显看出,在1 272和1 275 cm-1*处的峰值相对强度随年份有所变化,表明可以选择峰值相对强度作为检测广陈皮年份的特征。由于仅有几个峰的强度在图像上有明显的变化,大部分峰强度的变化相对较小,因此采用t检验选取不同年份广陈皮存在显著差异的峰,从而找到对广陈皮内部物质变化敏感的分子振动。

建立假设H0,2个年份之间某一特征峰无明显差异;H1,2个年份之间某一特征峰存在显著差异,用P值表征t检验的结果,P<0.05时说明有理由拒绝H0、接受H1,说明两者之间存在差异,P值越小,说明差异越可靠。

接表2

由于广陈皮正面和反面的化学物质含量不同,将正面和反面分开,对2012,2015和2019年广陈皮两两之间分别进行t检验,得到的结果如表2所列。结果表明,陈皮正面仅有很少一部分的特征峰在不同年份之间存在显著差异(P<0.05),而陈皮反面绝大部分的特征峰都表现出具有显著差异,其中2012年和2015年、2015年和2019年之间几乎全部的特征峰具有极显著差异(P<0.001)。反面存在多个特征峰,3组数据全部都通过t检验,而正面不存在通过3组t检验的特征峰,这表明反面的拉曼光谱更能够用于鉴别区分广陈皮的年份。

表2 t检验得到的P值

从表2得出广陈皮反面在418,768,869,1 154,1 272,1 374,1 479,1 553,1 598,1 725,1 831,1 864和2 124 cm-1*处的特征峰均通过3组t检验。图4表示不同年份反面拉曼特征峰的相对强度比较,*表示在表2中的3组数据均通过t检验。在这些数据中,广陈皮年份越久时,768 cm-1*处N-甲基甲酰胺的C—C伸缩振动、869 cm-1*处陈皮色氨酸、2 124 cm-1*处聚炔类化合物峰强度降低,1 598 cm-1*处黄酮类苯衍生物苯环伸缩双峰的峰强度增加,因此可用这4个峰的强度来表征广陈皮的年份。

图4 反面不同年份间特征峰相对强度比较

2.2 拉曼光谱主成分分析

2.2.1 主成分分析基本原理

主成分分析是一种降维的思想,能够在损失信息很少的前提下,利用正交旋转变换将多个指标转化为几个综合指标。转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间彼此独立。经过分析得到的主成分按方差递减的顺序排序,并计算对应主成分的贡献率,当累积贡献率达到一定程度时,选取前几个方差最大的主成分代替原变量,用这些主成分就能够综合反映原变量中所包含的主要信息,实现降维的效果。

2.2.2 模式识别模型的建立

在进行拉曼光谱的分析时,由于拉曼光谱的偏移范围相差较大,会导致样本的特征点之间存在信息重叠的问题,容易使分析结果出现偏差,因此需要对光谱数据通过主成分分析进行降维,提取出广陈皮拉曼光谱中的主成分。

主成分分析在数学上的处理是将原始的p个变量作线性组合,作为新的变量。在2.1.2中证实广陈皮反面的光谱数据有显著差异,故采用不同年份广陈皮反面拉曼光谱中出现的4个具有单调变化的拉曼特征峰作为主成分分析的指标,设这4个原始变量为x1、x2、x3、x4,由此可以得到4个主成分Z1、Z2、Z3、Z4。每个主成分的贡献率和样本前k个主成分的累积贡献率定义为式(3)和式(4)。

式中:λ为主成分的特征值,p为主成分的个数。

2.2.3 结果和讨论

采用MATLAB编程,对不同年份广陈皮反面的拉曼光谱进行主成分分析,得出对应的主成分贡献率,并计算累积贡献率,得到的结果如表3所示。

表3 主成分特征值及贡献率

各个主成分轴上的特征值代表该轴承载的方差量,通过将该轴的特征值除以所有轴的总方差和,所得比例即为该轴所解释的方差比例。在表3中,PC1的特征值为2.980 7,解释原有变量的方差比例为74.52%,累积贡献率为74.52%,其他数据的含义以此类推。得到的前2个主成分累积贡献率为87.87%,其他主成分的贡献率均小于0.5%,故原则上只需取前2个主成分即可概括原有变量的大部分信息,信息丢失较少,主成分分析的结果较理想。

因此一般来讲,如果很少的主轴(如第1轴和第2轴,记为PC1和PC2,分别对应第1主成分和第2主成分)承载大部分的方差,或者说解释大部分差异,则表明通过PCA分析该数据是“合理”的。在后续描述数据特征时,只需通过这些主成分的特征即可有效表征原初数据的结构。对于广陈皮具体年份的鉴别,还需建立回归模型进行预测分析。

2.2.4 模型的验证

将反面预处理后的81组拉曼光谱数据作为训练集,取768,869,1 598和2 124 cm-1*处在不同年份间有显著差异的特征峰作为数据,进行主成分回归。主成分回归将多个彼此相关、信息重叠的拉曼特征峰指标通过适当的线性组合,使之成为彼此独立而又提取原始广陈皮年份指标信息的主成分,建立拉曼特征峰与主成分的回归关系式,将其还原为拉曼特征峰与广陈皮年份之间的回归方程,以建立广陈皮年份的鉴别预测模型。

对数据进行多元线性回归分析和共线性诊断,得到调整的判定系数R2*=0.174 4,说明模型总体拟合的效果一般。

共线性诊断得到的条件指数如表4所示。4个主成分的条件指数均小于10,表明自变量间不存在多重共线性,说明这4个自变量均为有效信息。考虑自变量为经t检验筛选后的拉曼特征峰,故不存在共线性。且这4个自变量在表3中的累计贡献率为100%,因此在进行主成分回归时,选取这4个变量作为主成分,进行主成分回归,得到的回归模型如式(5)所示。

表4 共线性诊断结果

式中:x1、x2、x3、x4分别为768,869,1 598和2 124 cm-1*处特征峰。根据回归方程可看出,x1前面的系数为负,说明该处物质变化和广陈皮年份呈反比,x2、x3、x4前面的系数为正,说明对应物质变化和广陈皮年份呈正比。x4前面的系数最大,说明其对应物质黄酮类苯衍生物对广陈皮年份的影响最大。

根据回归方程建立鉴别预测模型,将数据代入回归方程即可得到预测结果。用取均值后新生成的39组反面数据作为测试集对模型进行验证,得到训练集的预测精度为77.78%,测试集的预测精度为76.92%,实现3个年份广陈皮样本的鉴别预测。

3 结论

将拉曼光谱与模式识别分类方法结合,对年份为2012,2015和2019年,即10,7和3年的广陈皮样本进行研究。通过使用主成分分析法对拉曼光谱数据进行分析,建立模型进行鉴别预测,达到预期的效果。

考虑到广陈皮在实际检测时放置的方式不同,将样本区分为正面、反面进行研究。拉曼光谱的试验表明,在3个年份正面、反面的广陈皮拉曼光谱图中,均在320,418,594,667,768,869,974,1 048,1 154,1 272,1 374,1 479,1 553,1 598,1 725,1 831,1 864和2 124 cm-1*处出现拉曼光谱的特征峰,这些均为广陈皮内部的主要营养物质,包括黄酮类化合物、糖类、色氨酸、纤维素等。

利用t检验的统计学分析方法,证明反面的拉曼光谱在不同年份之间差异更显著,而对应N-甲基甲酰胺的C—C伸缩振动、陈皮色氨酸、黄酮类苯衍生物苯环伸缩双峰、聚炔类化合物的768,869,1 598,2 124 cm-1*处特征峰均通过t检验(P<0.05),说明其含量在不同年份间存在显著差异,且这些特征峰随年份单调变化,说明可以利用这4个特征峰来鉴别广陈皮的年份。

对样本筛选后的拉曼光谱进行主成分分析后发现,4个主成分的条件指数均小于10,表明自变量间不存在多重共线性,说明这4个自变量均为有效信息,且这4个自变量的累计贡献率为100%,故以这4个因子作为主成分对样本建立回归模型可实现广陈皮年份的鉴别。为验证模型的准确度,将采集的81组反面样本作为训练集建立主成分回归模型,将取均值新生成的39组数据作为测试集对回归模型进行验证,样本训练集的预测准确率为77.78%,测试集的预测准确率为76.92%,初步实现对广陈皮年份的鉴别,证明用主成分分析对广陈皮年份鉴别的合理性。

试验仅对广陈皮拉曼光谱进行主成分分析模式识别法的研究,后续研究中可结合拉曼光谱与卷积神经网络等机器学习的算法进行深入研究,以提高广陈皮分类模型鉴别的准确率,对合理发挥广陈皮的药效提供参考价值。

猜你喜欢
曼光谱拉曼陈皮
卡西米罗·吉塞拉的诗
馆藏高句丽铁器的显微共聚焦激光拉曼光谱分析
陈皮很养生 但不宜久服
聊聊陈皮的保质期
蛇胆陈皮制剂中陈皮UPLC指纹图谱
基于拉曼光谱的面团冻结过程中水分分布的在线监测
基于相干反斯托克斯拉曼散射的二维温度场扫描测量
探测非透明介质下深层成分的拉曼光谱技术研究
BMSCs分化为NCs的拉曼光谱研究
LRS-Ⅲ型激光拉曼仪探测本领的综合分析