梁梦醒,戴 军,韩邦兴,陈存武,陈乃富,熊 孟,江明珠,颜 辉
(1.江苏科技大学 生物技术学院,江苏 镇江 212018;2.皖西学院,安徽 六安 237012;3.安徽省石斛产业化开发协同创新中心,安徽 六安 237012)
傅里叶变换红外光谱结合无信息变量消除鉴别河南小石斛和霍山石斛鲜条品种的方法研究
梁梦醒1,戴 军2,3,韩邦兴2,3,陈存武2,3,陈乃富2,3,熊 孟1,江明珠1,颜 辉1
(1.江苏科技大学 生物技术学院,江苏 镇江 212018;2.皖西学院,安徽 六安 237012;3.安徽省石斛产业化开发协同创新中心,安徽 六安 237012)
采用傅里叶变换红外光谱(Fourier Transform Infrared Spectroscopy, FT-IR)仪结合衰减全反射(Attenuated Total Reflection, ATR)附件采集石斛茎部(近根部)横断面的中红外光谱,原始光谱经标准正态变换(Standard Normal Variate, SNV)和均值中心化(Mean Center, MNCN)预处理后,采用偏最小二乘法判别分析法(Partial Least Squares Discriminant Analysis, PLSDA)建立两种石斛的鉴别模型。结果显示,全谱PLSDA方法所建模型校正集、校正集交叉验证和预测识别率分别为96.25%、92.69%和91.82%。采用无信息变量消除法(Uninformative Variable Elimination, UVE)优选敏感波长后,建立PLSDA模型的准确性更高,校正集、校正集交叉验证和预测集识别正确率分别达到了99.28%、95.72%和95.02%。
霍山石斛;河南小石斛;傅里叶变换红外光谱;偏最小二乘法判别分析法;无信息变量消除
石斛(DendrobiumnobileLindl)属于兰科植物,全世界有1 000多种,主要分布于大洋洲、欧洲、亚洲等热带及亚热带地区。我国大约有70多种石斛,主要分布在秦岭至淮河以南的广大地区,其中铁皮、紫皮、米斛等有很好的药用价值,有多种药理活性,能改善口干烦渴、热病伤津、目暗不明、食少干呕等症状[1]。
霍山石斛(DendrobiumhuoshanenseC. Z. Tang et S. J. Cheng),又称霍山米斛,是石斛中一个品种,具有增强免疫力、抑制肿瘤、抗衰老,抗氧化、降血糖等药理作用,自古以来就被认为是石斛中的佳品[2]。河南小石斛(Dendrobiumhenanense)在外形上与米斛极其相似,非常难以分辨。近年来,随着人们保健意识的提高,对霍山米斛的需求量增大。霍山米斛生长缓慢,产量比河南小石斛、铁皮石斛等其他石斛低很多,无法满足人们的需求,导致霍山米斛资源日趋匮乏,河南小石斛冒充霍山米斛销售的事件时有发生,这严重损害了消费者利益。
目前对于石斛的品种鉴别,主要有显微组织观察法、分子生物学法、光谱法。白音等[3]用光学显微镜观察药用石斛茎表皮细胞特征来对石斛进行鉴别。丁小余等[4]用位点特异性PCR鉴别法鉴别兜唇石斛。徐蓓等[5]用薄层色谱法对黄草类石斛鉴别。这些方法都需要对样品进行预处理,存在费时费力、专业技术要求高的缺点,且无法做到实时、快速。因而建立一种快速、简捷、高效鉴别霍山米斛与河南小石斛的方法,对于保护消费者利益、规范霍山石斛的健康发展有重要作用。
傅里叶变换红外光谱是物质在中红外区的吸收光谱,反映了分子中各官能团信息,蕴含物质的组成信息。因其具有极高的分辨能力,结合判别分析方法建立的模型可以对物质进行定性和定量研究,在石化[6]、乳制品[7]、精油[8]、酒类[9]等行业有广泛的应用。目前,常用的判别分析法有主成分分析法[10]、支持向量机法[11]、簇类独立软模式法[12]、聚类分析[13]、偏最小二乘判别分析法(partial least squares discriminant analysis, PLSDA)[14]。PLSDA是基于偏最小二乘(partial least squares, PLS)回归的分类方法,分类能力很强。由于光谱中信息不是均匀分布在波长变量中,有些变量所含信息少,噪声多。当这些变量进入PLSDA模型中,将降低预测效果。
本文基于石斛鲜条中红外光谱,采用PLSDA对河南小石斛和霍山米斛进行鉴别,并用无信息变量消除(uninformative variable elimination, UVE)[15]优选出对品种敏感的波长变量,以期提高鉴别正确率。
经实地采样,河南小石斛和霍山米斛鲜条样品共246个,其中河南小石斛142个,霍山米斛104个。样品按2∶1比例随机分为校正集和预测集,其中校正集含164个,预测集含82个。
在鲜条样品的近根部将茎杆横切切断,使用傅里叶变换红外光谱仪(布鲁克Tensor27型)采集橫切面处光谱,光谱范围为4 000~600 cm-1,分辨率为4 cm-1,共1 762个波长变量,扫描次数32次,同一个样品,采集3次光谱取平均值作为最终光谱。室温下采集,空气湿度约35%。
中红外光谱反映了样品本身的特征信息,但由于受到光散射、样品组分不均匀、随机噪声的干扰,产生噪声信息。因此需要选择合适的光谱预处理方法,减少噪声,突显光谱信息,从而建立准确的模型,提高鉴别能力[16]。本试验中采取标准正态变换(Standard Normal Variate, SNV)和均值中心化(Mean Center, MNCN)方法进行预处理光谱。
PLSDA是一种集典型判别分析、主成分分析和多元线性回归等重要功能为一体的基于PLS回归方法的判别分析法,它能够将采集的光谱数据与分类变量建立线性回归模型,利用特定的判别阈值对模型结果进行判别分析[17]。样品的类属通常以二进制码组来表示,模型的分离效果可以用得分图中两组样品分离的程度表示,分离程度越大,分类效果越显著[18, 19]。本试验中,将河南小石斛定义成[1,0],霍山米斛定义成[0,1]。
UVE是建立在分析PLS回归系数基础上的算法,目的是消除那些不提供有用信息的波长变量。在PLS多元回归模型中,把随机变量矩阵加入光谱矩阵中,建立PLS多元回归模型,从而得到回归系数的矩阵,通过分析回归系数矩阵中回归系数向量的均值和标准偏差的商的稳定性,然后根据商值的绝对值大小决定是否把该变量用于最终的模型中[20]。本试验通过UVE-PLS方法筛选出敏感波长,然后利用这些敏感波长建立PLSDA模型。
样本的原始中红外光谱曲线如图1所示。3 600~3 200 cm-1范围内出现羟基伸缩振动的吸收峰,2 960~2 700 cm-1的弱吸收峰是亚甲基的C—H键的伸缩振动,1 650~1 590 cm-1为羧酸盐中羰基的吸收峰,1 150~900 cm-1之间的吸收峰是C—O键的伸缩振动[21,22]。由于全部样品光谱曲线中的吸收峰位置基本相同,无法通过原始光谱曲线对样品进行鉴别分类,所以需要借助化学计量学方法进行判别分析。首先对原始光谱进行预处理,经SNV和MNCN处理后的光谱如图2所示,光谱的峰位更多,光谱间差异突显,有利于提取特征信息。
图1 原始光谱
图2 经SNV和MNCN处理后的光谱
原始光谱经过SNV结合MNCN方法预处理后建立PLSDA模型。图3所示的是其判别分析结果,其校正集及预测集中河南小石斛样本聚集在数值1这一侧,而霍山米斛在校正集和预测集的分类变量聚集在数值0这一侧。靠近分类线的样品数量较少,绝大多数样品可以很好地区分。图4是河南小石斛预测的概率图,从中可见绝大多数河南小石斛的预测概率是1,霍山米斛样品的概率为0,概率位于0.5附近的样品很少。模型的预测结果见表1,校正集、校正集交叉验证及预测集的预测正确识别率分别为96.25%、92.69%和91.82%,正确率较高。
图3 河南小石斛的预测分类图
图4 河南小石斛预测概率图
经UVE-PLS,选择得到863个变量,约为原来的一半,如图5所示,蓝色的部分为选择得到的敏感波长变量所在位置。
图5 UVE-PLS优选出的敏感波长变量
将优选出的变量进行PLSDA方法建模,结果如表1所示,校正集的正确识别率为99.28%,比全波长建模提高了3.15%,交叉验证的识别正确率为95.72%,比全波长建模提高了3.03%,预测集的正确识别率为95.02%,比全波长建模提高了3.47%。分析结果表明,UVE算法剔除了全波长中的一些无信息变量,提高了模型的判别能力,更加有利于鉴别霍山米斛和河南小石斛。图6是模型预测河南小石斛的结果,与图3相比,两类样本分离的更开,因此分类能力更好。图7是模型的预测概率,与图4相比,更多样本的概率向1和0接近,这些都表明分类能力提高,预测能力更强。
表1 模型结果
图6 UVE-PLSDA模型判别河南小石斛的结果
图7 UVE-PLSDA预测河南小石斛的概率分布
图8 UVE-PLSDA鉴别方法的敏感性与特异性
敏感性和特异性是分类研究中重要的考察指标。如图8所示,本试验中所建立的UVE-PLSDA方法的敏感性和特异比较高,校正集及交叉验证的敏感性和特异性都大于0.95,预测集的敏感性和特异性分别为0.957和0.943,这表明本试验建立的方法在实际应用中将会比较可靠。
由此可见,UVE-PLS去除了无信息变量,将高信息的波长变量用于PLSDA建模,可以取得很好的、可靠的鉴别效果。
本研究结果表明,基于FT-IR的中红外光谱技术可以用于快速鉴别霍山米斛和河南小石斛鲜条的品种。全波长变量建立PLSDA模型,对校正集和预测集的预测效果较好,正确率高于91%。通过UVE-PLS算法对敏感波长进行优选,可以提高模型的预测精度,对校正集和预测集的预测效果更好,正确率高于95%,并有很高的敏感性和特异性。本方法为建立基于红外光谱的霍山米斛和河南小石斛鲜条的鉴别方法提供实验依据。
[1]李桂锋,李进进,许继勇,等.铁皮石斛研究综述[J].中药材,2010,33(1):150-153.
[2]邓辉,陈存武,韩邦兴,等.现代分析技术在霍山石斛研究中的应用[J].安徽农学通报,2014(12):17-20,46.
[3]白音,包英华,王文全.石斛属植物及其混淆品的茎表皮细胞特征及其鉴别价值[J].中草药,2011(3):593-597.
[4]丁小余,徐珞珊,常俊,等.兜唇石斛的位点特异性PCR鉴别[J].南京师大学报(自然科学版),2002(4):71-76.
[5]徐蓓,杨莉,陈崇崇,等.黄草类石斛的薄层色谱鉴别研究[J].中国药品标准,2010(2):99-103.
[6]王少辉.FTIR中红外光谱分析技术及在石化领域中应用[C]//兰州:第七届全国青年分析测试学术报告会,2002.
[7]张文海,顾小红,周文果,等.中红外光谱技术在乳制品分析中的应用研究[J].中国乳品工业,2013(1):36-39.
[8]唐军,廖享,童红,等.基于气质与PLS-DA对新疆薰衣草精油判别分析[J].计算机与应用化学,2014(06):701-704.
[9]向伶俐,李梦华,李景明,等.近、中红外光谱法融合判定葡萄酒产地[J].光谱学与光谱分析,2014(10):2662-2666.
[10]Singh H., Raj V.B., Kumar J., et al. SAW Mono Sensor for Identification of Harmful Vapors using PCA and ANN [J]. Process Safety and Environmental Protection,2016(102):577-588.
[11]栾锋.支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D].兰州:兰州大学(博士学位论文),2006.
[12]Xu C, Jia X, Rong Xu R,et al. Rapid Discrimination of Herba Cistanches by Multi-step Infrared Macro-fingerprinting Combined with Soft Independent Modeling of Class Analogy(SIMCA)[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2013(114): 421-431.
[13]Szafran A.T., Mancini M.G., J.A., et al. Use of HCA in Subproteome-immunization and Screening of Hybridoma Supernatants to Define Distinct Antibody Binding Patterns[J]. Methods, 2016(96): 75-84.
[14]何彬.基于红外光谱技术的牛奶掺杂判别方法的研究[D].天津:天津大学(硕士学位论文),2010.
[15]Tan C, Wang J, Wu T, et al., An Ensemble Method Based on Uninformative Variable Elimination and Mutual Information for Spectral Multivariate Calibration[J].Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2010,77(5):960-964.
[16]Li X. and He Y. Discriminating Varieties of Tea Plant Based on Vis/NIR Spectral Characteristics and using Artificial Neural Networks[J]. Biosystems Engineering,2008, 99(3): 313-321.
[17]颜辉,韩邦兴,吴琼英,等.近红外光谱结合PLSDA鉴别桑叶收获时间[C].中华中医药学会第十届中药鉴定学术会议论文集,2010.
[18]张敏,杨进,付海燕,等.近红外光谱结合PLSDA鉴别不同产地的川续断[J].三峡大学学报(自然科学版),2011(4):81-84.
[19]Borràs, E., Ferré J., Boqué R., et al. Olive Oil Sensory Defects Classification with Data Fusion of Instrumental Techniques and Multivariate Analysis (PLS-DA) [J]. Food Chemistry, 2016. 203: 314-322.
[20]Moros J., Kuligowski J., Guillermo Quintás G., et al. New cut-off Criterion for Uninformative Variable Elimination in Multivariate Calibration of Near-infrared Spectra for the Determination of Heroin in Illicit Street Drugs[J]. Analytica Chimica Acta, 2008. 630(2):150-160.
[21]陈卫卫,陶靖,莫莹,等.广西不同来源马鞭石斛红外指纹图谱的鉴别[J].光散射学报,2014(1):84-87.
[22]李小琼,葛晓军,郑斯卓,等.金钗石斛多糖的提取及部分理化性质分析[J].江苏大学学报(医学版),2008(5):446-447.
StudyontheIdentifySpeciesfromStemofDendrobiumHenanandDendrobiumHuoshanenseUsingFourierTransformInfraredSpectroscopyCombinedwithUninformativeVariableElimination
LIANG Mengxing1, DAI Jun2,3, HAN Bangxing2,3, CHEN Cunwu2,3, CHEN Naifu2,3, XIONG Meng1, JIANG Mingzhu1, YAN Hui1
(1.SchoolofBiotechnology,JiangsuUniversityofScienceandTechnology,Zhenjiang212000,China;2.SchoolofBiotechnologyandPharmaceuticalEngineering,WestAnhuiUniversity,Lu’an, 237012,China; 3.CollaborativeInnovationCenterofAnhuiDendrobiumIndustrialDevelopment,Lu’an237012,China)
We collected spectra of dendrobium at the stem near root by Fourier transform infrared spectroscopy (FT-IR) with attenuated total reflection (ATR). The raw spectra were preprocessed by standard normal variate (SNV) and mean center (MNCN), using partial least squares discriminant analysis (PLSDA) to build model. Results demonstrated that the prediction precision of model built with full wavelength variables was good, the forecast recognition rate in calibration set, cross validation for calibration set and prediction set were 96.25%, 92.69% and 91.82% respectively. After wavelength variables optimized by UVE, forecast recognition rate in calibration set, cross validation for calibration set and prediction set were improved to 99.28%, 95.72% and 95.02% respectively.
Dendrobium Huoshanense; Dendrobium Henan; Fourier transform infrared spectroscopy; partial least squares discriminant analysis; uninformative variable elimination
R284.1
A
1009-9735(2017)05-0001-05
2017-04-05
安徽省教育厅重点项目“基于近红外光谱技术的石斛类药材快速无损识别研究”(KJ2014A279);安徽省石斛产业化开发协同创新中心计划。
梁梦醒(1993-),女,安徽六安人,硕士研究生,研究方向:生物分析;通信作者:颜辉(1971-),男,副教授,硕士生导师,研究方向:红外光谱分析。