基于红外光谱法结合SIMCA模式识别不同产地三七

2019-01-18 05:56姜亦南蔺明煊何帅丁永胜郭丽萍石晋丽陈建波
中医药信息 2019年1期
关键词:模式识别文山识别率

姜亦南,蔺明煊,何帅,丁永胜,郭丽萍,石晋丽,陈建波

(1.北京中医药大学中药学院,北京 100029;2.北京中医药大学生命科学学院,北京 102488)

三七Panaxnotoginseng(Burk.)F.H.Chen又名田七、人参三七、参三七等,是五加科植物三七的干燥根及根茎[1],能够散瘀止血,消肿定痛,用于咯血、吐血、衄血、便血、崩漏、外伤出血、胸腹刺痛和跌扑肿痛等,是我国传统珍贵药材[2]。近年来,由于三七需求量增大,由原来道地产区云南文山向新产区扩展,且三七用法多为粉末冲服,目前市场上三七粉产品种类繁多,很难直观判断其质量优劣,且价格差异明显,无法保证其质量。因此,构建一种对鉴别三七产地简单易行的方法具有重要的理论和实践意义。

目前,性状鉴别、薄层色谱分析、紫外分光光度法、指纹图谱等三七的传统鉴别方法多用于真伪鉴别[3-5]。近红外(near infrared reflectance spectroscopy,NIRS)技术作为一种高效绿色分析新技术[6],具有检测速度可达到秒级,可直接对固体粉末、饮片等进行定性及定量分析等特点,在我国中药分析领域取得了较快的发展[7]。近红外技术在鉴定三七方面的研究多偏向于含量测定和真伪鉴别,如闫珂巍[8]等采集三七近红外光谱,建立三七皂苷的近红外定量分析模型,快速准确地对三七中3种皂苷的总含量进行预判,为三七药材质量的快速检验提供依据;张延莹[9]等共采集了289份三七以及其他市面上经常作为伪品药材的近红外光谱图,建立了一种新的三七以及其伪品的鉴别方法,为三七药材的质量监控提供科学依据。但目前尚无一种简单快速利用近红外光谱区分不同产地三七的研究,因此本次实验利用傅里叶变换红外光谱法并结合具有模式识别技术的SIMCA法对10个不同产地的三七进行鉴别分析,结果表明该方法可对不同产地三七进行准确快速鉴别,为中药材鉴别提供了一种简便、快速、准确的鉴定方法。

1 材料

1.1 样品来源

样品来源:样品收购于文山、师宗、百色等10个不同产地(见表1),每个产地各5个批次,共50个批次样品,经北京中医药大学石晋丽教授鉴定均为三七Panaxnotoginseng(Burk.)F.H.Chen的干燥根及根茎。

表1 三七药材产地与来源

1.2 仪器设备参数

采用Nicolet Antaris傅里叶近红外光谱仪,配有积分球漫反射采样系统,测定范围10 000~4 000 cm-1,扫描次数64次,光谱分辨率4 cm-1。

2 方法

2.1 三七样品的制备

样品制备:将10个产地共50个批次三七样品分别用粉碎机粉碎,粉碎过后的样品过6号筛(100目),至于真空袋中密封,备用。

2.2 数据采集与处理

取少量三七粉末置于样品杯中,充分压实,直接置于积分球样品窗口处,采集样品的原始光谱,扫描过程中实时扣除二氧化碳和水蒸气的干扰,每份样品重新装样连续采集3次,共150份光谱信息。

数据处理方法:采用PerkinElmer AssureID软件建立SIMCA识别模型。

3 结果

3.1 不同产地三七的近红外光谱图

测定结果如图1所示,为不同产地三七的近红外平均光谱图,从图谱中可以看出不同产地三七的谱图极其相似,很难从峰的形状、强度以及位置等信息中直观对其进行鉴别区分。为通过数学处理建立可靠的应用模型,可以对样品的原始光谱进行预处理。

图1 10个产地三七近红外平均光谱

3.2 光谱数据的预处理

为减小实验误差,每个样品进行3次重复。进行粉末样品近红外漫反射光谱采集时,存在以下因素,如不均匀、光散射、光程无法保持恒定等[10-11],因此在建立近红外模型之前,常运用化学计量学软件对样品原始光谱进行预处理,有利于模型的优化。本实验采用标准正则变换(SNV)归一化对光谱进行预处理来消除这些因素的干扰,提高建模的预测精准性和稳定度[12-13]。

注:上图为未经处理的光谱图,下图为经SNV预处理后的光谱图图2 SNV处理前后的光谱图

3.3 云南、广西三七近红外光谱图比较

两省份三七近红外光谱图比较以具有代表性的云南文山与广西百色为例,图3为云南文山与广西百色峰型对比,发现7 000~5 300 cm-1,9 000~7 100 cm-1处峰强有明显差异,云南文山光谱图明显高于百色,表明在光谱预处理后可通过建立模型达到有效区分产地的目的。

注:A:文山; B:百色 图3 文山与百色近红外光谱对比图

3.4 不同产地三七近红外光谱模式识别

本实验利用有监督的模式识别方法SIMCA法对所收集到的50个样品光谱信息进行分析,判断近红外指纹图谱快速鉴别三七产地的效果。

SIMCA法通过分别针对每类样本建立类模型,类模型建好后,对实验的样本计算其到各类模型的SIMCA距离,根据SIMCA距离判别该样本属于某一类,或归于新类由SIMCA距离进行判别[14-16]。

3.4.1 类间距

在用SIMCA进行聚类分析中,聚类效果的好坏一般由聚类中心之间的距离(类间距)来评价,而聚类结果好坏的关键是合适特征的选取[17-19]。得到类间距的数值后,数值越大表明类与类之间差异越明显。本实验中不同产地三七样品的类间距如下表2 所示,由表可看出各类间距值均较大,表明不同产地三七样品分离度良好。

3.4.2 识别率与拒绝率

识别率与拒绝率是反映类模型之间聚类可信度。识别率为考察某类样品有多少落在该类模型的区域内,拒绝率为考察某类样品对于其他不属于该类的样品的拒绝程度。当两个值都为100%时,表明两类样品之间没有重叠,可以较好的将其聚类分开[20-22]。表3为不同产地三七样品的识别率与拒绝率,由表可看出不同产地三七的样品的识别率和拒绝率均达到100%,表明不同产地三七有较好的分离度。

表2 不同产地三七样品间距表

表3 不同产地三七样品的识别率与拒绝率

4 讨论

通过对原始光谱分析发现,并不能从原始图谱上直接区分不同产地三七。对光谱进行标准正则变换(SNV)归一化预处理以期减少近红外漫反射光谱采集时存在不均匀、光散射、光程无法保持恒定等影响,进一步使用具有模式识别技术的SIMCA法进行分析,根据类间距、识别率与拒绝率等两方面数据得到分类结果,十个产地三七药材的类间距均较大表明十个产地三七分离度良好,且识别率和拒绝率都达到了100%,即可有效区分不同产地三七,结果发现本研究所采用傅里叶变换近红外光谱法并结合具有模式识别技术的SIMCA法区分不同产地三七快速、准确、简单可靠,为中药材产地鉴别提供了一种快速、简便、准确的鉴别方法。

由于实验收集样品只有10个产地,已包含两个不同省份,却并没有完全涵盖所有三七产地,未能建立一套完整的涵盖所有三七产地的近红外数据库。但在所收集到的样本实验结果可看出,通过本研究采用的方法可以快速准确的鉴别不同产地三七。

由于近红外在含量测定以及在复杂体系的评价鉴别中更有效,成为近年来发展快速的热门技术,本次实验利用近红外技术,达到区分不同产地三七的目的,说明近红外光谱法可以作为区分不同产地药材的高效、简便、快速的方法。采用近红外光谱法结合SIMCA模式识别技术能够快速对药材产地区分进行鉴别研究,为中药材产地区分研究提供了科学理论依据,具有广阔的应用前景。

猜你喜欢
模式识别文山识别率
基于模式识别的图像中多目标自动分割和分类研究
轻身调脂消渴片的指纹图谱建立、化学模式识别及含量测定
I、II类单点故障模式识别与质量管控浅析
Investigation of the confinement of high energy non-neutral proton beam in a bent magnetic mirror
Modulational instability of the coupled waves between fast magnetosonic wave and slow Alfvén wave in the laser-plasma interaction
延庆巨变册页
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
档案数字化过程中OCR技术的应用分析
科技文档中数学表达式的结构分析与识别
人工智能现状和发展