基于三维荧光光谱特征的中药药性模式识别研究

2020-06-13 02:00樊凤杰轩凤来纪会芳
光谱学与光谱分析 2020年6期
关键词:药性正确率光谱

樊凤杰,轩凤来,白 洋,纪会芳

1.燕山大学电气工程学院,河北 秦皇岛 066004 2.联勤保障部队第九八四医院,北京 100094

引 言

中药是我国中华民族的瑰宝,经过几千年的积累和研究,中药在临床应用中发挥着巨大的作用。中药药性是对中药性质与功能的高度概述,是中医药理论的核心,从整体角度了解和研究中药药性,对中医药理论的发展和传承具有重大意义。近年来,许多学者在药性模式识别、中药药性组合与药性及功效的关系、药性表征模式等领域进行了深入研究[1-3]。王晓燕等采用GC-MS技术对寒热性药物进行检测,通过不同模式识别方法建立了药性的判别模型[4]。吴思媛等采用RF和SVM等方法对寒热类中药进行分类,结果显示,RF分类正确率为87.5%,SVM分类正确率为92.5%,RPART分类正确率为95.2%[5]。陈昭等借助LS-SVM算法建立了以药性为基础的清热药分类模型,其正确率达到79.2%[6]。

本文将三维荧光光谱技术应用到中药药性模式识别领域,针对光谱数据的非线性特征,利用局部线性嵌入算法(local linear embedding,LLE)对寒性和温性中药光谱数据进行特征提取,并结合随机森林(random forest,RF)、支持向量机(support vector machine,SVM)分别建立LLE-RF、LLE-SVM分类识别模型,研究不同分类模型对中药药性的分类识别效果。

1 基本原理

1.1 LLE算法

LLE算法是针对非线性数据的一种降维技术,且能够使降维后的数据保持原有的拓扑结构。该算法是假设高维数据集中的每一个数据点都可以用它临近的若干个数据点近似线性表示,将整个高维数据集分解成若干个具有线性特征的流形区域,并寻求最优权值映射矩阵,来最小化数据集重构后的误差,从而达到降维的目的。LLE算法主要步骤如下:

(1)确定近邻域,选取近邻点。采用k邻域法,以欧式距离为度量标准,选取样本xi的k个近邻点;

(2)样本点局部重构,计算权值矩阵W。确定好K邻域后,在此邻域内利用xi的近邻点及xi与近邻点之间的权值Wij近似表达xi。然后对所有xi做同样的计算,利用Wij构造局部重建权值矩阵W,并满足重构误差ε(w)最小,即

(1)

当xj不属于xi的K个近邻点之一时,会出现Wij=0,Wij的第二个约束条件为

(2)

(3)寻求最优映射,计算样本点低维空间输出。对每个样本点xi计算高维到低维流行的映射yi,最小化加权误差ε(y)

(3)

式(3)中具有限制条件

(4)

(5)

1.2 RF算法

随机森林(random forest,RF)是2001年Breiman提出的,其基本思想是用bootstrap[7]方法从原始样本中抽取多个子样本,对每个子样本进行决策树建模,再利用投票法或平均法组合多棵决策树的预测结果来决定最终预测结果。该方法具有更好的噪声容忍度及更高的预测准确率,且不容易出现过拟合问题[8]。建立RF的具体步骤如下[9-10]:

步骤1:训练数据抽样。设原始样本集的大小为N,从原始样本集中随机可放回地抽取n个样本作为新的训练集。

步骤2:属性子空间抽样。随机地从M个原始属性中选取m个属性形成新的属性子空间。

步骤3:决策树模型建立。根据CART算法构建树,每棵决策树都完整生长,直到叶子子节点。

步骤4:利用“森林”中每棵决策树对测试样本进行测试,得到T个对应的分类结果。

步骤5:采用投票方法,将T个对应的分类结果中最多的类别作为该测试样本最终的类别归属。

2 实验部分

光谱数据采集仪器为英国Edinburgh Instruments公司生产的FS920型稳态荧光光谱仪,测量时将积分时间设为0.1 s,激发波长EX扫描范围220~550 nm,发射波长EM扫描范围240~570 nm,激发波长和发射波长的采样波长间隔均为10 nm。选取补虚类中药23味,23味中药中只包含寒性和温性两类药性的药物,因此,本文仅对寒性和温性药物进行分析,其中寒性药物有:百合、玉竹、麦门冬、北沙参、天门冬、桑葚、白芍;温性药物有:人参、大枣、白术、山药、黄芪、党参、益智仁、肉苁蓉、补骨脂、菟丝子、沙苑子、断续、熟地黄、当归、龙眼肉、何首乌,将23味中药分别配制成5组不同浓度(10,8,6,4和2 mg·mL-1)的溶液制剂共115个样本作为研究对象,利用荧光光谱仪测得每味中药溶液制剂的荧光光谱数据,并获取每个样本的等高线图和三维荧光光谱图,其中部分样本的等高线图和三维荧光光谱图如图1和图2所示。

图1 样本三维荧光光谱图Fig.1 Three-dimensional fluorescence spectra of samples

图2 样本等高线图Fig.2 Contour map of samples

由于受仪器以及外界环境等因素的影响,使得采集到的中药三维荧光光谱数据中存在一定的噪声,由图1和图2可以看出荧光光谱信号在EX/EM=340 nm/420 nm处存在主荧光峰,在激发波长240 nm

本文采用近邻点数k=12,本征维数d=7时得到的特征向量进行研究,即将原始中药荧光光谱数据从1 156维降到7维。LLE算法得到的部分样本的特征向量如表1所示,光谱特征的可视化结果如图3所示。图中依次为玉竹、北沙参、白术、龙眼肉的荧光光谱特征。

由图3可知,不同浓度的玉竹PC4,PC6和PC7的特征值变化明显,不同浓度的北沙参PC4,PC5和PC6的特征值变化明显,不同浓度的白术和龙眼肉PC1,PC2,PC4和PC7的特征值变化明显,且浓度越高特征值都有下降趋势。将得到的PC1,PC3和PC6特征向量进行三维聚类,结果如图4所示,PC1代表的特征向量作为x轴,PC6代表的特征向量作为y轴,PC3代表的特征向量作为z轴。由图4可以看出,仅少数寒性样本与温性样本有重叠,从整体角度分析,寒性样本与温性样本可以较好的识别出来。

图3 部分中药荧光光谱特征(a):玉竹荧光光谱特征;(b):北沙参荧光光谱特征;(c):白术荧光光谱特征;(d):龙眼肉荧光光谱特征Fig.3 Fluorescence spectrum characteristics of some Traditional Chinese Medicine(a):Fluorescence spectrum characteristics of yuzhu;(b):Fluorescence spectrum characteristics of beishashen; (c):Fluorescence spectrum characteristics of baizhu;(d):Fluorescence spectrum characteristics of longyanrou

表1 LLE算法得到的特征向量Table 1 Features data extracted from LLE

图4 LLE部分特征三维聚类Fig.4 Three dimensional clustering of partial features based on LLE algorithm

采用RF分类器对LLE算法提取的寒温类中药荧光光谱特征进行分类,将LLE算法得到的特征向量输入到RF中,构建LLE-RF分类模型,分析不同参数时LLE-RF分类模型对寒温类中药荧光光谱数据的分类效果,标记温性药物为第一类,寒性药物为第二类。为了建立较优的中药药性光谱数据分类模型,设置RF分类器中训练集和测试集的样本比例分别为3∶1和2∶1,即训练集的比重r分别为3/4和2/3。对于LLE-RF分类模型,固定分类器中训练集和测试集样本的比例,分析LLE中近邻点数k取值为7~18,本征维数d分别取值为6,7,8,9和10时分类正确率变化情况。图5为当r不同时,LLE-RF模型分类正确率随近邻点数k和本征维数d变化而波动情况。

图5 LLE-RF不同比例下分类正确率变化情况(a):r=3/4;(b):r=2/3Fig.5 The change of LLE-RF classification accuracy rate,when the ratio r equals 3/4 and 2/3(a):r=3/4;(b):r=2/3

由图5可以看出,当训练集的比重r一定时,LLE-RF模型分类正确率随近邻点和本征维数变化而波动。针对LLE-RF分类模型,当训练集和测试集的比例为3∶1和2∶1时,其分类正确率分别为96.6%和95%。其中,当训练集和测试集的比例为3∶1,近邻点数k=12,本征维数d=7时LLE-RF模型正确率最高,为96.6%,其预测结果如图6所示。由图6可以看出,LLE-RF分类模型对寒温类中药荧光光谱数据分类时有1个样本识别错误,实际类别为第一类(温性药物)但被错误识别为第二类(寒性药物)。

图6 LLE-RF模型预测结果Fig.6 Prediction results of LLE-RF

为验证LLE-RF分类模型的分类效果,当近邻点数k=12,本征维数d=7时,分别采用多项式、径向基以及多层感知机核函数构造LLE-SVM分类模型,将该模型与LLE-RF分类模型的分类正确率进行比较,记训练集的比重r分别为3/4和2/3,三种核函数均在默认参数下构造分类器,分类正确率如图7所示。

图7 LLE-SVM不同比例下分类正确率变化情况Fig.7 The change of LLE-SVM classification accuracy rate,when the ratio r equals 3/4 and 2/3

由图7可以看出,在同一比例r的情况下,采用不同核函数构造SVM分类器时,寒温类中药荧光光谱数据分类效果不同。当多层感知机作为核函数时,分类效果最差。针对LLE-SVM分类模型,当训练集和测试集的比例分别为3∶1和2∶1时,其分类正确率分别为82.1%和76.3%。因此,当采用LLE提取寒温类中药光谱特征,分类器选择SVM或RF时,设置训练集和测试集的比例为3∶1时建立的分类模型效果较好,且LLE-RF模型分类正确率高于LLE-SVM分类模型。

3 结 论

三维荧光光谱技术应用到中药药性识别研究领域具有易检测、原材料成本低、省时等优点。本文基于中药药性的荧光光谱特征,将局部线性嵌入算法与随机森林算法相结合,构建LLE-RF寒温类中药荧光光谱分类模型,与LLE-SVM分类模型比较,LLE-RF分类正确率高于LLE- SVM分类模型,具有较好的分类识别效果。该方法为中药鉴别、中药质量控制以及中药药性研究提供思路。在今后的研究中应借助更先进的仪器设备,从多学科、多角度对中医药理论进行研究,促进中医药现代化发展。

猜你喜欢
药性正确率光谱
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
门诊分诊服务态度与正确率对护患关系的影响
白萝卜与中药同食,会解掉药性吗?
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
半夏的化学成分及其药性、毒性研究进展
不同炮制和煎煮时间对大黄沉降药性的影响研究
星载近红外高光谱CO2遥感进展