随机森林算法在中药指纹图谱中的应用:以不同品牌夏桑菊颗粒指纹图谱分析为例

2017-05-26 00:10夏伯候胡玉珍熊苏慧唐洁闫庆梓
中国中药杂志 2017年7期
关键词:随机森林指纹图谱主成分分析

夏伯候 胡玉珍 熊苏慧 唐洁 闫庆梓 林丽美

[摘要] 该研究旨在建立随机森林算法鉴别和分类不同品牌夏桑菊颗粒,为多指标的复杂指纹图谱的鉴别提供有效的参考。采用高效液相法采集83批不同品牌的夏桑菊颗粒指纹图谱,比较主成分分析、偏最小二乘法判别分析、随机森林等方法在处理不同分类样品复杂数据时的不同。结果表明本研究成功建立了83批不同品牌夏桑菊颗粒的指纹图谱;经过不同模式识别方法比较可得,主成分分析分析只能解释56.52%的方差贡献率,同时不能完全将样品分类;偏最小二乘法判别分析优于主成分分析的结果,能达到一定的分离,解释总体方差贡献率63.43%;而随机森林法能够很好的将样品分为3类,且3类样本的10折交互验证准确率达到96.5%。因此,随机森林算法联合HPLC指纹图谱能够有效构建中药质量控制和分析体系。

[关键词] 夏桑菊颗粒; 指纹图谱; 主成分分析; 偏最小二乘法判别分析; 随机森林

Application of random forest algorithm in fingerprint of Chinese medicine:

different brands of Xiasangju granules as example

XIA Bohou, HU Yuzhen, XIONG Suhui, TANG Jie, YAN Qingzi, LIN Limei*

(College of Pharmacy, Key Laboratory for Quality Evaluation of Bulk Herbs of Hunan Province, Hunan

Engineering Laboratory for Prevention and Control Technology of Toxic Substances in Chinese Medicine

/Collaborative Innovation Center for the protection and utilization of Chinese medicine resources, Hunan

University of Chinese Medicine, Changsha 410208, China)

[Abstract] To establish a random forest algorithm for identifying and classifying different brands of Xiasangju granules, and provide effective reference for identifying multiindex complex fingerprint. HPLC method was used to collect the fingerprint of 83 batches of Xiasangju granules from different manufacturers. The classification of Xiasangju granules samples based on chromatographic fingerprints was identified by chemometric methods including principal component analysis (PCA), partial least squares discriminate analysis (PLSDA) and random forest analysis (RF). The superiority of the above three chemometric methods was compared. The results showed that the fingerprints of 83 batches of Xiasangju granules were established in this study. PCA could only explicate 56.52% variance contribution rate and could not completely classify the samples; PLSDA analysis was superior to PCA, explicating 63.43% variance contribution rate and could obtain certain separation; RF could well classify the samples into 3 types, and the predication accuracy of the proposed method was 96.5%. Therefore, The results indicate that RF combined with HPLC fingerprint could effectively construct traditional Chinese medicine quality control and analysis system.

[Key words] Xiasangju Granules; fingerprint; principal component analysis; partial least squares discriminate analysis; random forest

指纹图谱是指某些复杂物质,比如中药,某种生物体或某种组织或细胞的DNA,蛋白质经适当处理后,采用一定的分析手段,得到的能够标示其化学特征的色谱图或光谱图。指纹图谱主要分为中药指纹图谱,DNA指纹图谱和肽指纹图谱。其中,中药指纹圖谱的研究以反映中药的整体化学特征为立论依据,实现指纹图谱技术在中药质量控制方面的应用[1]。由于中药指纹图谱的复杂性,在实际应用研究中常常配合化学计量学的方法,对多维数据进行降维处理,从而得到有效的判别模式以及差异性标记物。

化学计量学方法已被广泛地应用于多个学科的分析工作,包括药物的代谢组学、基因组学、药材质量控制、植物分类等研究[24];尤其在指纹图谱等多维的数据分析中显示出优势,也是其重要的分析手段,已经得到广泛的应用[56]。目前常用的方法主要分为2类,一类是无监督的分析方法主要有主成分分析(PCA)、聚类分析(HCE) 、独立成分分析(ICA)等;另一类被称为有监督的分析方法,主要有判别分析(DA)、偏最小二乘法分析(PLS) 、偏最小二乘判别分析(PLSDA),正交校正的偏最小二乘法分析(OPLS)、最近邻算法(KNN)、人工神经网络(ANN)等[7]。其中,作为目前分析最常用的算法PCA与PLSDA等均存在一定的缺陷,如PCA 对离群点较敏感,PLSDA 容易产生过拟合现象[8]。随着数据的复杂性不断增加,一些更先进的机器学习方法,如支持向量机(SVM)、随机森林(RF)、核主成分分析(KPCA)等越来越多地用于相关数据分析[9]。其中,随机森林作为一种分类和预测模型,在许多领域取得了广泛的应用[1011]。随机森林算法凭借其精度高、适用性广、非线性数据分析能力强、不易过拟合等优势,成为近年来生物医学及生物信息学十分热门的前沿研究领域之一[12]。

目前,中药HPLC指纹图谱的化学计量学研究手段主要应用的最普遍的主成分分析、判别分析以及层次聚类分析等作为手段,大部分的文章均能用这2种方法进行很好的数据降维。随着技术的发展,比如2D,3D或者更复杂的1D的HPLC指纹图谱等发展,这2种技术慢慢的不能够满足这些复杂数据的处理和分析。而目前为止,很少的文献报道随机森林方法在中药指纹图谱中的应用。因此,本文以夏桑菊颗粒HPLC指纹图谱为例,结合高效液相色谱法与不同化学计量学方法对不同品牌夏桑菊颗粒的差异进行研究,采用高效液相色谱法建立不同品牌夏桑菊颗粒的指纹图谱,进而将得到的指纹图谱数据作为特征向量分别输入主成分分析、最小偏二乘法判别分析、随机森林等计量学方法,比较随机森林算法在色谱分析中的优势,以期得到中药指纹图谱分析的新的有效手段和方法。

1 材料

1.1 仪器和试剂

KQ100B型超声波清洗器(昆山超声仪器有限公司);BPZ11D型电子分析天平(Sartorius公司);Waters26952996高效液相色谱系统,Empower工作站,含四元梯度泵、自动进样器(Waters 公司)。

醋酸(分析纯,北京化工厂);甲醇(色谱纯,TEDIA公司);乙腈(色谱纯,Fisher公司);水为娃哈哈纯净水。

1.2 样品收集

夏桑菊颗粒,广州星群(药业)股份有限公司化验室提供和市场上购买。83批夏桑菊颗粒的具体来源见表1。

2 方法

2.1 色谱条件

色谱柱Agilent Eclipse XDBC18(4.6 mm×250 mm,5 μm);流速1.0 mL·min-1;检测波长290 nm;柱温30 ℃;进样体积10 μL;流动相乙腈(A)水(B,含1.0 %醋酸),梯度洗脱(0~10 min,5%A;10~20 min,5%~8.6%A;20~45 min,8.6%~17.6%A;45~70 min,17.6%~25.1%A;70~80 min,25.1%~32.1%A;80~90 min,32.1%~37.1%A)。

2.2 供试品制备

取夏桑菊颗粒约5 g,精密称定,加甲醇10 mL,称重,超声30 min(功率250 W,频率40 kHz),取出,静置,放凉,补重,0.22 μm微孔滤膜滤过,HPLC分析。

2.3 方法学验证

按照2.1与2.2项下方法制备供试品并建立HPLC分析条件,连续进样6次,计算保留时间及峰面积的精密度,结果表明该方法的精密度符合要求,其RSD<5%;平行制备6份药材供试品溶液,以主要成分峰面积为标准,考察方法重复性,结果表明方法的重复性在误差范围内;制备好的药材供试品溶液后,在室温下放置不同时间,进行HPLC分析,以主要成分的峰面积计算,考察样品的稳定性,结果表明样品至少在48 h内是稳定的。

2.4 数据处理与多变量统计分析

2.4.1 原始数据的筛选与处理 标准样品的确立包括样品的生产厂家、批号。参照峰的选择必须符合下列条件:和相邻色谱峰分离良好,峰位居中;是指纹图谱中各待检样品中所共有的色谱峰。基于以上原则,选择58.55 min的峰作为内参峰,已知为迷迭香酸,是夏桑菊颗粒的主要和有效成分。所有的数据在进行统计分析之前,均减去均值除以方差做均一化处理。

2.4.2 主成分分析(principal component analysis,PCA) 实际中所获得的数据大多数为高通量多变量的数据,变量的个数越多,对整个数据的分析难度也就越大。因此在处理多变量数据时,往往需要对变量进行压缩分解,提取具有代表性的新变量。PCA的目的主要是通过线性的转化将高维变量转化成少数的因子,即主成分[13]。这些变量各主成分之间相互正交,线性无关。通过选择合适的主成分进行分析,既不会过多地丢失有用信息,而且还能减少数据中的冗余信息。PCA的分析流程如下[14]。①每行代表1个样本,每1列代表1个变量,将原始数据转成数据矩阵X。②对样本矩阵进行奇异值分解,得到得分矩阵和荷载矩阵,得分矩阵反映样本与样本之间的关系,载荷矩阵反映变量的重要度。③选择T矩阵中的前2个或者3个具有最大特征值的特性向量进行投影就可以得到二维或者三维的投影图,直观地分析样本的聚类趋势。

2.4.3 偏最小二乘法判别分析(partial least squaresdiscriminant analysis,PLSDA) 偏最小二乘法(PLS)是由Wold和Martens在1983年提出来的一种新颖的多元统计数据分析方法。它能消除自变量间的相关性,找到自变量与因变量之间的关系,最后构建一个用于预测的回归模型,因此适合解决高维,共线性严重且变量个数多于样本个数的数据[15]。PLS的基本运算是基于非线性迭代偏最小二乘算法(nonlinear iterative partial least squares NIPALS),同時分解X矩阵和Y矩阵,并在分解X矩阵的时候利用Y矩阵的信息,在分解Y矩阵时利用X矩阵的信息,因此可以得到较好的回归结果。

PLSDA来源于PLS运算算法,首先构建一个虚拟的矩阵Y来描述样本性质,然后按照上述PLS运算所建立的回归模型就称为PLSDA。偏最小二乘法判别分析(PLSDA)是基于偏最小二乘法上的一种监督模式识别方法,是一种可以同时实现多元线性回归、主成分分析的数据分析方法。它的主要原理是先利用PLS提取样本的主成分,然后将主成分作为新变量建立训练样本自变量和分类变量之间的回归模型,进行判别分析[16]。

2.4.4 随机森林(random forest,RF) 随机森林是由Leo Breiman提出的一种基于树分类器的集成算法,其包含了2种十分有效地机器学习技术:Bagging和随机变量选择[17]。Bagging算法是通过bootstrap法(鞋带法)有放回的采样构建多个训练集,最后的预测结果由所有构建的分类器进行投票表决得到。随机森林是在Bagging的方法进一步地发展,其在构建每个独立树分类器的时候并不是使用所有的变量,而是随机的从所有变量中选择一部分进行节点的劈分。随机森林算法实现流程如下[18]。①用Bagging方法构造单个独立训练集,每个训练集都是从原始训练集的N个样品中有放回地抽取m个样品。②对于每个独立训练集,用如下过程生成一棵不经剪枝的分类回归树。设共有M个原始变量,给定一个正整数mtry,满足mtry

如上所述,随机森林由多个分类回归树的集成得到。所有的数据分析程序均在Matlab上由课题组自己编译得到。

3 结果与讨论

3.1 色谱条件的优化与处理

为了达到更好的分离效果,本研究比较了不同流动相以及不同的检测波长。经过不同的试验比较,得出用流动相乙腈与水(含1%的乙酸)时,各峰之间具有较好的分离度和峰形,并具有较少的干扰物质。同时,比较不同的检测波长下色谱的峰形和峰数时,发现在290 nm时色谱具有较好的峰形与较多的峰数。因此,选择290 nm作为夏桑菊不同品牌HPLC指纹图谱的检测波长。具体HPLC图见图1。经过峰位矫正,共得到16个共有峰以进行接下来的降维算法的分析。

3.2 主成分分析(PCA)结果

为了便于观察不同品牌夏桑菊颗粒之间的差异性(不同的类别),在不损失大量信息的条件,利用PCA将高维的指纹图谱数据转化为低维的数据。所有的数据导入PCA进行聚类分析,利用其前3个主成分(PC1,PC2和PC3)进行画图区分,3个主成分对于方差的总贡献度仅为56.52%,说明利用PCA这种方法时,所选择的变量不能很好的解释不同品牌夏桑菊颗粒的差异;另外,从PCA的得分图,见图2(每1个点代表1个样品来源),可得星群夏桑菊(有糖型)与花城以及其他类夏桑菊之间是存在显著区别的,居于图片的右上方;但是花城和其他类的夏桑菊之间几乎完全重叠,表明PCA只能将星群夏桑菊(有糖型)于其他的2种夏桑菊区别开,而无法将其他2类夏桑菊进行区分。因而,本文将进一步采取其他的模式识别算法对这3类夏桑菊产品进行区分。

3.3 偏最小二乘法判別分析(PLSDA)结果

为了更好的将各不同品牌的夏桑菊颗粒的分类,偏最小二乘法判别分析被应用的改指纹图谱的分析。经过偏最小二乘法判别分析可得,前3个主成分对于方差的总贡献度为63.43%。相比主成分的分析,结果稍好。但是从PLSDA的得分图,见图3,星群(有糖型)夏桑菊颗粒能够很好与其他2类分开,而花城的与其他品牌的同样不能很好的分离,有一定的交集。表明PLSDA无法将这2类夏桑菊进行区分。因此,采取更加先进的模式识别算法对这3类夏桑菊产品进行区分。

3.4 随机森林(RF)分析结果

本节将采用随机森林算法对3类夏桑菊产品进行分析。随机森林是一类基于分类回归树集成算法,其在进行数据聚类分析的同时还能够得到各变量(在本文中即为各色谱峰或色谱峰所代表的物质)对于聚类的贡献度。每个物质的聚类分析结果见图4,可见3类夏桑菊产品均得到有效的区分。星群(有糖型)夏桑菊处于其他2类的另一个方向,而花城和其他类夏桑菊产品虽然距离较近,说明2类产品还是较为相似,但依然存在区别,在随机森林算法中均得到有效区分。

整个分析过程分为以下几步:首先,从所有夏桑菊产品中选出80%的产品作为训练集,20%的产品作为独立测试集。利用随机森林对训练集进行分类预测,其10折交互验证的预测准备率为96.49%,说明随机森林具有较强的分类能力,能够有效区分多类夏桑菊产品。基于构建的训练模型,对剩下的20%的独立测试集进行分类预测,其预测准确率为94.11%,具体的分类预测结果见表2。

4 讨论

中药指纹图谱的一个重要特色在于用规范化的程序获得中药特征性总成分提取物,并用1HNMR,HPLC,UV,IR等多种手段表征其组成和结构。不同的表征手段间的区别主要表现在所得到的信息多少不同和操作上的方便程度不同。同时,核心的问题

在于这种特征性总成分提取物要有真正的特征性,它的组成和结构要能真正代表这种中药。由于同一产品的生产工艺和厂家不同,必然造成了质量不差异性,而这种差异性主要来自组分差异。本研究运用主成分分析和正交最小偏二乘法判别分析得到的结果均不能将不同厂家的夏桑菊很好的分类,不能够完全代表其真正的差异性。而随机森林算法能够很好的将不同厂家的样品归类,说明该算法能够很好的达到降维的目的,同时其结果真正的反应了不同夏桑菊内在的不同。

PCA是一个无监督的学习方法,其依靠样品间的相似性进行分析,在分类识别的过程中并不需要进行训练和测试,所以本文对其直接进行分类预测。PLSDA方法作为一种广泛使用的分类学习器,能够有效提高预测准确率,但在本研究中,其效果并不好,且PLSDA更多的用于2类分类问题,而本研究中涉及到3类分类,建模式训练时常常采用1对1策略,或者1对多策略。需要进行多次训练和测试。而随机森林算法的提出能够有效解决这些问题,其适合多类分类问题的计算,在1次建模分析中即可完成对数据的全部分类预测。

从本研究的结果说明相比于PCA与PLSDA等算法,随机森林算法在复杂数据或者指纹相似样品的处理和分类上具有显著的优势,具有较好的效果。该方法的发展与应用对指纹谱图等复杂数据的分析与样品的分析乃至基因组学、蛋白组学等发展具有重要的意义。

[参考文献]

[1] 李强,杜思邈,张忠亮,等. 中药指纹图谱技术进展及未来发展方向展望[J]. 中草药,2013(22):3095.

[2] Peng Q, Tian R, Chen F, et al. Discrimination of producing area of Chinese Tongshan kaoliang spirit using electronic nose sensing characteristics combined with the chemometrics methods[J]. Food Chem, 2015, 178: 301.

[3] Guo L, Duan L, Liu K, et al. Chemical comparison of Tripterygium wilfordii and Tripterygium hypoglaucum based on quantitative analysis and chemometrics methods[J]. J Pharm Biomed Anal, 2014, 95: 220.

[4] Bevilacqua M, Marini F. Local classification: locally weightedpartial least squaresdiscriminant analysis (LWPLSDA)[J]. Anal Chim Acta, 2014, 838: 20.

[5] 夏伯候, 严东, 曹艺,等. 不同剂型夏桑菊颗粒HPLC指纹图谱及其模式识别分析[J]. 中国中药杂志, 2016, 41(3):416.

[6] 苏静华, 张超, 孙磊,等. 指纹图谱结合化学计量学用于香橼品种鉴别的可行性分析[J]. 中国中药杂志, 2015, 40(12):2318.

[7] Gad H A, ElAhmady S H, AbouShoer M I, et al. Application of chemometrics in authentication of herbal medicines: a review[J]. Phytochem Anal, 2013, 24(1): 1.

[8] 柯朝甫, 武晓岩, 侯艳, 等. 偏最小二乘判别分析交叉验证在代谢组学数据分析中的应用[J]. 中国卫生统计, 2014, 31(1): 85.

[9] Pedergnana M, Marpu P R, Dalla Mura M, et al. A novel technique for optimal feature selection in attribute profiles based on genetic algorithms[J]. IEEE Trans Geosci Remot Sen, 2013, 51(6): 3514.

[10] Achawanantakun R, Chen J, Sun Y, et al. LncRNAID: long noncoding RNA identification using balanced random forests[J]. Bioinformatics, 2015, 31(24): 3897.

[11] Ganz M, Greve D N, Fischl B, et al. Relevant feature set estimation with a knockout strategy and random forests[J]. Neuro Image, 2015, 122: 131.

[12] Stephan J, Stegle O, Beyer A. A random forest approach to capture genetic effects in the presence of population structure[J]. Nat Commun, 2015, 6: 7432.

[13] Abdi H, Williams L J. Principal component analysis[J]. Wiley Interdisciplin Rev Comput Stat, 2010, 2(4): 433.

[14] Bro R, Smilde A K. Principal component analysis[J]. Anal Method, 2014, 6(9): 2812.

[15] Kalivodová A, Hron K, Filzmoser P, et al. PLSDA for compositional data with application to metabolomics[J]. J Chemometr, 2015, 29(1): 21.

[16] PérezEnciso M, Tenenhaus M. Prediction of clinical outcome with microarray data: a partial least squares discriminant analysis (PLSDA) approach[J]. Hum Genet, 2003,112: 581.

[17] Breiman L. Random forests[J]. Mach Learn, 2001, 45(1): 5.

[18] Jiang R, Tang W, Wu X, et al. A random forest approach to the detection of epistatic interactions in casecontrol studies[J]. BMC Bioinformatics, 2009, 10(1): S65.

[責任编辑 孔晶晶]

猜你喜欢
随机森林指纹图谱主成分分析
拱坝变形监测预报的随机森林模型及应用
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用