生物医学数据分析方法与应用

2019-11-29 06:00曾兴兴鲁艳柳
遵义医科大学学报 2019年5期
关键词:生物医学组学数据挖掘

刘 浩,曾兴兴,鲁艳柳

(遵义医科大学 基础药理教育部重点实验室暨特色民族药教育部国际合作联合实验室,贵州 遵义 563099)

近年来伴随着科学技术,尤其是高通量组学技术(high-throughput omics technologies)的快速发展,生物医学已经进入大数据时代。生物医学和大数据的结合,产生了生物医学数据。作为最活跃的科学研究领域之一,生物医学数据备受关注[1]。随着数据逐渐地积累,研究者对数据的关注点已经由数据的生成,转变为对数据的分析。从生物医学数据库可以获得海量的数据,如何从庞大的数据中收集、挖掘可利用的信息,并找出其中事先未被发现的联系和规律,这些不仅为生物医学研究带来了机遇和挑战,且更具有重要意义[2-4]。本文主要综述了近年来生物医学数据的分析方法及其应用。

1 生物医学数据

生物医学与大数据的结合,形成生物医学数据。生物医学是一门前沿的交叉学科,其主要是通过综合医学、生命科学和生物学的理论及方法而发展起来的。随着对生命的整体性和疾病的复杂性认识的加深[5],以及高通量组学技术的蓬勃发展[6]和全球信息化的迅速发展,生物医学进入了大数据的时代[7]。生物医学数据包括转录组学、代谢组学、基因组学、蛋白质组学等[8]。近年著名的生物医学数据项目有千人基因组计划[9]、DNA元件百科全书计划[10]、表观组学路线图计划[11]、细胞印记整合网络数据[12]、基因表达数据库[13]、癌症基因组图谱计划[14]、全基因组关联分析等。

现今,生物医学数据主要应用于组学研究和不同组学间的关联研究,也为快速鉴别生物标志物、药物的研发、未知病原的快速筛检和可疑致病微生物的发现提供有力支持[15]。同时,生物医学数据还能够检测人群疾病谱的变化,开展健康管理[16],进行生物监测和公共卫生监测[17]。

生物医学数据库主要包括3类:首先是核酸序列数据库;其次是DNA序列相关数据库,比如密切参与DNA复制、转录、修复等过程的相关因子数据库;第三类是基于蛋白质序列、结构、功能及相互作用建立的数据库[18]。常用的与人相关的生物医学数据库及其链接如表1。

表1与人相关的生物医学数据库

名称网址类别1000 Genomeshttp://www.1000genomes.orgDNAAFND http://www.allelefrequencies.netdbSNP http://www.ncbi.nlm.nih.gov/snpDEGhttp://www.essentialgene.orgEGAhttp://www.ebi.ac.uk/egaEnsembl http://www.ensembl.orgGeneCardshttp://www.genecards.orgChIPBase http://deepbase.sysu.edu.cn/chipbaseRNADARNEDhttp://darned.ucc.ieGENCODE http://www.gencodegenes.orglncRNAdbhttp://www.lncrnadb.orgRNAcentralhttp://rnacentral.orgCATH http://cath.biochem.ucl.ac.ukProteinDIPhttp://dip.doe-mbi.ucla.eduInterPro http://www.ebi.ac.uk/interproPROSITEhttp://www.expasy.org/prositeSysPTMhttp://lifecenter.sgst.cn/SysPTM

1000 Genomes 数据库建立了至今为止最详细的人类遗传变异的深度目录,可以通过明确疾病群中的外显子序列从而筛选致病变异体,也可以筛选非致病性的常见种系变异,为进一步研究基因型和表型之间的关系以及人类疾病的遗传基础提供数据[19]。GeneCards 是一个以基因为中心的综合数据库,目前整合了125个来源的152704个人类的基因数据,可搜索到人类基因的注解,并呈现在人类基因网络中,旨在通过基因注解,简单快速地获得数据[20]。ChIPBase 是一个新兴数据库,支持对lncRNAs、miRNAs、基因和路径的探索,主要是从ChIP-Seq数据中全面注解和发现lncRNAs 和 miRNAs的结合图谱及转录调控关系[21]。GENCODE数据库的特征是通过计算分析、人工注释和实验验证的结合,高精度地注解人类基因组中所有基因,系统地描绘转录区域、转录因子结合、染色质结构和组蛋白修饰等[22]。CATH是一个可公开访问的在线资源,主要提供蛋白质的结构分类,包括超过30万个结构域的结构和超过5300万个蛋白质的结构。CATH通过识别蛋白质结构域的3D结构,将具有进化相似性的结构域分配给同一超家族[23]。PROSITE是蛋白质家族和结构域的数据库,可以对蛋白名称的起源、分类、功能、3D结构、结构域的结构及大小、序列的主要特征等提供数据[24]。

2 主要挖掘方法

生物医学数据预测型数据挖掘主要包括主成分分析(Principal Component Analysis,PCA)、分类分析(classification)、偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)[25]、回归分析(regression analysis)和时间序列分析(time series analysis)等,描述型数据挖掘方法包括聚类(clustering)、关联规则分析(association rule analysis)和序列分析(sequence analysis)等[26]。

2.1 主成分分析 由于生物医学数据通常具有高维度特征,但又具有相对较少的实例,大量高维度数据集中在低维空间中,因此,降低维度在生物医学数据处理中已经变得十分重要[27],维度的解决也成为数据处理中的一个主要问题[28]。PCA作为经典的降维方法[29],是迄今为止最广泛的多维数据分析技术[30],应用范围涵盖药理学和生物医学科学的所有主题[31]。PCA是通过选择特殊构造数据矩阵的特征值和相应的特征向量来实现维数的降低[32],即通过建立数学转换,在不损失或尽量少损失信息的前提下,将原始的多个变量转为少数的几个综合性变量,这几个综合性变量即为主成分。每个主成分都是各原始变量的集合,不同的主成分之间并不相关,通常认为主成分能更好的描述数据的特点。通过建立能够简化数据的数学模型,可以在处理复杂数据的同时防止冗余信息的干扰、获得主要信息,从而提高分析问题的效率[33]。 研究高脂饮食模型小鼠胆汁酸代谢调控通路基因表达的实验中,首先采用PCA数据挖掘方法,发现高脂饮食使得小鼠肝脏中胆酸、鹅脱氧胆酸水平均显著下降,再通过RT-PCR技术检测相关基因的表达,发现胆汁酸代谢调控通路中的Cyp3a11、Nr0b2等基因表达水平显著下调,而Cyp39a1、Scp2等基因表达水平显著上调。得出结论,高脂饮食对C57BL/6J小鼠胆汁酸代谢调控通路基因的表达,有显著影响[34]。

2.2 回归分析 回归分析能够研究自变量和因变量之间的关系,可根据已知的自变量预测和估计因变量的总平均值。因此,回归分析在统计分析的应用中,是最广泛的分支之一,也是医学数据分析的重要统计方法之一。它能够识别和表征多个因素之间的关系,还能够识别、预测相关的风险因素。回归分析包括了回归参数的估计、回归模型的建立等[35-36]。按变量的多少,回归分析可分为线性回归、逻辑回归、回归树等。逻辑回归常用在存在多个变量情况下,通过分析所有变量的关联,避免混淆效应[37]。在对乳腺癌风险预测的研究中,利用Spearman相关系数进行影响因子的分析,结果显示Perimeter、Texture和Concave points对乳腺癌致病影响大。此结果对乳腺癌风险的监督及预测有着重要意义,对于乳腺癌发病的风险具有一定参考价值[38]。

2.3 分类分析 分类分析是根据已知类别成员的观察值的集合,确定新观察值所属哪种类别的方法。在机器学习的术语中,分类分析通常被认为是监督学习的一个实例,即在正确识别了观察的集合可用的情况下的学习。相应的无监督程序则被称为聚类分析[39]。分类分析的第一步是将数据分成两部分,第二步是模型的建立及使用[40]。在生物医学领域,分类的常用方法有决策树方法(ID3、ID4.5、CART、CHAID、QUEST)、贝叶斯分类、神经网络、K-最邻近分类、支持向量机(SVM)等。SVM以统计学理论为基础,被认为是在数据挖掘的算法中最稳健与准确的方法,K-最邻近分类是一种基于实例的方法,而贝叶斯分类则是建立一种只包含已知向量而不包含已知类别的未知物类别判定规则[41]。在乳腺癌预后分析的研究中,首先基于逻辑回归估计患者阳性淋巴结比率,而后运用贝叶斯方法构建动态Cox模型进行预后分析,可以反映临床病理指标对患者预后的影响且预测准确率较高[42]。

2.4 偏最小二乘判别分析和正交差最小二乘判别分析 PLS-DA 在降低数据维度的同时,能够结合回归模型,并利用判别阈值对回归结果进行判别分析,因此成为当前使用最多的分析方法之一。PLS-DA通过最大化自变量X和因变量Y之间的协方差,构建正交得分向量(即潜变量或主成分),进一步拟合出自变量和因变量之间可能存在的线性关系[43]。不同于经典的PCA降维方法,PLS-DA不仅能够分解自变量X、因变量Y的矩阵,还能同时利用协方差信息,更有效的提取组间变异信息[44]。正交差最小二乘判别分析(orthogonal projection to latent structures discriminant analysis,OPLS-DA)是对PLS-DA的扩展。OPLS-DA通过正交信号校正技术,将自变量X矩阵的信息分解成两类,一类与因变量Y相关,另一类和因变量Y不相关。除去与分类无关的信息后,其中的相关信息即可被预测,主要集中于第一个预测成分中。基于液相色谱-质谱联用代谢组学研究平台,在筛选乳腺癌转移相关代谢标志物的研究中,对乳腺癌未转移者组、乳腺癌转移者组和健康志愿者组进行分析,结果显示3组的OPLS-DA模型具有良好的判别能力,鉴别出用于乳腺癌转移的8种标志物,可供用于区分3组的差异,为乳腺癌的早期预防、诊断提供了科学依据[45]。

2.5 聚类分析 聚类分析是将待处理的数据集中,各元素之间按照相似度,分为若干个子集合。每一个聚类所包括的数据代表着在被选特征以及相似准则意义下比较接近的物体,而不相似的则属于不同的类别。再通过归纳划分为同类的共性和划分为不同类的差异性,就能揭示新的规律[46]。聚类分析是一种定量方法,能够从数据分析的角度,将复杂的数据按某些相似性度量规则进行挖掘,总结出一个更加准确、细致的分类[14]。聚类分析主要建立在多元统计基础之上,应用于模式识别、数据挖掘等多个领域,尤其适用于分析模式、类别、数目均不明确的情况。对于相似基因表达模块[47]、蛋白质功能组[48]等研究大有裨益。传统的聚类方法包括了划分聚类和层次聚类。划分聚类主要包括K-均值聚类、K-中心点聚类等。而层次聚类主要包括基于距离的分层聚类及基于概率的分层聚类。近年来,随着生物技术的迅速发展和大数据的累积,同样还产生了多种新型的聚类方法[49],如谱聚类、双聚类、模糊聚类、二次聚类、自组织映射神经网络聚类、并行聚类方法等[50]。在基于超高效液相-质谱靶向脂质组学的研究中,运用聚类分析,可以找出糖尿病患者和健康志愿者的差异生物标志物[51]。

3 分析方法的应用

在挖掘生物医学数据的过程中,不论是预测型还是描述型的数据分析方法,往往不会单独使用,通常都会结合起来应用,从而得到更加全面的数据。

在代谢组学中的应用。二陈汤在大鼠高脂血症以及早期动脉粥样硬化模型中不仅仅对脂质代谢紊乱具有调节的作用,还可改善胆碱类物质的代谢异常,在得到的代谢组学的数据中,首先采用PCA对其进行处理,再进一步运用PLS-DA,反证出高脂血症以及动脉粥样硬化病理早中期的主要病机[52]。运用PLS-DA 技术,比较分析卵巢癌患者、良性卵巢肿瘤患者以及子宫肌瘤患者尿液样本的代谢组学数据,成功鉴定出了多种卵巢癌生物标志物[44]。在描述肝细胞癌的脂质代谢紊乱中,基于PCA、OPLS-DA的脂质组学分析结果,对肝细胞癌的研究提供新的见解[53]。同样的,运用脂质组学探索不同肝纤维化的病理生理学特点,基于PCA、聚类分析提出了不同部位纤维化引起改变的见解[54]。

在蛋白组学中的应用。在脓毒症大鼠模型中,运用了蛋白质组学方法,鉴定出100多种蛋白质,为筛选出更有价值的生物标志物,对有差异的蛋白进行逻辑回归分析,找出了与脓毒症密切相关的生物标志物,为脓毒症的临床诊断以及治疗提供了新思路和线索[55]。运用聚类分析等方法对所得到的蛋白质组学数据进行分析,分析了VSMCs蛋白质磷酸化的表达模式,及其在不同的时间点表达差异的磷酸化蛋白参与了的细胞功能以及信号通路,构建了动态的磷酸化信号通路[56]。

在基因组学及转录组学中的应用。基于基因的表达对肿瘤临床的诊断标志物进行研究,根据所提取的数据特征属性,运用分类分析中决策树算法,构建分类树,然后对其进行修整得到新的预测数据,此方法使得肺癌微阵列数据分类的识别率最高能够达到97%,且筛选出了STD1、MAPK13等基因,推断这些基因对于肿瘤疾病的产生起到了关键性作用[57]。基于分类分析的方法,对癌症数据进行分析,指出了一个表观遗传治疗的靶点,对后期研究提供极大帮助[58]。同样,在肝硬化的转录组学研究中,对得到的mRNA进行转录组分析,运用聚类分析的方法,筛选出差异表达的mRNA,而后对其进行其他生物学分析,筛选研究价值的基因进而找出与肝硬化相关的基因[59]。

在多个组学交叉研究中的应用。对于阿尔兹海默症等复杂疾病,分析整合基因组学、转录组学、蛋白组学和代谢组学的数据对于全面了解该疾病至关重要,基于这几种组学提出了与阿尔兹海默症相关的新的病理机制并与其它疾病的关联性[60]。

4 软件应用

当前,针对生物医学数据分析开发的软件很多,每个软件均有自己的优势与特点,常用的软件列举如表2。Enterprise具有多种强大的统计分析工具,能够提供丰富的方法支持数据挖掘,并能快速构建大量的模型,提高预测的准确性[61]。Miner是一个快速、集成的数据挖掘软件,能够进行高效率的数据计算和灵活的多语言集成,具有面向对象的扩展模块[62]。Weka是基于JAVA的集成多种机器学习方法的系统,具有开放式源码的特点,可提供无监督的聚类分析[63]。可以采用R语言编程,支持多种数据的分析与统计[64]。OracleDATA同样能够集成多种数据挖掘算法,与Oracle数据库紧密结合[62]。MineSet具有强大的可视化工具、树可视化工具、图可视化工具和多维数据可视化工具,用于实现数据和数据挖掘结果的可视化[65]。

表2常用生物医学数据分析软件

名称厂家EnterpriseSASMinerSPSSWekaUniversity of WaicatoR语言Bell laboratoriesOracleDATAOracleMineSetSGI

5 结束语

随着科学技术的发展,生物医学数据的研究将会受到越来越多的重视,合理使用分析方法,从海量的数据中收集、挖掘可利用的信息,寻找内在的联系和规律,将为生物医学研究带来史无前例的机遇。在我国,虽然生物医学数据已较为丰富,但运用数据分析方法进行处理和挖掘尚处于起步阶段。本文综述了生物医学数据分析方法及其运用,以期帮助加深对其的理解,更好地推进“大数据”在生物医学研究中的应用。

猜你喜欢
生物医学组学数据挖掘
广西医科大学生物医学工程一流学科建设成效
改进支持向量机在特征数据挖掘中的智能应用
蝾螈的皮肤受伤后可快速愈合
影像组学在肾上腺肿瘤中的研究进展
灵长类生物医学前沿探索中的伦理思考
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
探讨人工智能与数据挖掘发展趋势
蛋白质组学技术在胃癌研究中的应用
基于事故数据挖掘的AEB路口测试场景