影像基因组学分析方法研究进展

2018-07-26 05:43袁少勋明文龙
生物技术进展 2018年4期
关键词:基因组学表型基因组

谭 俊, 袁少勋, 明文龙, 孙 啸

东南大学生物科学与医学工程学院, 生物电子学国家重点实验室, 南京 210096

2015年,美国提出了“精准医学计划(Precision Medicine Initative)”,旨在通过整合患者的个性化信息加速人类对复杂疾病的研究,精准医学也迅速成为全球医学界热议和关注的焦点。相较于传统标准治疗方案的制定,精准医疗需要考虑到个体的差异,而个体的差异里既包含了遗传性的差异,也包含了生活环境等的差异。广义上的精准医疗是应用现代遗传技术和生物医学信息技术结合患者的生活环境和临床数据,实现精准的疾病分类和诊断,制定具有个性化的疾病预防和诊疗方案。

随着生物信息技术的发展,如DNA芯片、DNA测序技术,产生了大规模的组学数据,尤其是以DNA测序为核心,衍生出各种生物组学检测技术,获取的数据包括基因组、转录组、表观基因组等,为研究者从分子水平认识疾病提供了数据支撑。目前我们可以获得的组学数据比较系统和全面,因此基因型数据是精准的,并且能够体现个体差异。

表型研究相对较复杂,它是基因表达和环境作用以及两者间相互作用的共同结果,一直以来都难以进行定量研究。影像数据可以作为一种内表现(endophenotype)用于定量表型研究[1]。医学影像数据不仅能提供病变组织的形态和结构信息,还可以刻画病变组织在一定时空序列内功能变化的动态信息。在过去的十多年中,医学影像领域飞速发展,相比于分子诊断,以核磁共振成像(magnetic resonance imaging,MRI)、计算机断层成像(computed tomography,CT)和正电子发射断层成像(positron emission tomography,PET)等各种新技术为代表的医学成像技术以其非侵入性、高分辨率、时空连续性等特点,在展现复杂疾病表型差异的过程中具有独特的优势,逐步突显出了影像诊断技术在临床上的重要作用。

因此我们可以将影像学和基因组学的数据融合起来,进行综合分析和系统挖掘,这样形成了一个新的研究方向,即影像基因组学(imaging genomics)。影像基因组学重点研究医学影像数据与疾病分子特征之间的联系[2],图1(彩图见图版一)展示了影像基因组学研究与应用整体框架图,从生物组学数据(包括基因组、转录组学和表观组学等)中提取基因型特征,从多模态影像数据(包括CT、MRI 和PET等)中提取能反应个体健康状态的定量影像表型特征,通过统计学或者机器学习的方法完成基因型特征与定量表型特征的关联与融合分析,从而更好地实现对疾病的非侵入式诊断、预后预测和疗效评估。近年来,影像基因组学在肿瘤和精神疾病等复杂疾病的研究领域不断发展,基因型与定量影像表型的关联分析研究已经证明了影像基因组学分析方法的有效性[3]。

图1 影像基因组学研究与应用整体框架图Fig.1 Schematic diagram of study and appilication of imaging genomics.(彩图见图版一)

1 影像基因组学的建立

最早报道结合基因组数据和影像数据的研究出现在2000年,德国波鸿鲁尔大学的Heinz教授等联合单光子发射计算机断层成像术(single-photon emission computed tomography,SPECT)和基因的功能变异来衡量遗传对大脑多巴胺代谢的影响[4]。随后,越来越多的学者也开始研究基因数据和影像数据的关联分析,例如加州大学医学院的研究者首次通过fMRI来研究阿尔茨海默症的基因变异与核磁共振成像的关系,通过对感兴趣区域(region of interesting,ROI)进行任务范例的选择以及分析,发现携带不同单核苷酸多态性(single nucleotide polymorphisms,SNPs)的候选基因(APOE基因)的受试者的海马、额叶和顶叶等脑区的激活强度有差异[5]。德国海德堡大学心理健康研究所的研究人员应用影像遗传学来筛选导致大脑功能连接改变的SNP多态性位点,发现精神分裂症易感基因ZNF804A的rs1344706等位基因A/C的频率与前额叶皮层厚度和海马体积大小相关[6]。

这也形成了一个新的研究方法——影像遗传学(imaging genetics)。 影像遗传学是一种关联分析方法,是结合多模态神经影像学和遗传学方法,检测脑结构及与精神疾病、认知和情绪调节等行为相关脑功能的遗传变异。此外,许多学者也开始把基因-影像关联分析方法应用于肿瘤疾病的研究,在2003年欧洲治疗放射学与肿瘤学学会的一篇文章中提出了“Radiogenomics”这个名词[7],当时的目的是为了研究肿瘤组织放疗效果和遗传基因的关系。随后,Segal等[8~10]学者在此方面做了一系列研究,寻找通过非侵入性影像技术获得的肿瘤形态和生理学特征与基因表达的特定模式的相关性,将“影像基因组学”定义为一种建立在全基因组水平的基因组特征同放射影像学特征间关联的新兴技术。许多研究表明,应用影像基因组学的方法有助于诊断肿瘤分型、预测预后和肿瘤对某种治疗的反应[11,12]。影像基因组学将影像组学与基因组学数据整合起来,可以更深入地了解疾病的生物学机制,研究影像表型与基因组学特征之间的关系。

2 影像基因组学分析方法

影像基因组学的核心思想是将体现分子水平活动的基因组数据与反映疾病定量表型的影像数据融合起来,在分别分析和提炼疾病相关基因组信息和影像信息的基础上,建立基因组特征与影像特征之间的联系,从而深刻认识疾病的遗传背景及发展状态。

2.1 基因组数据分析方法

分析基因组数据(包括其他生物组数据),可在分子水平上认识影响疾病的关键因素,提取疾病相关的基因组特征,了解疾病发生和发展机制。生物组学数据包括基因组数据、转录组数据、表观遗传组数据、蛋白质组和代谢组数据等多维度、多种类的数据信息,能够系统全面的刻画出复杂疾病内在的生物分子活动状态和规律。目前,在影像基因组学的研究领域内,以SNP位点、拷贝数变异(copy number variation,CNV)为代表的基因变异数据和以基因表达谱、蛋白质表达谱为代表的转录组数据,是最主要的数据分析对象。

SNP是指在基因组水平上,由单个核苷酸变异所引起的DNA序列多态性。SNP在人类基因组中广泛存在,目前已知人类基因组中大约有30万个SNP。SNP作为第三代遗传标志,与人类个体差异、疾病易感性、耐药性等多种表型和功能密切相关。通常我们选择具有已知生物学功能、参与生物表型表达的SNP位点,这类SNP位点一般位于结构基因、调节基因或者在生化代谢途径中影响性状表达的基因,也有可能是位于基因非编码区、影响基因剪切或者基因表达的基因位点。对于上述这些具有潜在SNP位点的基因,一般都是通过临床实验或者数据库注释等对其功能进行确定。在筛选获取到大量与疾病相关的SNP位点的基础上,我们可以使用基于数据驱动的方法对SNP进行数据处理。目前主流的处理方式是以全基因组关联分析(GWAS)为代表的分析策略,GWAS能在群体数据中挖掘出与某种表型或疾病状态存在强相关性的SNP位点,进而将高维的SNP位点信息有效地降低到低维的同时又尽量避免信息的丢失。通常经过处理后得到的特定SNP组合,是与某种表型或疾病状态具有最强关联的SNP组合,能代表这种表型或疾病状态在SNP位点层面上的特性。此外,还有基于纯粹数据驱动的SNP分析方法,比如:主成分分析(principal component analysis,PCA)、多因子降维(multifactor dimensionality reduction,MDR)、独立成分分析(independent component algorithm,ICA)、主坐标分析(principal co-ordinates analysis,PCOA)和非度量多维尺度分析(nonmetric multidimensional scaling,NMDS)等[13]。这些方法在没有先验信息的情况下可以进行纯粹的数据驱动分析,强调嵌入在数据集中的遗传模式来捕获SNP上位性和多基因性,比如:PCA通常用于全基因组的SNP数据分析,提取出最有可能呈现有利于人群分类的群体结构[14];多因子降维(multifactor dimensionality reduction,MDR)用于识别预测表型的基因-基因和基因-环境因素[15]。

对于基因表达谱数据的分析,主要是通过差异表达基因分析获取某一特定组织或病理组织,与其他组织或健康组织的显著性差异表达的基因列表相比较。对于获得的基因列表,可以单独的作为一个基因组数据特征用于后续的融合分析,也可以对基因列表进行信息挖掘之后再进行后续分析。即分析这些显著差异表达基因,找到它们所在的基因通路,或者将它们按照某种相同功能划分成不同的基因集合,再或者挖掘它们更深层次的共同表达趋势,按照共同的表达趋势划分成不同的基因模块。分析差异表达基因的通路,可以使用GO富集分析或者KEGG富集分析方法,得到这些基因在生化反应、生理功能等多方面的网络信息,了解这些富集后基因之间的相对关系和功能联系。基于GO和KEGG的富集分析具有一些弊端,比如富集假阳性很高,因此在实际分析过程中多使用基因富集分析方法(gene set enrichment analysis,GSEA)进行基因通路或基因集合的挖掘[16]。传统的基因富集分析方法分为两个大类:一类基于基因表达谱数据,一类基于基因间相互关系。GSEA首先被引入到癌症研究中,随后应用到精神疾病等其他的一些疾病中[17]。无论是GO或KEGG富集分析方法,得到的基因通路或者基因集合都是基于先验知识的,具有一定的主观性,加权基因共表达网络构建(weighted gene co-expression network analysis, WGCNA)是一种从高通量数据中挖掘模块(module)信息的算法,能够从基因表达谱数据中挖掘具有相同或相似表达趋势的基因模块,具有生物学意义和更高的可信度[18]。

2.2 影像数据分析方法

实现精准医学需要精准的基因型和精准的表型,高通量基因组数据提供了精准的基因型,而医学影像数据则是精准表型的一个重要来源,分析影像数据可以获得疾病相关的定量表型,提炼影像特征。从1895年伦琴发现 X 射线到后来分子影像的出现,数字化医学影像学已经成为现代医学不可或缺的手段和重要的组成部分。2012年荷兰学者Lambin提出影像组学(Radiomics)[19]这一名词,其强调的深层次含义是指从影像(CT、MRI、PET等)中高通量地提取大量影像信息,实现肿瘤分割、特征提取与模型建立,凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来辅助医师做出最准确的诊断。传统的影像诊断主要依赖于医师的判断,而影像组学基于数据进行分析,提取高维图像特征作为新的生物影像标记物来帮助临床决策[20]。影像数据分析过程主要包括四个部分:①图像数据的获取。结构性和功能性影像学技术常用于复杂疾病的研究。结构性影像技术主要包括CT和MRI;功能影像技术包括PET、单光子发射计算机断层成像术(single photon emission computed tomography,SPECT)等;②图像分割。将图像分割成如肿瘤、正常组织和其他解剖结构的感兴趣区是最关键的部分,为接下来的数据分析奠定了基础。许多肿瘤边界不清,使得影像分析在复杂疾病研究中仍存在部分障碍,因此需要发展自动化、可重复的医学图像分割算法。常用的分割算法包括区域增长法(region-growing methods)、水平设置法、图像切割法、动态轮廓(蛇形)算法[active contours(snake)algorithms]以及半自动分割法(semiautomatic segmentations),如livewires法、基于容量CT的分割法(volumetric CT based segmentation)等[21];③特征提取与量化。图像分割完成后,即可以提取感兴趣区域影像特征,包括统计学特征、纹理特征、形态学特征等。评估这些特征有效性需满足三个条件:病理学相关、高度可重复性和信息量丰富且非冗余[22];④数据分析及建立预测模型。通过运用一些机器学习算法可以将提取到的定量影像特征用于疾病的分类和诊断。

2.3 基因组数据和影像数据融合分析方法

在分析基因组数据和影像数据、提取疾病相关的基因组特征和影像特征的基础上,需要进一步将两大类数据融合起来,进行基因型与表型的关联分析。基于统计学的遗传变异和影像关联分析,包括单变量融合分析和多变量融合分析。单变量的融合分析方法只考虑了单个SNP位点与特定影像表型之间的关联程度。例如Pearson卡方检验应用于定性表型与遗传数据融合分析,线性回归应用于定量表型与遗传数据的融合分析中。Stein等[23]发明了基于体素的全基因组关联分析方法(voxelwiseGWAS,vGWAS),检验了每个SNP与每个大脑体素的关联显著性,并对结果进行了多重检验校正。在单变量的基因影像关联分析研究中,有些研究者已经发布了相关的统计分析软件,如Plink[24]。但单变量融合分析忽略了多位点对特定影像表型的联合效应,而多变量分析方法充分考虑了多个位点与特定影像表型之间的关联性。当面对大量遗传变异如全基因组SNPs和大脑中的大量体素时,典型相关分析(canonical correlation analysis,CCA)[25]是一个常用的双多变量模型。该模型寻找使遗传数据和影像数据之间最大相关的线性组合,可以较好地解决多变量基因与多变量影像关联分析这一问题。其他类似的方法还有偏最小二乘回归(partial least squares,PLS)、降秩回归(reduced rank regression,RRR)和并行独立主成分分析(parallel independent component analysis,PICA)等[26~28]。它们从遗传和影像数据中提取潜在变量,这些潜在的变量数据成为新的基因型和表型,并且使用不同的代价函数来最大化基因型-表型的关联。另外针对影像基因组学中的高维数据,这些算法还有改进的版本,包括稀疏PLS、稀疏CCA和稀疏RRR[29~31]。通过增加变量的稀疏度不仅能使结果的解释变得更加合理,而且可以通过避免过拟合问题来增加结果的稳定性。

基因表达与影像特征的关联分析可以用来筛选能够反应基因表达活动的影像标志物,这类标志物可以用作疾病的筛查、诊断和预后。Zhou等[32]搜集了113个非小细胞肺癌患者的CT影像特征数据与转录组测序数据,并构建了CT肿瘤语义特征与基于转录组的分子通路特征之间的Spearman相关性矩阵。结果发现存在能够反应分子通路的影像特征,可以非侵入性的反映某些非小细胞肺癌病灶的分子活性变化。研究者进一步在其他的几个公共数据集中进行验证,发现筛选的特征表现出了区分度良好的预后效果。在2015年Zhu等[33]从KEGG数据库中获取乳腺癌相关的基因通路,利用GSEA方法,对提取的38个影像特征进行了基因富集分析,寻找与影像表型变化相关的KEGG基因通路。研究结果表明很多KEGG通路的表达水平与38个影像特征均存在统计学上的显著关联,尤其和病灶体积、有效直径、表面积和最大线性尺寸这4种影像特征存在密切的正相关,和边缘锐度、径向梯度直方图方差存在显著的负相关。

随着人工智能的发展,机器学习算法也被广泛的应用于影像基因组学。基因组特征数据与影像特征数据的融合作为算法的输入,输出的是疾病诊断、疾病风险或预后预测的结果。例如,通过支持向量机对遗传和功能磁共振成像特征融合,能够更好地对精神分裂症患者分类,比单独使用遗传或者影像数据准确率更高,这表明遗传和大脑功能影像捕获不同但互补的精神分裂症特征[34]。另外,Wang等[35]提出了一种多模态多任务学习算法,结合了基因和多模态影像特征,同时预测诊断结果和认知功能。在该算法中,联合分类和回归,利用一组L1范数正则化进行特征选择,将异构的影像和遗传数据进行整合。这种方法的优势之一是确定与诊断和认知功能相关的遗传标记和影像生物标志物。Ge等[36]使用机器学习中的核方法(kernel-base,KB)研究多个SNP与影像表型之间的关联程度。Kohannim等[37]使用Lasso回归方法分析阿尔茨海默病多个位点与特定表型之间的关联程度,发现22个位点与额叶皮层体积改变有关。

3 影像基因组学的临床应用

临床上要想对肿瘤和精神疾病等复杂疾病进行个性化治疗,首先就必须要进行精确诊断。斯坦福大学的Itakura[38]对265例胶质母细胞瘤(glioblastoma multiforme,GBM)患者进行了影像基因组学的研究(其中121例来自斯坦福大学医学院,144例来自TCIA数据库),提取了388个MR影像特征进行一致性聚类分析,得到3个影像表型聚类。然后融合TCGA数据库相对应的基因表达数据和拷贝数变异数据,利用PARADIGM算法,分析这三类影像表型和分子信号通路之间的关联。研究结果表明,基于影像特征的GBM亚型能够刻画潜在的分子活动,实现基于医学影像特征的非侵入式诊断。Yamamoto等[39]在2014年应用影像基因组学的方法分析非小细胞肺癌,诊断准确率达到78.8%,通过分子和CT影像特征结合时,可以区分肺癌亚型。另外,Yamamoto等[40]在2015年还进行了乳腺癌的影像基因组学研究,将定量影像特征和RNA表达进行关联分析,他的研究显示影像基因组学具有应用于非入侵式肿瘤早期诊断的潜力。

现阶段,疾病的预后预测在临床上越来越受重视,然而医生只能凭借个人经验来给出预测。2014年,Aerts等[41]在1 019例肺癌和头颈癌患者的CT数据中,提取了440个定量影像特征,再根据强度、形状、纹理、小波等特征建立标签,进行定量分析。研究结果表明,影像特征具有显著的预后价值,并与基因表达模式显著相关。他们利用影像基因组学的方法,通过融合影像、基因和病理特征建立影像基因组学标签,揭示了影像与患者的预后联系。

对疾病治疗效果的评判也是影像基因组学临床应用的一个重要方向。恶性肿瘤具高度异质性,即使是组织学类型、病理分期、甚至分子分型都相同的癌症对放化疗的反应都不一定相同,目前尚无公认的可以有效预测癌症放化疗疗效的临床指标。肿瘤的表型与基因表达决定了肿瘤对放化疗的反应,因此可以利用影像基因组学的方法,将癌症临床分期、分子分型和生物学因子等进行整合,对肿瘤的治疗反应及疗效进行评估。虽然目前尚无相关报道,但影像基因组学作为一种无创、可定量、可重复的方法,在临床上应用于疾病的疗效评估必将成为一种趋势。

4 展望

随着生物医学信息技术的迅速发展,我们将得到通量更高、内容更全面的基因型数据,以第二代测序技术为基础产生了包括基因组测序数据、转录组测序数据、表观遗传组测序数据和宏基因组测序数据为主的多组学数据。基因组测序数据使研究者能够分析个体基因组之间的遗传差异,从而进一步认识由这种差异导致的复杂疾病预防、诊断和治疗的差异。转录组研究以基因的功能与结构为出发点,通过检测新的转录本、转录水平以及非编码RNA,可以进一步解读不同生理或病理条件下基因表达与结构的差异。表观遗传组研究如何对基因组进行修饰与组装,包括DNA甲基化、组蛋白修饰、基因印记和染色质重塑等都可以对基因进行调控,此外环境的变化也可以导致基因表观修饰的变化。宏基因组研究人体基因组与肠道微生物之间的关系,肠道微生物群落在人类营养代谢、感染抵抗和药物应答等过程中发挥着重要的作用,已有研究证实许多疾病都与肠道宏基因组有关。利用基因组、转录组、表观组和宏基因组多组学整合的大数据研究,可以从不同层次对疾病进行致病机制以及防治技术的研究。

医学影像技术的发展带来了大量的临床表型数据,我们可以从其中提炼精准的定量表型。此外,分子影像技术的快速发展使得传统的医学诊断方式发生了巨大的变化,传统影像学检查只能从器官或者组织检测疾病的发生情况,显示的是疾病最终的影像状态,分子影像技术使得我们可以对生物过程进行细胞以及分子水平的非侵入式的定量实时研究,从而了解疾病的发生机制与分子生物学特征。此外,电子病历也是临床表型数据的重要来源,其涵盖了以疾病诊断表型、环境因素、家族史、药物治疗、临床检验等为主的数字记录,包含了患者丰富的医疗健康信息。这类数据通常为非结构化的文本数据,通过自然语言处理与文本挖掘技术可将其转换为结构化的数据,其所能提供的表型和疾病数据更加精准。

人工智能(artificial intelligence,AI)技术将在基因组数据和医学影像数据的融合、分析和挖掘方面发挥巨大的作用。无论是深入挖掘基因特征与影像特征之间的关联关系,还是建立疾病诊断模型或健康风险预测模型,都需要AI和深度学习技术的支撑。目前AI在精准医学领域的应用越来越广泛,IBM开发的基因组学智能计算平台(watson for genomics)可以读取基因组测序数据,并将这些数据与大量的临床、科学和药理数据库进行比较,从而帮助医生发现与患者肿瘤基因突变匹配的潜在治疗方案。IBM Watson for Oncology肿瘤诊疗系统,通过分析医学大数据,包括医学文献、病人健康记录、临床试验和医学影像数据等,为癌症病人制定个性化、有权威依据的治疗建议。另外,IBM Watson Health 正在开发基于多元生物医学大数据融合的复杂疾病风险预测模型,建立面向精准医疗的生物医学数据处理和分析平台。

猜你喜欢
基因组学表型基因组
牛参考基因组中发现被忽视基因
基于基因组学数据分析构建肾上腺皮质癌预后模型
山西在谷子功能基因组学研究领域取得重大突破
血清HBV前基因组RNA的研究进展
系统基因组学解码反刍动物的演化
紫花白及基因组DNA提取方法的比较
建兰、寒兰花表型分析
华法林出血并发症相关药物基因组学研究进展
GABABR2基因遗传变异与肥胖及代谢相关表型的关系
慢性乙型肝炎患者HBV基因表型与血清学测定的临床意义