刘 壮 张 悦 王 菲
近年来,随着影像组学和基因组学的发展,影像基因组学(radiogenomics)这一新兴交叉学科,同时融合了两者的优点,在疾病的研究中发挥了巨大的作用。影像基因组学能够将人类大脑结构与功能的脑影像作为表型来分析基因对于研究个体的影响,从而实现对于复杂疾病的非侵入式诊断、预后评判和疗效评价,对于人们理解基因对于疾病的影响提供了更为客观的评价方式。影像基因组学在癌症和精神疾病等领域的研究已经取得较大的进展,针对基因型特征和影像表型特征的关联和融合分析已经证明了影像基因组学分析方法的有效性[1]。
精神疾病中最常见的三种严重疾病包括精神分裂症(schizophrenia,SZ)、双相障碍(bipolar disorder,BD)和重性抑郁障碍(major depressive disorder,MDD),目前病因未明。这三种疾病不仅给患者带来痛苦,同时给其家庭和社会造成严重的经济负担。研究表明,精神疾病在我国疾病负担中排名首位,根据世界卫生组织的推算,到2020年精神疾病负担将占到总疾病负担的四分之一以上[2]。
重性精神疾病的影像基因组学研究主要是从以基因特征为代表的生物组学数据和以影像表型特征为代表的多模态影像数据中提取出有价值的信息,进而通过机器学习或统计学习的方法进行分析,并最终指导精神疾病的诊断、治疗和疗效评价。本文主要从重性精神疾病的基因特征、影像特征以及两者关联分析方法方面综述重性精神疾病影像基因组学的研究进展,为后续相关的研究提供参考依据。
随着科技的发展和进步,基因测序水平不断提高,测序成本不断降低,从基因层次上产生了很多的数据,例如单核苷酸多态性(single nucleotide polymorphism,SNP)、拷贝数变异(copy number variations,CNV)和甲基化(methylation)等。同时,随着分子遗传学的发展,遗传变异逐渐成为研究疾病内在发病机制的主要手段,结合SNP和CNV的全基因组关联分析(genome-wide association study,GWAS)从全基因组范围寻找易感基因与疾病的关联,极大的促进了精神疾病的发展和研究。
精神分裂症、双相障碍和重性抑郁障碍是三种常见的、严重的精神疾病,目前病因尚未阐明。双生子、寄养子和家系调查研究表明三种疾病具有高度的遗传性。连锁分析研究表明,SZ、BD和MDD存在共享的遗传风险区域,主要包括3p21.1、6p22、8p22、10q24、12q13.1、13q32等[3-4],在这些区域中可能共同的易感基因是位于6p22上的DTNBP1基因、位于8p22上的NRG1基因和位于13q32上的G72/G30基因。关联分析研究发现,三种疾病共享某些遗传易感基因,主要包括神经递质相关的基因(γ-氨基丁酸和5-羟色胺受体)、神经发育相关的基因(NRG1-ErbB4和BDNF)、免疫炎症相关基因(补体C4、HLA-DRB1和白细胞介素IL-1、IL-6)和代谢相关基因(FTO和LEP)等[5-7]。进一步在基因组层面上,通过全基因组关联分析可以无偏差地分析基因组中遗传变异与精神疾病的关系,逐渐成为研究此类疾病致病基因的有力武器。全基因组关联分析显示三种疾病存在共同连锁的区域是3p21、10q24、CACNA1C和CACNB2[8-9]。
过去的几十年,影像学技术的不断发展,脑影像技术逐渐成为精神疾病研究的主要手段之一,脑影像技术是一种在活体大脑中定位各个功能脑区的有效方法,具有无创伤性、高分辨率及可重复操作性等诸多优点。常见的成像方式主要包括功能性磁共振成像(functional magnetic resonance imaging,fMRI)、结构性磁共振成像(structure magnetic resonance imaging,sMRI)、弥散张量成像(diffusion tensor imaging,DTI)和磁共振波谱分析(magnetic resonance spectroscopy,MRS)等。同时,随着静息态影像学的发展,各种静息态影像学分析方法逐渐被应用于精神疾病的研究中,并获得了较大的进展,主要包括低频振幅(amplitude of low-frequency fluctuation,ALFF)、功能连接(functional connectivity,FC)和功能网络(functional connectivity network,FCN)等。
目前,国内外关于精神疾病的影像学研究均表明,三种重性精神疾病存在共同的影像学特征,特别是皮质边缘系统神经环路上有相似的变化。前扣带束、钩束和穹窿是连接前额叶-杏仁核和前额叶-海马的主要白质纤维束,胼胝体前部是连接左右前额叶的唯一白质纤维束。大量疾病的弥散张量磁共振成像研究发现,三种重性精神疾病在这些纤维束上均有白质连贯性的损害,并且还发现这一损害可能是疾病的独立特征,与临床症状、病程和药物无关[10-11]。本课题组在国内最早应用了DTI技术研究精神疾病,发现在SZ、BD和MDD人群中存在皮质边缘系统白质连贯性的损害[12-13],证实了这些损害在三类人群中具有同源属性,并提示白质连贯性异常可能是三者具有重叠临床表现的生物学基础。大样本的meta分析研究结果表明,在6个不同的诊断组(SZ、BD、MDD、成瘾、强迫症、焦虑症)中,诊断的特异性改变并不清晰,所有疾病在前岛叶/背侧前扣带回中存在着共同性损害[14]。此研究进一步证实三种重性精神疾病共同损害的影像学特征可能是它们的主要病理特征。
影像基因组学是蓬勃发展的一门新兴学科,是人工智能在医疗领域的重要应用之一。在对精神疾病进行研究时发现,受试者的基因表达数据与脑区影像特征存在较大的关联,将两者结合起来进行分析,能够更加充分挖掘两者之间的相互关系和作用,有助于发现与重性精神疾病有关的神经生物学机制[15]。
目前,针对重性精神疾病基因特征和影像特征的关联分析主要包括以下四类:
第一类是研究部分基因与局部脑区的单变量分析,主要通过数据降维来发现数据集之间的复杂关系,是早期影像基因组学的主要研究方法。此类研究中部分基因和特定脑区的选取需要明确的科学假设。例如:COMT是精神分裂症的风险基因,Egan等人研究发现与Met携带者相比COMT Val携带者在大脑前额叶皮层的激活增加,且Val158增加精神分裂症风险的同时会引起海马灰质体积减小以及前扣带灰质密度的降低[16]。该方法既可以研究单个基因与单个脑区的关联情况,也可以研究多个基因与多个脑区的关联。
第二类是对全基因组数据与局部脑区的研究,此类主要针是对基因数据进行的多对单研究。多种基于先验知识和数据驱动的分析方法常被用来解决此类问题,主要是基因集富集分析和多基因风险分数分析。例如:Subramanian等人在研究精神障碍疾病的过程中,利用先验信息对基因集进行了富集分析[17]。Walton等人在研究与精神分裂症有关的SNP位点过程中,应用了遗传风险函数和多基因加和效应的方法[18]。
第三类是对部分基因数据与全脑影像数据的研究,这类问题主要是对多模态影像数据的分析,这些影像数据来自于几种不同的成像方式。研究此类数据关联的主要分析方法是独立成分分析法(independent component analysis,ICA)。例如:McKeown等人首次在分析fMRI数据的过程中运用了ICA方法,并证实ICA方法能有效区分正常和临床患病人群的fMRI结果[19]。在此基础上,Lin 等人采用的加入空间约束条件的半盲ICA方法,充分利用了空间信息,能够更加稳健的估计出默认模式网络[20]。
第四类是对全脑影像数据与全基因组数据的研究,采用“大数据”技术对全基因组和全脑影像数据进行建模,在全基因组和全脑水平上加入先验信息,将单核苷酸序列与表型功能相关的进行聚类。例,Cao等人基于加权因子的广义稀疏模型将多模态数据集成起来用于生物标志物的选择,并利用十倍交叉验证的方法验证所选变量的有效性[21]。Chen等人为了在相对高维数和小效应的情况下发现可靠的遗传风险变异,利用在平行 ICA的基础上加入基因或影像的先验信息方法,找出了1030个与精神疾病显著相关的SNP[22]。英国牛津大学Elliott等人利用UK Biobank数据库提供的8428个样本的全基因组测序以及多模态脑影像数据,对3144个功能和结构脑影像指标进行了全基因组关联分析,发现与大脑发育和可塑性相关的基因倾向于与精神疾病有关,包括MDD和SZ等,而那些编码与铁相关蛋白质的基因倾向于与神经退行性疾病有关,包括肌萎缩侧索硬化症、帕金森病和阿尔茨海默病等,未来几年,随着UK Biobank数据库的样本量逐渐增加,研究人员能够更加全面地分析人脑结构、功能以及连接的遗传基础,探究从遗传突变到影像指标再到一系列神经、精神和发育疾病的因果通路[23]。
近年来,随着生物信息技术的飞速发展,以第二代测序技术为基础的基因检测技术更加成熟,可以从不同层次对重性精神疾病进行致病机制以及防治方法的研究。同时,伴随医学影像技术的发展,以MRI、CT和PET为代表的成像技术逐渐成为重性精神疾病研究的重要手段,这为重性精神疾病的影像基因组学发展奠定了坚实的基础。
影像基因组学已经逐渐成为寻找重性精神疾病遗传变异和生物学机制的主要手段,随着研究的深入,在探索基因与脑影像数据之间的深层次关系过程中,需要人工智能(artificial intelligence,AI)和深度学习技术的支撑。人工智能技术作为基于数据驱动的关联分析强有力工具,能够充分挖掘和利用两类数据内在的结构信息构建模型,进行基于个体的重性精神疾病早期诊断研究,从而更好地揭示脑认知行为和相关疾病的产生机制。由此可见,重性精神疾病的影像基因组学研究在可预见的未来具有广阔的发展空间和重要的临床应用价值。