明文龙,袁少勋,谢建明,刘宏德,顾万君,孙啸
东南大学生物科学与医学工程学院,生物电子学国家重点实验室,江苏南京 210096;
近年来,我国乳腺癌发病率不断升高,并呈年轻化趋势[1],对乳腺癌的早期预防、精确诊疗和预后分析能力迫切需要提高。分子生物学与免疫学的快速发展为乳腺癌早期诊断、分型、预防警示及预后判断奠定了基础。最初,乳腺癌按照基因表达谱差异分为4类分子亚型,但这种分型方式受到基因分析的成本、设备和技术要求等的限制,很难对每一位患者进行分类[2]。因此,临床上通常借助免疫组化法替代基因分析,但免疫组化法预测乳腺癌预后的鲁棒性较差,且其分类结果与基因分析结果的一致性也较差[3]。因此,需要一种新的分类方法,以实现乳腺癌的精准分类[4]。
医学影像诊断方面,以MRI、CT和PET为代表的医学成像技术具有非侵入性、高分辨率、时空连续性等特点,对展现肿瘤表型的差异具有独特优势[5],促进了影像组学的迅猛发展;而影像组学方法可以通过从高通量的医学影像数据中发掘大量具有高度代表性的定量影像特征,寻找影像特征与疾病之间的关系。因此,通过研究挖掘基因组特征与影像特征之间的联系,进而利用影像特征反映基因活动,实现疾病相关基因活动的非侵入式诊断的影像基因组学得以发展,并成为影像组学的热点之一[6-8]。乳腺癌的影像基因组学研究旨在从以基因数据为代表的生物大数据和以影像数据为代表的医学大数据中提取出有价值的信息,进而转化成医学知识,并最终指导乳腺癌的诊断和防治[9]。因此,本文拟从乳腺癌的基因特征、影像特征及两者关联分析的方法方面综述目前乳腺癌影像基因组学的研究进展,为后续研究提供参考。
乳腺癌的基因组特征可分为3个层次:易感基因突变和单核苷酸多态性(single nucleotide polymorphism,SNP)特征、表达谱特征和分子亚型特征。在基因层次上,目前已发现的乳腺癌易感基因超过 70个,包括 BRCA1/2、TP53等[10]。BRCA1/2在DNA同源重组修复中发挥重要作用,其致病性突变通常位于外显子区和可变剪切区,当其发生有害突变时,同源重组修复出现错误,导致肿瘤更易发生。除易感基因外,最新研究结果证实至少55个SNP也与乳腺癌密切相关[11],比如位于TP53编码区的rs1800371发生错义突变,导致p53蛋白质发生突变,从而显著增加了乳腺癌的发生风险[12];位于非编码区的 SNP,如Ahmed等[13]于 2009年发现的 SLC4A7基因的rs4973768也与乳腺癌患病风险增加有关。在基因表达方面,乳腺癌具有不同的基因和蛋白表达谱特征。Perou等[14]首次利用cDNA微阵列数据对乳腺癌基因表达谱进行差异分析,发现乳腺癌在基因表达水平上的差异。随着测序技术的发展,RNA-Seq数据逐步代替微阵列数据用于差异分析,但蛋白表达谱才能真正反映乳腺癌在表达水平上的特征,因此也有研究利用反相蛋白阵列(reverse phase protein arrays,RPPA)数据获得乳腺癌在蛋白质表达水平上的特征。在临床上对乳腺癌进行分子亚型的分类具有重要作用,因为不同亚型从基因突变和SNP特征,到表达谱特征,再到最后的病理学表现、治疗方案等临床特征,均具有其独特的模式。如luminal-A型和B型更容易发生成骨转移癌,基底细胞样型更倾向于引起肺和大脑病变;术前化疗对于HER-2高表达型具有更好的治疗效果,而luminal-A型和B型一般采用术后放疗。乳腺癌的基因检测和分析在临床上具有重要的参考价值,但这种方式大都是侵入式的,而影像技术作为一种优良的非侵入式诊断方式,正逐渐在“精准医学”时代体现出重要作用。
临床上乳腺癌的影像学诊断主要包括动态对比增强 MRI(dynamic contrast-enhanced MRI,DCEMRI)、乳腺 X 线摄影、超声、DWI-MRI[15]、CT和PET,目前在影像基因组学研究中最常用的是 DCEMRI和乳腺 X线摄影,也有少量研究是基于超声和PET 数据[16-17]。
自2012年Yamamoto等[18]首次开展了乳腺癌影像基因组学的研究以来,DCE-MRI数据以其高分辨率、时空连续性等特点,广泛应用于相关研究。影像特征的提取分为定性和定量影像特征提取,定性影像特征的获得主要通过具有丰富临床经验的影像科医师,按照“乳腺影像报告和数据系统”(breast imaging reporting and data system,BI-RADS)的要求,选取具体的指标作为影像特征,对这些指标进行0/1打分,Yamamoto等[18]和 Liu等[11]的研究采用这种方法。然而,使用定性影像特征会损失大量的肿瘤病变信息,并且具有一定的主观性,不利于后续分析,故更多的研究工作是在定量影像特征的基础上建立的。定量影像特征的提取方式主要分为半自动和自动提取,前者是通过至少2位经验丰富的影像科医师确定影像中的感兴趣区(ROI),通常为疑似的肿瘤病变部位,然后针对ROI的体素或像素,计算出相应的定量影像特征值,这种方式由于需要手动的图像分割,故称为半自动特征提取[4,19-21]。自动特征提取即借助计算机实现图像识别、分割和特征计算,Yamamoto等[22]的研究基于计算机视觉算法,针对DCE-MRI动态增强对比成像过程中的时空连续性,实现了对病灶部位的自动分割及特征的定量提取[22]。此外,由于目前缺少统一的标准,在影像特征的选择上,不同的研究团队选择的影像特征也有所区别,表1总结了Zhu等[19]的研究工作,将常用的DCE-MRI影像特征分成6类。
表1 常用DCE-MRI影像特征
尽管常用的乳腺 X线摄影和超声的影像特征与DCE-MRI基本一致,主要包括大小、形态学和增强纹理特征,但DCE-MRI的特征值多数是基于体素计算的,而乳腺X线摄影检查和超声的影像特征值均是基于像素的。与DCE-MRI相比,乳腺X线摄影通常还包含其他影像特征,如肿块最大直径、乳腺密度、钙化大小类型、周围结构扭曲等,超声图像也包含超声方向、回声类型、后段声学特征等影像特征[16-17,23]。然而,乳腺 X线摄影检查和超声图像均缺少动力学曲线评估、增强方差动力学和薄壁组织增强相关的特征,而这3类特征均是DCE-MRI独特的影像学特征[16-17,19]。
影像基因组学是在基因组大数据与医学影像大数据融合发展趋势下形成的。针对人类重大疾病,通过影像基因组学研究挖掘基因组特征与影像特征之间的联系,进而利用影像特征反映基因活动,实现疾病相关基因活动的非侵入式诊断。目前,针对乳腺癌基因特征和影像特征的关联分析研究是多层次的,主要包括基因序列水平、基因表达水平和分子亚型水平,图 1展示了癌症影像档案(the cancer imaging archive,TCIA)数据库收录的1例乳腺癌患者DCEMRI影像切片[24],通过影像特征提取,在这3个不同的基因水平上进行关联分析。
图1 女,白种人,53岁,右乳浸润性导管癌。矢状位T1增强后MRI影像切片。DCE-MRI检查可见右侧乳房内外上象限有明显的肿瘤病灶(箭)。通过特征提取和计算,可获得该肿瘤的体积(7700.99 mm3)、肿瘤最大3D直径(45.39 mm)、偏度(-0.25)、峰度(2.86)等定量影像特征,结合该患者相应的基因组数据(SNP位点、基因表达量等)进行系统全面的融合分析
3.1 基因序列水平上的关联分析 基因序列水平上的关联分析指通过建立乳腺癌易感基因和 SNP位点信息与影像特征之间的联系,从而发掘乳腺癌基因特征与影像表型间的相关性。
Yamamoto等[18]对来源于肿瘤表达项目 expO数据库的353例乳腺癌患者,在全基因组范围内获得高差异性表达基因,人工评估了26个定性MRI影像特征,然后利用斯皮尔曼等级相关系数建立基因与影像特征之间的关联,并进行基因集富集分析(gene set enrichment analysis,GSEA),结果显示,21个影像特征与71%的基因存在全基因组范围内的关联;12个影像特征和乳腺癌基因集存在显著关联,11个影像特征与预后基因集存在关联。该研究初步尝试了在易感基因和影像特征之间建立联系,随后部分研究人员利用体细胞基因突变和SNP信息进行了类似的研究。Zhu等[19]利用癌症基因组图谱和TCIA中 91例乳腺癌患者的基因组信息和 MRI数据进行了综合全面的关联分析研究。该研究中的MRI定量影像特征是基于ROI方式获得的,研究使用的体细胞突变数据来源于外显子组测序结果,在选取乳腺癌患者中最常见的体细胞突变后,引入患者年龄和肿瘤病理学分级作为调整参数,构建了以下的一般线性回归模型用于关联分析。
其中,xi表示患者i的影像特征值,mi表示患者i有无突变的值(0或1),ai表示患者i的年龄,g2,i和g3,i代表患者i的肿瘤病理学分级,ε为偏差。结果显示,某些突变频率较高的基因与影像特征存在显著关联,如该研究显示GATA3基因突变与肿瘤大小、形态不规则性以及总熵特征呈负相关,由于肿瘤大小、不规则性等特征通常是反映肿瘤恶性程度和侵袭力的标志,因此可以推断 GATA3基因突变可能不是肿瘤恶化发展的驱动突变。
Liu等[11]的研究纳入336例患者和375例对照,首次进行了乳腺癌SNP特征和影像特征的关联分析,使用55个SNP和49个乳腺X线摄影影像特征,这些影像特征是依据 BI-RADS获得的定性评估结果。该研究通过在给定状态下,计算SNP和乳腺X线摄影检查影像特征的条件互信息。
其中,X表示一个离散的SNP特征值,Y表示一个离散的影像特征值,Z代表乳腺癌的状态值。研究者利用自助采样法,按照有无风险等位基因将SNP特征进行二值化处理进行分析,结果表明,有11组SNP-影像特征对与乳腺癌发生风险存在显著关系,其中 6对与风险增加有关,5对与风险降低有关。
3.2 基因表达水平上的关联分析 基因表达水平上的关联分析是基于基因和蛋白表达谱数据,建立表达差异特征与影像特征之间的相关性,从而发现乳腺癌在转录翻译水平上的活动特征与影像表型之间的关系。乳腺癌相关基因通路、预后风险评估与影像特征的关联分析均是目前的研究热点。
基因通路能够反映乳腺癌在发生及发展过程中基因活动和转录活动的变化规律。Zhu等[19]从京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)中获取乳腺癌相关的基因通路,利用GSEA寻找与38个影像特征相关的基因通路。部分结果显示,很多KEGG通路与影像特征均存在显著关联,尤其与病灶体积、有效直径、表面积和最大线性尺寸呈显著正相关,与边缘锐度、径向梯度直方图方差呈显著负相关。同时,该研究还使用 P53、钙黏素等142种蛋白质的RPPA数据,借助线性回归模型,分析蛋白质表达特征与影像特征的相关性,结果表明蛋白质表达特征仅与肿瘤的大小和形态学特征存在一定的相关性。
预后风险分析对于术后治疗方案的选择和生存评估具有重要指导意义。乳腺癌21基因Oncotype DX检测技术可通过检测和分析 21个与乳腺癌密切相关的基因的RNA表达量,实现10年内复发风险评分。Ashraf等[25]借助Oncotype DX对56例患者进行风险评分,并与MRI影像特征进行关联分析。研究者通过对影像特征的无监督聚类分析,将其分为4个影像表型,然后建立一个多元线性回归模型,用于分析影像特征与复发风险的相关性。结果表明,MRI影像特征与乳腺癌复发风险评分之间存在中等程度的相关性;再将影像表型分类结果作为附加变量加入分类器中后,ROC曲线下面积从0.77增加到0.82。该研究是最早尝试了在影像特征和乳腺癌复发风险评分之间建立联系,随后 Li等[21]和 Wan等[26]于 2016年进行了更加深入的研究,拟将影像诊断与临床分子诊断结果相结合,以期对乳腺癌的临床诊疗和预后提供更加全面的指导。
3.3 分子亚型水平上的关联分析 分子亚型是基于分子诊断的分类结果,体现出一定的临床差异性,但当涉及的患者样本空间较大时,对所有样本进行基因分析的成本较高,有些研究者会采用免疫组化法获得乳腺癌分子亚型的分类结果[27-28]。分子亚型水平上的关联分析指对不同的乳腺癌分子亚型与影像诊断特征进行关联分析,挖掘并建立不同分子亚型和影像特征之间的相关性。结果可对临床上乳腺癌的综合诊断、治疗和预后风险分析等均具有较强的参考价值。Mazurowski等[4]利用半自动化方式从48例患者中提取出23个MRI影像特征,通过基因表达分析获得4类分子亚型。该研究的关联分析分为两部分:第一部分是分别对4种分子亚型进行多元逻辑回归分析,影像特征作为自变量,分子亚型是因变量,其目的在于获取与影像特征存在潜在关联的乳腺癌分子亚型,第二部分工作则是分析特定的分子亚型与每一个影像特征之间具体的关联性。研究者选取了患者年龄、绝经期状态以及MRI的方向作为模型潜在的混杂变量,用于分析影像特征与特定分子亚型间的关联性,最后用Bonferroni对多重假设检验进行校正,结果表明luminal-B型乳腺癌与动态造影剂增强特征存在关联(P=0.0015),即病灶增强比和背景组织增强比的比值越高,越可能是luminal-B型。
近年来,影像基因组学在脑失调性疾病和癌症的研究中逐渐兴起,乳腺癌的影像基因组学研究始于2012年:从一开始通过统计学分析的方法在全基因组范围内寻找基因组特征与影像特征之间的联系,筛选潜在的候选特征,到现在越来越多的研究去验证影像特征与特定基因特征间的关系。作为乳腺癌影像基因组学研究的主要任务,建立乳腺癌特定分子亚型与影像特征的关联,一方面有助于寻找能够替代或辅助免疫组化实现对乳腺癌分子亚型进行分类的影像特征,另一方面发掘特定分子亚型与影像特征的关联,能够实现以非侵入的方式获得基因及其转录、翻译活动的相关信息,对临床上实现综合准确的非侵入式乳腺癌诊断具有重要作用。乳腺癌影像基因组学发展迅速,但也面临着诸多挑战,其中最主要的挑战是符合纳入标准的患者样本量较少。此外,肿瘤病灶的全自动识别与分割难度较大,目前多数研究仍是基于ROI的方式提取特征,并且存在缺少统一规范的特征选择标准的问题[29-30]。尽管如此,随着大数据时代的到来、深度学习的发展以及精准医疗的需求,乳腺癌影像基因组学在可预见的未来具有广阔的发展空间和重要的临床应用潜力。