周夏婕,雷水芳,黎立喜,徐 天,顾万建,马 飞,杨蓉西
1南京医科大学公共卫生学院流行病与卫生统计学系,江苏 南京 211166;2国家癌症中心//国家肿瘤临床医学研究中心//中国医学科学院北京协和医学院肿瘤医院肿瘤内科,北京 100021;3江苏省中医院检验科,江苏南京210029
2020年最新数据显示,乳腺癌已超过肺癌成为全球发病率最高的癌症,也是导致癌症患者死亡的第5大原因。在女性群体中,乳腺癌约占所有癌症新发病例的1/4,在440万女性癌症患者死亡病例中占比15.5%[1]。乳腺癌的早诊断早治疗是决定其预后和生存的关键因素[2]。目前用于乳腺癌早诊的技术有钼靶X射线成像技术、超声诊断技术、核磁共振成像技术等[3]。钼靶X射线成像技术对于40岁以下或乳房密度较高的女性效果不佳[4]。而我国多数女性乳腺腺体致密并且发病人群年龄相对较低[5,6],因此该技术并不完全适用。超声诊断技术则受影像质量以及人为主观判断等因素影响较大[7]。核磁共振成像(MRI)在乳腺癌研究中被广泛使用,但因其成本高、耐受性有限等,不适用于全人群筛查[8,9]。因此,寻找一种高效客观且适用范围广的乳腺癌早诊技术显得尤为重要。
表观遗传学包括DNA甲基化、染色质重塑、组蛋白修饰和非编码RNA等,它能在不改变DNA序列的前提下产生可遗传变异[10]。DNA甲基化作为一种重要的表观遗传机制,通常指在甲基转移酶(DNMT)的作用下,将甲基基团转移到胞嘧啶的C5位置,形成5-甲基胞嘧啶[11]。DNA甲基化的改变与癌症的发生发展相关[12,13]。对于组织样本来说,抑癌基因的启动子区高甲基化往往导致转录抑制和基因表达降低[14,15],而全基因组DNA低甲基化则可能通过增加染色体的不稳定性来促进肿瘤形成[16]。在癌症早期,特异的DNA甲基化即有可能发生改变,如果可以通过特定技术检测到,则可能是理想的癌症早诊生物标志物[17,18]。
Xu等[19]使用Illumina 27K芯片在美国Sister Study前瞻性队列的血液样本中发现了250个跟乳腺癌相关的甲基化位点(FDR<0.05)。其中的5 个甲基化位点(cg03430067,cg03616357,cg07072643,cg08287471,cg19709625)在他们随后的基于2776例外周血样本的Illumina 450K 芯片数据中再次得到了验证(FDR<0.01),并且他们在欧洲EPIC-Italy前瞻性队列数据库中也验证了外周血中这5个甲基化位点与乳腺癌之间的相关性[20]。由于DNA甲基化会受不同遗传背景及生活习惯、环境等其他因素所影响[21,22],因此有价值且有必要对这5个甲基化位点与乳腺癌的相关性在其他种族中进行验证。Guan等[23]也强调,在研究甲基化与疾病的相关性时,对研究结果进行多轮独立验证是有必要的。经文献检索,目前尚未找到这5个甲基化位点相关基因(C19orf57、MAP9、EMR3、NEK6、PCOLCE2)的甲基化水平与乳腺癌相关的独立研究。本研究通过病例对照设计来探讨这些基因的甲基化水平与中国女性乳腺癌之间的相关性,从而评估这些基因甲基化作为中国女性乳腺癌早期检测生物标志物的可能性。
从中国医学科学院肿瘤医院收集女性乳腺癌患者258例(中位年龄45.5岁)病例纳入标准:手术后病理诊断为乳腺癌、有完整的临床数据记录、尚未开始放疗或化疗、无其他癌症病史且无来自其他器官的癌症转移。病例排除标准:手术后病理诊断为乳腺良性肿瘤和乳腺腺病等。收集乳腺癌患者临床资料包括:初诊年龄、手术病理诊断结果、乳腺癌亚型分类、乳腺癌分期、雌激素受体情况(ER)、孕酮受体情况(PR)、人表皮生长因子受体-2情况(HER2)、Ki67水平等。临床资料显示,我们的患者多数处于早期,其中Ⅰ期43.8%,Ⅱ期36.9%,Ⅲ期18.9%,Ⅳ期0.4%。
272名女性对照来自江苏省中医院健康体检中心(中位年龄45.0岁)。对照纳入标准:自述健康、无肿瘤史、无自身免疫病史、血液各项指标正常。采集研究对象外周血全血,置于含乙二胺四乙酸(EDTA)的管中,防止血液凝固,并于-80 ℃保存。本研究的伦理经南京医科大学和中国医学科学院伦理委员会讨论通过。
我们将5 个CpG 位点分别输入UCSC 网站中的“human GRch37/hg19”数据库中,根据CpG位点位于某基因上或距离最近,确定其为相关基因。5个CpG位点与相关基因的各自关系如下:cg03430067 位于C19orf57基因的启动子区;cg03616357位于MAP9基因的第一外显子区;cg07072643位于EMR3基因的第一外显子区;cg08287471位于NEK6基因的第一内含子区;cg19709625位于PCOLCE2基因的第一外显子区。
全基因组DNA按照南京腾辰公司的DNA提取试剂盒(TANTICA,China)说明书进行提取。使用EZ-96 DNA Methylation Gold Kit(Zymo Research,USA)试剂盒按照说明书对上述提取好的DNA进行亚硫酸氢盐处理。
使用Yang等[24,25]描述的基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MS,Agena Bioscience,USA)对基因甲基化水平进行定量检测。使用特异引物(GenScript,China)对亚硫酸氢盐处理后的DNA进行目标序列扩增。具体各引物的序列如表1所示。反应条件如下:95 ℃预变性4 min;接下来45 次循环,包括95 ℃下变性20 s,56 ℃下退火30 s,72 ℃下延伸2min;最后,在72 ℃下延伸5min。聚合酶链式反应(PCR)产物按照Agena EpiTYPER Assay的标准程序处理,然后用Nanodispenser 点样至硅基靶板上。数据由MassARRAY系统采集,使用EpiTYPER v1.2软件进行数据分析。该方法检测到的大多数质量峰只包含一个CpG 位点,少数质量峰包含两个CpG 位点。例如:C19orf57_CpG_7和C19orf57_CpG_8经过EpiTYPER处理后位于同一片段。因此,质量峰代表的是C19orf57_CpG_7和C19orf57_CpG_8两位点的平均甲基化水平(在表1中记为C19orf57_CpG_7,8)。实验操作中,对病例和对照样本采取平行处理。
从Xu等[20]研究的5个CpG位点对应的5个基因中选取了4个与肿瘤、免疫相关的基因(C19orf57、MAP9、EMR3、NEK6)。每个基因设计两对引物,引物及扩增片段区域内的CpG位点均未与已知的单核苷酸多态性(SNP)重合。引物扩增序列尽可能包含目的CpG位点,但由于目的位点在CpG岛或扩增序列包含目的位点的引物无法设计的原因,C19orf57和NEK6的引物扩增序列均未包含目的CpG位点(cg03430067、cg08287471),而尝试了附近的区域。在预实验中,对8对引物(表1)进行了PCR扩增,随后进行质谱甲基化水平检测。质谱检测结果显示其中6个扩增片段的甲基化值低于质谱稳定检测区间(小于0.1)。仅有2个扩增片段(对应基因:C19orf57和EMR3)满足要求,可进行进一步的实验。C19orf57基因上的片段位于cg03430067 下游165 bp的位置,长度为217 bp。使用飞行时间质谱定量检测其9个CpG位点的甲基化水平。EMR3基因上的片段长度为269 bp,其上5个CpG位点(其中EMR3_CpG_1为目的CpG位点:cg07072643)的甲基化水平得到检测。对于C19orf57和EMR3两个基因,我们先进行了第一轮验证(病例:88;对照:94)随后进行数据分析。发现C19orf57基因的甲基化水平与乳腺癌不相关,而EMR3基因的低甲基化与乳腺癌相关。因此,我们仅对EMR3基因进行了独立的第二轮验证(病例:170;对照:178;第二轮验证的样本跟第一轮验证的样本无重合)。随后对EMR3基因的数据分析包括年龄相关、年龄分层以及临床数据分析均为两次验证的样本量相加(病例:258;对照:272)的结果。
表1 基因引物序列Tab.1 Sequence of primers for amplification of the genes
所有的统计分析都在SPSS 25.0版中进行。使用校正年龄和批间差的logistic回归模型来比较病例组和对照组之间各位点的DNA 甲基化水平差异。使用Spearman秩相关分析甲基化与年龄的相关性。使用Kruskal-Wallis检验或Mann-Whitney U检验分析同一临床特征不同分组后的甲基化水平是否有差异。所有统计分析均采用双侧检验,P<0.05被认为差异具有统计学意义。
研究对象共包括88例早期乳腺癌患者以及94例对照的外周血。使用logistics回归模型校正年龄后,分析结果显示C19orf57基因上9个位点的甲基化水平在病例组与对照组间无统计学差异,提示外周血C19orf57的甲基化水平与中国女性的乳腺癌不相关(表2)。因此,并未对C19orf57基因进行扩大样本的研究。
研究对象与上述C19orf57基因保持一致,为88例乳腺癌患者以及94例对照。Logistics回归模型校正年龄后,结果显示EMR3_CpG_2、EMR3_CpG_3、EMR3_CpG_4三个位点的低甲基化与乳腺癌相关(每减少10%的甲基化;EMR3_CpG_2:OR=1.96,95%CI:1.10~3.50,P=0.022;EMR3_CpG_3:OR=3.10,95%CI:1.51~6.34,P=0.002;EMR3_CpG_4:OR=1.51,95%CI:1.05~2.16,P=0.026,表2),其他的EMR3甲基化位点未观察到与乳腺癌的相关关系。然而,在我们将样本量扩大至合计258例乳腺癌患者以及272例对照后,logistics回归模型校正年龄与批间差的结果却显示5个位点的甲基化程度均与乳腺癌不相关(表3)。
表2 散发性乳腺癌患者与对照C19orf57和EMR3基因甲基化水平差异Tab.2 Comparison of methylation levels of C19orf57 and EMR3 genes between 88 sporadic BC patients and 94 control subjects
表3 散发性乳腺癌患者与对照EMR3基因甲基化水平差异Tab.3 Comparison of methylation levels of EMR3 gene between 258 sporadic BC cases and 272 control subjects
在乳腺癌病例中,EMR3_CpG_2和EMR3_CpG_4两个位点的甲基化水平与年龄呈负相关(EMR3_CpG_2:Spearman rho=-0.189,P=0.002;EMR3_CpG_4:Spearman rho=-0.128,P=0.040,表4)。而在对照组中,EMR3_CpG_1、EMR3_CpG_3 和EMR3_CpG_4 三个位点的甲基化水平与年龄呈正相关(EMR3_CpG_1:Spearman rho=0.243,P=5.0E-05;EMR3_CpG_3:Spearman rho=0.201,P=0.001;EMR3_CpG_4:Spearman rho=0.153,P=0.012,表4)。
表4 EMR3甲基化与年龄相关性Tab.4 Correlation between EMR3 methylation and age
为进一步探究EMR3甲基化水平与乳腺癌的相关性是否受年龄影响,我们以50岁为界对研究人群进行年龄分层:<50岁组和≥50岁组。前者包括乳腺癌患者194例,健康女性167名;后者包括乳腺癌患者64例,健康女性105名。在<50岁组别中,5个位点均未显示出EMR3甲基化与乳腺癌的相关性。而在≥50岁的人群中,EMR3_CpG_1、EMR3_CpG_2和EMR3_CpG_3的低甲基化与乳腺癌相关,且相关性具有统计学意义(每减少10%的甲基化;EMR3_CpG_1:OR=1.40,95%CI:1.03~1.89,P=0.032;EMR3_CpG_2:OR=2.31,95%CI:1.17~4.55,P=0.016;EMR3_CpG_3:OR=2.76,95%CI:1.37~5.56,P=0.005,表5)。其他2个EMR3位点的甲基化水平尚未在≥50岁人群中观察到与乳腺癌的相关性(表5)。
表5 258例散发性乳腺癌患者和272名健康女性EMR3甲基化年龄分层分析Tab.5 Methylation difference of EMR3 between 258 sporadic BC cases and 272 controls stratified by age
Stage Ⅰ,Stage Ⅱ与Stage Ⅲ&Ⅳ三组的乳腺癌患者在EMR3_CpG_2位点的甲基化水平存在显著的递减(P=0.022,表6)。但是其他的4个EMR3CpG位点并未显示出这一趋势。另外,我们的结果显示EMR3的甲基化水平与肿瘤大小、淋巴转移、ER、PR、HER2、Ki67没有相关性(表6)。
表6 散发性乳腺癌患者临床特征与EMR3甲基化的关联分析Tab.6 Association between EMR3 methylation and clinical characteristics of sporadic BC cases
Xu 等[20]报道了血液中5个甲基化位点(cg03430067,cg03616357,cg07072643,cg08287471,cg19709625)的DNA甲基化水平与乳腺癌相关。本项目旨在中国人群中研究外周血中这5个位点相关基因(C19orf57、MAP9、EMR3、NEK6、PCOLCE2)的甲基化水平与乳腺癌的关联。试图说明以下几个方面:(1)不同种族的甲基化水平与疾病之间的关联可能不同;(2)Xu等[20]采用Illumina芯片技术筛选发现了乳腺癌相关的甲基化位点,但并未对这些位点进行逐一验证。我们通过飞行时间质谱(MALDI-TOF)技术对其报道的甲基化位点以及周边的位点都进行了逐一的验证,从而提升了数据的可靠性和可重复性;(3)说明候选基因研究对于我国乳腺癌早期检测潜在生物标志物的发现具有重要意义。同时提示,用于检测的分子标志物不建议直接套用国外人群的研究结果,而需在本国人群中先进行验证。本研究通过文献检索和因为甲基化值低于质谱稳定检测区间排除了3 个基因(MAP9、NEK6、PCOLCE2,详见研究材料和方法)。在小样本研究的88例散发性乳腺癌患者和94 名健康对照中,发现C19orf57甲基化水平与乳腺癌不相关。在后续合计258例散发性乳腺癌患者和272名健康女性的研究中则显示,EMR3基因的低甲基化与乳腺癌的相关性受年龄影响,该相关性仅存在于≥50岁的人群中。在Xu等[19,20]的研究中,910位参与者的Illumina 27K芯片数据显示EMR3(cg07072643)在乳腺癌患者中的甲基化水平高于健康女性,其后的Illumina 450K芯片数据并未展示该位点的甲基化水平具体数值。但我们的研究却发现EMR3的甲基化水平在大于等于50岁乳腺癌患者中是低于健康女性的。我们的结果和Xu等[20]的报道有明显的差异,可能源于高加索人群和中国人群之间的种族差异[21]、也可能源于不同的生活方式[26]以及环境[22]等因素对甲基化水平的影响。
EMR3基因全称adhesion G protein-coupled receptor E3(又名ADGRE3),编码一种表皮生长因子,属于粘附性G蛋白耦合受体,是G蛋白耦合受体大家族中的成员,该家族还包括CD97,EMR1,EMR2和EMR4。该基因在中性粒细胞、单核细胞和巨噬细胞中表达水平最高[27]。有研究发现相对于癌旁组织来说,EMR3在肝细胞癌组织中处于低甲基化状态[28]。TCGA数据库中肝癌的数据分析提示,EMR3的表达水平与免疫细胞渗透有关[29]。EMR3的基因敲除实验证明,该基因在胶质母细胞瘤中的作用与细胞侵袭有关[30]。Singh等[31]通过全基因组甲基化测量发现食道癌组织中CD97的启动子区处于低甲基化状态且该基因呈高表达。Ward等[32]报道组织中CD97的表达上调与甲状腺癌的发展以及侵袭性有关。类似的研究表明CD97是宫颈癌的独立预后指标,与其不良预后以及侵袭性有关[33]。目前我们尚未找到EMR3基因的甲基化与乳腺癌相互作用的文章。我们推测与CD97同一家族的EMR3甲基化水平改变可能同样通过增加侵袭性与肿瘤的发展相关。可惜我们没有新鲜外周血样本以及RNA样本,也没有找到相关数据库能提供乳腺癌患者外周血中EMR3基因甲基化与表达的关系。而且本研究的结果受限于样本量较小与回顾性病例对照的研究设计。因此未来在前瞻性队列中收集乳腺癌各项影响因素的数据,并进行相关研究是十分有必要的。
本研究发现EMR3基因甲基化水平与乳腺癌的相关性仅在50岁以上女性中存在(表5)。亚洲妇女平均绝经年龄约为49周岁[34],围绝经期通常是指绝经前3~4年[35],也就是45~49周岁。Key等[36]发现中国女性的雌激素水平随年龄的增加而降低。遗憾的是,我们并没有雌激素水平数据。因此暂定50作为年龄分层分析的界值。年龄是甲基化改变的重要因素[37]同时,雌激素水平也跟女性年龄密切相关,尤其是青春期以及绝经期的激素水平变化[38]。有研究表明DNA甲基化的改变与青春期过渡和生殖激素水平的变化亦极具相关性[39-41]。并且有关激素与乳腺癌的研究也指出,跟乳腺相关的激素(如雌二醇、睾酮、催乳素等)与乳腺癌患病风险呈正相关关系[42,43]。根据以上证据,我们推测50岁以上女性群体(绝大多数处于绝经期)EMR3甲基化与乳腺癌的相关性可能与年龄及其自身雌激素水平有关。这与Yin等[44]发现的S100P和HYAL2基因甲基化水平与乳腺癌的相关关系受激素影响结果类似。然而EMR3基因甲基化与乳腺癌相关的具体机制还有待后续的功能实验研究。
在既往研究中,Xu等[19,20]并未比较不同临床特征乳腺癌患者的EMR3甲基化水平差异。我们的研究还针对中国乳腺癌患者不同临床特征的EMR3甲基化水平进行了分组比较,结果显示不同分期的乳腺癌患者EMR3甲基化水平在个别位点上存在差异。同时,EMR3的甲基化水平与肿瘤大小、淋巴转移、ER、PR、HER2、Ki67也没有相关性。由此可见,外周血DNA甲基化的改变是发生在肿瘤早期的,并且跟肿瘤的亚型关系不大。如果能够找到高效特异的外周血甲基化信号,则有可能是潜在的肿瘤早筛早诊标志物。
综上所述,本次研究在中国女性人群中发现外周血EMR3基因的低甲基化与早期乳腺癌之间存在相关性,尤其存在于年龄较大或者绝经以后的女性中。我们的工作为进一步探索EMR3基因甲基化与乳腺癌的作用机制提供了线索,同时也再次提示基因甲基化与疾病之间的相关性需在不同人种中进行独立验证。