羊水游离RNA中神经发育关键基因分析*

2022-01-19 06:33杨树法闫有圣阴赪宏
国际检验医学杂志 2022年1期
关键词:共表达特异性关键

杨树法,刘 妍,秦 朗,闫有圣,阴赪宏

首都医科大学附属北京妇产医院/北京妇幼保健院,北京 100026

Rett综合征、胼胝体发育异常、孤独症以及多动症等神经发育障碍是常见的先天出生缺陷,严重影响患儿及其家庭生活质量,给社会带来了沉重的经济负担[1-4]。产前诊断是预防神经发育障碍出生缺陷的主要手段。随着分子生物技术的发展,荧光原位杂交技术、荧光定量PCR、芯片检测以及二代测序等技术陆续应用于产前诊断,更多类型的染色体微缺失/重复、点突变等基因组变异信息被检出。基因组变异与临床表型间的复杂联系,使得高通量检测报告的临床解读面临巨大挑战,以美国医学遗传学和基因组学学会为代表的多种专业委员会建立了多种遗传变异的评价系统[5-6],将突变分为致病性、可疑致病性、致病性未明、可疑良性以及良性等。这些评价系统多以儿童和成人的临床资料为基础发展而来。与出生后可以广泛获取患儿临床资料相比,在产前诊断中可获取的胎儿临床信息极其有限;B超作为最大的获取源,可获取的胎儿资料远远少于成人;另外,实验室检查和物理诊断资料基本缺失。这些都导致了在产前诊断中基因组变异的临床解读更具有挑战性。产前诊断中,存在1%~2%的致病性未明突变[7],因此,获取更多胎儿发育信息,协助判定胎儿发育情况,成为产前诊断中亟待解决的问题。羊水是产前诊断中最易获取的胎儿附属物,先前研究表明,羊水游离RNA(AfcfRNA)包含与胎儿多种组织发育相关的基因表达信息[8-10]。但是,AfcfRNA中基因来源于胎儿多个组织,加之神经系统发育涉及多个过程,这都加大了从AfcfRNA中获取神经系统发育信息的难度。因此,本研究分析了孕中期正常AfcfRNA转录组,结合基因共表达网络分析和组织特异性基因分析,试图从AfcfRNA转录组中提取神经系统发育相关的关键基因,为AfcfRNA转录组在产前诊断中应用奠定基础。

1 资料与方法

1.1一般资料 以孕中期正常胎儿的羊水为研究对象,从Gene Expression Omnibus数据库中下载正常胎儿AfcfRNA的芯片检测结果。纳入标准:(1)核型分析结果正常;(2)单胎妊娠;(3)羊水采集时间为孕中期(孕13~27周);(4)检测平台为Affymetrix Human Genome U133 Plus 2.0芯片。排除标准:(1)染色体核型结果异常;(2)胎儿B超检查结果异常。按照纳入标准和排除标准分别从GSE101141[11]、GSE16176[12]、GSE25634[13]、GSE33168[14]、GSE47394[15]、GSE48521[16]、GSE49893[17]及GSE58435[18]中获取56例孕中期AfcfRNA转录组的检测结果。

1.2方法

1.2.1神经组织特异性基因的定义 正常组织的基因表达量数据来源于Human Protein Atlas数据库[19],下载基因表达数据表(https://www.proteinatlas.org/download/rna_tissue_consensus.tsv.zip)到本地。统计该数据库所包括的组织和基因种类,将基因在神经组织中的表达量高于该基因在所有组织中表达量均值的10倍以上者,定义为神经组织特异性基因。

1.2.2共表达网络分析 使用Oligo v1.54.1软件包读取芯片原始结果,并对结果进行背景校正、归一化,获取基因表达量数据[20]。Oligo是用于分析寡核苷酸芯片的软件包,可用于处理Affymetrix和NimbleGen芯片结果。批次效应[21]的去除借助SVA包,SVA包通过确定和建立代理变量去除高通量数据中的批间差异和其他无关变异。利用加权基因共表达网络分析(WGCNA) 软件包[22]进行基因共表达网络分析,软阈值设为12,最小类的数量设为25。筛选得到的基因共表达模块用颜色表示。

1.2.3基因功能富集分析 编写R脚本从共表达模块中选取神经组织特异性基因,建立神经组织特异的共表达模块,利用ClusterProfiler软件包分别对每个神经组织特异共表达模块中的基因进行GO(gene ontology)功能富集分析[23],ClusterProfiler软件包可以对基因和基因集进行多种功能富集分析(GO、KEGG及GSEA等)。用Benjamini-Hochberg方法对P值进行调整,以调整的P值(Padj)<0.05为差异有统计学意义。

1.2.4蛋白共表达网络分析 共表达模块中的关键基因的筛选,以从STRING数据库(https://stringdb-static.org/download/protein.links.v11.0/9606.protein.links.v11.0.txt.gz)下载的蛋白间相互作用数据为基础[24],编写R语言脚本,建立基因间相互作用关系,将结合力设为900,统计每个基因的连接度。连接度为基因间相互作用的表示形式,连接度越高表示基因与其他基因存在更多的相互作用关系,其所处的位置越关键,研究中将连接度大于15(即与15个以上的基因存在蛋白间相互作用)的基因作为关键基因。

1.3数据分析软件环境 数据的分析和处理借助R语言完成。基因不同命名系统间的转换使用HGU133Plus2.db软件包,HGU133Plus2.db是对Affymetrix Human Genome U133 Plus 2.0 Array进行注释的软件包,包含了探针和不同基因命名系统间的对应关系。蛋白间相互作用数据的制图使用Igraph软件包,Igraph软件具有对网络进行分析和可视化的功能。其他数据绘图借用Ggplot2软件包,Ggplot2是基于图形绘制语法而设计的用于将数据可视化的软件。变异系数(CV)=正常AfcfRNA基因表达量的标准差/正常AfcfRNA基因表达量的均值×100%。

2 结 果

2.1正常AfcfRNA中基因共表达模块建立 研究中共使用56例孕中期AfcfRNA芯片检测结果,芯片检测结果经背景校正、归一化和去除批次效应后,不同样本间具有相似的均值和标准差,样本间具有可比性(图1A)。利用WGCNA建立检测基因的共表达关系,利用动态树形剪切算法共建立27个共表达模块,模块名称用颜色表示(蓝绿色、蓝色、棕色、黄色、绿色、红色、黑色、洋红色、粉红色、紫色、鲑肉色、棕褐色、黄绿色、午夜蓝色、淡青色、青绿色、灰色60、浅绿色、浅黄色、宝蓝色、深粉蓝色、深灰色、暗红色、深绿色、橘黄色、深橙色、白色),各共表达模块中基因的数量如图1B所示。不具有共表达关系的基因分类到灰色模块中。

注:A表示56例AfcfRNA芯片检测结果背景校正、归一化和批次校正结果;B表示各共表达模块中基因数量。图1 正常AfcfRNA基因共表达模块的建立

2.2神经组织特异性基因共表达模块的功能富集分析 Human Protein Atlas数据库中神经系统组织包括大脑皮质、胼胝体、海马结构、下丘脑、杏仁核、中脑、嗅觉区、垂体、脑桥和延髓、脊髓、基底神经节、黑质、丘脑以及小脑等组织。利用表达量高于整体表达量10倍的标准,共筛选得到832个神经组织特异性基因。分别将27个共表达模块中的基因与832个神经组织特异性基因取交集,获取神经组织特异基因的共表达模块。在获取神经组织特异性共表达模块的基础上,分别对共表达模块中的基因进行GO分析。在蓝色、棕色、蓝绿色以及黄色模块中集中富集到神经功能相关的GO术语(GO term),见图2。这些术语涉及前脑发育、神经突触组装和功能、神经递质释放过程、轴突发生以及学习和记忆过程等神经系统功能的多个方面。

注:A、B、C、D分别为蓝色、棕色、蓝绿色以及黄色模块中神经组织特异性共表达模块内基因的GO分析结果;横轴为富集到术语的模块内基因的数量,条图颜色深浅表示Padj大小(Padj<0.05为差异有统计学意义),纵轴为富集到的GO术语。图2 神经组织特异性共表达模块功能富集分析

2.3神经组织特异性共表达模块的关键基因 将蓝色、棕色、蓝绿色以及黄色共表达模块内的神经组织特异性基因利用STRING数据库,分析他们间的相互作用关系,寻找各个模块中具有高连接度的关键基因。共筛选到27个关键基因,分析芯片中各基因表达量均值,计算得到27个基因表达量的P25为3.09,CV的P50为14.09%。将基因表达量均值低于27个基因表达量P25的关键基因删除,共发现17个关键基因,蓝色模块中3个(SLC18A3、TACR3、SYT2),棕色模块中6个(SSTR5、STX1A、SNAP25、GHSR、SSTR4、GABBR2),蓝绿色模块中5个(DRD2、SLC32A1、GNG3、OPN4、PENK),黄色模块中3个(RAB3A、HCRT、GRM5)。关键基因的模块来源、连接度、基因平均表达量及CV见表1。

表1 关键基因信息统计表

续表1 关键基因信息统计表

3 讨 论

羊水是产前诊断中最安全且最易获取的胎儿附属物,先前研究表明羊水中含有来源于胎儿多种组织的AfcfRNA,这些基因的变化与胎儿发育密切相关[8-9],通过分析AfcfRNA中基因变化为监测胎儿发育提供了可能。但是,AfcfRNA中基因来源和各系统发育过程的复杂性,极大地增加了从AfcfRNA中获取各系统发育信息的难度。与单个基因的变化相比,基因集的变化更具稳定性,能够降低单基因变化的噪声污染;同时组织和器官的发育涉及多种基因的相互和共同作用。WGCNA基于多个样品表达数据,通过计算基因间的相关性,利用剪切算法将具有相同表达模式的基因归为同一表达模块。本课题组利用WGCNA,将AfcfRNA中的基因分为27个具有共表达关系的模块(图1B),不具有共表达关系的基因被过滤到灰色模块中。

Human Protein Atlas数据库中包含了已知基因在正常人体大部分组织的表达量数据。在建立基因间共表达关系模块的基础上,利用Human Protein Atlas数据库筛选并建立了神经组织特异的基因共表达网络[19]。这些神经组织特异的共表达模块内的基因参与神经系统主要的生物学过程(神经递质传递、神经组织发生、学习和认知等)。这些结果表明,研究中建立的基因共表达网络与神经系统功能密切相关(图2)。

STRING数据库中存储了蛋白-蛋白间相互作用的数据,利用蛋白-蛋白间相互作用数据可以构建筛查到的基因的相互作用网络。与其他基因具有更多联系的基因是共表达网络的关键基因,是该网络功能的集中体现。研究中利用STRING[24]数据库对WGCNA建立的网络进行了筛选,选取了每个网络中的关键基因。在蓝色模块中得到3个关键基因(SLC18A3、TACR3、SYT2),通过基因富集分析发现,该模块中基因主要与突触后膜电位、神经递质传导以及突触组装的突触功能有关(图2A)。前人研究表明,SLC18A3囊泡乙酰胆碱通道,其缺陷可以导致先天性肌无力综合征[25];TACR3编码速激肽受体3,广泛表达于神经系统,并参与情绪障碍、疼痛、学习和记忆缺陷、神经系统发育等神经生理和病理过程[26];SYT2编码突触结合蛋白,SYT2的缺陷与突触前先天性肌无力综合征有关[27],并且在髓母细胞瘤的发生发展中起关键作用[28]。

棕色模块有6个关键基因(SSTR5、STX1A、SNAP25、GHSR、SSTR4、GABBR2)。其中,SSTR5和SSTR4是生长激素抑素受体,广泛分布在大脑、下丘脑、外周神经系统、胰腺等多种组织[29],是实体瘤潜在的药物作用靶点[30];STX1A编码突触结合蛋白1A,与儿童多动症[31]有关,JNK2与STX1A间相互作用参与N-甲基-D-天门冬氨酸诱发的谷氨酸释放[32];SNAP25是汉族人孤独症的候选基因[33],参与神经信息传递[34];GHSR是生长激素促分泌素受体,其甲基化状态与肿瘤的发生密切相关[35];GABBR2是γ-氨基丁酸受体2,参与多种神经递质传递过程。这些基因广泛参与了神经信号传导的多个过程。

在蓝绿色模块中得到5个关键基因:DRD2、SLC32A1、GNG3、OPN4、PENK。DRD2是多巴胺受体,其多态性与精神疾病和药物依赖密切相关[36-37];SLC32A1是囊泡γ-氨基丁酸转运体成员,其可能参与了γ-氨基丁酸和乙酰胆碱囊泡释放[38];GNG3是多形性成胶质细胞瘤发生和发展过程中的关键基因[39-40];OPN4是黑素蛋白基因,其功能与睡眠和清醒有关[41];PENK是脑啡肽原,其水平降低与亨廷顿氏舞蹈病的症状的严重程度密切相关[42]。

在黄色模块中得到3个关键基因:RAB3A、HCRT、GRM5。RAB3A是Ras样GTP酶[43],参与激素释放、神经递质释放以及细胞膜循环等多个过程[44];HCRT为下丘脑神经肽前体;GRM5为谷氨酸受体。这些基因与机体的学习和记忆功能密切相关。

胎儿发育是多个基因协同表达的结果,AfcfRNA中基因的变化是胎儿发育情况的综合表现。胎儿发育异常会导致AfcfRNA中的基因表达量变化,AfcfRNA中存在能够检测胎儿发育情况的标志物。本课题组认为潜在标志物应具备如下3个特点:(1)组织特异性表达基因。通过选择特异性基因可以在一定程度上排除其他组织发育对基因表达变化的影响。(2)稳定表达基因。对于芯片检测,该稳定性表现为较高的表达量和较低的CV;本研究中, 基因平均表达量的P25为3.09,CV的P50为14.09%,笔者使用了3.09和14.09%分别作为二者的临界值,但这是存在争议的,需要更多的实验证实。(3)起关键作用的基因。这些基因能够同多个基因协同作用,在基因调控和组织发育中起到关键作用,组织的异常发育也经常与关键基因的变化密切相关。基于上面的考虑笔者设计了关键基因的挖掘方法:基因组织特异性分析、基因表达量和变异分析以及共表达网络和关键基因分析。同时要说明的是,研究中使用的56例正常羊水标本是指核型分析和B超检查正常的标本,绝大部分胎儿为发育正常的胎儿,基于这些标本筛选得到的基因通过文献检索证实与神经系统功能和神经发育异常密切相关,但能否作为检测神经发育异常的标志物尚需要进一步实验验证,这些基因表达的变化可能与这些基因突变有关,也可能由于其他基因的表达异常导致。

综上所述,本研究通过对孕中期AfcfRNA转录组进行共表达网络分析和组织特异性分析,获得了神经系统发育密切相关的并且具有共表达关系的关键基因。这些关键基因来源的共表达网络模块与神经系统功能密切相关,其异常与神经系统相关疾病密切相关,可作为潜在的产前诊断中监测神经系统发育异常的标志物。

猜你喜欢
共表达特异性关键
CT联合CA199、CA50检测用于胰腺癌诊断的敏感性与特异性探讨
硝酸甘油,用对是关键
SO2引起巨峰葡萄采后落粒的共表达网络和转录调控分析
保靖苗族龙纹饰的艺术特异性与文化基因
老年慢性非特异性腰痛综合康复治疗效果分析
UdhA和博伊丁假丝酵母xylI基因共表达对木糖醇发酵的影响
血清铁蛋白、IL-6和前列腺特异性抗原联合检测在前列腺癌诊断中的应用
高考考好是关键
高世代回交玉米矮秆种质的转录组分析
两种半纤维素酶在毕赤酵母中的共表达