【摘要】目的 基于生物信息学分析溶质载体(SLC)15A1基因表达与孤独症谱系障碍(ASD)的相关性,为临床治疗提供参考。方法 使用基因表达公共(GEO)数据库,检索溶质载体相关基因(SCRGs)和孤独症谱系障碍(ASD)患者血液RNA表达谱芯片或测序的研究数据集得到2个训练集(GSE6575、GSE77103数据集)和1个验证集(GSE49105数据集),对2个训练集进行去批次合并处理,将得到的新数据集作为本研究的训练集。对训练集进行差异表达分析,得到差异基因(DEGs),使用Venny 2.1获取SCRGs和DEGs的交集靶点溶质载体差异基因(DE-SCRGs)并建立DE-SCRGs的关联网络图。对DE-SCRGs进行富集分析,得到其主要参与的生物学过程。通过机器学习方法[LASSO、随机森林(RF)、支持向量机的递归特征消除(SVM-RFE)算法]在验证集中筛选出生物标志物,并分析生物标志物在ASD中的预测价值。在训练集和验证集中比较ASD男童与健康对照(NC)组研究对象中DE-SCRGs的表达水平差异,在训练集中比较ASD男童和女童样本中DE-SCRGs的表达水平差异。基于SLC15A1、SLC5A4、SLC28A3、SLC50A1基因构建列线图,分析以上4个基因的表达水平与ASD发生的相关性。结果 GSE6575和GSE77103数据集去批次后数据分布较均匀,获得1 010个DEGs,其中692个在ASD样本中下调,318个在ASD样本中上调,并获得25个DE-SGRGs。关联网络图显示:27个基因呈102对相关性,其中SLC15A1基因与其他分析的基因均正相关,具有代表性。GO通路富集分析结果显示:DE-SCRGs参与的生物学过程主要是跨膜运输等功能;KEGG通路富集分析结果显示:DE-SCRGs参与的部分信号通路主要是蛋白质消化吸收、氮代谢等过程。通过LASSO、SVM-RFE、RF算法各得到16、16、7个候选特征基因,取交集后得到4个候选基因(SLC15A1、SLC5A4、SLC28A3、SLC50A1)作为生物标志物。受试者操作特征(ROC)曲线分析结果显示:4个生物标志物预测ASD发生的曲线下面积(AUC)均>0.7,整体模型的AUC=0.896。在训练集和验证集中,SLC15A1、SLC28A3、SLC50A1基因的表达趋势保持一致,SLC5A4基因的表达在验证集中无差异;训练集中ASD男童、女童样本的SLC50A1基因表达有差异。列线图结果显示:SLC15A1基因的表达与ASD的发生呈负相关。实验验证结果显示:ASD组患儿血液样品中SLC15A1基因表达水平低于NC组(P<0.05)。结论 SLC15A1基因表达水平与ASD呈负相关,异常表达可降低寡肽物质的转运,进而影响ASD的发生或加重。
【关键词】溶质载体15A1基因;孤独症谱系障碍;差异基因
【中图分类号】R729 【文献标识码】A 【文章编号】2096-2665.2024.14.0027.05
DOI:10.3969/j.issn.2096-2665.2024.14.009
孤独症谱系障碍(autism spectrum disorder, ASD)是一种具有强遗传性的多基因疾病,也是复杂的神经发育障碍性疾病,其特点包括社交沟通障碍、重复刻板行为、兴趣狭窄等[1-2]。 ASD早期诊断较困难,需综合观察儿童的行为、发展状况,且医生需通过专业的评估工具和临床经验判断并确诊,因此,探寻分子层面的易感基因对疾病的早期诊疗至关重要。溶质载体(SLC)家族有439个成员,由SLC基因编码合成,是典型的跨膜蛋白,并基于基因特异性在不同组织细胞中差异性表达[3]。 SLC介导的跨膜运输包含神经递质前体,神经递质在大脑中的正常传递和平衡对神经功能(包括社交行为、认知和情感调节等)至关重要,因此, SLC基因突变与多种ASD表型相关[4-5]。例如, SLC6A4基因控制5-羟色胺再摄取,其启动子区rs25531多态性与ASD密切相关[6];在孤独症模式大鼠中, SLC9A9基因可通过调节神经元突触表面的膜受体分布影响ASD的发生[7]; SLC6A8基因突变会导致神经元摄取肌酸异常,神经元的能量代谢失衡会影响神经信号的传递、神经网络的发育和功能,进而导致ASD的发生[8]。基于此,本研究基于基因表达公共数据库(GEO),利用生物信息学方法,探寻与ASD相关的溶质载体差异基因(DE-SCRGs),并分析其生物学意义,为其基础研究和临床应用提供参考,现报道如下。
1 材料与方法
1.1 分析流程 搜索GEO中关于ASD患者血液RNA表达谱芯片或测序的研究数据,共找到GSE6575、GSE77103、 GSE491053个数据集(均包含ASD患儿和健康对照的血液基因表达数据),使用GSE6575、GSE77103数据集作为训练集, GSE49105数据集作为验证集。分析流程如下:⑴下载GSE6575、 GSE77103、GSE49105数据集。⑵使用sva包中的ComBat函数对GSE6575和GSE77103数据集进行去批次合并处理,处理后作为本研究的训练集进行后续分析。⑶在GEO中以“solute carrier”为关键词,以“Score>15”为筛选阈值,对检索到的基因进行去重,得到本研究中的溶质载体相关基因(SCRGs)数据。⑷通过limma包对训练集进行差异表达分析,得到差异表达基因(DEGs),使用Venny 2.1软件获取SCRGs与DEGs的交集靶点DE-SCRGs,并绘制Venny图。同时用R包中集群配置文件(clusterProfile)对获得的DE-SCRGs进行功能富集分析。⑸用机器学习方法[LASSO算法、随机森林(RF)、支持向量机的递归特征消除(SVM-RFE)]筛选出训练集中的生物标志物。⑹分析生物标志物在ASD中的预测价值,使用R包“RMS”构建生物标志物的列线图,分析生物标志物与ASD发生的相关性,见图1。
1.2 实验验证 ⑴标本采集及处理:选取2021年9月至2023年5月华中科技大学同济医学院附属武汉儿童医院收治的24例ASD的患儿和20例同期健康儿童为研究对象,分别作为ASD组和健康对照(NC)组。样本的使用遵循人体生物样本使用伦理规范[9],所有儿童监护人均对标本采集知情同意。采集两组儿童空腹静脉血4 mL,加入淋巴细胞分离液,以8 000 r/min(10 cm半径)离心7 min,分离并收集有核细胞。经trizol法提取RNA后立即经逆转录为cDNA第一链冻存备用。⑵定量聚合酶链反应(qPCR)检测: SLC15A1基因引物F: CAACATCATTGTGCTCATCGTG,R: GTAAGTATAGAACCGAGCCATGATG; β-肌动蛋白(β-actin)引物 F: AGAGCTACGAGCTGCCTGAC, R: AGCACTGTGTTGGCGTACAG。⑶统计学分析:采用2-△△ct法分析结果数据,行t检验。以P<0.05为差异有统计学意义。
2 结果
2.1 差异基因的筛选结果 GSE6575和GSE77103数据集去批次后数据分布较均匀,见图2A。在去批次合并处理后的训练集中共获得1 010个DEGs,其中692个在ASD样本中下调, 318个在ASD样本中上调,见图2B。将1 010个DEGs和417个SCRGs重叠,得到25个DE-SCRGs,见图2C。使用“igraph”包建立DE-SCRGs(添加了额外两个碳酸酐酶基因CA1和CA9)关联网络图,以相关性|r|>0.3为阈值,该网络图中包含27个基因,分别为SLC44A3、 SLC25A37、 SLC50A1、 SLC1A5、 SLC12A5、SLC24A3、 SLC39A6、 SLC12A3、 SLC36A1、 SLC16A5、 SLC27A4、 SLC13A4、 SLC26A3、 OSCP1、 CA1、 SLC22A12、 SLC35F5、 SLC10A4、 SLC16A1、 SLC28A3、 SLC22A31、 SLC5A4、 SLC7A3、 SLC15A1、 SLCO6A1、 SLC16A8、 CA9,呈102对相关性,其中SLC15A1与其他分析的基因均呈正相关,具有代表性,见图2D。
2.2 GO和KEGG通路富集分析结果 GO通路富集分析结果显示, DE-SCRGs参与的生物学过程主要是跨膜运输等功能,见图3A; KEGG通路富集分析结果显示,DE-SCRGs参与的部分信号通路主要是蛋白质消化吸收、氮代谢等过程,见图3B。
2.3 机器学习方法验证结果 通过LASSO算法检索到16个候选特征基因,分别为SLC15A1、 SLC25A37、SLC5A4、 SLC12A5、 SLC28A3、 SLC7A3、 SLC13A4、SLC10A4、 SLC16A5、 SLCO6A1、 SLC27A4、 OSCP1、SLC16A8、 SLC24A3、 SLC44A3、 SLC50A1,见图4A。选择所有特征通过SVM-RFE算法检索到16个候选特征基因,分别为SLC27A4、 SLC5A4、 SLC44A3、 SLC16A5、OSCP1、 SLC16A8、 SLC50A1、 SLC10A4、 SLC16A1、SLC12A5、 SLC25A37、 SLCO6A1、 SLC13A4、 SLC22A31、SLC28A3、 SLC15A1,结果为选择前16个特征时误差最小,故选这16个特征基因作为候选生物标志物,见图4B。通过RF算法挖掘出7个候选特征基因,分别为SLC15A1、 SLC5A4、 SLC28A3、 SLC16A1、 SLC35F5、SLC50A1、 SLC26A3,见图4C。通过重叠机器学习方法对所有获得的候选特征基因取交集,识别出4个特征基因即为生物标志物,分别为SLC15A1、 SLC5A4、 SLC28A3、 SLC50A1,见图4D。预测价值采用受试者操作特征(ROC)曲线进行分析,结果以曲线下面积(AUC)表示,以AUC>0.7为准确性高。 ROC曲线分析结果显示:4个生物标志物预测ASD发生的AUC值均>0.7,整体模型的AUC值=0.896,见图4E。
2.4 DE-SCRGs表达情况及相关性分析结果 计算DE-SCRGs在ASD组男童健康对照的血液基因表达数据表达水平并作图。在训练集和验证集中, SLC15A1、 SLC28A3、 SLC50A1基因的表达趋势保持一致, SLC5A4基因的表达在验证集中无差异,见图5A、图5B。进一步比较训练集中ASD男童、女童样本的差异基因表达,发现SLC50A1基因表达有差异,见图5C。利用“rms”包基于SLC15A1、SLC5A4、 SLC28A3、 SLC50A1基因构建列线图,通过各因素评分推断ASD发生率,其中SLC15A1基因的表达水平与ASD的发生呈负相关,见图5D。
2.5 实验验证结果 ASD组患儿SLC15A1基因表达水平低于NC组,差异有统计学意义(P<0.05),见图6。
3 讨论
ASD是一种复杂的神经发育障碍,基因在其发生发展中起着重要作用,部分基因突变或异常表达(如多个基因上的微小变异、染色体拷贝数变异等),可影响儿童神经发育过程(包括神经元的连接、突触的形成和功能等)进而影响大脑的正常发育和功能。在诊断ASD上引入谱系概念,可概括一大类具有不同程度的类似临床症状的综合征。其功能障碍发生在中枢神经系统,相应的归因研究中发现,在大体相同的外部因素下,筛选出疾病易感性相关的基因表达差异是较为有效的方法[10]。本研究通过生物信息学方法,在已公开的测序和芯片RNA表达数据中筛选出ASD相关的DESCRGs,在此基础上探索DE-SCRGs作为易感基因的分子基础,并找出可能参与其中的外部诱导因素。
差异基因可视作疾病的易感基因,其负责的功能所涉及的外源性分子可成为疾病易感的外部诱因,SLC15A1负责跨膜转运二肽或三肽等寡肽,理论上如果其负责转运的寡肽出现蓄积可能导致相应的病理生理过程[11]。本研究结果显示,ASD患儿血液SLC15A1基因表达水平低于NC组研究对象,这提示SLC15A1基因表达不足,会导致神经发育过程中的某些环节出现异常,增加 ASD 发生的风险。分析原因为,SLC15A1基因表达水平降低,会导致血细胞缓冲系统清除血液中二肽类物质的能力减弱,使有害二肽进入中枢神经系统的含量增加,影响其功能加重ASD症状。有研究指出,ASD患者中SLC15A1基因的表达或功能发生改变,可能影响神经递质的传递、免疫系统的功能或其他与ASD相关的生理过程[12-13]。然而,要确定SLC15A1基因表达与ASD发病的确切相关性,还需从以下研究方向进行。⑴基因研究:分析更多ASD患者的SLC15A1基因,寻找突变或多态性,并研究其与ASD的关联;⑵功能研究:探究SLC15A1基因表达在神经细胞中的具体功能,以及其如何影响神经递质的运输和信号传导;⑶动物模型:建立SLC15A1基因敲除或突变的动物模型,观察它们是否表现出类似ASD的行为和生理特征;⑷临床研究:通过大规模的临床研究,确定SLC15A1基因在ASD诊断或治疗中的潜在应用价值。
综上所述,SLC15A1基因表达水平与ASD呈负相关,其异常表达可影响寡肽物质的转运过程,进而影响ASD的发生或加重。
参考文献
MAENNER M J, WARREN Z, WILLIAMS A R, et al. Prevalence and characteristics of autism spectrum disorder among children aged 8 years-autism and developmental disabilities monitoring network, 11 sites, united states, 2020. [J]. MMWR Surveill Summ, 2023, 72(2): 1-14.
韦金盈,方晓慧,陈嘉怡,等.微生物-肠-脑轴机制与孤独症谱系障碍[J].临床与病理杂志, 2023, 3(2): 400-407.
PIZZAGALLI M D, BENSIMON A, SUPERTI-FURGA G.A guide to plasma membrane solute carrier proteins[J]. FEBS J, 2021, 288(9): 2784-2835.
JIANG C C, LIN L S, LONG S, et al.Signalling pathways in autism spectrum disorder: Mechanisms and therapeutic implications[J]. Signal Transduct Target Ther, 2022, 7(1): 229.
MIR A, ALMUDHRY M, ALGHAMDI F, et al. SLC gene mutations and pediatric neurological disorders: Diverse clinical phenotypes in a saudi arabian population[J]. Hum Genet, 2022, 141(1): 81-99.
CHAKRABORTI B, VERMA D, GUHATHAKURTA S, et al. Gender-specific effect of 5-HT and 5-HIAA on threshold level of behavioral symptoms and sex-bias in prevalence of autism spectrum disorder[J]. Front Neurosci, 2020, 13: 1375.
WANG L, WANG B, WU C, et al.Autism spectrum disorder: neurodevelopmental risk factors, biological mechanism, and precision therapy[J]. Int J Mol Sci, 2023, 24(3): 1819.
JAISWAL P, GUHATHAKURTA S, SINGH A S, et al.SLC6A4 markers modulate platelet 5-HT level and specific behaviors of autism: A study from an Indian population[J]. Prog Neuropsychopharmacol Biol Psychiatry, 2015, 56: 196-206.
申洁,刘剑,鲁瑞萍.医学科研人体标本使用伦理审查分析[J].浙江临床医学, 2015, 17(12): 2223, 2246.
张红梅,薛曼,王斌,等.孤独症谱系障碍早期遗传诊断和治疗研究进展[J].中华精神科杂志,2022,55(3):232-237.
ITO K, HIKIDA A, KAWAI S, et al.Analysing the substrate multispecificity of a proton-coupled oligopeptide transporter using a dipeptide library[J]. Nat Commun, 2013, 4: 2502.
张彤,刘雅楠,曹宪振,等.孤独症谱系障碍与氧化应激标志物的相关性研究进展[J].分子诊断与治疗杂志, 2023, 15(10): 1846-1850.
安雷婷,杨丁丁,万向东,等.孤独症谱系障碍与神经炎症[J].神经解剖学杂志, 2023, 39(4): 481-484.