谭晓勇,刘洪,冯春念,田明英,赵恩慧,牟必鸿,冯甜华,冉启军
宣汉县人民医院药学部1、检验科2、妇产科3,四川 达州 636150
随着人民生活水平的不断提高和生活方式的不断改变,我国妊娠期糖尿病(gestational diabetes mellitus,GDM)的发病率逐年攀升。GDM是指妊娠中期或晚期发生的一种妊娠期并发症,是妊娠过程中最常见的代谢性疾病,主要表现为妊娠期初次发生的自发性糖耐量异常[1]。据报道,我国GDM发病率约为17.5%,而全球每年约有1 800 万妊娠妇女罹患GDM[2]。目前,临床上GDM的治疗方法主要是药物治疗,主要包括胰岛素类、双胍类药物[3]。研究表明,GDM 不仅会导致母亲妊娠期高血压疾病、产后2型糖尿病、分娩巨大儿和肿瘤等并发症的发生率显著升高,而且还会对胎儿产生近期和远期影响,如分娩后新生儿发生低血糖及未来发生肥胖、糖耐量降低甚至死亡的风险明显升高[4]。因此,早诊断、早治疗GDM,对于保护妇女妊娠安全、避免不良妊娠结局具有重要意义,寻找具有潜在诊断和治疗效果评估价值的新型标记物成为当务之急。
长链非编码RNA (long-chain non-coding RNAs,lncRNAs)是一类长度超过200个核苷酸具有特定生物学功能的非编码RNA(noncoding RNAs,ncRNAs),由RNA聚合酶Ⅱ催化转录合成,起初被认为是基因转录过程中生成的“垃圾序列”和“噪音”[5-6]。随着现代科技尤其是二代测序的不断发展,越来越多的研究表明,lncRNAs 能以RNA 的形式参与表观遗传、转录以及转录后水平调控基因的表达,广泛参与心血管系统疾病[7]、肿瘤[5]、泌尿系统疾病[8]和代谢性系统疾病[9]等多种疾病的生命调控过程,在人类疾病的发生发展过程中扮演着十分重要的角色。Yang 等[10]通过RNA测序和差异表达分析揭示,与对照组(健康成人)比较,2 型糖尿病组有441个lncRNAs(366个上调和75个下调)、93 个miRNAs (63 个上调和30 个下调)、2 923 个mRNA(1 156 个上调和1 779 个下调)差异表达显著。而Zhou 等[11]研究表明,lncRNA Malat1 在糖尿病肾病患者中高表达,而联合ACR、肌酐、α1-MG 和lncRNA Malat1 监测对诊断糖尿病肾病具有重要意义。lncRNAs在2型糖尿病及其并发症病理发生机制的研究已经较为详尽,但在GDM 病理发生发展中的调控机制研究较少。本研究以此为出发点,拟通过高通量测序技术查明GDM患者外周血中差异表达的lncRNAs,构建lncRNAs-mRNA共表达网络,并预测其生物学功能,探讨lncRNAs 未来成为研发诊断和治疗GDM 的新试剂、新药物分子靶点的可能。
1.1 一般资料 收集2020 年7 月至2021 年12月于宣汉县人民医院妇产科入院就诊的GDM 患者(GDM 组)和门诊健康体检孕妇(对照组)各30 例,各随机抽取3 例,收集其外周血标本进行后续测序研究。入组GDM患者符合2021年国际妊娠期糖尿病研究协会(IADPSG)推荐的GDM 诊断标准,并排除精神患者及不同意参与研究的患者。本研究获得宣汉县人民医院伦理委员会的批准,所有研究内容已取得入组对象同意,并签署知情同意书。两组孕妇的年龄和孕周比较差异均无统计学意义(P>0.05),但在分娩前BMI、糖化血红蛋白、糖耐量空腹血糖、糖耐量1 h 后血糖、糖耐量2 h 后血糖方面比较差异均具有统计学意义(P<0.05),见表1。
表1 两组孕妇的基本资料比较(±s)Table 1 Comparison of basic information and data of two groups of pregnant women(±s)
表1 两组孕妇的基本资料比较(±s)Table 1 Comparison of basic information and data of two groups of pregnant women(±s)
基本资料年龄(岁)孕周(周)分娩前BMI(kg/m2)糖化血红蛋白(%)糖耐量空腹血糖(mmol/L)糖耐量1 h后血糖(mmol/L)糖耐量2 h后血糖(mmol/L)GDM组(n=30)27.54±4.25 38.21±1.10 27.35±2.21 5.33±0.25 5.13±0.52 9.69±1.52 8.32±1.52对照组(n=30)27.89±3.91 38.35±1.15 25.38±2.35 5.15±0.23 4.31±0.21 7.71±1.12 6.51±0.82 t值0.33 0.48 3.34 2.90 8.00 5.69 5.74 P值0.740 0.630 0.001 0.005 0.001 0.001 0.001
1.2 研究方法
1.2.1 总RNA 的提取 抽取GDM 组和对照组患者外周血各5 mL,按照TRIzol 试剂(Invitrogen,ThermoFisherScientific,MA)说明书操作步骤,分离和纯化全血基因组总RNA,对总RNA 进行rRNA 的剔除、质量控制及合成cDNA,将构建好的文库在Illumina HiSep 4000 测序系统上进行RNA 测序。lncRNAs基因测序及表达谱分析由上海美吉生物医药科技有限公司完成。
1.2.2 lncRNAs差异表达谱分析 采用软件Fastp对原始测序数据进行碱基质量分布统计、碱基错误率分布统计和A/T/G/C 碱基含量分布统计的质量评估。为保证后续分析结果的准确性,利用SeqPrep和Sickle软件进行数据质控和筛选,主要包括:(1)去除reads中的接头序列;(2)将序列末端(3'端)质量值小于20 的碱基修剪掉;(3)去除含N (模块碱基)的reads;(4)去掉adapter及质量修剪后长度小于30 bp 的序列。通过比对和过滤得到已知lncRNAs和新预测lncRNAs两种形式后,采用TopHat2/HISAT2 软件,与参考基因组进行比对分类和均一性分析,获得用于后续转录本组装、表达量计算等的mapped data (reads)。采用RSEM、Kallisto 和Salmon 软件对基因层次/转录本层次的lncRNAs和mRNA的整体表达水平进行定量分析,采用DESeq2 软件包进行GDM 组和对照组基因层次/转录本层次的lncRNAs 和mRNA 差异表达谱分析。以显著性P值和差异表达倍数(fold change,FC)作为判断标准,对两组间上调和下调差异表达的lncRNAs进行资料统计,并对差异表达的lncRNAs 运用R 语言进行聚类分析,分别绘制热图和火山图。
1.2.3 构建lncRNAs与mRNA共表达网络 基于mRNA/lncRNAs 表达量的相关性,构建基因共表达网络能直观地显示差异表达的lncRNAs和mRNA之间的关联,通过Pearson相关性算法获得mRNA间、lncRNAs间和mRNA 与lncRNAs 间的相关系数,分析是否存在相关性,筛选出表达明显相关的lncRNAs-mRNA关系对。
1.2.4 差异表达lncRNAs的GO及KEGG信号通路富集分析 分别利用软件Goatools和R脚本对差异表达的lncRNAs显著相关的mRNA进行GO富集分析和KEGG PATHWAY 富集分析,从而通过mRNA 的功能推导差异表达的lncRNAs的功能,了解差异表达的lncRNAs 在GDM 病理生理发生发展过程中的作用。利用Fisher 进行精确假设检验,当经过校正的P 值<0.05时,认为此GO功能和KEGG PATHWAY功能存在显著富集情况。
1.3 统计学方法 采用limma 和DESeq 软件以筛选条件为|log2FC|≥2 且P<0.05 为差异表达lncRNAs的筛选标准(FC为差异表达的倍数,即GDM组与对照组差异表达倍数在2 倍以上且满足P<0.05)。根据每个样品中基因/转录本的表达量计算Pearson相关系数,样品间的Pearson 相关系数r 的范围是|r|≤1。计数资料采用“%”统计表示,计量资料以均数±标准差(±s)表示,采用R软件利用t检验对归一化数据组进行分析统计。以P<0.05为差异有统计学意义。
2.1 高通量测序数据的质量控制 对测序得到的原始数据进行质量控制,并对其进行统计以及质量评估,主要包括:(1)碱基质量分布统计;(2)碱基错误率分布统计;(3)A/T/G/C碱基含量分布统计。结果显示,经质量控制后,错误率均在0.02%以下,Q20、Q30的比例分别达到98%和94%以上,GC含量均高于54%,数据质量较高,保证了后续测序结果的可靠性,见表2。
表2 高通量测序数据的质检结果Table 2 Quality inspection results of high-throughput sequencing data
2.2 差异表达的lncRNAs 测序结果显示,以|log2FC|≥2且P<0.05为依据,在lncRNAs和mRNA表达谱方面,GDM 组与对照组的差异有统计学意义(P<0.05),与对照组比较,GDM 组有333 个差异表达的lncRNAs(上调的lncRNAs 有169 条,下调的lncRNAs有164 条)和2 036 个差异表达的mRNA (上调的mRNA有645条,下调的mRNA有1 391条),分别如火山图1A、1B,散点图2A、2B 所示,差异表达的lncRNAs 和mRNAs 均匀地分布在两侧,表明测序结果良好,结果可靠。进一步研究显示,与对照组比较,GDM 组有12 条lncRNAs 表达上调超过6 倍,14 条lncRNAs表达下调超过6倍;有其中有20条mRNA表达上调超过8 倍,有17 条mRNA 表达下调超过12 倍。表3、表4 分别按照P 值大小列出来上调、下调lncRNAs和mRNA的前10位。
表3 差异表达显著的lncRNAs(按照P值大小排序前10位)Table 3 lncRNAs with significant differential expression(top 10 by P value)
表4 差异表达显著的mRNA(按照P值大小排序前10位)Table 4 mRNA with significant differential expression(top 10 by P value)
图1 差异表达的lncRNAs和mRNA火山图Figure 1 Volcano map of differentially expressed lncRNAs and mRNA
图2 差异表达的lncRNAs和mRNA散点图Figure 2 Scatter plot of differentially expressed lncRNAs and mRNA
2.3 lncRNAs-mRNA 共表达网络构建 为查明哪些关键mRNA受差异表达的lncRNAs所调控,本研究通过构建lncRNAs-mRNA 共表达网络,以Pearson相关系数绝对值大于0.99 且P<0.05 为标准,共得到16 104 个 条 目,其 中lncRNAs-mRNA 和mRNA-lncRNAs关系对分别为611个、2 965个。
2.4 GO 生物学功能富集分析和KEGG PATHWAY信号通路富集分析 对两个关系对中lncRNAs相应靶基因进行GO 富集分析和KEGG Pathway 分析。GO 生物学功能富集分析结果显示:在生物过程条目中,差异表达的lncRNAs 靶向调控的mRNA转录本主要富集在蛋白复合物分解调控、免疫系统调节、代谢过程调节、细胞过程调节和生物过程调节等。在细胞成分条目中,主要富集在转录因子AP-1 复合物、胞浆、细胞膜元件、膜结合细胞器、细胞器和核等。在分子功能条目中,主要富集在有机环化合物结合、杂环化合物结合、钙黏蛋白结合、RNA 结合、序列特异性双链DNA 结合和核酸结合等,见图3。KEGG 信号通路富集分析结果显示,差异表达的lncRNAs 靶向调控的mRNA 转录本参与的信号通路主要包括:B 细胞受体信号通路、泛素介导的蛋白质水解、破骨细胞分化、内质网中的蛋白质加工、人类T 细胞白血病病毒1 感染、雌激素信号通路、PD-L1 和PD-1 在癌症中的表达信号通路等,见图4。
图3 差异表达的lncRNAs靶向mRNA转录本GO富集分析Figure 3 GO enrichment analysis of differentially expressed lncRNAs target-regulated mRNA transcripts
图4 差异表达的lncRNAs靶向mRNA转录本KEGG pathway富集分析Figure 4 KEGG enrichment analysis of differentially expressed lncRNAs targeted mRNA
续表3
研究表明,妊娠期糖尿病患者可分为两类,一种是妊娠前就已确诊为糖尿病患者,称为“糖尿病合并妊娠”;而另一种是妊娠前糖代谢正常而妊娠期过程中罹患糖尿病的患者,则称为妊娠期糖尿病。目前,国内外对GDM 病理生理发展过程的认识与研究仍然很少,而关于GDM 患者的外周血lncRNAs 差异表达谱以及lncRNAs的异常表达与GDM 患者的临床表现特征、诊疗方式和预后发展情况的关系目前均未见报道。随着基因组时代的快速发展,高通量测序和基因芯片技术已成为分子生物学和遗传学研究中的两大重要技术[12]。数以万计的基因组序列的发现和功能研究,使得大规模识别常见病、多发病lncRNAs 表达谱及其在这些疾病病理发展分子机制、信号通路成为可能。本研究以此为切入点,对lncRNAs 在GDM 患者外周血表达谱进行初步筛查,为lncRNAs的异常表达在GDM 病理生理过程研究提供了新思路和新依据。同时,加速对GDM 患者最新治疗靶点的研究以及预防、诊断和预后监测标记物的开发研究。因此,查明GDM 患者的生物遗传学特征将有助于探索该病的发病分子机制和信号通路,找到新的个体化诊疗方案。越来越多的研究表明,外周血中异常表达的lncRNAs在诸如心血管疾病[7]、肿瘤[5]和内分泌系统疾病[9]等人类众多疾病的病理生理过程中扮演着重要的角色,已成为近年来国内外研究者们关注的焦点。Liang 等[13]研究表明,LncRNA RSU1P2 在肝癌组织和细胞中的表达显著上升,而敲除LncRNA RSU1P2 能显著抑制肝癌细胞的存活、侵袭、上皮-间充质转化(EMT)和癌干细胞相关基因的表达,同时促进肝癌细胞的凋亡;进一步研究揭示,lncRNA RSU1P2 能通过let-7a/Tex10 途径促进肝癌的肿瘤发生和肿瘤干细胞样特性。Zheng 等[14]研究表明,lncRNA TTTY15 在缺氧诱导的HUVEC 中的表达水平明显上调,而miR-186-5p的表达水平显著下调;进一步研究表明,lncRNA TTTY15 能通过靶向调控HUVEC中的miR-186-5p调节缺氧诱导的细胞损伤。
本研究分别收集了3 例GDM 患者和健康孕妇外周血样本,并采用高通量测序的方法对lncRNAs表达谱进行生物信息学分析。研究发现,与健康孕妇比较,GDM 患者外周血有差异表达的lncRNAs 333 个,mRNA 2 036 个,其中上调的lncRNAs 169 个,mRNA 645 个;下调的lncRNAs 164 个,mRNA 1 391 个;且有12 条lncRNAs表达上调超过6 倍,14 条lncRNAs 表达下调超过6 倍;20 条mRNA 表达上调超过8 倍,17 条mRNA表达下调超过12倍。GO生物学功能富集分析结果显示:差异表达的lncRNAs靶向调控的mRNA转录本主要富集在转录因子AP-1 复合物、蛋白质复合物分解的调控、免疫系统调节、防御反应、细胞解剖实体、大分子代谢过程的调控、氮化合物代谢过程的调控、胞浆、代谢过程调节等;KEGG 信号通路富集分析结果显示,差异表达的lncRNAs靶向调控的mRNA转录本参与的信号通路主要包括:B 细胞受体信号通路、泛素介导的蛋白质水解、破骨细胞分化、内质网中的蛋白质加工、人类T 细胞白血病病毒1 感染、雌激素信号通路、PD-L1 和PD-1 在癌症中的表达信号通路等。
本研究结果表明,lncRNAs的异常表达与GDM的发生发展密切相关,为寻找GDM 诊疗新型标志物提供了新的思路,为后续研究GDM 病理发生过程,实现GDM 诊治的精准化,提高GDM 患者的生活质量打下了坚实基础。目前,要将lncRNAs 作为GDM 临床诊疗标志物仍存在一定的局限性,主要原因是本研究选取的是小范围地区内的患者,其他地区和其他种族是否具有同样差异还未可知,同时具体的分子调控分子网络和信号通路尚需进一步深入研究。本次研究的创新点主要是采用高通量测序筛选了GDM 患者外周血差异表达lncRNAs,查明了更多未知的与GDM 相关的lncRNAs,遴选了相关性较高的差异表达的lncRNAs的靶基因mRNA,并阐述了这些mRNA 的主要生物学功能和可能参与调控的信号通路。作为当前较为热门的研究方向,虽然lncRNAs还未能真正应用于临床,但是对于lncRNAs与临床疾病相结合的研究仍具有重要的指导意义。未来,本研究团队将遴选具有重要意义的lncRNAs 和mRNA 进行PCR 验证,并进一步深入探索lncRNAs 在GDM 病理发生发展中的重要分子机制,参与的重要代谢性信号通路等。