张 凯 张 峻 李诗琴 蒋 炜 王 超▲
1.复旦大学附属中山医院厦门医院消化科,福建厦门 361015;2.复旦大学附属中山医院消化科,上海 200032
2020国际专家小组新命名代谢相关脂肪性肝病(metabolic associated fatty liver disease,MAFLD)替代非酒精性脂肪性肝病,亚太肝脏研究协会也颁布了MAFLD相关诊疗指南[1-2]。目前MAFLD已成为全球最常见的慢性肝脏疾病,其对患者生活造成的影响与疾病负担也高于其他肝损疾病[3]。生物钟是机体维持正常生理和行为节律的调控机制,它由一系列生物钟相关基因所调节[4-5]。研究发现睡眠时间缩短会增加MAFLD的发病风险,这与昼夜节律紊乱有关[6-7]。生物钟参与调节糖脂代谢、炎症及氧化应激等过程,提示其可能在分子水平参与MAFLD的发病[8]。本研究通过生物信息学和机器学习方法进一步探究生物钟相关基因在MAFLD中的潜在关系。
数据集来自美国国立的生物信息中心GEO数据库。根据MAFLD的诊断标准[2],获得GSE89632数据集与GSE48452数据集。通过对目前发现的和人体生物节律调节有关的51个生物钟基因进行探究[9-10]。
将数据集51个生物钟基因的表达情况进行筛选重组并制成表达矩阵,按照|log2 FC|>1和P< 0.05作为筛选标准,对表达数据进行差异性分析。通过R软件对筛选出生物钟相关差异性基因,进行京都的基因和基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)的信号通路及基因本体论(gene ontology,GO)分析。
本研究分别进行最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)分析和随机森林分析,对两种算法结果取交集,获得特征基因;通过logistic算法构建基于特征基因的诊断模型。通过绘制受试者工作特征(receiver operator characteristic,ROC)曲线并计算曲线下面积(area under the curve,AUC)评价基因的诊断性能。最后通过GSE48452来验证筛选出的特征基因在MAFLD与健康对照组的差异及对疾病的潜在诊断价值。
使用R4.1.3版本进行所有数据分析和可视化。使用t检验计算MAFLD和健康对照组中特征基因表达的差异。P< 0.05为差异有统计学意义。
数据集GSE89632共有63个数据被纳入研究,包括20例单纯性脂肪性肝病患者(simple fatty liver disease,SS),19例脂肪性肝炎患者(non-alcoholic steatohepatitis,NASH),24名健康对照组(health comparison,HC)。51个生物钟基因中,两组共同上调的基因有8个,分别是DBP、NR1D2、TEF、PPP1CA、CSE1L、RORC、PPP1CC、BTRC;共同下调的基因有8个,分别是NFIL3、CSNK1E、PER2、CRY1、AHR、CSNK1D、NR1D1、CREB1(图1A),其差异基因表达热图(图1B)。
图1 生物钟相关基因在MAFLD中的差异表达基因韦恩图及表达热图
GO富集通路情况:在生物学过程主要富集在调节昼夜节律及细胞糖类代谢等过程;在细胞组分过程主要富集在树突棘、蛋白磷酸酶复合体等;在分子功能上主要富集在核受体活性、转录共调节因子结合等过程(图2A)。
图2 生物钟相关基因GO、KEGG富集气泡图
KEGG富集通路情况:主要富集于昼夜节律、Hippo信号通路及Hedgehog信号通路等通路(图2B)。
构建LASSO回归模型并进行交叉验证,误差最小值对应5个特征基因(DBP、CSE1L、NFIL3、CSNK1E、PER2)(图3A~B);随机森林分析通过对每个基因的重要性进行排序,选择前5个重要基因(NFIL3、PER2、CRY1、TEF、PPP1CA)(图3C)。取交集得到NFIL3、PER2 2个特征基因(图3D)。
分析特征基因诊断价值:ROC结果表明2个特征基因NFIL3、PER2的AUC>0.85,具有较高的诊断价值(图3E)。基于logistic算法构建NFIL3、PER2的诊断模型,结果表明模型AUC为0.973,具有较高的诊断效能(图3F)。
在数据集GSE48452对NFIL3、PER2进行外部验证,结果发现健康对照组和MAFLD组NFIL3、PER2的表达量比较,差异有统计学意义(P< 0.05)(图4A)。模型ROC曲线显示基于NFIL3、PER2构建的模型在验证数据集的AUC>0.85(图4B)。
图4 特征基因NFIL3、PER2及其诊断模型在验证集的分析
MAFLD是当今全球最主要慢性肝病之一[2]。深入研究MAFLD的发病机制,对减少MAFLD发病率,延缓疾病的进展具有重大意义。研究通过GEO数据库分析了51个生物钟相关基因在MAFLD的表达情况。结果共有8个生物钟基因上调,8个生物钟基因下调,主要富集于昼夜节律、Hippo信号通路及Hedgehog信号通路等通路。通过机器学习筛选的NFIL3、PER2基因及通过特征基因构建的模型对MAFLD的诊断具有较高的诊断效能。
生物钟广泛存在于哺乳动物中,对生命活动进行调控,使复杂的生命活动有序进行。本研究中生物钟差异表达基因富集于Circadian rhythm通路,主要调节昼夜节律。PER2作为生物钟核心基因的组成部分,在影响中枢和周围神经系统的昼夜节律中起主导作用[11],它参与调控糖脂代谢,其表达水平的降低,可导致血糖水平的升高及脂肪合成的增加[12-15]。在本研究中,PER2在MAFLD组中表达下调,表明该生物钟基因可能通过影响糖脂代谢,参与MAFLD的发生与发展。这与前人研究一致,昼夜节律可通过参与机体糖脂等营养物质的代谢来调节代谢平衡,影响疾病发展[16-18]。NFIL3在各种人体组织中广泛表达,通过参与昼夜节律来调节免疫细胞分化和能量代谢等过程[19-20]。相关研究表明昼夜节律与肠道微生物的相互作用参与MAFLD的发生[21-22]。Wang等[23]的研究发现微生物群可通过NFIL3控制昼夜节律脂质代谢程序的表达,并调节肠上皮细胞中的脂质吸收进而参与宿主代谢。因此NFIL3可能通过肠道菌群参与影响MAFLD。
根据富集分析结果,生物钟差异基因还富集在Hippo信号、Hedgehog信号等通路。相关研究表明Hedgehog及Hippo信号通路参与肝癌的发生和发展[24-25]。Hedgehog信号通路在胚胎发育及调节多种细胞功能中起重要作用,可通过ERK通路及调控自噬等机制参与肝癌的发生与转移[24,26]。而Hippo信号通路对于肝脏生长发育起到交通枢纽作用[27],可以抑制肝细胞生长、诱导细胞凋亡、控制肝脏大小及抑制肝脏肿瘤形成。这也支持了生物钟相关基因还可能促进MAFLD向肝癌的发生与发展。
本研究通过使用GEO数据库并结合机器学习和生物信息学方法来探究生物钟相关基因在MAFLD中的作用。但还具有一定的局限性,该研究完全基于GEO数据库中的数据,后续还需进一步通过动物实验或人体标本进行研究分析。
综上所述,本研究通过检索GEO数据库中MAFLD相关数据集并进行生物信息学分析,提示生物钟相关基因可能通过调节人体昼夜节律和相关代谢通路参与MAFLD的发生发展,为继续深入研究MAFLD的发生机制提供了研究思路及潜在的生物诊断标志物。