于小林 张晓梅 张艳霞
特发性肺间质纤维化(idiopathic pulmonary fibrosis,IPF)临床上一类病因尚不清楚的呈进展性、弥漫性的间质性肺病[1],患者的中位生存期仅2~4年,发病率为每年3~9/10万[2]。目前,临床上缺乏有效的治疗手段。网络药理学是挖掘与预测药物靶标的重要方法,在探索中药复方的起效成分与作用靶点方面具有较为广泛的应用。既往的网络药理学研究中对于疾病靶点的确定存在一定的局限性,疾病靶点与临床实际的关联较为欠缺。基于临床大样本基因芯片数据,通过生物信息学手段,结合实际的临床性状与随访信息,对于中药复方的抗纤维化靶点与潜在分子机制进行探索,为进一步的研究提供思路与线索。课题组前期研究已经证实,补气活血通络方具有明确的抗纤维化作用[3],本次研究基于改进的网络药理学方法,对具体其作用靶点进一步挖掘。
补气活血通络方的药物组成为黄芪、金银花、当归、甘草、穿山龙、石韦、浙贝母、瓜蒌、桔梗、枳壳、红景天,通过中药系统药理学数据库与分析平台(http://tcmspw.com/tcmsp.php)获取复方中所有中药的成分,按照类药性(drug likeness,DL)≥30% 以及口服利用度(oral bioavailability,OB)≥0.18作为标准,筛选出具有潜在药物活性的成分,并获取其相应的靶点,同时删去没有靶点记录的成分。
本次研究的基因表达谱数据集来自于Gene Expression Omnibus (GEO)数据库,需要满足以下纳入标准:(1)样本来源于诊断为IPF的临床病例;(2)样本类型为肺组织活检;(3)数据类型为基因芯片得出的转录组数据;(4)单个数据集的样本量大于100例。下载符合纳入标准的数据集的表达矩阵,将矩阵合并后进行批次校正,减小系统误差。
加权基因共表达网络可以从整体层面得出相似表达模式的基因模块并与临床表型相关联[4],可以更宏观地认识基因的潜在功能。以基因芯片获取的基因表达矩阵为基础,以WGCNA包构建加权基因共表达网络,通过计算各个基因表达量之间的相互关系,将整体基因表达谱归为若干个基因模块,每个模块内部的基因具有相似的表达模式,进而计算每个模块与临床信息的皮尔森相关系数,从高相关性的模块中选取相对于某一临床性状的关键基因,并将此关键基因与补气活血通络方的靶基因取交集,得出中药复方调控肺间质纤维化的潜在靶点。
为了进一步判断所获得的靶点的临床意义,本研究结合生存数据,确定每个靶点基因对于患者生存时间的价值。自GEO数据库下载具有生存时间的IPF数据集GSE27957与GSE28042,以此数据集为基础,对前文得出的肺纤维化潜在靶点基因做单因素cox回归分析,筛选出与生存时间相关的靶点基因。对于筛选出的基因,以limma包进行差异分析,筛选出相对于此基因具有显著表达差异的相关基因,行GO与KEGG富集分析,得出此基因的潜在生物学功能。
本研究以R语言进行统计学分析,以WGCNA包构建加权共表达网络[5],批次校正采用sva包的ComBat函数[6],单因素cox回归分析采用survival包[7],假设检验采用Wald检验。差异分析采用limma包经验贝叶斯法[8],基因功能注释以clusterProfiler包的GO与KEGG富集分析实现[9]。变量间的相关关系采用皮尔森相关性系数表示,P<0.05认为具有统计学差异。
在TCMSP数据库中检索补气活血通络方中每一味中药的成分,对于符合DL≥30%,以及OB≥0.18筛选标准的活性成分,检索其对应的靶点,删去无对应靶点的成分,最终得出132种活性成分,所对应的靶点基因共245种。
根据纳入标准,纳入本次研究的数据集为GSE32537[10]与GSE47460[11],共包含279例IPF样本与158例对照样本。将两个数据集的表达矩阵合并后构建加权共表达网络,得到相应的基因模块(图1),每个模块代表一组具有相似表达模式的基因。各个基因模块以不同的颜色表示,灰色模块代表基因不能归入其他模块。每个方框中第一行数字为相关系数,下方括号中的数字为P值。本研究着重考虑与IPF发病相关的基因,故在图中“diagnosis”一列,选择基因模块与临床性状的皮尔森相关系数绝对值大于0.4的模块(分别为红色red、紫色purple、蓝绿色turquoise、蓝色blue、黑色black、洋红色magenta),该部分模块与IPF的诊断相关性较大。
图1 基因模块—临床性状关系图
提取高相关性基因模块的关键基因共372个,与补气活血通络方的靶点基因取交集,共得到13个基因(图2),此交集可以看做中药复方对于肺间质纤维化的靶点,同时绘制中药复方的靶点调控网络(图3),图中红色三角形代表13个基因,蓝色矩形代表基因对应的中药复方单体成分,以TCMSP数据库中的MOL编号表示。GSE27957[12]与GSE28042[13]共包含120例带有生存数据的IPF样本,基于其基因表达矩阵,从这13个基因中可以筛选出两个生存相关的IPF靶基因(表1),分别是骨髓细胞白血病基因-1(myeloid cell leukemia-1,MCL1)与血管内皮生长因子A(vascular endothelial growth facter A,VEGFA),两个基因的风险比(hazard tatio,HR)均大于1,是肺纤维化发病的危险因素。结合中药复方靶点信息,构建补气活血通络方调控肺间质纤维化生存相关靶点图(图4),可以看出此复方主要起效的成分为β-胡萝卜素、木犀草素、槲皮素。
表1 筛选出生存相关的IPF靶基因
图2 诊断相关基因与中药复方靶点基因交集
图3 中药复方成分—肺纤维化靶点调控网络
图4 补气活血通络方调控肺间质纤维化生存相关靶点图
通过对共表达基因进行富集分析,对MCL1与VEGFA进行功能注释,可以推断出其参与的生物学机制与信号通路。MCL1的富集结果如表2所示,其生物学功能主要是对于生物活性因子的应答以及细胞因子间的相互作用,信号通路主要富集于EGFR通路;VEGFA的富集结果如表3所示,其生物学功能除了对于血管生成的调控外,也参与了机体的免疫反应,尤其是中性粒细胞参与的免疫应答,参与的信号通路主要为NF-κB通路、PI3K/Akt通路以及EGFR通路。
表2 MCL1功能注释
表3 VEGFA功能注释
既往的网络药理学研究大都从疾病基因数据库中获取对于某一疾病的相关基因,进而以蛋白互做网络预测潜在作用靶点,这种方法获取的基因可能是来源于基础实验或者算法预测,临床相关性较为欠缺,且容易受到数据库收录基因数目与数据库算法的限制,对于疾病基因的认识可能相对不完善。本研究基于实际临床大样本的基因芯片数据,创新性的以加权基因共表达网络为切入点,融合了两个独立的大样本临床试验的结果,获取了IPF发病中的关键基因,具有一定的临床可信度。进而结合数据库中收录的中药复方成分及靶点信息,确定了中药复方对于IPF的作用靶点,最后基于源自另一独立队列的生存信息,以cox回归分析为筛选手段,确定了与肺纤维化生存时间相关的靶点。整个分析过程所选取的临床队列均相互独立,分析的结果可以相互验证,具有一定的临床指导意义。
中药复方具有多成分、多靶点的特征,对于中药活性成分及作用靶点的研究一直是中医药基础研究的重要课题。生物信息学可以极大的提高中医药的研究效率,从整体基因组的特征出发,可以有针对性的获取中药对于特定表型或性状的靶点信息。
MCL1是一类广泛表达于人体各个组织中的抗凋亡蛋白[14]。MCL1通过对细胞凋亡的调节作用,在调控细胞的分化与增殖,影响肿瘤的发生和发展等方面发挥重要的作用[15]。在肺间质纤维化领域,关于MCL1的研究较为欠缺。本研究通过GO与KEGG功能注释,发现MCL1在肺纤维化过程中主要参与的生物学通路为EGRF信号通路。EGFR在肺癌领域有深入的研究,针对EGFR的靶向用药具有广泛的应用。在肺纤维化领域,Epstein SG等[16]发现肺纤维化患者的成纤维细胞中EGFR表达异常,具有显著的促纤维化作用。本研究也同样支持EGFR为肺纤维化的危险因素,并且与患者的生存时间密切相关。补气活血通络方中的活性成分可能通过调节MCL1的抗凋亡作用,从而抑制成纤维细胞的分化增殖而起到抗纤维化作用。
VEGFA在广泛参与了肺纤维化的进程,以VEGFA为治疗靶点可以显著改善肺纤维化病情,对此中西医相关研究均有报道[17-18]。需要注意的是,GO分析中显示VEGFA不仅参与了血管生成的生物学过程,还对中性粒细胞的免疫反应有调节作用,近期的一项研究也报道,VEGFA可以调控中性粒细胞在炎症区域的募集与功能[19]。在肺纤维化领域尚无相关报道,关于VEGFA的免疫调节作用尚待进一步实验研究证实,该富集结果为肺纤维化中的免疫相关研究提供了新的思路与方向。本研究显示,VEGFA的共表达基因显著富集于NF-κB通路、PI3K/Akt通路以及EGFR通路,均为肺纤维化研究中的经典通路。补气活血通络方以VEGFA为作用靶点的抗纤维化作用,可能是基于调节VEGFA参与的血管生成与免疫应答而实现,主要涉及的通路为NF-κB通路、PI3K/Akt通路以及EGFR通路。
前期研究显示,补气活血通络方可以显著改善肺组织纤维增殖,改善大鼠肺功能,维持肺泡表面活性物质的正常分泌,具有明确的抗纤维化作用[20]。本次研究以生物信息学为手段,进一步挖掘补气活血通络方对于肺间质纤维化治疗的潜在靶点,确定了复方中的相关活性成分可以通过靶向MCL1、VEGFA基因而起到抗纤维化作用。前期实验研究也同样证实,补气活血通络方对PI3K/Akt信号通路有明显的抑制作用[21],从免疫组织化学层面也印证了本次数据挖掘结果的准确性。
综上所述,补气活血通络方以MCL1、VEGFA为作用靶点,作用于NF-κB通路、PI3K/Akt通路以及EGFR通路从而起到抗纤维化作用,可与前期实验研究相互佐证,并推测出此复方中可能起效的关键成分。本文是对于传统网络药理学的方法学改进,使其更贴合临床样本,但是容易受到所纳入基因芯片质量与临床信息准确性的影响,与传统网络药理学相比各有优缺点。