基于rMKL-LPP方法的乳头状肾细胞癌多组学数据整合分型分析*

2022-10-12 01:54李灵梅魏亿芳房瑞玲崔跃华曹红艳

中国卫生统计 2022年4期

李灵梅魏亿芳李治房瑞玲崔跃华曹红艳，4△

【提要】目的探讨局部保留投影的正则化多核学习(regularized multiple kernel learning with locality preserving projections，rMKL-LPP)在乳头状肾细胞癌(papillary renal cell carcinoma，PRCC)多组学数据分子分型中的应用，进一步研究PRCC分子分型在信号通路活性和基因表达调控方面的异质性。方法采用rMKL-LPP方法对PRCC的mRNA、miRNA和DNA甲基化数据进行整合，进一步采用k-means方法聚类分型，并通过Cox回归分析研究不同分型的预后风险。针对不同分型，进行通路活性分析，使用差异表达分析筛选DEmRNAs(differentially expressed mRNAs)，DEmiRNAs(differentially expressed miRNAs)和DMGs(differentially methylated genes)，并对三者的重合基因进行GO(gene ontology)富集分析，最后使用相关及生存分析筛选可能受DNA甲基化或miRNA调控且影响患者生存的基因。结果 PRCC患者分为三型，不同亚型在通路活性和基因表达方面均有差异。筛选出10条活性存在差异的通路；1185个DEmRNAs，13个DEmiRNAs及416个DMGs，其中36个重合基因富集于有统计学差异的8个GO生物项。相关分析发现，ABL2可能受hsa-miR-107调控，13个基因可能受DNA甲基化调控。生存分析表明，ZNF135和RBPMS2可能与患者生存结局相关。结论 rMKL-LPP能够有效识别PRCC亚型，筛选出的通路及潜在生物标志物，可为PRCC针对性治疗提供依据。

乳头状肾细胞癌(papillary renal cell carcinoma，PRCC)是肾细胞癌(renal cell carcinoma，RCC)的第二常见亚型，占RCC病例的10%～15%[1]。PRCC具有很强的异质性，组织学上通常分为两型：Type Ⅰ和Type Ⅱ。其中，Type Ⅰ型属于低级别肿瘤，Type Ⅱ型属于高级别肿瘤[2]。Type Ⅱ较Type Ⅰ异质性更强，预后更差[3]，可分化为高度恶性的RCC肉瘤样型[4]。该组织学分型常用于传统临床对PRCC患者进行预后评估，然而同一组织类型且临床分期相近的患者即使采用相同的治疗手段，其治疗效果和预后结局亦相差较大，评估效果并不理想。随着测序技术的发展，积累了大量组学数据，从组学层面研究癌症分子分型随之兴起。整合多组学数据不仅能够捕获PRCC不同组学的异质性，同时还可获得组学间的关联信息[5]，从多层面揭示疾病的复杂调控机制。如何利用组学数据对患者精准分型，为治疗方案的选择及预后评估提供帮助，进而实现精准治疗，是PRCC临床治疗的重要发展方向。

TCGA研究组[3](2016)采用COCA方法[6](cluster-of-clusters analysis)综合PRCC患者的miRNA/mRNA、拷贝数变异、蛋白表达数据及DNA甲基化数据，首次对PRCC患者进行了分子分型。COCA是一种两步聚类法，首先基于不同数据类型的聚类结果构建一个二进制矩阵，然后输入该矩阵进行一致性聚类，得到一个综合不同数据集的全局聚类结构。然而，COCA属于后期整合方法，在对每个组学数据进行单独聚类时，易损失较弱的数据信号[7]，而且在组合不同数据的聚类结构时未能考虑不同组学对分型的贡献[8]。而基于多核学习[9]的方法，将不同n×pi的组学数据分别转换为n×n的样本相似矩阵，通过学习优化，得到最优样本相似矩阵的线性组合，能够反映不同类型数据的权重，在多组学数据整合分型中独具优势。Speicher等[10]将多核学习与局部保留投影降维方法[11](locality preserving projections，LPP)结合，提出了rMKL-LPP。rMKL-LPP具有以下特点：(1)可基于数据类型灵活选择核函数；(2)样本相似矩阵的权重即为不同组学数据的贡献度，反映了不同组学对分型的贡献；(3)每个数据类型可设置多个核函数，避免了核参数设定的局限性。此外，Rappoport和Shamir[7]研究不同整合方法在10种TCGA癌症分型中的应用时，指出rMKL-LPP相比其他方法，更能有效识别出与临床特征及生存率显著相关的分子亚型。

因此，本文采用rMKL-LPP算法，整合PRCC患者mRNA、miRNA及DNA甲基化数据进行分型，并寻找不同分型的重要通路及差异表达基因，为实现乳头状肾细胞癌不同分型的针对性治疗提供参考。

数据和方法

1.数据来源

使用R包TCGAbiolinks[12]下载PRCC的mRNA、miRNA、DNA甲基化及临床数据，进行ID匹配后，得到表达矩阵：56493×219的mRNA矩阵、1881×219的miRNA矩阵及485577×219的DNA甲基化矩阵，其中行表示每个组学数据的特征，列表示样本。数据预处理方法如下：(1)对启动子区域CpG甲基化位点进行注释，启动子区域为转录起始位点2kbp内的区域[13]，进一步去除性染色体上的启动子区CpG位点。(2)删除缺失比例大于30%的特征，用KNN(k-nearest neighbors)算法填补剩余缺失值，并对mRNA和miRNA数据进行log2转换。最终得到16534个mRNA，437个miRNA和49022个DNA甲基化位点。

2.分析方法

多核学习降维(multiple kernel learning for dimensionality reduction，MKL-DR)方法[14]通过使用核函数，将不同数据集映射到高维空间并进行集成，然后通过降维算法将集成结果映射到低维空间，进行后续分析[15]。rMKL-LPP在MKL-DR的基础上，采用LPP进行降维，同时为了避免优化问题中的过拟合，加入了正则约束项。方法原理如下：

(1)多核学习

多核学习将M个给定的基本核函数{k1，…，kM}线性组合，通过优化权重系数得到一个融合核K，如公式(1)所示。

(1)

其中Km表示基本核函数，βm是核函数Km的权重系数。

(2)局部保留投影降维LPP

LPP是一种基于图嵌入框架的无监督方法，旨在寻找最优投影向量v，使得经v映射后，样本在优化空间中仍然能够保持高维空间中的近邻关系。v根据图保留准则(graph-preserving criterion)进行优化：

(2)

(3)

(4)

(5)

其中xi和xj表示第i和j个样本，元素wij构成相似矩阵W，元素dij组成约束矩阵D，Nk(i)和Nk(j)为数据点i和j的最近邻数。

(3)引入正则约束的优化

(6)

其中α是一维情况下的投影向量，Ki为集成空间，β是核函数的权重向量。对于多维数据，将针对投影矩阵A=[α1…αp]进行优化，并采用坐标下降法交替对A与β进行迭代优化，直到达到收敛或最大迭代次数。若从优化A开始，令所有核矩阵权重β数值相同，且总和为1；若从优化β开始，AAT应初始化为I。

(4)k-means聚类

rMKL-LPP通过LPP将集成结果投影到低维空间，进一步采用k-means方法进行聚类分型，并根据轮廓系数选择最优分型数。

(5)rMKL-LPP参数选择

3.基于PRCC分型结果的下游分析

(1)Cox回归分析

控制初始诊断年龄、性别和病理诊断分期等情况下，采用Cox回归分析对PRCC患者的分型结果进行预后评估。

(2)通路活性分析

利用progeny软件包[16]对不同亚型进行通路活性分析，并采用非参数检验筛选活性存在差异的通路，筛选标准为Padj<0.01。

(3)差异基因筛选

采用Kruskal-Wallis秩和检验筛选DEmRNAs、DEmiRNAs及DMGs，阈值设为Padj<0.01；进一步采用超几何分布检验[17]筛选在每个分型上富集的特征，筛选标准为Padj<0.01。为选择最具代表性的特征，要求特征在该分型中至少有2/3的样本发生改变，同时至少在一个其他分型中少于1/3样本发生改变，按此标准选出的特征即为最终的差异基因。

(4)GO富集分析

利用miRWalk[18]在线工具预测DEmiRNAs的靶基因，进一步采用clusterprofile R包[19]对DEmRNAs、DEmiRNAs靶基因及DMGs的重合基因进行富集分析。

(5)相关分析

分别对DEmRNAs与DMGs的重合基因，DEmRNAs与DEmiRNAs靶基因的重合基因进行Pearson相关分析，根据相关系数r和P值筛选出可能受DNA甲基化负调控的基因，筛选标准为-1.0

(6)基因生存分析

对可能受DNA甲基化或miRNA调控的基因进行生存分析。根据基因表达水平将患者分为高表达组和低表达组，应用Kaplan-Meier生存分析筛选与患者生存相关的基因，筛选标准为P<0.05。

结果

1.PRCC患者分型结果评价

采用rMKL-LPP对219名PRCC患者的组学数据进行整合分析，最优分型数为4(图1)，生存曲线见图2，不同分型患者的生存率存在差异(χ2=89.566，P<0.0001)。经Cox回归分析发现，Cluster2和Cluster3生存率差异无统计学意义(χ2=0.050，P=0.823)。因此，将Cluster2和Cluster3合并成为一个新的Cluster2，三组基本资料见表1，生存曲线见图3。结果显示，Cluster3患者相比于其他两型，预后差，说明基于rMKL-LPP的分型与PRCC患者生存相关。

图1 PRCC分型结果的三维图

图2 PRCC分为四型的生存曲线图

图3 PRCC分为三型的生存曲线图

表1 PRCC患者分型的基本资料

在校正协变量的情况下，研究不同分型对预后的影响，即分型作为自变量，生存时间和生存状态作为因变量，拟合Cox回归模型，结果如表2，预后最差的Cluster3患者的死亡风险是Cluster1的47.731倍，Cluster2患者的死亡风险是Cluster1的6.143倍；病理分期差异有统计学意义，Ⅳ期患者死亡风险是Ⅰ期患者的20.351倍。

表2 219例PRCC患者的Cox回归分析结果

2.通路活性分析

对PRCC亚型进行通路活性分析，存在差异的10条通路如图4所示，其中TGF-β、EGFR、NF-Kβ、MAPK、Hypoxia、TNF-α和PI3K通路在Cluster3中活性最高；通路Wnt和VEGF在Cluster2中活性最高，Estrogen通路在Cluster1中活性最高。不同分型通路活性的差异也在一定程度上反映了PRCC不同亚型的异质性。

图4 PRCC不同亚型的差异通路

3.差异基因筛选及分析

(1)差异基因的筛选结果

筛选出1185个DEmRNAs，其中上调626个，下调559个；459个差异甲基化位点映射到416个DMGs，包括111个高甲基化基因和305个低甲基化基因；筛选出13个DEmiRNAs，其中2个上调，11个下调。图5依次为DEmRNAs，DMGs及DEmiRNAs表达热图，从图中可以明显看出这些特征在不同亚型中的表达差异。

图5 不同亚型中差异基因表达热图

对13个DEmiRNAs进行预测得到36个靶基因，通过对DEmRNAs，DMGs以及36个DEmiRNAs靶基因进行联合分析，发现DEmiRNAs靶基因与DEmRNAs有1个重合基因，DMGs与DEmRNAs有35个重合基因(图6)。

图6 差异基因的韦恩图

(2)GO富集分析

为进一步验证基于rMKL-LPP分型的生物学意义，对联合分析得到的重合基因进行富集分析。36个重合基因富集于8个GO生物项，见图7，基因与GO生物项的关系如图8所示。GO富集分析可从生物过程(biological process，BP)、分子功能(molecular function，MF)和细胞组成(cellular component，CC)等三部分对基因及基因产物进行注释。8个GO生物项主要体现在生物过程和细胞组成两个方面。图7中8个GO生物项纵轴自上而下依次为中胚层发育、色氨酸分解过程、含吲哚化合物分解代谢过程、吲哚烷基胺分解过程、色氨酸代谢过程、吲哚烷基胺代谢过程、顶端质膜与细胞的顶端部分。图中实心圆的大小表示富集于该通路基因的数量。

图7 GO通路分析图

图8 基因与8个GO生物项的网络关系图

(3)相关分析

对DEmRNAs与DMGs重合基因进行相关分析，最终得到13个存在相关关系的基因，即可能受DNA甲基化调控的基因，如图9所示。基因在不同亚型表现出不同的相关关系，如ZNF135仅在Cluster1中存在相关关系；而RBPMS2仅在Cluster3中存在相关关系。对DEmRNAs与DEmiRNAs靶基因的重合基因进行相关性分析，发现ABL2仅在Cluster2中与hsa-miR-107存在负相关关系(图9)。基因之间的相关关系表明基因间可能存在生理学调控作用。

图9 重合基因相关关系热图

(4)基因生存分析

对可能受DNA甲基化或miRNA调控的基因进行生存分析，最终得到2个可能影响PRCC患者预后的基因，如图10所示。在Cluster1中，ZNF135低表达组患者的总生存期低于高表达组；在Cluster3中，RBPMS2高表达的患者较低表达的患者预后更差。

图10 基因ZNF135与RBPMS2的生存曲线图

讨论

本文采用rMKL-LPP方法对PRCC多组学数据进行整合分型，将PRCC患者分为三型，不同分型在通路的活性、基因表达调控方面均有差异。基于分型得到的潜在生物标记物(基因或信号通路)，将为PRCC针对性的干预治疗提供重要的参考依据。

PRCC患者分为三型，Cluster1与Cluster2型PRCC发病年龄在60～65岁，且男性居多，与大多数病例的高发年龄、性别构成基本吻合[20]。预后最差的Cluster3型患者初始诊断年龄偏小，且在女性中更为常见。结合三个亚型来看，发病年龄越早的患者预后越差，而且不同性别的患者高发年龄可能不一致。对此，临床上应予以重视，多关注小于50岁的患者，同时加强对女性患者的筛查和评估，及时进行干预。本研究女性样本含量较小，有关PRCC年龄及性别的差异仍需进一步研究。

不同亚型信号通路活性的差异可帮助理解PRCC异质性的分子基础。通路TGF-β、EGFR、NF-Kβ、MAPK、Hypoxia、PI3K和TNF-α在Cluster3中活性最高。其中TGF-β可通过诱导患者上皮间质转换来促进RCC发展[21]。EGFR通路在肾脏发育过程中起关键作用，可能是PRCC一个潜在的治疗方向[22]。通路NF-Kβ和MAPK可调节RCC细胞增殖、侵袭和迁移[23-24]。Hypoxia通路作为肾癌的主要驱动因素被广泛研究，与透明细胞肾细胞癌关系密切[25-26]。PI3K在RCC中可加速细胞周期，促进肿瘤细胞迁移[27]，据此，可通过抑制PI3K/AKT信号通路来阻止RCC的生长和转移[28]。TNF-α通路可为癌细胞的激活、分化、侵袭和增殖提供信号，促进癌症发展[29-30]。可见，这些通路的异常激活可能与Cluster3不良预后相关。此外，Wnt通路的异常激活可促进RCC的转移和恶化[31]。而VEGF和Estrogen通路可影响肾癌的发生发展[32-33]，其对于PRCC靶向治疗的意义有待进一步挖掘。

本研究基于PRCC分子分型得到三个可能受DNA甲基化或miRNA调控且影响患者生存的基因ABL2、ZNF135与RBPMS2，这三个差异分子靶标与PRCC的关系尚不明确，但有研究发现它们与其他癌症有关。ABL2是一种原癌基因，可参与调控细胞生长、侵袭和迁移等过程[34]，与肾细胞癌的发生发展相关[35]。ZNF135编码一种转录抑制蛋白，在透明细胞肾细胞癌、宫颈癌与乳腺癌等多种癌症中高度甲基化[36]，本研究发现其在RPCC中也高度甲基化，具体作用机制有待进一步阐明。RBPMS2的高表达与胃肠道间质瘤有密切联系[37]，还可促进乳腺癌的发生发展[38]。这些基因对PRCC的预后有一定的预测价值，有望作为PRCC未来药物治疗的潜在靶点，而且基因间的调控作用也值得进一步研究。

综上所述，本文基于rMKL-LPP方法对PRCC多组学数据的整合分析，能够有效地识别亚型，为PRCC的分型研究提供了新的思路。识别出的PRCC亚型在信号通路活性、基因表达及调控方面均存在差异，这有助于进一步理解不同分型发生发展的潜在分子机制。此外，筛选出的潜在生物标志物将为PRCC治疗和预后评估提供一定的理论依据和临床指导。

基于rMKL-LPP方法的乳头状肾细胞癌多组学数据整合分型分析*

数据和方法

结 果

讨 论

结果

讨论