魏选东 罗春香
(1.湖南省儿童医院 湖南省长沙市 410007 2.湖南师范大学医学院 湖南省长沙市 410007)
目前正在跨入“网络医学”时代,随着“人类基因组计划”的完成以及临床分子诊断技术的进展,构建复杂疾病的基因表达调控网络、解析其异常调控机制,成为研究复杂疾病发生发展机制的有效手段[1-2]。本文将初步探讨肿瘤组织免疫相关细胞表达特征与预后关联性生物信息学分析的R 语言算法实现。
研究的数据收集和作图基于GEPIA 平台,GEPIA 平台是一种新开发的交互式Web 服务器,它使用标准处理管道来分析来自TCGA 和GTEx 项目的9,736 个肿瘤样品和8,587 个正常样品。该服务器可链接到TCGA 数据库(网址:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)的肿瘤分子流行病学数据进行挖掘,同时借助COSMIC 数据库(网址:https://cancer.sanger.ac.uk/cosmic/)、HPA 数据库(网址:http://www.proteinatlas.org/)、GeneCard 数据库(网址:https://www.genecards.org/)、NCBI 数据库(网址:https://www.ncbi.nlm.nih.gov/)、Ensembl 数据库(网址:http://asia.ensembl.org/)、EBI数据库(网址:https://www.ebi.ac.uk/)、OMIM 数据库(网址:https://omim.org/)、DrugBank 数据库(网址:https://go.drugbank.com/)收集样本信息)。具体操作流程及样本纳入流程如图1 所示。
R 语言读取免疫细胞表达情况的定量化结果时会得到一个list,取出第一个列表中的元素后,再查看这第一个元素的数据类型后,发现他是一个对象("ExpressionSet"),然后用exprs 来提取表达矩阵信息,用pData 来提取临床信息。获得表达矩阵和临床信息的代码如下:
图1
解卷积或反卷积需要对应细胞类型的参考表达特征矩阵具体说明如下,计算方法原理是基于去卷积(deconvolution)分解细胞组成比例,本研究使用的基于去卷积的方法为DeconRNASeq,在R语言中可运行,具体运算代码如下:
高通量技术(二代测序技术,微阵列技术,质谱技术等)的发展,使得人类可以即时测量成千上万甚至是整个基因组的表达,突变,拷贝数变异,表观与小分子化合物等各种分子信息。随着后基因组时代的到来,各种大型的后基因组计划相继被提出,如:美国癌症基因组解剖计划(CGAP),癌症基因组剖析计划(TCGA),癌症分子水平分析计划(CMAP),国际人类蛋白质组计划(HPP),以及由中国科学家领导的中国人类蛋白质组计划(CNHPP)等等。这些大的科学计划的执行为人类从分子层次全面了解这些重大复杂疾病积累了大量的组学数据。昂贵的组学数据的大爆炸,一方面形成了分子大数据,面对这样的大数据,人们迫切需要从数据中发现有利于基础研究的方向,并指导下游的试验验证。另一方面整合分子大数据和临床大数据以发现有利于指导临床实践的分子事件,逐渐填平横断在基础研究和临床实践之间的鸿沟,为转化医学和个体化医疗营造有利条件。组学数据不但数目增长快,而且单个病人的基因组数据往往呈现出高维数据的属性。维度灾难问题对于传统的无监督学习和有监督学习方法都是一个重大的挑战。传统的启发式算法(如层次聚类,k-means 聚类)往往基于距离来度量两个观测的相似度或不相似度,最常见的便是欧几里得距离。在低位空间这种度量方式是合理的,但是在高维空间,由于维度的稀释效应距离这一概念逐渐变得模糊,甚至在超高维空间,几乎所有点的距离都差不多,在这种情况下距离这一概念已不能很好的区分相似与不相似。
发展新的高维数据聚类算法对于肿瘤分子分型具有重要的理论和实际意义。通过在混合因子分析模型中引入一个对因子载荷矩阵的惩罚项,能够使得既降低数据的维度(即从原空间转入因子空间),又能够实现变量选择。从而实现对高维小样本数据的更好聚类。在前期工作的基础上进一步调试程序,并制作R 软件程序包提交到CRAN 镜像供用户下载。随着生物信息学学科的不断发展以及计算机技术的进步,这些局限性也有望被克服[3-4]。