杨 光, 郝逸凡
(沈阳师范大学 数学与系统科学学院, 沈阳 110034)
前列腺癌是发生在男性前列腺组织中的恶性肿瘤,是前列腺腺泡细胞异常无序生长的结果。前列腺癌发病率的高低与地理和种族的差异性有关。在欧美一些发达国家和地区,它是男性最常见的恶性肿瘤,死亡率排在各种癌症的第二位;在亚洲,虽然发病率低于其他西方国家,但是近几年也呈迅速上升趋势。临床上前期主要采用雄激素剥夺疗法(ADT)治疗前列腺癌,然而几乎所有患者最终都会发展为致命性的去势抵抗型前列腺癌(CRPC)。虽然FDA(美国食品药品管理局)批准的第二代抗雄激素药物如Enzalutamide(恩杂鲁胺)和Abiraterone(阿比特龙)等对缓解疾病进展具有一定的功效,但患者很快就会出现临床耐药。因此,临床上迫切需要治疗前列腺癌的特效药。
鉴于国内现有的医疗水平,针对前列腺癌仅能通过常规手术治疗、内分泌及化学药物疗法来提高患者的生活质量,但提高患者的生存期依旧是一个难题。目前,分子靶向治疗已成为肿瘤治疗的研究热点,为前列腺癌的治疗也提供了新的思路和方向。利用基因表达谱等组学技术发现抗前列腺癌的药物靶标可作为一个重要手段。但新药开发是一个耗时费力的高风险过程,充分发掘已有药物的新用途,对药物进行重定位,备受生物医药产业和学者们的青睐[13]。
药物重定位又称老药新用,指对曾经用于临床的药物新适应症的发现、确认和应用。包括对处于临床研究阶段或已批准上市的药物进行重定位、重定用途、重评价和重新定位治疗方向等[4]。推动一个新药物上市通常需要13—15年,其成本平均需要20~30亿美元,且处于上升趋势。 如果对已有药物进行研究,一旦它们拥有不同的医疗用途,这将是一个巨大的未开发资源。“药物重定位”可以跳过临床Ⅰ期,相比于新药物大大地缩减研究成本和投入时间。到目前为止,从已知的药物中发现新的适应症,成功重定位的药物已经有100多种。如何从已知药物中发现对于前列腺癌有治疗效果的药物是本文探讨的问题。
互信息(mutual information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性[5]。因为基因与基因间具有关联性。采取基于互信息算法的特征基因提取方法可以保留这种关联性。如果互信息值比较大,说明这两个基因之间的关联性比较大,即在生物学上的联系比较紧密。如果互信息值比较小,说明这两个基因之间的关联性比较小,即在生物学上的联系不紧密。如何用互信息算法提取出前列腺癌的特征表达基因是本文探讨的问题。
cmap[6]是利用小分子药物、基因表达与疾病相互关联的生物应用数据库。通过基因表达谱建立基因、疾病和药物三者的关联性,并快速利用基因表达谱的数据比对出与疾病高关联性的药物。近年来的研究趋势表明:将cmap基因表达谱数据库应用于疾病治疗与药物开发领域,可提供越来越精确的方向。在药物开发方面,利用基因表达谱的数据在cmap数据库中快速比对出与疾病高关联性的药物。目前已经有学者成功的利用cmap验证了抗溃疡药可以用于治疗肺癌,抗癫痫药物可以用来治疗炎症性肠道疾病,抗哮喘药物可以用来预防白内障等。如何将这种方法应用在抗前列腺癌药物的领域里是本文研究的问题。
本文首先从TCGA数据库中获取前列腺癌与癌旁的基因表达数据,利用R软件将数据进行预处理;然后利用互信息算法将与前列腺肿瘤密切相关的特征基因筛选出来;最后通过cmap数据库分析,检索出具有与肿瘤基因相反的基因标签的药物。Thioridazine(硫利达嗪)作为一种用于治疗急性精神分裂症,躁狂症以及抑郁症的药物,经分析比对得到的负相关分值最高,表明对于前列腺癌可能具有较好的治疗效果。trichostatin A、LY-294002、Sirolimus(西罗莫司)等化合物也具有较高的负相关分值,表明极可能对前列腺癌有治疗效果。
TCGA是美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。作为目前最大的癌症基因信息数据库,TCGA数据库主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据、基因组变异和mRNA表达等数据,是癌症研究者十分重要的数据来源。本文的前列腺基因表达数据来自TCGA数据库,共获得前列腺癌与癌旁的基因表达数据,包括488个患病样本和12个健康样本,共60 482条基因(https:∥cancergenome.nih.gov/)。
对于复杂的基因关系,熵和互信息的方法能有效抓住基因与基因之间的关联性,提取出复杂疾病的致病基因[7]。熵是对不确定性的度量,在信息论中,熵是用来衡量一个随机变量出现的期望值。设基因变量X=[x1,x2,…,xn]是一个基因表达模式[8],基因变量X的熵表示该模式所包含的信息量公式为
互信息是信息论中的一种有用的信息度量,可以看成是一个随机变量中包含的关于另一个随机变量的信息量。对于2个随机变量X和Y,其互信息公式为
传统的特征基因提取方法通常只注重单个基因的表达,而忽略了基因之间的关联性。针对这种情况,可以采取基于互信息算法的特征基因提取,如果互信息值比较大,说明这2个基因之间的关联性比较大,即在生物学上的联系比较紧密。计算出每条基因的信息熵,信息熵越大,证明该条基因在样本中拥有较大的信息量,对样本的影响也就越大。所以基于信息熵的角度,将每条基因的信息熵降序排列,取前5 000个基因,计算其在患病样本和健康样本中的互信息值,得到2个互信息矩阵矩阵,即Ic和In。
在健康样本中和其他基因关联较小即互信息值较小,在患病样本中该基因又与其他基因具有较大的关联性即互信息值较大的基因为从失联到关联状态下的基因,可认为此类基因为特征基因。提取特征基因的关键在于找出合适的阈值Tc和Tn,使得特征基因数目不会过多,也不会太少。经过计算从失联到关联状态的特征基因的理想阈值为Tc=0.66和Tn=0.62,从而得到实对称矩阵,对其按行求和并将和值降序排列,和值越大证明该基因在样本中与越多的基因相关联,和值为0则代表该基因并不与其他基因有关联[9]。根据上述步骤获得从失联到关联状态下的特征基因656条。
Connectivity map是一个基因表达谱数据库,它利用小分子药物、基因表现与疾病相互关联的生物应用数据库。以基因表达谱为所建立之基因、疾病与药物的关联性,可以快速利用基因表达谱的数据比对出与疾病高关联性的药物。近年来的研究趋势也显示出利用cmap基因表达谱数据库应用在疾病治疗与药物开发的领域上,可提供越来越精确的方向。目前cmap第2版已经发展成收录了1 309种药物表达谱的成熟体系,理论上讲,与疾病和药物相关的任何基因表达数据都可以在cmap数据库中进行高效率地查询比对,从数据库揭示药物、基因和疾病三者之间潜在的联系[10]。
通过R软件将筛选出的特征基因分为294个上调基因和362个下调基因。将上调基因和下调基因作为检索标签,存为.grp文件,检索cmap数据库[11]。将前列腺癌基因表达标签与药物处理基因标签进行统计比较[12]。依据表达谱的相似性给每个前列腺癌-药物配对计算一个分值,如果分值为负数,则表明这种药物与癌症基因有相反的基因标签,即可能对前列腺癌具有较好的治疗效果[13-14]。所以在检索的过程中,删除试验次数较少的药物(n<4),关注药物得分Mean分值为负值的药物[15]。
表1 connectivity map数据库筛选出的候选抗前列腺癌药物
注: Mean表示药物检索得分值,n为药物在cmap数据库中重复试验的次数,enrichment为前列腺癌症基因标签与药物基因标签相似的聚合度。
Cmap的分析结构如表1,可以看出负相关分值最高的是Thioridazine(硫利达嗪),分值为-0.703,它是一种用于治疗急性精神分裂症、躁狂症以及抑郁症的药物,表明对于前列腺癌可能具有较好的治疗效果;从表中还可以看出排在后面的是atin A(一种抗肿瘤抑制剂)、LY-294002(第一个人工合成的蛋白激酶抑制剂)、Sirolimus(一种免疫抑制剂)、Tanespimycin(一种抗肿瘤药物)、Monorden(一种抗生素)。而表中最后一个Estradiol(雌二醇)是经皮肤吸收的雌激素治疗剂,目前已经被用来治疗晚期前列腺癌。排在它上面的药物最后的药物检索分值的负相关性均高于它,所以这几种药物很可能与治疗前列腺癌有关。
本文通过互信息算法提取前列腺癌中的特征基因,利用cmap数据库将基因与药物进行比对打分,最后得到与治疗前列腺癌有关的药物硫利达嗪、Tanespimycin等。数据分析结果还需要临床试验的进一步验证,希望有条件的实验室能完成这一工作。基于互信息算法提取特征基因为药物重定位提供了新的途径,推动生物医药产业的发展。