仇建烨, 浦 琰, 朱 平
(江南大学 理学院 ,江苏 无锡214122)
聚类分析是按确定的标准对客观事物进行分类的数学方法。通过聚类可以区别不同的事物并认识事物间的相似性。聚类分析在很多领域有着广泛应用,如文献[1]对江西茶鲜叶重金属状况进行了聚类分析。然而由于现实的分类往往伴随着模糊性,所以用模糊理论来进行聚类分析会显得更自然,更符合客观实际,这就是模糊聚类分析。随着模糊理论的发展,模糊聚类分析得到了广泛的应用。模糊聚类方法大致分成了3类:模糊等价矩阵动态聚类分析法[2]、模糊 C-均值聚类算法(FCM)[3-4]、基于摄动的模糊聚类分析法[5]。
p53基因是生物学领域中研究热度最高的基因之一,是一种很重要的抑癌基因,p53基因是迄今发现与人类肿瘤相关性最高的基因。随着p53的深入研究,p53家族成员自1997年来也不断被发现。p63[6]和p73[7]与p53基因有较大的同源性,因而被认定为p53家族成员。和p53一样,p63、p73也有诱导细胞周期阻滞和凋亡的功能等,但它们也有不同的结构和功能,深入了解它们彼此之间的相似性和差异将对理解肿瘤发生的机制产生重要的影响。
作者利用模糊邻近关系对18条人类p53、p63和p73肿瘤蛋白mRNA序列进行分类研究。分析讨论了不同类序列的组成结构和功能的差异。
我们知道,一个合适的分类应当满足:1)自反性:任何一个对象必须和自己在同一类。2)对称性:若对象u与对象v同类,则与也同类。3)传递性:若对象u与对象v同类,对象v与对象w同类,则u与w也同类。而满足这3个条件的关系即是一个等价关系。模糊聚类分析则是根据模糊等价关系进行的。但是由于模糊等价关系中的传递性难于验证,故转而根据模糊邻近关系的传递闭包来进行聚类。
选择能够描述 n 个分类对象{u1,u2,Λ,un}的 m个特征性指标 xij(i=1,2,Λ,n;j=1,2,Λ,m)。 要求个指标能够很好地描述被分类对象的特征。
为了消除特性指标数量级不同的影响,需对特性指标进行规范化。这里用最大值规范化,如下:
构造模糊邻近矩阵,就是要得到对象间的相似度。作者考虑到由于各个特性指标在确定对象相似程度时起不同作用,故确定各个指标的权重就有重要的意义。所以先用变异系数法先求得各指标的权值,其步骤如下:
在确定权值的基础上定义了加权汉明距离及相似度,距离越大,相似程度越小。因此,我们建立如下的加权汉明距离:
定义1 用m个指标描述对象就得到m维指标向量,定义两对象ui=(xi1,xi2,Λ,xim)和 uj=(xj1,xj2,Λ,xjm)之间的加权汉明距离为:
两对象之间的相似度为:
液压油管由于油压变化频繁和油温高,致使管壁张弛频繁,极易出现疲劳折损酿成事故。为有效延长液压油管的使用寿命,最好是用细铁丝烧成弹簧放入油管内作支撑。
这里 c和α 为常数,i,j=1,2,Λ,n。
由定义1即可以得到相应的模糊邻近矩阵R=(rij)n×n。
由于由上述方法构造出的对象与对象之间的模糊邻近矩阵R=(rij)n×n满足自反性和对称性,而不一定具有传递性,从而不一定是模糊等价矩阵。故必须由模糊邻近矩阵R出发构造一个新的模糊等价矩阵,然后以此模糊等价矩阵作为基础,进行动态聚类。模糊邻近矩阵R的传递闭包t(R)就是一个模糊等价矩阵[8]。
利用平方自合成方法求出模糊邻近矩阵R的传递闭包 t(R):
直至出现R2k=R2k+1,则 t(R)=R2k。
对于 ui,uj∈U,若¯ij(λ)=1,则在λ 水平上将对象ui和对象uj归为同一类。当λ在[0,1]中取不同值时,相应的分类随之改变,从而形成一个聚类图。得到的模糊分类具有动态性,可根据不同的要求进行分类。
从GenBank数据库里选取了人类p53肿瘤蛋白及其家族成员p63,p73mRNA序列共18条,编号分 别 为 NM_001126112.2,NM_001126113.2,NM_001126114.2,NM_001126115.1,NM_00112611 6.1,NM_001114982.1,NM_001114980.1,NM_00111 4978.1,NM_001114981.1,NM_001114979.1,NM_00 1204185.1,NM_001204186.1,NM_001204188.1,NM_0 01204187.1,NM_001204189.1,NM_001204192.1,NM_001204190.1,NM_001204191.1。 以所选序列为对象,分别给予变量名为 ui(i=1,2,Λ,18)。
表1 序列碱基比例Table 1 Base contents of sequences
2.2.2 数据规范化 对特性指标矩阵U作最大值规范化,得:
2.2.3 模糊邻近矩阵 由变异系数法得到各指标的权值,表2为序列各碱基比例对应的权值。文献[10]运用序列间的距离对序列做同源性分析,进而构建系统进化树。可见用距离法能够很好的表达序列间的相似程度。这里令c和α都为1,通过定义1计算得到序列的相似度,计算得到模糊邻近矩阵R,见表3。
2.2.4 聚类 由于求模糊邻近矩阵R的传递闭包t(R)计算量大,故用Matlab编程得到模糊等价矩阵t(R)=R16,见表 4。
选取阈值 λ,求出 t(R)的λ 截矩阵t(R)λ,然后按t(R)λ对对象进行聚类,结果见表 5。
具体的聚类结果如聚类图见图1。聚类图给出了各λ值对应的分类,形成动态聚类,便于全面了解对象聚类。
当λ=0.951 59时,分为3类,第1类u1-u5为p53序列,第2类u6-u10为p63序列,第3类u10-u18为p73序列。虽然p53与p63和p73的同源比较高,如在DNA结合结构域p53与p63的同源性达到60%,与p73的同源性达到了63%。但从聚类的角度看,不在一类的基因在结构和功能上还是有差异的。
表2 各指标的权值Table 2 Weights of each index
表3 模糊邻近矩阵Table 3 Fuzzy proximity matrix
表4 模糊邻近矩阵的传递闭包Table 4 Transitive closure of fuzzy proximity matrix
表5 聚类结果Table 5 Results of clustering
图1 序列聚类图Fig.1 Diagram of sequences clustering
u1-u5基因序列中腺嘌呤A的平均比例为21.553 6%,鸟嘌呤G的平均比例为24.636 2%,胞嘧啶C的平均比例为27.6234%,尿嘧啶U的平均比例为26.186 8%,GC比例为52.259 6%。
u6-u10基因序列中腺嘌呤A的平均比例为28.321 6%,鸟嘌呤G的平均比例为21.107%,胞嘧啶C的平均比例为22.313 6%,尿嘧啶U的平均比例为28.258%,GC比例为43.4206%。
u11-u18基因序列中腺嘌呤A的平均比例为21.008 3%,鸟嘌呤G的平均比例为28.499 1%,胞嘧啶C的平均比例为31.932 1%,尿嘧啶U的平均比例为18.560 5%,GC比例为60.431 2%。
可见第2类、第3类GC比例与AU比例分界比第1类明显。第1类、第3类GC比例比AU比例高,而第2类GC比例比AU比例低。这与各类基因的功能有一定的关系。
p53基因定位于染色体17p13.1,p63基因定位于染色体 3q27-29,p73定位于染色体 1p36.2-1p36.3。第 1类序列 u1-u5定位于人类染色体17p13.1,第2类序列u6-u10定位于人类染色体3q28,第3类序列u11-u18定位于人类染色体1p36.3。
各类基因的功能的相同与不同之处见表6(引自文献[11])。
表6 p53,p63和p73的功能比较Table 6 Comparisons of function between p53,p63 and p73
从表6可以看出,由于与p53具有同源性很高的DNA结合位点,可以确定p63和p73有转录因子活性的作用,能够诱导细胞凋亡[12]。
p63和p73在细胞发育过程中起关键作用,而p53没有此功能;p53会被肿瘤病毒抑制,而p63和p73不会被瘤病毒蛋白抑制;p53能被细胞外刺激信号活化,p63有没这功能则未知,而有一些p73可以;p53可以被MDM2抑制,p63能否被MDM2抑制还未确定,p73不能被MDM2抑制;而在抑制肿瘤方面,p53是抑癌基因,对于p63是否有抑制肿瘤的功能还未被认定,p73有一定抑制肿瘤功能,但能否被定义为抑癌基因还需要进一步研究。
从组成结构和功能看,此分类较为合理,我们可以在已知一些基因结构和功能的情况下,运用此模糊聚类的方法对其它一些未知基因功能进行预测,有一定生物学意义。
如今癌症对人类的健康威胁很大。在人类50%以上的肿瘤组织中均发现了p53基因的突变,如大肠癌、乳腺癌、胃癌、肺癌等[13-16],一旦p53发生突变就可能致癌,所以对它的深入研究尤为重要。而作为p53家族成员,p63和p73同样有转录因子活性的作用且能够诱导细胞凋亡,然而是否具有抑制肿瘤功能还未确定,所以对于p63和p73更广泛与深入的研究可以帮助理解其在发育及肿瘤中的作用,有利于加深对整个p53家族的了解,为肿瘤的基因治疗和抗肿瘤药物的研发提供技术支持。
[1]熊春红,曹芳,涂北平,等.江西茶鲜叶中重金属状况多变量分析[J].食品与生物技术学报,2012,31(1):55-60.XIONG Chun-hong,CHAO Fang,TU Bei-ping,et al.Multivariate analysis of heavy metals in fresh tea leaves from Jiangxi province[J].Journal of Food Science and Biotechnology,2012,31(1):55-60.(in Chinese)
[2]Liang G S,Chou T Y,Han T C.Cluster analysis based on fuzzy equivalence relation[J].European Journal of Operational Research,2005,166(1):160-171.
[3]Hung C C,Kulkarni S,Kuo B C.A new weighted fuzzy C-Means clustering algorithm for remotely sensed image classification[J].IEEE Journal of Selected Topics in Signal Processing,2011,5(3):543-553.
[4]Kang J Y,Min L Q,Luan Q X,et al.Novel modified fuzzy c-means algorithm with applications[J].Digital Signal Processing,2009,19(2):309-319.
[5]He Q,Li H X,Shi Z Z,et al.Fuzzy clustering method based on perturbation[J].Computers&Mathematics with Applications,2003,46(5-6),929-946.
[6]Yang A,Kaghad M,Wang Y,et al.p63,a p53 homolog at 3q27-29,encodes multiple products with transactivating,deathinducing,and dominant-negative activities[J].Molecular Cell,1998,2(3):305-316.
[7]Jost C A,Marin M C,Kaelin W G J.p73 is a simian [correction of human]p53-related protein that can induce apoptosis[J].Nature,1997,389(6647):191-194.
[8]罗承忠.模糊集引论(上册)[M].北京:北京师范大学出版社,1989.
[9]唐旭清,方雪松,朱平.基于模糊邻近关系的结构聚类[J].系统工程理论与实践,2010,30(11):1986-1996.TANG Xu-qing,FANG Xue-song,ZHU Ping.Structural clusters based on fuzzy proximity relations[J].Systems Engineering –Theory&Practice,2010,30(11):1986-1996.(in Chinese)
[10]王伟,仇建烨,朱平.基于进化树理论的甲型流感病毒血凝素同源性及进化分析[J].工程数学学报,2012,29(4):507-514.WANG Wei,QIU Jian-ye,ZHU Ping.Influenza virus A hemagglutinins homology and evolution analysis based on the evolutionary tree theory[J].Chinese Journal of Engineering Mathematics,2012,29(4):507-514.(in Chinese)
[11]Lohrum M A,Vousden K H.Regulation and function of the p53-related proteins:same family,different rules[J].Trends in Cell Biology,2000,10(5):197-202.
[12]Allocati N,Dillio C,De L V.P63/p73 in the control of cell cycle and cell death[J].Experimental Cell Research,2012,318(11):1285-1290.
[13]Lopez L,Oliveira L P,Tucci P,et al.Different mutation profiles associated to P53 accumulation in colorectal cancer[J].Gene,2012,499(1):81-87.
[14]Dookeran K A,Dignam J J,Ferrer K,et al.P53 as a marker of prognosis in African-American women with breast cancer[J].Annals of Surgical Oncology,2010,17(5):1398-1405.
[15]Ji F,Jin X,Jiao C H,et al.FAT10 level in human gastric cancer and its relation with mutant p53 level,lymph node metastasis and TNM staging[J].World Journal of Gastroenterology,2009,15(18):2228-2233.
[16]Feldser D M,Kostova K K,Winslow M M,et al.Stage-specific sensitivity to p53 restoration during lung cancer progression[J].Nature,2010,468(7323):572-575.