固有无序蛋白质无序区和有序区氨基酸组成偏好性分析

2014-07-11 05:13王红梅等
江苏农业科学 2014年4期
关键词:序列分析

王红梅等

摘要:以固有无序蛋白质为研究对象,通过CD-HIT对数据进行去冗余处理,然后利用编程软件对数据进行统计而得到新的数据。对所有无序区及有序区的氨基酸含量进行对比,认为氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序结构的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成无序结构的偏好性。研究结论有助于进一步挖掘固有无序蛋白质的序列特征,并为固有无序蛋白质的预测提供一些借鉴。

关键词:固有无序蛋白质;功能位点;无序区;序列分析

中图分类号: Q516 文献标志码: A 文章编号:1002-1302(2014)04-0038-02

收稿日期:2013-08-23

基金项目:山东省自然科学基金(编号:ZR2010CQ041)。

作者简介:王红梅(1974—),女,山东德州人,硕士,副教授,主要从事生物信息学的研究。E-mail:whm_2327@126.com。蛋白质是生物体中最重要的两类大分子之一,传统思想认为蛋白质要实现其生物功能,必须先折叠成一个稳定的三维结构,因此形成了蛋白质结构决定其功能的主流观点[1]。然而随着基因工程方法和实验技术的发展以及基因组计划的开展,在20世纪90年代初,人们发现有些蛋白质或蛋白质序列中的一部分区域在生理条件下不具有一个确定的三维结构,但是依然能够正常行使生物学功能。进一步研究发现的这类蛋白质越来越多,并逐渐形成了一种新的蛋白质类型,称为固有无序蛋白质(intrinsically disordered proteins,简称为IDPs)[1-3]。对目前存在的大量基因库数据进行分析发现:蛋白质的无序结构与蛋白质功能之间关系密切,无序蛋白质在诸如转录、翻译、调控细胞信号转导、蛋白质磷酸化及小分子存储等过程中发挥着重要的作用;另一方面,无序蛋白质又经常与多种疾病联系在一起。与人类癌症相关的蛋白质中,无序蛋白质的含量高达79%;在心血管疾病有关的蛋白质中,无序蛋白质的含量也高达57%。无序区是固有无序蛋白质发挥功能的主要区域,功能位点大多分布在该区域,因此预测蛋白质的无序区成为判断蛋白质是否无序的热点问题。Romero 等在1997年首次对蛋白质无序区域进行预测,他们预测的准确性达到70%,此后无序蛋白质的预测方法得到了迅速发展,目前应用于无序蛋白质序列预测的方法已经超过50种,并且这些预测方法的准确性普遍达到85%以上。

本研究基于序列分析的方法,以DisProt数据库中的固有无序蛋白质为研究对象,通过CD-HIT程序对数据进行去冗余处理,将处理后的数据利用编程软件Matlab 7.0进行统计而得到新的数据;对新数据进行分析,通过编程把序列的无序区和有序区分别提取出来,再分析无序区和有序区氨基酸组成的偏好性。本研究有助于进一步挖掘固有无序蛋白质的序列特征,从而为固有无序蛋白质的预测提供借鉴。

1数据来源及去冗余处理

1.1数据来源

本研究以固有无序蛋白质数据库DisProt(版本6.01)[4](http://www.disprot.org/index.php)为研究对象(发布日期为2012年10月15日),下载数据库中最新的固有无序蛋白质进行研究,共有无序蛋白质684个,无序区1 513个。

1.2去冗余处理

由于蛋白质序列数据库中都含有大量的冗余序列,它们通常不能提供更多的信息,而且不利于数据的统计分析,并且由于冗余序列要占用更多的计算机存储和处理资源,因此去除这些冗余信息具有很高的实用价值,不但可以减小数据库的大小、提高序列搜索的速度,而且有助于对数据的统计分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)对数据进行处理,将相似度阈值设为30%。结果显示:去冗余前,固有无序蛋白质共有684条序列;去冗余后,蛋白质共有549条序列。

2固有无序蛋白质无序区和有序区的氨基酸组成偏好性分析

用Matlab编程对全部序列(去冗余后)提取无序区和有序区。无序区包括112个全部无序区(如DisProtDP00001,108个氨基酸都是无序的)以及非全部无序蛋白质(蛋白质中含有无序片段)序列中的各条无序区;无序区的氨基酸总数为64 243,约占固有无序蛋白质氨基酸总数的28.67%。因此可以看出:固有无序蛋白质中有序区的氨基酸数大约是无序区氨基酸数的3.5倍。结果表明,固有无序蛋白质的氨基酸在有序区的含量要大大高于无序区,即固有无序蛋白质的大部分组分都是有序部分。

对固有无序蛋白质中的所有无序区及有序区的氨基酸个数和含量进行对比,以分析每种氨基酸的偏好性。通过 Matlab 软件进行处理得到了固有无序蛋白质中的无序区和有序区的所有氨基酸含量及差值,详见表1。

3结论

本研究以DisProt数据库中的固有无序蛋白质为研究对象,先通过程序CD-HIT对数据进行去冗余处理,然后利用编程软件Matlab7.0对数据进行统计而得到新的数据,再对数据进行分析。结果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序结构的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成无序结构的偏好性。

无序蛋白质具有独特的氨基酸组成特点,这些独特的氨基酸序列决定了其无序的结构。无序蛋白质的研究将促进人们重新认识蛋白质的结构和功能关系,也将为蛋白质的全新设计和疾病的治疗提供新的思路。相信随着研究数据的增加,对固有无序蛋白质的研究将更深入和全面,从而能够进一步加深对这类蛋白质的认识。

参考文献:

[1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.

[2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.

[3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18

[4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.

[5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.

[6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.

[7]黄永棋,刘志荣. 天然无序蛋白质:序列-结构-功能的新关系[J]. 物理化学学报2010,26(8):2061-2072.刘思言,高玮,夏海丰,等.

摘要:以固有无序蛋白质为研究对象,通过CD-HIT对数据进行去冗余处理,然后利用编程软件对数据进行统计而得到新的数据。对所有无序区及有序区的氨基酸含量进行对比,认为氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序结构的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成无序结构的偏好性。研究结论有助于进一步挖掘固有无序蛋白质的序列特征,并为固有无序蛋白质的预测提供一些借鉴。

关键词:固有无序蛋白质;功能位点;无序区;序列分析

中图分类号: Q516 文献标志码: A 文章编号:1002-1302(2014)04-0038-02

收稿日期:2013-08-23

基金项目:山东省自然科学基金(编号:ZR2010CQ041)。

作者简介:王红梅(1974—),女,山东德州人,硕士,副教授,主要从事生物信息学的研究。E-mail:whm_2327@126.com。蛋白质是生物体中最重要的两类大分子之一,传统思想认为蛋白质要实现其生物功能,必须先折叠成一个稳定的三维结构,因此形成了蛋白质结构决定其功能的主流观点[1]。然而随着基因工程方法和实验技术的发展以及基因组计划的开展,在20世纪90年代初,人们发现有些蛋白质或蛋白质序列中的一部分区域在生理条件下不具有一个确定的三维结构,但是依然能够正常行使生物学功能。进一步研究发现的这类蛋白质越来越多,并逐渐形成了一种新的蛋白质类型,称为固有无序蛋白质(intrinsically disordered proteins,简称为IDPs)[1-3]。对目前存在的大量基因库数据进行分析发现:蛋白质的无序结构与蛋白质功能之间关系密切,无序蛋白质在诸如转录、翻译、调控细胞信号转导、蛋白质磷酸化及小分子存储等过程中发挥着重要的作用;另一方面,无序蛋白质又经常与多种疾病联系在一起。与人类癌症相关的蛋白质中,无序蛋白质的含量高达79%;在心血管疾病有关的蛋白质中,无序蛋白质的含量也高达57%。无序区是固有无序蛋白质发挥功能的主要区域,功能位点大多分布在该区域,因此预测蛋白质的无序区成为判断蛋白质是否无序的热点问题。Romero 等在1997年首次对蛋白质无序区域进行预测,他们预测的准确性达到70%,此后无序蛋白质的预测方法得到了迅速发展,目前应用于无序蛋白质序列预测的方法已经超过50种,并且这些预测方法的准确性普遍达到85%以上。

本研究基于序列分析的方法,以DisProt数据库中的固有无序蛋白质为研究对象,通过CD-HIT程序对数据进行去冗余处理,将处理后的数据利用编程软件Matlab 7.0进行统计而得到新的数据;对新数据进行分析,通过编程把序列的无序区和有序区分别提取出来,再分析无序区和有序区氨基酸组成的偏好性。本研究有助于进一步挖掘固有无序蛋白质的序列特征,从而为固有无序蛋白质的预测提供借鉴。

1数据来源及去冗余处理

1.1数据来源

本研究以固有无序蛋白质数据库DisProt(版本6.01)[4](http://www.disprot.org/index.php)为研究对象(发布日期为2012年10月15日),下载数据库中最新的固有无序蛋白质进行研究,共有无序蛋白质684个,无序区1 513个。

1.2去冗余处理

由于蛋白质序列数据库中都含有大量的冗余序列,它们通常不能提供更多的信息,而且不利于数据的统计分析,并且由于冗余序列要占用更多的计算机存储和处理资源,因此去除这些冗余信息具有很高的实用价值,不但可以减小数据库的大小、提高序列搜索的速度,而且有助于对数据的统计分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)对数据进行处理,将相似度阈值设为30%。结果显示:去冗余前,固有无序蛋白质共有684条序列;去冗余后,蛋白质共有549条序列。

2固有无序蛋白质无序区和有序区的氨基酸组成偏好性分析

用Matlab编程对全部序列(去冗余后)提取无序区和有序区。无序区包括112个全部无序区(如DisProtDP00001,108个氨基酸都是无序的)以及非全部无序蛋白质(蛋白质中含有无序片段)序列中的各条无序区;无序区的氨基酸总数为64 243,约占固有无序蛋白质氨基酸总数的28.67%。因此可以看出:固有无序蛋白质中有序区的氨基酸数大约是无序区氨基酸数的3.5倍。结果表明,固有无序蛋白质的氨基酸在有序区的含量要大大高于无序区,即固有无序蛋白质的大部分组分都是有序部分。

对固有无序蛋白质中的所有无序区及有序区的氨基酸个数和含量进行对比,以分析每种氨基酸的偏好性。通过 Matlab 软件进行处理得到了固有无序蛋白质中的无序区和有序区的所有氨基酸含量及差值,详见表1。

3结论

本研究以DisProt数据库中的固有无序蛋白质为研究对象,先通过程序CD-HIT对数据进行去冗余处理,然后利用编程软件Matlab7.0对数据进行统计而得到新的数据,再对数据进行分析。结果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序结构的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成无序结构的偏好性。

无序蛋白质具有独特的氨基酸组成特点,这些独特的氨基酸序列决定了其无序的结构。无序蛋白质的研究将促进人们重新认识蛋白质的结构和功能关系,也将为蛋白质的全新设计和疾病的治疗提供新的思路。相信随着研究数据的增加,对固有无序蛋白质的研究将更深入和全面,从而能够进一步加深对这类蛋白质的认识。

参考文献:

[1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.

[2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.

[3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18

[4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.

[5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.

[6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.

[7]黄永棋,刘志荣. 天然无序蛋白质:序列-结构-功能的新关系[J]. 物理化学学报2010,26(8):2061-2072.刘思言,高玮,夏海丰,等.

摘要:以固有无序蛋白质为研究对象,通过CD-HIT对数据进行去冗余处理,然后利用编程软件对数据进行统计而得到新的数据。对所有无序区及有序区的氨基酸含量进行对比,认为氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序结构的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成无序结构的偏好性。研究结论有助于进一步挖掘固有无序蛋白质的序列特征,并为固有无序蛋白质的预测提供一些借鉴。

关键词:固有无序蛋白质;功能位点;无序区;序列分析

中图分类号: Q516 文献标志码: A 文章编号:1002-1302(2014)04-0038-02

收稿日期:2013-08-23

基金项目:山东省自然科学基金(编号:ZR2010CQ041)。

作者简介:王红梅(1974—),女,山东德州人,硕士,副教授,主要从事生物信息学的研究。E-mail:whm_2327@126.com。蛋白质是生物体中最重要的两类大分子之一,传统思想认为蛋白质要实现其生物功能,必须先折叠成一个稳定的三维结构,因此形成了蛋白质结构决定其功能的主流观点[1]。然而随着基因工程方法和实验技术的发展以及基因组计划的开展,在20世纪90年代初,人们发现有些蛋白质或蛋白质序列中的一部分区域在生理条件下不具有一个确定的三维结构,但是依然能够正常行使生物学功能。进一步研究发现的这类蛋白质越来越多,并逐渐形成了一种新的蛋白质类型,称为固有无序蛋白质(intrinsically disordered proteins,简称为IDPs)[1-3]。对目前存在的大量基因库数据进行分析发现:蛋白质的无序结构与蛋白质功能之间关系密切,无序蛋白质在诸如转录、翻译、调控细胞信号转导、蛋白质磷酸化及小分子存储等过程中发挥着重要的作用;另一方面,无序蛋白质又经常与多种疾病联系在一起。与人类癌症相关的蛋白质中,无序蛋白质的含量高达79%;在心血管疾病有关的蛋白质中,无序蛋白质的含量也高达57%。无序区是固有无序蛋白质发挥功能的主要区域,功能位点大多分布在该区域,因此预测蛋白质的无序区成为判断蛋白质是否无序的热点问题。Romero 等在1997年首次对蛋白质无序区域进行预测,他们预测的准确性达到70%,此后无序蛋白质的预测方法得到了迅速发展,目前应用于无序蛋白质序列预测的方法已经超过50种,并且这些预测方法的准确性普遍达到85%以上。

本研究基于序列分析的方法,以DisProt数据库中的固有无序蛋白质为研究对象,通过CD-HIT程序对数据进行去冗余处理,将处理后的数据利用编程软件Matlab 7.0进行统计而得到新的数据;对新数据进行分析,通过编程把序列的无序区和有序区分别提取出来,再分析无序区和有序区氨基酸组成的偏好性。本研究有助于进一步挖掘固有无序蛋白质的序列特征,从而为固有无序蛋白质的预测提供借鉴。

1数据来源及去冗余处理

1.1数据来源

本研究以固有无序蛋白质数据库DisProt(版本6.01)[4](http://www.disprot.org/index.php)为研究对象(发布日期为2012年10月15日),下载数据库中最新的固有无序蛋白质进行研究,共有无序蛋白质684个,无序区1 513个。

1.2去冗余处理

由于蛋白质序列数据库中都含有大量的冗余序列,它们通常不能提供更多的信息,而且不利于数据的统计分析,并且由于冗余序列要占用更多的计算机存储和处理资源,因此去除这些冗余信息具有很高的实用价值,不但可以减小数据库的大小、提高序列搜索的速度,而且有助于对数据的统计分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)对数据进行处理,将相似度阈值设为30%。结果显示:去冗余前,固有无序蛋白质共有684条序列;去冗余后,蛋白质共有549条序列。

2固有无序蛋白质无序区和有序区的氨基酸组成偏好性分析

用Matlab编程对全部序列(去冗余后)提取无序区和有序区。无序区包括112个全部无序区(如DisProtDP00001,108个氨基酸都是无序的)以及非全部无序蛋白质(蛋白质中含有无序片段)序列中的各条无序区;无序区的氨基酸总数为64 243,约占固有无序蛋白质氨基酸总数的28.67%。因此可以看出:固有无序蛋白质中有序区的氨基酸数大约是无序区氨基酸数的3.5倍。结果表明,固有无序蛋白质的氨基酸在有序区的含量要大大高于无序区,即固有无序蛋白质的大部分组分都是有序部分。

对固有无序蛋白质中的所有无序区及有序区的氨基酸个数和含量进行对比,以分析每种氨基酸的偏好性。通过 Matlab 软件进行处理得到了固有无序蛋白质中的无序区和有序区的所有氨基酸含量及差值,详见表1。

3结论

本研究以DisProt数据库中的固有无序蛋白质为研究对象,先通过程序CD-HIT对数据进行去冗余处理,然后利用编程软件Matlab7.0对数据进行统计而得到新的数据,再对数据进行分析。结果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序结构的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成无序结构的偏好性。

无序蛋白质具有独特的氨基酸组成特点,这些独特的氨基酸序列决定了其无序的结构。无序蛋白质的研究将促进人们重新认识蛋白质的结构和功能关系,也将为蛋白质的全新设计和疾病的治疗提供新的思路。相信随着研究数据的增加,对固有无序蛋白质的研究将更深入和全面,从而能够进一步加深对这类蛋白质的认识。

参考文献:

[1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.

[2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.

[3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18

[4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.

[5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.

[6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.

[7]黄永棋,刘志荣. 天然无序蛋白质:序列-结构-功能的新关系[J]. 物理化学学报2010,26(8):2061-2072.刘思言,高玮,夏海丰,等.

猜你喜欢
序列分析
三个小麦防御素基因的克隆及序列分析
樱桃CBF基因的克隆及序列分析