林授锴,傅晓菲,黄 健,陶 欢,徐超群,刘 伟,张丽娜,艾育芳,何华勤*
(1.福建农林大学生命科学学院,福建 福州 350002;2.莆田学院环境与生物工程学院/福建省新型污染物生态毒理效应与控制重点实验室,福建 莆田 351100)
植物线粒体和质体双定位蛋白质的带电特性分析
林授锴1,2,傅晓菲1,黄健1,陶欢1,徐超群1,刘伟1,张丽娜1,艾育芳1,何华勤1*
(1.福建农林大学生命科学学院,福建福州350002;2.莆田学院环境与生物工程学院/福建省新型污染物生态毒理效应与控制重点实验室,福建莆田351100)
蛋白质亚细胞定位分析是揭示蛋白质功能的关键步骤。1个蛋白质分子能被定位到2个亚细胞位置,这一现象被称为蛋白质的“双定位”。本研究首先从Uniprot、MitoP2、MGI、TAIR、DBMLoc等蛋白质数据库及已发表文献中收集双定位于线粒体与质体的植物蛋白质数据,共获得703个双定位蛋白质,组成测试数据集。再从Uniprot数据库中选取唯一定位于线粒体的829个和唯一定位于质体的6 376个植物蛋白质,组成参照数据集,分析双定位于线粒体与质体的植物蛋白质的带电特征。结果表明,与单定位于线粒体或质体的植物蛋白质相比,双定位线粒体与质体的植物蛋白质具有更低的净电荷量;此外,双定位蛋白质电荷分布较为集中对称,线粒体蛋白质次之,质体蛋白质最为分散。本文研究结果将为揭示植物蛋白质双定位的分子机制奠定理论基础。
植物;双定位蛋白质;线粒体;质体;带电特性
细胞内蛋白质的定位多种多样,最常见的是1个蛋白质1个特定的细胞器位置,也可能是1个蛋白质有多个细胞器位置,或是1个基因的多个蛋白质产物分别定位到不同的细胞器位置。换句话说,1个蛋白质分子能定位到多个亚细胞位置,这一现象被称为“双定位 (Dual target)”[1],能够双定位的蛋白质称为双定位蛋白质 (Dual targeted proteins)。双定位减少了蛋白质的冗余,而非冗余蛋白质的双定位使细胞器获得新的功能。研究人员先后在植物中发现了许多双定位蛋白质[2-3]。在过去的几年里不断发现单个基因产物定位到多个亚细胞中,但单个蛋白质不同定位的分子机制还未被完全阐明,蛋白质易位机制的研究尚未深入。总体而言,植物有4种不同的蛋白质易位系统,其中大多数双定位蛋白质是定位到线粒体和叶绿体,主要是通过翻译后由特异的信号肽转运到不同的细胞器中[4]。这些信号肽是由具有特殊拓扑信息的氨基酸序列组成的,1个蛋白质是单定位、双定位还是多定位,与这个蛋白质所结合的信号肽有关。蛋白质的双定位机制是由各种分子事件相互交错而成,蛋白质折叠、翻译后修饰和蛋白质互作是双定位现象的后续事件[5]。
目前,UniProt[6]、MitoP2[7]、MGI[8]、TAIR[9]、DBMLoc[10]等许多数据库可以提供蛋白质双定位甚至是多定位的信息。而基于这些数据库信息,研究人员也开发出用于预测蛋白质双定位的工具,例如ATP[2]、TargetP 1.1[11]、WoLF PSORT[12]、MultiLoc2[13]、Predotar[14]、CELLO[15]、Plant-mPLoc 2.0[16]等,但是只有ATP是专门预测双定位蛋白质亚细胞定位的工具,其余工具都是主要针对单个亚细胞位置的蛋白质,因此所得出的预测性能也是包括单个亚细胞定位和双定位的情况。
当前对蛋白质双定位的研究存在3个方面问题。其一,蛋白质双定位或多定位的信息十分有限,数据大多集中在哺乳动物主要细胞器的双定位信息,如细胞核与细胞质、细胞核与细胞膜、线粒体与细胞质等,对植物蛋白质的双定位或多定位信息仍较分散;其二,蛋白质分选机制的研究尚待深入,对蛋白质双定位或多定位发生的机制仍存在盲区;其三,蛋白质双定位的预测工具屈指可数,更未见关于植物蛋白质多定位预测工具的研究报道。
因此,本研究首先从各种蛋白质定位信息数据库中,收集并整理双定位在线粒体和质体的植物蛋白质的信息数据;然后以单定位到线粒体或质体的植物蛋白质为参照,分析双定位在线粒体和质体的植物蛋白质序列的基本特性,为揭示植物蛋白质双定位的分选机制奠定基础。
1.1植物双定位蛋白质数据库的构建
1.1.1双定位蛋白质数据的收集收集整理植物中双定位蛋白质的编码基因名、序列数据、来源的物种名称、蛋白质功能描述等相关信息。数据来源主要包括:(1)从Uniprot、MitoP2、MGI、TAIR、DBMLoc等多个数据库中查找植物双定位于线粒体和质体的蛋白质,并根据蛋白质注释信息,确认定位信息经试验验证而非预测。(2)从新近发表的文献[17-19]中收集经试验方法鉴定到的植物双定位于线粒体和质体的蛋白质,并在Uniprot中找到相对应的蛋白质序列记录。
1.1.2基于GO的亚细胞注释蛋白质数据的GO信息来自文献数据或由GOA[20]中查询获得。为了提高GO注释的准确性,仅选择数据库中非歧义蛋白质的亚细胞定位信息。同时,参考特异物种数据库MGI数据库和TAIR数据库,并收集数据库自带的关于蛋白质定位的GO注释。
1.2测试数据集的收集
上述研究获得双定位于质体和线粒体的植物蛋白质,再从Uniprot数据库中收集经试验验证的且唯一定位到线粒体或质体的植物蛋白质数据,作为对照数据集。
1.3双定位线粒体与质体植物蛋白质的带电特性分析
1.3.1蛋白质净电荷信息的获取利用EMBL-EBI在线工具Pepstats(http://www.ebi.ac.uk/Tools/seqstats/emboss_pepstats/ help/index.html),获取上述3种定位蛋白质数据集中蛋白质的净电荷信息,统计各蛋白质的净电荷。
1.3.2蛋白质净电荷的分布形式蛋白质净电荷的分位数-分位数图(Quantile-Quantile Plot, QQ Plot)可以很直观地表现数据整体的分布情况,帮助鉴别样本的分布类型。若双定位蛋白质的电荷分布近似于正态分布,在QQ图上将近似为一条直线,其中,直线的斜率是标准差σ,截距是均值μ。若QQ图上的点近似地在一条直线附近,可以认为双定位蛋白质的电荷数据总体符合正态分布。
随后,应用Pearson系数拟合优度检验了双定位蛋白质净电荷是否服从正态分布。检验双定位蛋白质净电荷正态分布,当某随机变量应当有分布F,现对X进行n次观察,得到一个样本X1,X2,…,Xn。对蛋白质电荷值进行分组测试,计算原假设(正态分布)在各小区间的理论概率值,先计算双定位蛋白质的均值(mean)、标准差(sd)与理论概率。根据不同区间的划分,据此判断观测值是否符合理论假设。
1.3.3蛋白质净电荷的总体分布比较观察双定位于质体和线粒体的植物蛋白质净电荷的样本分布是否满足Mann-Whitney秩和检验的假定,即总体分布是否连续。采用Mann-Whitney秩和检验,分析双定位于质体和线粒体的蛋白质、单定于质体、单定位于线粒体植物蛋白质净电荷总体间的差异。并利用R语言绘制箱线图,以展示数据分布的主要特征。
2.1植物中定位在线粒体和质体的双定位蛋白质
从蛋白质定位信息数据库和已发表文献中提取出植物中双定位于线粒体和质体的蛋白质(以下简称双定位蛋白质)信息(表1)。由表1可见,植物双定位蛋白质共有703条。收集到单定位于质体或线粒体的植物蛋白质,其中单定位于质体的植物蛋白质有6 376个,单定位于线粒体的829个。本研究也查找以上3种类型蛋白质的转运肽信息,其中在双定位蛋白质只查找到17个转运肽,在单定位于线粒体或质体的植物蛋白质中分别查找到376和686个转运肽。
表1双定位于质体和线粒体、单定位于质体或线粒体的植物蛋白质及其转运肽数量
Table 1Quantities of dual targeted, mitochondrion, and plastid proteins in plants
由表2可见,在703条植物双定位于线粒体和质体的蛋白质中,来自拟南芥的蛋白质数量最多,为669个,占比95.16%;来自水稻的双定位蛋白质共有11个,占比1.56%。其余的来自8个植物物种,包括拟南芥、水稻、玉米、烟草(3个种)、橡胶树、小立碗藓、陆地棉、草莓。
2.2双定位蛋白质的净电荷分布
2.2.1双定位蛋白质净电荷的分布类型为了分析植物双定位蛋白质净电荷分布的特性。本研究比较双定位蛋白质与线粒体或质体蛋白质的净电荷分布情况。先应用QQ图描述蛋白质净电荷的分布,双定位蛋白质、线粒体和质体蛋白质净电荷QQ图(图1)。
表2不同物种中鉴定的植物双定位蛋白质
Table 2Numbers of identified dual targeted proteins in mitochondrion and plastid in differentplant species
若蛋白质净电荷均匀分布在直线两侧,那么蛋白质净电荷符合正态分布。由图1可见,植物双定位蛋白质净电荷数据在电荷为0附近比较接近正态分布,但头尾很大一部分偏离直线的(图1-A)。整体而言,偏离正态分布的概率分布。而植物线粒体和质体蛋白质的净电荷分布基本相似,净电荷量低的部分符合正态分布,但净电荷高的部分偏离较大(图1-B、C)。表明仅从蛋白质的净电荷数据分布的总体情况,难于做出是否符合正态分布。
下面再用Pearson系数拟合优度检验双定位蛋白质的净电荷是否服从正态分布,在植物双定位蛋白质净电荷范围为[-62.0,59.5],取多个区间范围,检验其分布与标准正态分布之间的拟合程度。由表3可见,在给定的显著性水平0.05条件下,P值均小于2.2e-16,表明植物双定位蛋白质净电荷不服从正态分布。
2.2.2双定位蛋白质与线粒体和质体蛋白质净电荷的总体差异先对植物双定位蛋白质、线粒体蛋白质和质体蛋白质的净电荷做统计分析,结果见表3。由表3可见,植物双定位蛋白质净电荷、线粒体蛋白质净电荷和质体蛋白质净电荷的分布基本满足Mann-Whitney秩和检验的假定,即总体分布是连续的,总体对其中位数也是对称的。
表33个蛋白质数据集净电荷的基本统计数值
Table 3Basic statistics of electric charges of 3 protein datasets
注:*N代表数据集包含的总数,Median代表数据集的中位数,Mean代表数据集的平均值,Sd代表数据集的标准差。
采用Mann-Whitney秩和检验,分析植物双定位蛋白质与植物线粒体和质体蛋白质净电荷总体间的差异。根据蛋白质电荷的中位数是否相等,来判断2个样本分布是否相同。无论采用连续修正或不采用连续修正,其P值均小于0.05,表明双定位蛋白质的净电荷样本分布不同于植物线粒体蛋白质或质体蛋白质净电荷的分布。而且植物线粒体和质体蛋白质净电荷样本的差异P值1.98e-05,显著大于双定位蛋白质与植物线粒体蛋白质净电荷样本的差异(P<2.2e-16),也大于双定位蛋白质与植物质体蛋白质净电荷样本的差异(P<2.2e-16)。进一步证明了植物双定位蛋白质与植物线粒体或质体蛋白质净电荷间均存在显著差异性。
为了进一步比较双定位蛋白质与线粒体蛋白质、质体蛋白质净电荷分布的差异,对3个数据集作连续修正的左边Mann-Whitney秩和检验,结果见表4。由表4可见,双定位蛋白质与线粒体蛋白质净电荷样本的差异P值<2.2e-16,远小于0.05,表明植物线粒体蛋白质的净电荷和质体蛋白质的净电荷均高于双定位蛋白质。
利用箱线图能直观展示数据的分布特征,做3个数据集蛋白质净电荷分布的箱线图,结果见图2。由图2中可以看出,3个数据集的电荷分布,主要集中在0~20,质体蛋白质和线粒体蛋白质的电荷明显高于双定位蛋白质。双定位蛋白质电荷分布较为集中对称,线粒体蛋白质次之,质体蛋白质最为分散。另外,质体蛋白质还含有较多超出上下四分位数的异常值,质体蛋白质和线粒体蛋白质电荷的异常值大多是高于上四分位数。
表4连续修正的左边Mann-Whitney秩和检验
Table 4Left sided Mann-Whitney rank sum test with continuity correction
注:W是Wilcoxon-MannWhitne统计量。
本研究查找发现,经试验验证的植物线粒体和质体双定位蛋白质有703个,其中拟南芥的线粒体和质体双定位蛋白质就达到669个。Carrie等[3]也收集了100多个经试验验证的植物线粒体和质体双定位蛋白质,发现大多数已知的双定位蛋白质为可溶的基质蛋白。而仅小部分为膜结合蛋白质,且多为外膜蛋白。这些蛋白质大多与核苷酸代谢、DNA复制、重组与修复、蛋白质翻译等功能相关。此外,在本研究发现的703个双定位蛋白质中仅找到17条转运肽信息。转运肽是一种12~60个氨基酸残基的前导序列,它引导在细胞溶质中合成的蛋白质输入线粒体和质体。植物双定位蛋白质的转运肽同时具有线粒体转运肽和质体转运肽的特征,并且常常介于二者之间[21-22]。Mitschke等[2]应用这一特性开发了首个针对植物双定位蛋白质的预测工具ATP。当然,仅依据蛋白质N端前导序列特征预测植物线粒体和质体双定位蛋白质还存在严重的假阳性,其预测灵敏度有待提高。因此,研究人员要不断探究植物蛋白质双定位的分子机制。
对植物线粒体和质体双定位蛋白质的特征分析发现,植物双定位蛋白质的净电荷显著性低于线粒体和质体蛋白质。Dinurmills 等[23]根据亚细胞定位筛选和预测结果,将线粒体蛋白质分为2个子集,一类是预测为具有双定位能力的线粒体蛋白质126个,另一类是预测为只定位在线粒体的蛋白质409个。他们的研究也发现与只定位在线粒体的蛋白质相比,双定位蛋白质的总净电荷更低。由此可见,净电荷更低是双定位蛋白质相对于单定位蛋白质的显著特征之一。双定位蛋白质电荷分布较为集中对称,线粒体蛋白质次之,质体蛋白质最为分散。这似乎暗示,双定位蛋白质与线粒体蛋白质差异较小,而与质体蛋白质差异较大。说明双定位蛋白质可能是由线粒体蛋白质获得再定位到质体的功能而产生的;也可能是在双定位机制受到阻碍时,双定位蛋白质会优先选择定位到线粒体。这为下一步开展植物蛋白质定位研究提供了线索。
本研究结果表明,与单定位于线粒体或质体的植物蛋白质相比,双定位线粒体与质体的植物蛋白质具有更低的净电荷量,这是双定位蛋白质相对于单定位蛋白质的显著特征之一。此外,双定位蛋白质电荷分布较为集中对称,线粒体蛋白质次之,质体蛋白质最为分散。本研究结果将为揭示植物蛋白质双定位的分子机制奠定理论基础。
[1]YOGEV O,PINES O.Dual targeting of mitochondrial proteins:mechanism,regulation and function [J].Biochim Biophys Acta,2011,1808(3):1012-1020.
[2]MITSCHKE J,FUSS J,BLUM T,et al.Prediction of dual protein targeting to plant organelles[J].New Phytol,2009,183(1):224-235.
[3]CARRIE C,SMALL I.A reevaluation of dual-targeting of proteins to mitochondria and chloroplasts [J].Biochim Biophys Acta,2013,1833(2):253-259.
[4]SILVAFILHO M C.One ticket for multiple destinations:dual targeting of proteins to distinct subcellular locations [J].Curr Opin Plant Biol,2003,6(6):589-595.
[5]KARNIELY S,PINES O.Single translation—dual destination:mechanisms of dual protein targeting in eukaryotes [J].EMBO reports,2005,6(5):420-425.
[6]CONSORTIUM U P.The Universal Protein Resource (UniProt) in 2010 [J].Nucleic Acids Res,2010,38(Database issue):D142-148.
[7]ELSTNER M,ANDREOLI C,KLOPSTOCK T,et al.The mitochondrial proteome database:MitoP2 [J].Methods Enzymol,2009,457:3-20.
[8]DRABKIN H J, BLAKE J A.Manual Gene Ontology annotation workflow at the Mouse Genome Informatics Database [J].Database,2012,2012:bas045.
[9]LAMESCH P,BERARDINI T Z,LI D.The Arabidopsis Information Resource (TAIR): improved gene annotation and new tools [J].Nucleic Acids Res,2012,40(Database issue):D1202-D1210.
[10]ZHANG S,XIA X,SHEN J,et al.DBMLoc:a Database of proteins with multiple subcellular localizations [J].BMC Bioinformatics,2008,9:127.
[11]EMANUELSSON O,NIELSEN H,BRUNAK S,et al.Predicting subcellular localization of proteins based on their N-terminal amino acid sequence [J].J Mol Biol,2000,300(4):1005-1016.
[12]HORTON P,PARK K J,OBAYASHI T,et al.WoLF PSORT: protein localization predictor [J].Nucleic Acids Res,2007,35(Web Server issue):W585-587.
[13]BLUM T,BRIESEMEISTER S,KOHLBACHER O.MultiLoc2:integrating phylogeny and Gene Ontology terms improves subcellular protein localization prediction [J].BMC Bioinformatics,2009,(10):274.
[14]SMALL I,PEETERS N,LEGEAI F,et al.Predotar: A tool for rapidly screening proteomes for N-terminal targeting sequences [J].Proteomics,2004,4(6):1581-1590.
[15]YU C,CHEN Y,LU C,et al.Prediction of protein subcellular localization [J].Proteins,2006,64(3):643-651.
[16]CHOU K,SHEN H.Plant-mPLoc:a top-down strategy to augment the power for predicting plant protein subcellular localization [J].PLoS One,2010,5(6):e11335.
[17]MORGANTE C V,RODRIGUES R A,MARBACH P A,et al.Conservation of dual-targeted proteins in Arabidopsis and rice points to a similar pattern of gene-family evolution [J].Mol Genet Genomics,2009,281(5):525-538.
[18]SCHWACKE R,FISCHER K,KETELSEN B,et al.Comparative survey of plastid and mitochondrial targeting properties of transcription factors in Arabidopsis and rice [J].Mol Genet Genomics,2007,277(6):631-646.
[19]CARRIE C,GIRAUD E,WHELAN J.Protein transport in organelles: Dual targeting of proteins to mitochondria and chloroplasts [J].FEBS J,2009,276(5):1187-1195.
[20]CAMON E,MAGRANE M,BARRELL D,et al.The Gene Ontology Annotation (GOA) Database: sharing knowledge in Uniprot with Gene Ontology [J].Nucleic Acids Res,2004,32(Database issue):D262-D266.
[21]BERGLUND A K,SPANNING E,BIVERSTAHL H,et al.Dual targeting to mitochondria and chloroplasts: characterization of Thr-tRNA synthetase targeting peptide [J].Mol Plant,2009,2(6):1298-1309.
[22]PUJOL C,MARECHAL-DROUARD L,DUCHENE A M.How can organellar protein N-terminal sequences be dual targeting signals in silico analysis and mutagenesis approach [J].J Mol Biol,2007,369 (2) 356-367.
[23]DINURMILLS M,TAL M,PINES O.Dual targeted mitochondrial proteins are characterized by lower MTS parameters and total net charge [J].PLoS One,2008,3(5):e2161.
(责任编辑:柯文辉)
Net Electric Charges of Dual Targeted Proteins in Mitochondria and Plastid of Plants
LIN Shou-kai1,2,FU Xiao-fei1,HUANG Jian1,TAO Huan1,XU Chao-qun1,Liu Wei1,Zhang Li-na1,Ai Yu-fang1,He Hua-qin1*
(1.CollegeofLifeSciences,FujianAgricultureandForestryUniversity,Fuzhou,Fujian350002,China;2.CollegeofEnvironmentalandBiologicalEngineering/FujianProvincialKeyLaboratoryofEcology-toxicologicalEffects&ControlforEmergingContaminants,PutianUniversity,Putian,Fujian351100,China)
Protein targeting is an important tool to determine the functionality of a protein. Adual targeted protein isa protein that located in two subcellular locations. It was estimated that more than 400 proteins were putatively targeted to mitochondria as well as plastid based on the ambiguous N-terminal pre-sequences in land plant genomes. In this study, the dual targeted proteins were searched against the protein databases of Uniprot, Mito P2, MGI, TAIR, and DBMLoc as well as the existing publications. A total of 703 proteins localized in both mitochondria and plastid in plants were collected. Whilst, 829 exclusive mitochondrial and 6 376 exclusive plastid proteins were downloaded from Uniprotfor comparison. The net electric charges of the dual targeted proteins were analyzed based on these 3 data sets. The results indicated the net charge of the plant dual targeted proteins was significantly lower than that of the proteins exclusively existed in mitochondrial or plastid. The charge differentiation provideda critical clue for the study of the molecular mechanism of dual targeted proteins in plants.
dual targeted protein; plant; mitochondria; plastid; net electric charge
2016-05-28初稿;2016-06-18修改稿
林授锴(1984-),男,博士生,助理研究员,研究方向:植物分子生物学与生物信息学(E-mail:shoukai.lin@foxmail.com)
何华勤(1968-),男,博士,教授,博士生导师,研究方向:植物分子生态学与生物信息学(E-mail:hehq3@fafu.edu.cn)
国家自然科学基金(31270454、81502091);福建省自然科学基金(2016J01101);闽台作物特色种质创制与绿色栽培协同创新中心项目(2015-75)
Q 51
A
1008-0384(2016)07-671-06
林授锴,傅晓菲,黄健,等.植物线粒体和质体双定位蛋白质的带电特性分析[J].福建农业学报,2016,31(7):671-676.
LIN S-K,FU X-F,HUANG J,et al.Net Electric Charges of Dual Targeted Proteins in Mitochondria and Plastid of Plants[J].FujianJournalofAgriculturalSciences,2016,31(7):671-676.