蒋可人 马峥 郑航 刘小军
(河南农业大学牧医工程学院 河南省家禽种质资源创新工程研中心 河南省家禽育种国际联合实验室,郑州 450002)
基因组学(Genomics)、转录组学(Transcriptomics)和蛋白质组学(Proteomics)等各种“组学”技术的相继产生,标志着后基因组时代的到来[1-2],使得对生命现象的解析由精细的分解研究转向系统的整体研究。通过对对多组学数据的整合分析,可以实现对生物系统的全面了解。当各个层面上的研究都逐步走向完善的时候,从部分到整体就是一种必然的发展趋势。
转录组广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。转录组学主要研究细胞在某一状态下产生的转录物的种类、结构和功能等,是继基因组学之后的又一门新兴学科[2]。转录组学能在较低消耗下实现较高的通量,并能在转录水平提供较详细的信息。目前,用于转录组数据获得和分析的方法主要是新一代高通量测序技术,现在通常将基于二代和三代测序技术的转录组测序分析称为RNA-seq。蛋白质组是指细胞内某一特定状态下基因组表达的所有蛋白质[2]。与具有普遍性和同源性等特点的基因组相比,蛋白质组是对生物或细胞在某一特定生理或病理状态下表达的所有蛋白质的数量和功能的系统研究,蛋白质组研究具有特异性、时间性、空间性和动态性,可以提供全面的细胞动力学过程信息,在细胞的整体水平上阐明生命现象的本质和生命活动的规律[3]。RNA可作为部分生物学功能的酶反应效益物,蛋白质则是执行生物学功能的载体。因此,蛋白质水平的分析是基因表达更直接的反映,而质谱技术的发展,使得定量的蛋白组学研究成为可能。
基因的表达不仅是从转录组到蛋白组的单向流动,更是两者之间的相互连接。前人对于这种功能调控的认识通常只局限在某些特定的信号或新陈代谢通路,而要了解转录组与蛋白组的相互调控过程,则需要对RNA与蛋白质的表达进行同步监测。本文重点总结近几年国内外转录组与蛋白组的比较研究,发现整体而言两者的相关性不高[4-6],这可能是由生物学因素、非生物学因素及实验技术等多方面原因造成。
目前蛋白质组学的研究方法主要包括:(1)双向电泳技术,双向电泳(Two-dimensional electrophoresis,2-DE)技术是研究蛋白质组学的核心技术之一,其原理是利用蛋白质分子量和等电点的不同对蛋白质混合物进行两次区分[7]。2-DE技术虽然可以使蛋白质的分离效率成倍增加,但仍存在一些问题:对于极性蛋白质的分离效果较差,很难检测到表达丰度低的蛋白,蛋白质点的筛选和纯化难以自动化,重复性较差等[8]。(2)质谱技术,质谱(Mass spectrometry,MS)技术长期用于测定同位素的相对丰度[9],在蛋白质组学研究中通常将质谱技术与其他相关技术联用,从而提高蛋白质分辨率和特异性。(3)蛋白质芯片技术,蛋白质芯片技术具有高通量、微型化和自动化等特点,可以一次平行分析几千个甚至上7个蛋白样品,具有较高的敏感性和准确性[10],主要应用于研究蛋白质之间的互作效应[11]。(4)非标记法 emPAI(Exponentially modified protein abundance index),蛋白质非标记定量技术(Label-free)只需通过液质联用技术对蛋白质酶解肽段进行质谱分析,比较不同样品中相应肽段的信号强度,从而对肽段对应的蛋白质进行相对定量。蛋白质非标记定量技术无需同位素标签做内部标准,具有更快速,更简洁的优点。(5)同位素标记法iTRAQ(Isobaric tag for relative and absolute quantification)技术是由ABI公司开发的一种体外标记技术,是目前广泛使用的蛋白质组学测序技术,该技术采用多种同位素标签,与氨基(包括氨基酸N端及赖氨酸侧链氨基)反应实现连接,再通过质谱分析同时对不同样品中蛋白质进行定性和定量分析。iTRAQ技术具有通量高,重复性好,定量准确,分辨率高,数据丰富,自动化程度高等优势。
目前转录组学的研究方法主要有:(1)以杂交技术为基础的方法,如寡聚核苷酸芯片和 cDNA 芯片等;(2)以测序技术为基础的,如以 Sanger 测序为 基 础 的 SAGE(serial analysis of gene expression)和 MPSS(massively parallel signature sequencing)、全长 cDNA 文库和EST(expressedsequencetag)文库的测序方法;(3)RNA-Seq,即二代转录组测序技术,是对 cDNA、EST等测序工作的升级版[12],RNASeq 具有通量高,分辨率高,灵敏度高等优势[13]。此外,转录组测序技术还可以检测到未知基因,发现物种中的新的转录本,同时还可以准确地识别出序列中的可变剪切位点及 SNP、UTR等区域[14]。(4)第三代转录组测序技术,如Helicos 单分子测序仪、Pacific Bioscience 的 SMRT 技术和 Oxford Nanopore Technologies 公司正在研究的纳米孔单分子测序技术[15]。第三代测序技术是一种集高通量、快速度、长读长及低成本等多种优点于一身的新型测序技术,其最大特点是无需进行 PCR 扩增,可直接读取目标序列,因而可大大减少假阳性率,避免碱基替换及偏置等常见 PCR 错误的发生[16]。就精准度来说,第三代测序技术与第二代测序技术相比并不具有优势,错误率通常在15%左右[17]。但随着测序深度的加大及使用更正软件可达到 99.9%的准确率[18]。二代和三代转录组测序优劣势的对比,见表1。
表1 二代和三代转录组测序优劣势对比
虽然转录组测序和蛋白质组测序在实验方法上差异很大,但这两种方法的根本目的都是获取基因的表达情况,两者之间存在一定的共通之处。从生物学角度出发,mRNA水平可以体现基因表达的中间状态,代表潜在的蛋白质表达情况,然而蛋白质是直接的功能执行体,因此对蛋白水平表达的检测有着不可取代的作用。
由于转录组和蛋白质组研究手段的不完全性和互补性,目前的研究更多地倾向于将转录组和蛋白质组研究整合起来,其目的和优点有以下3点,首先,两组学的整合分析可以获得一个表达谱的“全景图”,实现两者的互补,对特定状态下生物体中mRNA和蛋白质表达水平进行全方位分析。其次,将转录组和蛋白组整合分析可以获得对差异表达谱的深入理解,挖掘受转录后调控的关键mRNA或蛋白,寻找并验证某些重要的调控通路。另外,对于那些蛋白数据库缺乏或注释不全的物种,通过转录组数据构建蛋白质搜索库,可大幅度提高蛋白质鉴定数。
蛋白质是细胞行使功能的载体,在转录和蛋白水平,如果只能通过严格的转录调控去控制蛋白质的合成,细胞是不太可能选择精细调节机制的。通过比较蛋白质组学和转录组学的数据将两者联系起来,可以更加准确的掌握功能基因或蛋白的作用,找到基因相互作用网络,进而提供单个基因的生物学功能。
按中心法则所述,基因表达的主要环节包括转录和蛋白质合成,但其中又存在复杂的转录后和翻译后水平的调控。因此,单纯从转录水平出发,并不能真正阐明基因的表达情况和调控机制。随着测序技术和质谱技术的不断进步,转录组和蛋白质组的整合分析成为近几年研究的热点,然而大量研究表明,当点对点进行比较时,mRNA和蛋白质之间的一致性通常很弱。
近几年国内外转录组与蛋白组整合分析在动物方面的研究主要围绕动物生理过程、繁殖调控及疾病对机体的影响等方面。例如,利用转录组与蛋白组测序技术研究体外受精和体外培养对早期胚外组织和胎盘中基因表达的影响;对不同发育时期绒山羊胎儿体侧皮肤的转录组和蛋白组分析[19-20];通过RNA-Seq和iTRAQ技术对动物感染寄生虫后各器官中mRNA及蛋白表达变化的影响,利用RNA-Seq和iTRAQ技术研究不同日龄二斑叶螨的滞育机制,以及研究哺乳动物感染布氏锥虫后细胞蛋白和转录水平的变化等[21-23]。
纵观近年来转录组和蛋白组的整合研究结果发现,整体上基因在mRNA水平和蛋白质水平表达量的相关性极低,大部分研究中的相关系数均小于0.5。例如,Wang等[24]分别通过转录组和蛋白组测序技术研究铜纳米粒子和硫酸铜对点带石斑鱼的影响,在两个处理组分别检测到1 428和2 239个差异mRNA,354和140个差异蛋白,其中硫酸铜处理组转录组和蛋白组表达趋势相反的mRNA高达124个;铜纳米粒子处理组转录组和蛋白组表达趋势相反的mRNA高达60个;梅金鑫[25]用芯片法和双向电泳法研究肝部分切除后不同时间点大鼠肝细胞中基因的表达变化,分析mRNA和蛋白的表达变化发现,mRNA水平与蛋白质水平的相关性较低,分析可能的原因包括mRNA的降解、选择性剪切、基因表达的转录后调控及翻译后修饰等。
本课题组分别在转录水平和蛋白水平研究产蛋高峰期及产蛋前期鸡肝脏脂肪代谢的分子机制,对比两组学数据发现在转录水平和蛋白水平均检测到的基因有59个,其中有58个mRNA-蛋白对在两组学表达趋势一致,与产蛋前期相比,只有一个基因HSPG2(Heparan sulfate proteoglycan 2)产蛋高峰期表达量在转录水平下调,在蛋白水平上调,计算59个基因在两组学之间表达量的相关系数为0.587。总体来说,针对转录组和蛋白组结果的相关分析,除了在极少数研究中相关性略高,在大部分研究中都呈现较低的相关性。
目前国内外转录组与蛋白组整合分析在植物上的研究主要用于植物生长、果实成熟、品种选育、疾病及植物抗逆(如干旱胁迫、低温胁迫、病菌胁迫)等方面。例如,对不同小麦品种进行干旱胁迫下转录组和蛋白组学分析;从mRNA和蛋白质水平研究油菜叶片对低温胁迫的响应机制[26-27];对不同性状棉花纤维发育时期转录组和蛋白质组进行比较分析[28],以及运用iTRAQ技术分析Ca.pseudoreteaudii诱导的桉树叶片差异蛋白,并与转录组数据进行相关性分析等[29]。
总结转录组蛋白组整合分析在植物上的研究,发现表达趋势相同的mRNA-蛋白质较少,大部分mRNA的变化和蛋白水平的变化趋势相反,关联性较低。例如,Peng等[30]对小麦品种干旱胁迫后进行蛋白组学分析和芯片转录组学分析发现,仅有20个(27.0%)差异蛋白在mRNA与蛋白水平表达有相关性;苏亚春[31]对甘鹿黑穗病菌胁迫后的不同品种甘蔗进行iTRAQ分析,并与转录组关联分析,差异蛋白与差异mRNA相关系数分别为0.150 2和0.246 6。分析其原因可能与甘蔗蛋白数据库信息量少有关,尽管基于转录组数据构建了蛋白质搜索库,但注释信息的完整性仍存在局限性。另外,可能存在转录后蛋白质合成各步骤所受的限制,以及在此过程中的分子调控等影响因素。
目前,国内外转录组与蛋白组整合分析在微生物领域的研究主要针对不同种类微生物对生物体或植物的致病性的影响,不同个体中微生物的表达量的差异的研究等。例如,对比蛋白组与转录组数据库研究氮有效性对水稻恶苗病菌致病性的影响[32];对酸耐受副溶血性弧菌进行差异蛋白组和比较转录组数据整合分析[33]等。
总结转录组蛋白组整合分析在微生物研究中的应用,同样发现mRNA表达量和蛋白水平表达量存在较大差异,mRNA水平的显著差异只能在很小程度上反应蛋白水平的差异,两者相关性较低[34]。例如,Taniguchi等运用单细胞转录组和单细胞蛋白组对比个体中大肠杆菌的表达量发现,在总体水平上,mRNA和对应的蛋白表达量的相关系数r=0.77,然而在单细胞水平,不同菌株mRNA和对应蛋白质的拷贝数均呈负相关。其原因可能是mRNA和蛋白的生命周期不同,在大肠杆菌中,mRNA的表达随时间呈现典型的下降趋势,而蛋白的生命周期普遍长于细胞周期。也就是说任何一个瞬间mRNA的拷贝数仅仅能代表它当下(最多几分钟内)的表达情况,而同一瞬间的蛋白表达水平则反映很长一段时间内蛋白质的累积表达量。此外,外界噪音也可能是造成mRNA-蛋白质相关性低的原因[35-37]。
当细胞适应了转录、转录后(如mRNA的剪接)、翻译后(蛋白降解和输出)的精细调控机制后,mRNA和蛋白质的表达丰度很可能会不一致。正如mRNA和蛋白质之间的一致性可以验证测序数据的可信度一样,两者之间的差异也能暗示我们更多的生物学意义和调控机制。总结上述研究中对mRNA与其蛋白水平表达趋势不一致的分析,其原因包括以下4点:
基因的表达一般受到转录和翻译两个层面的调控,mRNA与其对应的蛋白质之间表达量的相关性取决于很多调控因子和代谢过程。从RNA到蛋白再到表型是一个复杂且精细的过程,在mRNA形成之后,很可能发生如转录后调控、表观遗传修饰(DNA甲基化、组蛋白修饰等)和翻译后调控等调节活动[38]。李茂峰[28]指出,由于存在转录后,翻译和翻译后的调节机制,还存在降解、酸化、糖基化等导致蛋白质的异构和数量改变的过程,而这些修饰作用往往对于细胞信号的转导、生物的生长、发育、衰老等过程起重要调节作用,也就是说仅关注蛋白组和转录组的比较研究是不全面的,更值得注意的是将两者联系到一起的桥梁,即转录后调控作用,它直接决定了mRNA和蛋白质的水平,今后必将成为功能基因组学的研究重点。除此以外,RNA的可变剪切、小RNA(miRNA、lncRNA等)、转录因子等都有可能参与改变mRNA或蛋白的表达和功能。
因为检测的时间点不同,可能在蛋白达到峰值的时候mRNA已经降解或者在mRNA达到峰值的时候蛋白含量还在变化中,同时还存在降解、酸化、糖基化等导致蛋白质的异构和数量改变的过程。杜春芳[27]从RNA和蛋白质水平研究甘蓝型油菜叶片对低温胁迫的响应机制,发现胁迫早期表达趋势相同的mRNA-蛋白数目较少,随着时间的增加,相同趋势mRNA-蛋白数目不断增加,低温诱导初始阶段变化趋势相同的差异mRNA和差异蛋白关联性较低(r=0.4965),随着胁迫时间延长,关联性不断提高(r=0.7626),这是由于蛋白的表达迟于mRNA的表达。
测序外界噪音一般由系统误差和非目片段的测序信号造成。信噪比,即为有效信号/背景噪音,是测序结果中一个重要参数。高噪音影响就是低信噪比,信噪比越低结果越不可靠。因此,测序背景噪音也是造成mRNA-蛋白相关性低的原因之一。
两组学之间的差异性也可能由试验技术的局限性、实验系统和数据类型等非生物学因素的差异导致。此外,马月姣[33]在研究中指出,测序样本的来源不同或状态不同也会造成差异,因此需要坦然接受转录组与蛋白组相关性不高的事实。
因此,将转录组数据和蛋白质组数据结合起来分析,才可能更加全面且深入地了解各个生物过程的分子机理[39]。
转录组学和蛋白组学都是系统研究有机体生理状态的常用工具。当然,没有一种工具可以提供完全的覆盖和绝对的精确度。研究的核心不单是找出mRNA和蛋白质之间一对一的关系,更是要通过转录组和蛋白组的整合分析区别出mRNA和蛋白质的一致性或不一致性。转录组学或蛋白组学数据通常只能体现调节系统和分解作用平衡态的净效应,实际上两者的不一致性只是合成与降解两种过程交替的一种反映。mRNA和蛋白质之间的一致性一定程度上可以验证测序数据的可信度,而两者之间的差异往往透露出转录后干涉情况,暗示我们更多的生物学意义和调控机制。