假基因及其生物学功能概述

2018-08-15 00:43付春鹏
生物学教学 2018年12期
关键词:反义亲本基因组

付春鹏

(山东省潍坊科技学院 寿光 262700)

自人类基因组计划完成以来,科学家相继完成了多个生物基因组的测序工作,庞大的数据让科学家对基因组有了全面的认识。研究表明,人类的基因组大约有30多亿个碱基对,而其中仅有不到2%的DNA序列编码蛋白质,其余98%以上的序列则一度被认为是近中性选择条件下的进化过程产生的、没有功能的“垃圾序列”。近年发现这些所谓的“垃圾序列”并不是“一无是处”,假基因(pseudogene)就是其中之一。相关研究证实,有些假基因不但能够转录生成RNA,进一步翻译生成蛋白质,而且还在多个水平调控基因表达,进而参与有机体的多个生理、生化过程。假基因已成为生命科学研究的热点领域之一。

1 假基因

1.1 假基因的发现 假基因是指具有与功能基因相似的序列,但由于发生众多突变导致其失去了原有的功能的DNA序列。1977年,Jacq等[1]在非洲爪蟾基因组中克隆到1个与5srRNA相类似的基因序列。通过与5srRNA基因比对后发现,该基因在5′端存在16bp的缺失和14bp的错配,而在非洲爪蟾体内没有检测到该基因的mRNA序列,表明它没有表达活性,于是就将这个5srRNA的同源物描述为假基因。随着基因组测序技术的发展,大量不同家族的假基因被陆续发现,假基因也被定义为功能基因有缺陷的拷贝[2]。

1.2 假基因的产生机制 假基因主要通过两种途径产生: ①细胞在分裂之前复制整个基因组时,DNA复制或染色体联会交换过程中功能基因的编码区或调控区发生的各种突变(碱基的插入、缺失、置换或移码),均会导致复制后的基因无法进行编码,从而丧失正常功能而成为假基因,这种假基因称为重复假基因[3];②DNA转录为mRNA后再逆转录为cDNA并重新整合进入基因组(很可能发生在生殖细胞中),在此过程中因为插入位点不合适或序列发生突变而失去正常功能,这样形成的假基因称为加工假基因或返座假基因[4]。

1.3 假基因的鉴定 由于假基因与亲本基因存在高度的序列相似性,所以正确区分假基因和亲本基因就成为假基因研究的关键环节。这方面最早的工作是通过计算核酸的非同义替换与同义替换的比率(Dn/Ds)来识别假基因的[5]。理论上分析,由于假基因不编码蛋白质,不受正选择或者纯化选择影响,所以推测在近中性选择条件下假基因的Dn/Ds值应该等于或接近1。通过该方法已经在多个物种中鉴别出众多假基因,例如在人类基因组序列中就发现了8000个假基因。随着测序技术发展,大量假基因的鉴定逐渐变得主要由生物信息学来完成,PseudoPipe、 RetroFinder和PseudoFinder是3种常用的分析软件[6],但它们都需要物种的基因组、转录组以及蛋白组信息,因此上述软件不适用于非模式生物的假基因鉴定。鉴于此,Molineris等[7]提出适用于多数物种的假基因鉴定方法——REGEXP。REGEXP方法的流程为: 将编码基因和假基因进行比对从而找到高匹配对(high score pairs, HSPs),进而寻找HSPs附近的基因簇。由于加工假基因仅含有原始基因外显子,且假基因对应的HSPs互相非常接近,故正常功能基因所对应的HSPs反而被内含子分割。据此建立数据库,并与Ensemble、 VEGA以及Pseudogene.org等假基因数据比对,最终确定假基因[8]。

1.4 假基因的作用机制 假基因的作用序列具有专一性,只影响与假基因本身相似的一些序列。由假基因介导的调控机制主要发生于转录水平和转录后水平。

1.4.1 转录水平的调控机理 当mRNA逆转录生成加工假基因时,没有正常编码功能的加工假基因整合到基因组中作为一个新位点,并与其亲本基因相互作用而调控细胞的不同生化过程。高迁移率族蛋白A1(high mobility group protein A1, HMGA1)是基因激活的特定辅助因子,与肿瘤和糖尿病的发生密切相关。其假基因HMGA1-P的转录物可降解功能基因HMGA1的转录物,原因在于HMGA1-P的转录物和亲本基因HMGA1的转录本在3′非翻译区上共同分享一个重要的转录调控元件[9]。

1.4.2 转录后水平的调控机理 假基因的转录物可通过作为亲本基因的反义RNA、竞争性结合亲本基因的微小RNA(microRNA, miRNA)和产生内源性小干扰RNA(small interfering RNA, siRNA)来降解亲本基因等几种方式在转录后水平调控亲本基因的表达。其中siRNA的生成机制研究较为透彻: 假基因主要通过假基因—亲本基因以及假基因—假基因两种配对方法来产生相关的siRNA。前一种配对中的亲本基因作为产生siRNA的正义链,反义链则来自于互补的假基因片段;后一种配对情况则通过插入重复片段形成发夹结构而生成siRNA。

2 假基因的生物学功能

2.1 基因表达 人们起初认为假基因不具有编码蛋白质功能,但是近年来相关研究表明某些假基因可以编码比亲本功能基因稍短的蛋白质。例如,磷酸甘油酸变位酶3基因(phosphoglycerate mutase family 3,PGAM3)是第一个被发现的具有编码能力的假基因[10];2个含脓素结构域的NLR家族假基因(NLR family, pyrin domain containing 2 pseudogene,NLRP2P)是高等灵长目特有的加工型假基因;最近人们发现其具有与亲本基因脓素蛋白基因(pyrin-only protein 2,POP2)类似的功能。NLRP2P具有完整的开放阅读框,编码45个氨基酸,这些氨基酸可以形成类似的脓素结构域(pyrin-domain)。而且NLRP2P的编码区与功能基因POP2相似度达80%以上。进一步的研究表明,该假基因具有调控细胞因子生成、细胞周期和细胞死亡的功能[11]。上述结果表明,假基因并非没有编码能力,有些假基因在选择压力的作用下日趋进化,逐渐地具备了各种各样的功能。因此现在的观点倾向于认为: 假基因是生物体的基因贮备库。

2.2 调控基因表达 假基因对基因表达调控主要通过反义链、siRNA和miRNA等几种方式来进行。例如,Korneev等[12]在蜗牛中发现一氧化氮合酶的假基因(nitric oxide synthase, NOS)转录本,能作为反义RNA与亲本基因的转录本形成RNA双链,在蜗牛记忆形成的关键时期抑制一氧化氮合成。此结果说明假基因转录的反义RNA在细胞中的重要作用。同源性磷酸酶张力蛋白基因(phosphatase and tensin homolog,PTEN)是迄今发现的第一个具有磷酸酶活性的抑癌基因,维持细胞内正常的PTEN蛋白水平可以够抑制肿瘤的发生。其假基因PTENP1的3′端非编码区序列与PTEN高度相似,PTENP1假基因竞争性结合miRNA,导致细胞内miRNA的浓度降低,致使PTEN逃离miRNA介导的抑制作用,从而调控肿瘤的发生[13]。

2.3 基因重排 动物体存在多种免疫球蛋白,而基因重排是产生免疫球蛋白多样化的主要机制。基因重排机制首先在鸡中被发现,鸡免疫球蛋白重链和轻链的可变区(V区)基因上游存在大量的假基因,这些假基因插入并置换重排V区的同源序列,从而使免疫球蛋白呈现多样化[14]。类似的功能基因和假基因间的基因重排导致的抗体多样性例子在其他脊椎动物中都能发现。

2.4 标记物种亲缘关系和进化距离 细胞核线粒体假基因(nuclear mitochondrial pseudogenes,Numts)是线粒体DNA转移到核DNA中的片段,是研究细胞核内外两套遗传物质的桥梁。因为Numts的进化速率慢于线粒体基因,常被看做是线粒体DNA的“分子化石”,可以根据Numts中保留的原始基因信息确定物种之间的亲缘关系和进化距离。例如,在人类起源问题上,Zischler等[15]使用核基因组中的一段D-loop区的Numts序列作为外群,证实了现代人类起源于非洲的假说,结束了很久以来关于现代人类起源地的争论。

3 展望

长期以来一直认为假基因是看似正常、却没有功能的“死亡基因”,是基因组进化历程中的“化石记录”,然而事实却远非如此。如上所述,假基因在基因表达、基因调控、产生基因多样性等方面都扮演着极为重要的角色。因此,人们重新定义了假基因的概念: 即假基因是指源于功能基因,却不能够表达相同类型产物(如蛋白质、tRNA及rRNA等)的基因组序列[16]。

生物体犹如一架精密的仪器,每个生化反应都要经历严谨而复杂的调控过程。在生物进化的历程中,细胞基因组中大约有98%的“垃圾序列”会被“束之高阁”吗?答案显然是否定的,而物尽其用应是其更合理的解释。例如,当下受到研究者广泛关注的长链非编码RNA(long non-coding RNA, lncRNA)就是所谓的“垃圾序列”的一部分,原先被认为是转录过程中产生的“噪音”,现在被证明在生物体中发挥着重要的生物学功能。假基因也不例外,相信在不久的将来,随着分子生物学技术的发展,科研人员必定对假基因有一个全面正确的认识,还假基因本来之真面目。

猜你喜欢
反义亲本基因组
“植物界大熊猫”完整基因组图谱首次发布
甘蔗常用亲本的田间自然耐寒性测定及评价
我国小麦基因组编辑抗病育种取得突破
第一代基因组设计的杂交马铃薯问世
认识反义词
反义疑问句小练
牛参考基因组中发现被忽视基因
多亲本群体在作物育种中的应用(2020.7.6 莱肯生物)
这山望着那山高
1982—2011年江苏大麦育成品种亲本分析