四川山鹧鸪基因组中内源性逆转录病毒的分析

2019-09-23 08:09:48郑帅周闯范振鑫李静岳碧松孟杨
四川动物 2019年5期
关键词:鹧鸪拷贝拷贝数

郑帅, 周闯, 范振鑫, 李静, 岳碧松, 孟杨, 2*

(1. 生物资源与生态环境教育部重点实验室,四川大学生命科学学院,成都610065; 2. 四川大学自然博物馆,成都610065)

内源性逆转录病毒(endogenous retrovirus,ERV)起源于逆转录病毒,是当逆转录病毒感染宿主的生殖细胞并将基因组插入到生殖细胞基因组中,传递给下一代所形成。因此,ERV是位于宿主基因组中的病毒基因组,具有如下结构:5’ LTR-gag-pol-env-LTR 3’。长末端重复是位于ERV序列两端的2段相同DNA序列,含有启动子、聚腺苷酸化位点等调控元件。gag、pol和env分别代表3个蛋白质的编码基因。虽然在漫长的演化过程中,其结构会发生一些变异,但仍然具有很高的保守性,识别基因组中ERV也主要是根据其结构特征和蛋白质编码基因的序列相似性。

ERV插入宿主基因组中的位置是随机的(Bolisettyetal.,2012),如果插入到基因附近或基因内部,就会改变基因原有结构,影响基因表达,可能产生有害的结果。但对宿主不利的ERV在负选择作用下会被逐渐清除出宿主基因组,而不妨碍宿主正常的生理活动,而对宿主有利的ERV就会被保留下来。ERV在宿主基因组中并非静止,它可以通过自我复制产生新的拷贝,插入到基因组中的其他位置。病毒的再次感染也会形成新的ERV,这样宿主基因组中就存在很多来源于同一种逆转录病毒的ERV拷贝,形成ERV家族(Gifford & Tristem,2003)。除了垂直传递外,ERV还可以在宿主间进行水平传递,从一个宿主中释放出来,感染另一个宿主。ERV与同源的外源性逆转录病毒之间也存在交互,它们可以相互交换基因组片段,形成新的重组病毒(Payne & Nair,2012)。ERV具有许多重要的生物学功能,比如参与人类胎盘的形态发生,避免宿主被同源的外源性病毒感染,调节插入位点附近的基因表达等(武元峰,栾洋,2014)。

由ERV衍生的重复序列在鸟类基因组中广泛存在,其含量为0.17%~4.11%(Zhangetal.,2014),但大多数都是不完整的ERV片段或单独出现的长末端重复。很多鸟类的性状都与ERV的插入有关,例如雌相羽(Matsumineetal.,1991)、白羽鸡(Changetal.,2006)、绿壳蛋(Wangetal.,2013)等。某些种类的ERV还具有致癌性,如ALV-J能够引起家鸡Gallusgullusdomesticus发生肿瘤(Gaoetal.,2010)。

四川山鹧鸪Arborophilarufipectus是中国西南山区特有的珍稀雉科Phasianidae鸟类,被世界自然保护联盟(IUCN)列为濒危(EN)物种,也是国家Ⅰ级重点保护野生动物。受捕猎、生境丧失等影响,其成熟个体的数量仅为1 000~2 499只,且在持续下降中(IUCN,2018)。其生态习性(廖文波,胡锦矗,2010)、行为特征(廖文波,2011)、基因组中的微卫星(Huangetal.,2015)、Chicken Repeat 1转座子(Cuietal.,2016)等已有研究,对山鹧鸪属Arborophila鸟类的系统发生关系和演化历史的研究也取得了很大进展(李雪娟等,2014;Yanetal.,2017)。但对四川山鹧鸪基因组中的ERV仍然知之甚少,本文比较全面地呈现了四川山鹧鸪基因组中ERV的分布情况,对全面了解这一濒危物种,采取更好的保护策略具有重要意义。

1 材料与方法

1.1 基因组测序

测序样品来源于四川老君山国家级自然保护区的1只四川山鹧鸪。相关项目信息和原始数据已上传至NCBI(PRJNA419836)。测序采用paired-end共构建了8种不同插入长度的DNA文库,包括小片段文库(插入长度为250 bp、500 bp与800 bp)和大片段文库(插入长度为2 kb、5 kb、10 kb、15 kb与20 kb)。对小片段文库,测序采用Illumina HiSeq X Ten平台,大片段文库采用Illumina HiSeq 2500平台,测序深度达~274×,读长均为150 bp,获得的数据总量为347.94 Gb。

1.2 基因组的de novo组装

首先使用SOAPdenovo 2 2.04-r240(SOAPdenovo-63mer;Luoetal.,2012)将读长组装成contig和scaffold。小片段文库用于组装contig,大片段文库用于将contig连接为scaffold,运行参数为:SOAPdenovo-63mer all-s config_file-o out_prefix-K 27-p 30-d 5-M 3-F;然后使用SSPACE 3.0(Boetzeretal.,2011)根据大片段文库将SOAPdenovo2输出的scaffold进一步连接,运行参数为:SSPACE_Standard_v3.0.pl-l library.txt-s scaffold_file.fa-T 30-v 1-g 0-k 7;最后使用GapCloser 1.12(Luoetal.,2012)根据小片段文库对scaffold中的缺口(连续的N)进行填补,采用默认的参数运行。最终获得1.09 Gb的基因组序列,scaffold N50长度为4.57 Mb。

1.3 确定和注释ERV

采用LTRharvest 1.5.10(Ellinghausetal.,2008)确定基因组中的ERV,主要参数设置为:minlenltr=100,maxlenltr=1 000,similar=90,overlaps=no。注释采用LTRdigest 1.5.10(Steinbissetal.,2009),采用关键词“retro”搜索Pfam数据库,找到了与ERV蛋白质相关的41个条目,又包括了Steinbiss等(2009)构建的Pfam文库,最终确定了1个含有53个Pfam条目的文库,作为LTRdigest的输入,用于检测gag、pol和env基因所编码蛋白质的结构域。

1.4 定义家族与估算年龄

首先使用Usearch 1.0.667_i86linux32(Edgar,2010)聚类,主要参数设置为:cluster_fast id=0.80,query_cov=0.80,maxaccepts=5,maxrejects=105;然后使用RAxML 8.2.12(Stamatakis,2014)构建系统发生树,主要参数设置为:raxml-f a-x 1237-p 1237-# autoMRE-m GTRGAMMA-T 4;最后进行手工检验,若有2个或多个Usearch家族处于系统发生树的同一分支,则将这些家族合并,形成一个新的家族。

年龄估算使用公式T=D/2R,式中,T代表ERV的年龄,D是2个长末端重复序列的演化距离,采用MEGA X(Kumaretal.,2018)计算,R是每百万年的碱基替换率,采用红原鸡Gallusgallus和火鸡Meleagrisgallopavo的常染色体年替换率:3.6×10-9(Axelsson,2004)计算。

2 结果

2.1 ERV的数量与结构特征

位于ERV序列两端的长末端重复长度一般为100~1 000 bp,是识别基因组中ERV的重要特征。具有2个可识别的长末端重复的ERV称为全长ERV,2个长末端重复之间的序列称为ERV的内部序列。通过denovo从四川山鹧鸪基因组中确定了3 962 个全长ERV拷贝,总长度为18.01 Mb,占基因组的1.65%。利用LTRdigest对ERV的引物结合位点,多嘌呤序列,gag、pol和env3个基因编码的蛋白质结构域进行注释。发现有4个拷贝同时具有这5种特征,即具有完整的结构;11个拷贝同时含有3种蛋白质结构域;72个拷贝同时具有引物结合位点和多嘌呤序列,表明它们具有自我复制的能力;554个拷贝含有至少1个蛋白质结构域,其中,约73%(404个拷贝)含有逆转录酶域(Pfam ID:RVT_1)。

在排除了重复的、长度<80 bp、未知碱基N的含量>80%和被Chicken Repeat 1污染的拷贝后,共获得2 579个高质量的全长ERV拷贝,其中318个含有逆转录酶域被用于定义ERV家族。

2.2 ERV家族的定义与命名

根据Wicker等(2007)提出的转座子家族的定义方法,基于逆转录酶序列的相似性,将318个含有逆转录酶域的ERV拷贝分成了48个不同的家族。其中11个家族的拷贝数>3,2个家族的拷贝数为2,其余35个家族的拷贝数为1。为了确定四川山鹧鸪基因组中的ERV与已发现其他物种的关系,将拷贝数>3的11个家族中所有拷贝的内部序列作为查询序列,用BLASTN搜索了Repbase数据库(Baoetal.,2015),结果发现,仍然有4个家族的序列中含有Chicken Repeat 1。为了尽可能避免Chicken Repeat 1对ERV家族的污染,将这4个家族移出分类系统,最终获得7个ERV家族,并依据BLASTN结果中的Repbase条目名称,力求反映与其他物种ERV的亲缘关系,对这7个ERV家族分别进行了命名(表1):每个家族名都由2个部分组成:第一部分为代表四川山鹧鸪这一物种的“Aru”前缀,第二部分为代表家族归属的类别名。

表1 ERV家族Table 1 Assigned ERV families

注: BLASTN结果中匹配到对应的Repbase条目的ERV拷贝数

Note: Number of matched ERV copies corresponding to the Repbase entry by BLASTN

AruERV-L是四川山鹧鸪基因组中最大的ERV家族,包含了122个拷贝。为了确定其他鸟类中是否也含有ERV-L拷贝,将AruERV-L家族所有拷贝的内部序列作为查询序列,用BLASTN(identity≥80%,coverage≥80%)分别搜索了红原鸡、绿尾虹雉Lophophoruslhuysii、日本鹌鹑Coturnixjaponica、火鸡、非洲鸵鸟Struthiocamelus、原鸽Columbalivia和斑胸草雀Taeniopygiaguttata7种具有代表性的鸟类基因组。结果在后3种鸟中未发现ERV-L的拷贝,前4种鸟的ERV-L拷贝数分别是159个、137个、70个和35个。

2.3 ERV的年龄分布

在ERV插入基因组的事件发生时,其两端的长末端重复序列相同,但随着时间的增加,基因突变使2个长末端重复之间产生差异。因此可以通过比较全长ERV 5’端和3’端的长末端重复的差异来估算ERV的年龄,即该ERV的插入事件发生在多少时间以前(Hudaetal.,2008)。

上述7个家族中有5个家族含有年龄为0的ERV拷贝,即2个长末端重复完全相同的拷贝(图1)。也就是说这些ERV拷贝的插入事件发生在最近,即这些家族的某些拷贝在最近有活动,进行了自我复制,产生了新的拷贝。5个家族中,AruDawg中年龄为0的拷贝含有9个,AruERV-K1含有3个,AruERV-L含有2个,AruERV-4、AruERV-20各含有1个。

将年龄在1百万年以内的ERV拷贝称为年轻拷贝。7个家族中,除AruERV-K2外,其余的均含有年轻拷贝,AruERV-K1含有年轻拷贝的比例最高,约86%(6/7),AruDawg含有年轻拷贝的数量最多,为45个(约54%)。可以推测,这2个ERV家族至今仍处于活跃状态(图1)。

图1 ERV家族年龄分布Fig. 1 Distribution of the ages of ERV families

3 讨论

虽然四川山鹧鸪基因组中全长ERV拷贝的总量接近4 000个,但大多数拷贝都缺少进行自我复制所必需的引物结合位点、多嘌呤序列等调控元件,只有约2%的拷贝保留有进行自我复制产生新拷贝的能力,这些拷贝是演化过程中维系ERV家族存在的关键。

AruERV-L是四川山鹧鸪基因组中含量最丰富的ERV家族,其年龄分布范围也非常广泛,最远可追溯到12百万年以前,可见AruERV-L在四川山鹧鸪中具有悠久的演化历史。ERV-L是一个值得注意的ERV家族,Bénit等(1999)发现该家族普遍存在于胎盘哺乳动物中。而红原鸡、绿尾虹雉、四川山鹧鸪、日本鹌鹑和火鸡也都含有ERV-L,且四川山鹧鸪分支在雉科鸟类的系统发生树中出现的最早(李雪娟等,2014),因此有理由推测,ERV-L普遍存在于雉科鸟类中。在非洲鸵鸟、原鸽和斑胸草雀3种非雉科鸟类中并未发现ERV-L,这说明ERV-L在鸟类中的存在并不具有普遍性。那么ERV-L在哺乳动物和鸟类中的引进就很可能是独立发生的。

四川山鹧鸪基因组中最年轻的ERV家族是AruERV-K1。年轻的ERV一般具有比较完整的结构,能够自主转录与复制,对宿主的各项生理功能产生影响的可能性更大。ERV插入基因组中位置的随机性,也使得其具有影响宿主生理活动各个方面的潜能(Bolisettyetal.,2012)。经过漫长的演化,四川山鹧鸪表现出了特殊的环境适应性(Fuetal.,2017),而ERV始终动态地存在于基因组中,很可能在其适应性演化中扮演着重要角色。因此,深入了解这些ERV的生理功能,对采取更加科学的方法保护四川山鹧鸪具有十分重要的意义。

猜你喜欢
鹧鸪拷贝拷贝数
《鹧鸪》一调与“舞《鹧鸪》”“打散”——声诗格调与元杂剧的收场演出
戏曲研究(2022年3期)2022-05-10 08:09:44
鹧鸪
扬子江诗刊(2022年1期)2022-01-10 05:43:28
鹧鸪
扬子江(2022年1期)2022-01-07 19:26:38
线粒体DNA拷贝数变异机制及疾病预测价值分析
河北医学(2021年10期)2021-10-27 00:37:14
胎儿染色体组拷贝数变异与产前超声异常的相关性分析
唐氏综合征是因为“拷贝”走样了
鹧鸪爷
金山(2016年1期)2016-08-17 22:03:34
DNA序列拷贝数变化决定黄瓜性别
线粒体DNA拷贝数的研究新进展
医学综述(2014年24期)2014-03-08 07:07:24
小小拷贝工.最快Windows拷贝工具