夏 雨, 李语丽,2❋❋, 刘 晶, 李亚娟, 姚立杰, 杨志辉, 刘雅然, 包振民,3, 王 师,2
(1. 中国海洋大学海洋生命学院,海洋生物遗传学与育种教育部重点实验室,山东 青岛 266003; 2. 青岛海洋科学与技术国家实验室,海洋生物学与生物技术功能实验室,山东 青岛 266071; 3. 海洋渔业科学与食物产出过程功能实验室,山东 青岛266071)
双壳贝类是一类古老的动物类群,其悠久的进化历史可以追溯到寒武纪早期[1]。数亿年来,双壳类经历了多次生物大灭绝事件,却能够在严酷的生存环境中幸存下来,如今已经发展为水生生态系统中种类繁多、数量庞大的群体,同时也是世界水产养殖业的重要经济物种[2]。双壳贝类的生存环境丰富多样,在热带到极地、潮间带到深海的世界海洋和淡水环境中均有分布。潮间带地区的环境条件波动幅度较大,温度、盐度、pH值、降水等条件的不断变化都会对环境生物的生存产生不利影响。此外,海水中细菌和病毒的多样性很高[3],病原菌的传播速度极快,每秒钟大约有1023个病毒感染发生在海洋中[4],这些因素都加重了双壳贝类面临的生存威胁。自然环境的多变性使双壳贝类必须有一套利于自身存活的应对机制。单核苷酸多态性(SNP)是一种常见的可遗传变异,核苷酸的高多态性增加了它们所编码基因的多样性[5]。在海洋生物早期发育阶段,灵活、丰富的遗传变异往往为物种在自然选择状态下的发育方向提供了更多可能性。为了应对自然环境波动带来的影响,序列的多样性使蛋白分子在能量代谢、细胞骨架和信号传导等方面展现出多样的功能[6]。强大的环境压力同时使免疫功能蛋白的结构和功能更加多样化,为海洋无脊椎动物提供了更为灵活的免疫应激网络[7]。目前已完成基因组测序的海洋无脊椎动物,如海鞘(Cionaintestinalis)[8]、海胆(Strongylocentrotuspurpuratus)[9]、太平洋牡蛎(Crassostreagigas)[10]、海豆芽(Lingulaanatina)[11]、扇贝(Patinopectenyessoensis,Chlamysfarreri)[12-13]、仿刺参(Apostichopusjaponicas)[14]等,它们的基因组都呈现出高多态性的特征。研究显示,牡蛎基因组的高度杂合、免疫和应激反应相关基因的序列与结构的多样性、以及免疫应激基因的扩张可能是其适应潮间带极端环境的关键[10,15]。
栉孔扇贝(Chlamysfarreri)自然分布于我国北方沿海地区[16],是我国极具经济价值的重要水产养殖物种,同时也因其丰富多样的生物学特性和生态学意义被广泛研究。近年来,扇贝养殖业繁荣发展的同时也常常出现一些问题,夏季水温较高期间发生过扇贝大规模死亡的现象,严重危及扇贝养殖业的发展。研究扇贝环境适应性背后的分子机理,有助于通过遗传育种提高扇贝的抗病能力,为海区温度、盐度、溶解氧等因素变化带来的养殖问题提供解决方案。本团队近期完成了栉孔扇贝全基因组测序[13],发现其基因组杂合度较高(0.81%)。其基因编码区(CDS区)的SNP密度的变化幅度较大(0~117 SNPs/kb),表明一些区域上存在着高多态基因。这些高多态基因主要参与哪些生物学功能?具有哪些独特的时空表达规律?是否为扇贝的环境适应性提供分子基础?相关问题的解答仍需要深入的研究。
为理解高多态基因在扇贝适应性进化中的作用,本研究利用栉孔扇贝基因组重测序数据,对编码区的高多态基因进行了鉴定,初步探究了高多态基因的分布及表达特征,并对这些基因的生物学功能进行了分析。本文将基因的多态性和表达特征进行联合分析,以期为深入理解扇贝环境适应性的分子机制提供线索。
在本研究中,扇贝高多态基因的鉴定主要基于实验室前期获得的六个个体的基因组重测序数据[13],相关实验材料于2013年取自青岛市南山市场。首先根据基因组的注释信息获得所有基因编码区的长度(Mb),基于前期的SNP分型结果,统计每个基因编码区的SNP位点数,将各个基因的SNP位点数比上对应区间的长度,然后对计算结果进行标准化,最终获得每个基因单位kb上分布的SNP位点数,即SNP密度(#/kb)。按照上述方法求出所有基因编码区的SNP密度。运用Fisher检验对每个基因编码区的SNP密度进行显著性分析,获得所有基因的P值,将P<1e-6的基因定义为高多态基因。
使用Circos软件绘图,分析高多态基因在栉孔扇贝基因组上的分布特征。图中涵盖了4个方面的信息,从外向内依次展示:I 栉孔扇贝19条染色体上连锁图谱的marker分布情况(以Mb为单位);II 基因密度(取0.1 Mb nonoverlapping窗口绘制);III CDS区上的多态区段分布(将CDS区划分成50 kb的nonoverlapping窗口,把多态性显著的窗口标记为红色);IV 高多态基因的SNP密度。统计高多态基因在染色体上的分布情况,分析这些基因是否存在一定的分布规律。
本研究利用实验室前期已获得的栉孔扇贝转录组数据[13]进行高多态基因的表达特征分析,数据包括各胚胎和幼虫发育时期(受精卵、2~8细胞、囊胚期、原肠期、担轮幼虫、D型幼虫、壳顶前期、壳顶中期、壳顶后期、匍匐幼虫、稚贝)以及成体各器官组织(横纹肌、平滑肌、足、肝胰腺、肾脏、卵巢、精巢、鳃、眼睛、外套膜)。基因表达量的计算过程为:以栉孔扇贝基因组为参照,将质量过滤后的序列用STAR软件[17]进行比对,根据基因组结构注释文件用HTSeq-count软件[18]统计对比到基因组上的各基因的测序片段数目,用edgeR软件[19]中的TMM方法对基因表达量(RPKM, Reads Per Kilo bases per Million mapped Reads)进行计算。从中获取高多态基因在发育时期和器官组织中的表达量,用gplots包中的heatmap.2函数[20]对表达谱数据进行均一化处理(row=T, col=F),并对这些基因进行聚类,使用Col=my_palette参数载入色盘,绘制高多态基因在胚胎发育时期和成体各组织的表达谱热图。
为了进一步了解高多态基因的功能,首先根据聚类信息将高多态基因分为3类:G1、G2和G3,然后使用EnrichPipeline[21]对每一类高多态基因分别进行GO功能富集分析。根据高多态基因的ID提取其GO注释结果,以栉孔扇贝基因组全部基因的GO注释为背景,运用Fisher test对高多态基因的GO term进行显著性检验,提取校正后的Pvalue(FDR)<0.05的GO term进行分析,查看这些显著富集的GO term中含有哪些基因。GO富集的结果包括生物过程(Biological process)、细胞组分(Cellular component)和分子功能(Molecular function)3个方面。
在高多态基因中筛查显著性比较高、同时与免疫防御功能相关的多拷贝基因,将这些基因的SNP密度与基因组中全部基因的SNP密度进行比较,使用R语言绘制箱线图。为了解这些基因的组织表达是否有特异性,我们绘制了各组织基因表达水平和SNP密度的分布图,筛查它们在不同组织中的表达规律。
栉孔扇贝基因组多态性分析的结果显示,CDS区上的高多态区段在染色体上的分布呈现不均匀现象(见图1第三圈红色区域),结合基因密度可以发现(见图1第二圈),一些区域的基因密度很大,但是这些区域并不一定对应着高多态区段。相反,有些基因密度比较低的地方,却呈现出了高多态的特征。这个结果说明多态性高低的分布与基因密度并不是完全正相关的,红色区的密集出现并非归因于基因的密集分布,而是因为存在着一些高多态的基因。以基因为单位对CDS区的SNP密度进行显著性检验,共鉴定到了1 186个高多态基因(Highly polymorphic genes, HPGs)(P< 1e-6)。它们在分布上涵盖了所有染色体,但是并不均一,数量上也并不均匀。其中5号染色体上分布最多,有66个,17号染色体上分布最少,有18个。
(chr1~chr19依次表示栉孔扇贝的19条染色体,由外圈向里依次为:Ⅰ 19条染色体上的图谱标记;Ⅱ基因密度;Ⅲ编码区上的高多态区段,用红色表示,其他区域显示为黄色;Ⅳ高多态基因的SNP密度。 chrN(N=1~19) represents the chromosomes ofC.farreri. From outer to inner circles:Ⅰmarker distribution on 19 chromosomes; Ⅱ gene density;Ⅲ polymorphism regions that colored red across coding sequences, while other regions are colored yellow; Ⅳ SNP density of HPGs.)
图1 栉孔扇贝基因组的多态性分析及高多态基因的分布
Fig.1 The distribution of highly polymorphic genes (HPGs) inC.farrerigenome.
对1 186个高多态基因的表达模式进行聚类,它们在胚胎/幼虫时期和成体器官组织中呈现出明显不同的表达特征(见图2),可以将其划分为3类(Group)。第一类基因(G1)共有179个,它们在胚胎发育阶段的受精卵到囊胚期高表达,并且在成体的性腺中也有较高的表达量;第二类基因(G2)共有441个,从整体上看主要在幼虫发育阶段高表达,在成体组织中的表达量较低。少部分基因在囊胚期开始高表达,而在胚胎发育后期表达量有所下降,在成体的鳃中表达量较高。大部分基因在D型幼虫之后高表达,成体的肝胰腺中也有高表达的趋势;第三类基因(G3)的数量最多,共有566个,它们在胚胎发育时期的表达量显著低于成体组织。在成体中,主要集中高表达于肾脏、鳃、眼睛、外套膜等组织或器官。
对聚类结果中的每一类基因进行GO功能富集分析(见表1)。G1中共有81个基因显著富集在了13个GO单元,这些功能包括细胞骨架相关、核酸酶活性相关、细胞器相关;G2中共有171个基因显著富集在了3个GO单元,分别是粘附功能和金属内肽酶活性;G3中共有301个基因富集在10个分子功能相关的GO单元中,这些功能可以分为分子结合相关、蛋白酶活性相关、清道夫受体活性。其中核酸结合功能显著富集了Fancm、R3hcc1l、Hells、Zscan2、Pole、Raver2等SNP密度显著的高多态基因,细胞粘附功能富集了Megf6、PF13_0198、Megf11、Ptprg、Megf10等基因,蛋白结合功能富集了Dscam2、TLR1、Ncam2、EGF1、TLR2-1等基因(见表2)。
(胚胎/幼虫时期: Embryonic/larval period; 成体器官组织: Adult organ tissue; 受精卵: Zygote; 2~8细胞: 2~8 cells; 囊胚期: Blastulae; 原肠期: Gastrulae; 担轮幼虫: Trochophores; D型幼虫: D-shaped larve; 壳顶前期: Early umboperiod; 壳顶中期: Middle umboperiod; 壳顶后期: Find umboperiod; 匍匐幼虫: Creeping larvae; 稚贝: Juvenile mollusk; 横纹肌: Striated muscle; 平滑肌: Smooth muscle; 足: Foot; 肝胰腺: Hepatopancreas; 肾脏: Kidney; 卵巢: Fgonad; 精巢: Mgonad; 鳃: Gill; 眼睛: Eye; 外套膜: Mantle.)
图2 1 186个高多态基因在胚胎/幼虫和成体阶段的表达热图
Fig.2 Heatmap shows the expression profiles of 1 186 HPGs in embryos, larvae and adults ofC.farreri
表1 高多态基因的GO富集分析Table 1 Go enrichment analysis of HPGs
表2 GO单元中SNP密度显著的基因Table 2 Genes with significant SNP density in three GO terms
在对G3中的基因分析时,发现了mucin和C1qDC这2个多拷贝基因具有显著的多态性,其P值分别为8.9e-05和3.7e-07,在扇贝中拷贝数各为42、87个。mucin蛋白是生物体内大多数凝胶样分泌物的关键成分,是一种具有保护作用的物理屏障,mucin蛋白通常能够与病原体或引发疾病的细胞结合,与免疫系统一起发挥作用[22]。C1qDC蛋白作为模式识别受体分子能够结合种类繁多的配体,激活补体经典途径, 发挥清除病原体、吞噬和裂解细菌及调理炎症反应等功能[23]。这2个基因与维持机体的免疫耐受、提高生物对环境的适应性有关。
为了验证这2个基因的拷贝是否普遍具有高多态性,我们比较了它们所有拷贝与基因组所有编码基因的多态性水平。图3显示,mucin和C1qDC的SNP密度平均值明显高于所有基因的SNP密度平均水平,为了进一步探究这两个基因的多态性与表达特征之间的联系,我们绘制了扇贝成体各器官组织中mucin和体中具有广谱性表达的特征(见图4)。C1qDC的大部分拷贝在成体中有广泛的表达,其中肝胰腺的表达水平最高。同时我们还绘制了成体各器官组织中表达的mucin和C1qDC基因的SNP密度分布图(见图5),mucin的多态性在各组织中未有较明显差异,C1qDC在肝胰腺、肾脏中具有较高的多态性,其中肝胰腺的平均多态性最高。
图3 mucin和C1qDC与所有基因SNP密度的比较Fig.3 Comparison of SNP density between mucin, C1qDC and all genes
(①Striated muscle; ②Smooth muscle; ③ Foot; ④Hepatopancreas; ⑤Kidney; ⑥Fgonad; ⑦Mgonad; ⑧Gill; ⑨Eye; ⑩Mantle;PGCG;PVG.)
图4Mucin和C1qDC在栉孔扇贝各器官 组织中的基因表达水平
Fig.4 Gene expression profiles ofMucinandC1qDCin various organs/tissues ofC.farreri
(①Striated muscle; ②Smooth muscle; ③Foot; ④Hepatopancreas; ⑤Kidney; ⑥Fgonad; ⑦Mgonad; ⑧Gill; ⑨Eye; ⑩Mantle;PGCG;PVG.)
图5 栉孔扇贝各器官组织中表达的mucin和C1qDC的SNP密度
Fig.5 SNP density ofmucinandC1qDCin various organs/tissues of C.farreri
双壳贝类的基因多态性具有重要的生物学意义,可能是其适应复杂生长环境的重要分子基础[10]。扇贝的生长发育可分为胚胎/幼虫和成体两个阶段,胚胎期由受精卵开始,经过卵裂、囊胚期、原肠胚期等发育阶段形成担轮幼虫,在这个过程中细胞快速分裂、胚层逐渐分化。从担轮幼虫到稚贝期,扇贝完成附着变态,由组织发生到器官发生,最终在形态建立的基础上出现功能分化[24]。本研究中,主要在胚胎发育早期和幼虫时期表达的两组高多态基因参与了多种细胞功能,如微管过程、核酸结合和细胞粘附,这些过程在扇贝早期生命活动中发挥着不可或缺的重要作用,暗示着这些基因的高多态性可能为海洋无脊椎动物的发育进程提供遗传可塑性[25]。其中G1部分的高表达基因不但在受精卵、2~8细胞和囊胚期中高表达,并且在成体精巢和卵巢中也高表达。这一结果暗示这些基因可能和维持胚胎干细胞和性腺中的干细胞干性相关联。而基因功能富集分析中发现的微管蛋白基因,其功能往往与物质运输相关,暗示这些细胞内的物质或者细胞器运输可能较为频繁,需要大量骨架蛋白的参与,尤其可能与长距离运输作用的微管蛋白形成或者重塑有关。而具有蛋白结合功能的高多态基因在扇贝成体的组织器官中高表达,暗示着这些基因的高多态性对信号转导过程中特定的蛋白之间的相互作用或可产生潜在影响,可能为扇贝成体应对海洋环境的波动提供了灵活的蛋白互作网络[26]。还有一些研究在蛋白水平解析了多态性对生物发育和环境适应性可能产生的影响。Diz等[27]发现蓝贻贝(Mytilusedulis)受精卵的蛋白质组具有显著的多样性,相比于其他组织,应激反应、蛋白折叠、细胞骨架相关的蛋白在胚胎发育早期过表达,为贻贝在发育过程中能够适应环境因素的波动奠定了基础。淡水螯虾(Pacifastacusleniusculus)的Dscams蛋白能够结合微生物并促进其被宿主细胞吸收[28],昆虫的TLR蛋白在介导免疫反应方面具有非常完善的作用[29],这两个蛋白都表现出丰富的序列多样性。栉孔扇贝中编码Dscams和TLR蛋白的基因具有显著的多态性,它们在扇贝免疫系统中发挥的作用还有待研究。
mucin和C1qDC是高多态基因中显著富集到的两个多拷贝基因,它们在组织器官中的表达特征为揭示扇贝的环境防御机制和免疫系统的适应性进化提供了新的线索。细胞黏液对于海洋软体动物发挥机体功能起到重要作用,mucin糖蛋白是黏液的主要组成成分[30]。细胞外分泌的黏液通常作为抵御其它动物攻击的第一道防线,并且能够形成细胞防御屏障(也含有包括C1qDC在内的一系列免疫效应器[31])来阻挡大量微生物的侵染[32]。扇贝的mucin基因在成体的组织器官中表达范围很广,它们的高多态性可能反映了黏液组成成分的动态变化,这种动态变化或许是为了形成多种复杂的物理屏障,能够有效防御海洋环境中各种未知细菌的侵染。C1qDC蛋白能够与多种来自自身和非自身的配体结合来触发一系列免疫应答反应[33],之前的研究认为栉孔扇贝中的C1qDC蛋白不但能够在病原识别(先天性免疫中第一步)中作为模式识别受体(PRR),也是先天性免疫中参与入侵者清除的一种调理素[34]。在栉孔扇贝基因组中,我们鉴定到的C1qDC基因大部分都在肝胰腺中表达水平较高。肝胰腺是一种集免疫和代谢为一体的综合性器官,是软体动物免疫分子的主要来源[35]。同时肝胰腺作为主要的消化器官,外界食物在进入消化管时会带入病原菌,因此软体动物肝胰腺不但是免疫分子的主要来源地,也是病原分布较多的区域。我们发现,C1qDC基因在扇贝各组织中都具有较高的多态性,并且在肝胰腺中所呈现的多态性更高,这可能为扇贝的免疫系统在有效识别和清除病原体方面的适应性进化提供了分子基础。
本研究利用6个栉孔扇贝个体的重测序数据,在全基因组范围内鉴定到了1 186个高多态基因,分析其在基因组上的分布规律,并对这些基因的功能以及在扇贝各发育时期的表达特征进行了分析。栉孔扇贝的高基因多态性可能为其适应复杂多变的海洋环境提供了更高的遗传可塑性。两个高多态基因mucin和C1qDC在成体中的表达特征为解析扇贝免疫与防御机制提供了新的线索,将有助于理解海洋无脊椎动物适应性进化的分子基础。