吴 恙,周腾飞,赖泽钿,谢李华,谢雨谷,刘培文,刘 通,杨文强,金彬彬,孔 翎,郭怡佳,赵宜洁,邓洁琳,顾金保,陈晓光
(南方医科大学公共卫生学院病原生物学系暨广东省热带病防治研究重点实验室,广州 510515)
蚊是一类重要的医学昆虫,能吸血传病,是多种疾病如登革热、寨卡病毒病、疟疾、流行性乙型脑炎等的传播媒介,对人类的日常生活和生命健康危害极大。长期以来,由于蚊基因组中高度重复序列的存在,使得蚊虫基因特别是非编码序列的分子克隆和功能分析非常困难。近年来,随着高通量测序和生物信息学技术的成熟和不断革新,蚊虫基因组学、转录组学、小RNA组学等也取得了快速发展。本文对蚊组学相关领域的研究进展综述如下。
蚊基因组的解析和比较基因组分析有助于探索蚊基因组的结构和功能。大多数蚊染色体数是2n=6,只有按蚊亚科夏蚊属的Chagasiabathana染色体数2n=8 (Rao and Rai, 1987)。在常见的媒介蚊虫中,按蚊属Anopheles拥有X和Y染色体,这对性染色体的核型是不同的,被称为异态性染色体(heteromorphic sex chromosomes)(Neafseyetal., 2015);伊蚊属Aedes、库蚊属Culex、阿蚊属Armigeres拥有一对核型相同的性染色体,被称为同态性染色体(homomorphic sex chromosomes)(McKee and Handel, 1993)。蚊染色体有大量的移位和颠换,其结构和组成是蚊生物学性状差异的基础(Breland, 1961; Rai, 1999; Toups and Hahn, 2010)。近年来,随着第二代测序、第三代测序、HiC染色体构象捕获、Bionano光学图谱等生物技术的快速发展和日益成熟,目前已公开发表了22种蚊的基因组,其中包括19种按蚊属、2种伊蚊属和1种库蚊属。
蚊基因组具有明显的多样性,表现在相对高比例的单拷贝、中等重复和高度重复的序列,导致蚊种间基因组大小有大约8倍的变异。按蚊约为0.24~0.29 pg,巨蚊属Toxorhynchites和煞蚊属Sabethes基因组为中等大小(0.62 pg),而库蚊属0.54~1.02 pg,脉毛蚊属Culiseta为0.92~1.25 pg,骚扰阿蚊Armigeressubalbatus和Heamagogusequinius分别为1.24 pg和1.12 pg;作为全世界广泛分布的伊蚊,其核DNA量变化超过3倍;波利尼西亚的两种伊蚊基因组最小,仅0.59 pg;Ochlerotatuszoosophus则具有最大的基因组(1.9 pg)(Besansky and Collins, 1992; Severson and Behura, 2012; Bonizzonietal., 2013)。一般来说,在进化关系中,基因组大小随着蚊科进化而增加。
在按蚊亚科,大约60%~80%的基因组是单拷贝序列(Neafseyetal., 2015),而库蚊亚科大多数是中等和高度的重复序列(Neneetal., 2007; Arensburgeretal., 2010; Chenetal., 2015; Matthewsetal., 2018)。蚊基因组组成的基本形式是短周期性散点式(short-period interspersion),单拷贝序列长度为1 000~2 000 bp,交替出现短的(200~600 bp)和中等长度(1 000~4 000 bp)的重复序列,这在库蚊亚科中是普遍现象(Neneetal., 2007; Arensburgeretal., 2010; Chenetal., 2015; Matthewsetal., 2018);另一种形式是长周期性散点式(long-period interspersion),长的(≥5 600 bp)和极长的(≥13 000 bp)重复交替不间断地出现,这在按蚊亚科中是普遍现象(Neafseyetal., 2015)。
按蚊亚科和库蚊亚科基因组组成的差别对于应用多线染色体物理作图以及应用核糖体分子标志进行分类有重要的影响。在已经研究多线染色体的蚊属中,仅按蚊属具有染色中心(chromocenter),而伊蚊属、库蚊属、曼蚊属、巨蚊属、直脚蚊属Orthopodomyia及怀蚊属Wyeomyia缺少明显的染色中心(Munstermannetal., 1985; Coluzzietal., 2002; Camposetal., 2003a; Camposetal., 2003b)。按蚊亚科容易制备高质量的多线染色体,被用于虫种鉴定和物理作图(Coluzzietal., 2002)。库蚊亚科的多线染色体不易展开,可能与其基因组大量的重复序列易发生错配有关,可用分裂中期的染色体进行研究(Camposetal., 2003a)。此外,在按蚊中,用转录间隔区(internal transcribed spacer, ITS)进行蚊种鉴定能获得较为稳定的结果(Paskewitzetal., 1994),而在库蚊和伊蚊,由于存在较多的重复序列,用该标志进行虫种鉴定,不易获得重复稳定的结果(Porter and Collins, 1991)。
1.2.1蚊基因组
冈比按蚊An.gambiaePEST(Pink Eye STandard)基因组于2002年首次公布(Holtetal., 2002),是9株野生株系经人工杂交产生的实验室品系,具有特征性的粉色眼,但该株系已于2005年遗失(Sharakhovaetal., 2007)。通过构建该株系的细菌人工染色体(bacterial artificial chromosome, BAC)并进行测序,以及近年来众多研究者对其基因组不断完善组装,目前冈比按蚊PEST株基因组版本号为AgamP4,基因组大小约为273 Mb,Scaffold N50为49.4 Mb,包括8个scaffolds,分别为X染色体、2号染色体L臂、2号染色体R臂、3号染色体L臂、3号染色体R臂、Y染色体(未确定序列具体位置)、线粒体基因组和未知位置的序列(Holtetal., 2002; Sharakhovaetal., 2007)。
埃及伊蚊Ae.aegyptiLVP_AGWG(LiverpoolAedesGenome Working Group)株雄性基因组于2017年公布(Matthewsetal., 2018),主要结合使用了PacBio第三代测序、HiC染色体构象捕获和Bionano光学图谱等生物技术,基因组版本号为AaegL5,大小约为1.278 Gb,Scaffold N50为409.8 Mb,包括2310个scaffolds,其中最长的 3个 scaffolds分别为1号、2号和3号染色体。该版本的基因组组装首次报道了埃及伊蚊1号染色体中的雄性决定区域(M-locus),这段区域富含重复序列而少有编码基因,功能和结构类似于Y染色体,与埃及伊蚊雄性性别决定密切相关。
白纹伊蚊Ae.albopictus又名亚洲虎蚊,是一种最常见的入侵物种和媒介蚊虫之一,并在全球有蔓延扩散的风险和趋势,是寨卡病毒(Zika virus)、登革病毒(Dengue virus)、基孔肯雅病毒(Chikungunya virus)等病原的传播媒介(Bonizzonietal., 2013)。白纹伊蚊佛山株(Foshan)是我国学者于1981年开始近交培育的实验室品系,其基因组巨大,变异度高于0.5%,且重复序列非常多。为了攻克这些基因组研究中的技术难题,我国学者通过纯化基因组背景,结合全基因组扩增(whole genome amplification, WGA),并构建了不同插入长度的测序文库进行了大量测序,于2015年首次公布了白纹伊蚊佛山株基因组,版本号为AaloF1,基因组大小约为1.923 Gb,包括154 782个 scaffolds (Chenetal., 2015)。
已发布的几种常见媒介蚊虫基因组基本数据归纳于表1中。
表1 常见媒介蚊虫基因组的基本数据Table 1 The basic information on the genome of major vector mosquitoes
不同蚊种的基因组大小差异巨大,这是由于重复序列是蚊虫基因组的主要构成,而且其所占比例与基因组大小呈正相关,比如冈比按蚊基因组中重复序列比例约为14%(Neafseyetal., 2015),致倦库蚊Cx.quinquefasciatus重复序列比例约为29%(Arensburgeretal., 2010),埃及伊蚊重复序列比例约为65%(Matthewsetal., 2018),白纹伊蚊基因组中重复序列比例约为68%(Chenetal., 2015)。这些基因组中大量的重复序列主要包括多基因家族(multigene family)、微卫星(microsatellite)、小卫星(minisatellite)、核糖体DNA(ribosomal DNA, rDNA)和转座子(transposable element, TE)。
(1)微卫星:是指基因组中由短的重复单元(一般为1~6个碱基)组成的DNA串联重复序列,位于着丝粒和端粒区,反映位点特异性,具有高度多态性,在按蚊亚科中是很好的遗传标志(Fieldetal., 1999),但在库蚊亚科中的应用有限(Bahnck and Fonseca, 2006)。
(2)核糖体DNA:rDNA由外转录间隔区(external transcribed spacer, ETS)、18S RNA基因、内转录间隔区1(internal transcribed spacer, ITS1)、5.8S RNA基因、ITS2、28S RNA基因,以及基因间非转录间隔区(intergenic nontranscribed spacer, IGS)组成。ITS和IGS具有明显的种间和种内多态性,是重要的分类鉴定标志(Waltonetal., 1999)。大多数库蚊属rDNA位于1号染色体;伊蚊、吸蚊属位于2号染色体(Timoshevskiyetal., 2012);阿蚊属和竹生杵蚊Tripteroidesbambusa位于3号染色体(Kumar and RAI, 1990);大多数按蚊属rDNA位于X染色体,四环按蚊An.quadriannulatus、米拉按蚊An.melas、纯净按蚊An.merus、四斑按蚊An.quadrimaculata位于X和Y染色体(Collins and Paskewitz, 1996);而三列骚扰蚊OchlerotatustriseriatusrDNA位于1号和3号染色体上(Grahametal., 2004)。
(3)转座子(TE):是中等重复DNA序列,具有能够在基因组中移动并自身复制的功能。共有两种类型:一类是反转座子(retrotransposons),通过RNA介导的反向转录而实现转座;另一类直接从DNA到DNA实现转座。在多种蚊基因组中已经鉴定了大量的转座子,相关具体内容可以搜索并查询TEfam数据库网站(https://tefam.biochem.vt.edu)(Diaoetal., 2011)。
1.2.2比较基因组
通过比较蚊与果蝇或不同蚊种之间基因组组成结构,有助于发现物种特有的基因、研究蚊虫性别决定机制、鉴定杀虫剂抗性突变位点、分析不同蚊虫传播疾病的能力(即媒介能量)及了解蚊发育生物学和系统进化关系。
冈比按蚊、致倦库蚊、埃及伊蚊和白纹伊蚊分别属于两类不同蚊亚科,它们所携带传播的病原种类和媒介能量均有显著差异,生活习性也不尽相同。比较基因组学分析将有助于了解蚊虫在这些生物学特性方面的区别、理解蚊媒病原体感染机制,这对寻找阻断疾病传播的途径大有裨益。例如,不同蚊种对血液的不同偏好,在选择宿主时的行为差异,传播特定病原体时的个体能力差别,有些蚊在清晨、傍晚吸食人血,有些蚊多在夜间活动等。比较埃及伊蚊与冈比按蚊的基因组有诸多相似之处,但在基因组整体规模、基因密度及基因家族的构成等方面有所差别。其中,冈比按蚊的气味结合蛋白、细胞色素P450以及表皮相关的基因数量和种类多于埃及伊蚊,从基因组水平上显示了这两种蚊的生物学性状差别(Seversonetal., 2004; Manoharanetal., 2013)。
致倦库蚊基因组中约有18 965个编码蛋白基因,比埃及伊蚊多29%,比冈比按蚊多45%。与两种蚊相比,致倦库蚊的基因家族数量明显较多,包括与嗅觉和味觉受体、唾液腺和免疫系统功能等有关的基因。此外,致倦库蚊与免疫反应相关的基因大约有500个,与伊蚊相似,但明显少于冈比按蚊和黑腹果蝇(Arensburgeretal., 2010)。致倦库蚊是多种脑炎病毒及淋巴丝虫的媒介,其复杂的基因结构有可能提高了其向人类和鸟类传播病毒的能力;也有些基因可能与对不利或外来有害物的适应性有关,因为库蚊的孳生地常常是污染严重的环境(Reddyetal., 2012)。
通过提取和比对不同蚊的上千个单拷贝同源基因并拟合模型、构建系统进化关系,发现埃及伊蚊与白纹伊蚊大约在7 140万年前分化,伊蚊属与库蚊属大约在1.79亿年前分化,按蚊亚科与库蚊亚科大约在2.18亿年前分化,蚊科的共同祖先与同属于双翅目的果蝇大约在2.61亿年前分化(Chenetal., 2015),见图1。
图1 主要的媒介蚊虫与黑腹果蝇的系统进化图Fig.1 The phylogeny tree of major vector mosquitoes and Drosophila melanogaster
通过比较雌、雄基因组Illumina测序数据,有学者发明了染色体商(chromosome quotient, CQ)的方法,筛选并鉴定了埃及伊蚊的性别决定基因Nix(Halletal., 2015)和斯氏按蚊An.stephensiY染色体基因Guy1(Criscioneetal., 2013; Criscioneetal., 2016)。国内有学者使用类似的方法在白纹伊蚊中鉴定出雄性特异性基因Nix(埃及伊蚊Nix基因的直系同源基因)(Liuetal., 2020)。研究表明,如果从雄性个体中敲除雄性特异性基因,会导致雄性个体出现雌性化的性状(Halletal., 2015; Liuetal., 2020);如果将这些雄性决定相关的基因转入雌性个体,会导致雌性个体表现雄性化性状,或出现特异性、稳定性的死亡(Aryanetal., 2019; Qietal., 2019)。这类研究为防控蚊媒疾病提供了新的思路(Adelman and Tu, 2016)。
近年来,随着化学杀虫剂的大量使用,蚊虫对各类化学杀虫剂的抗性也被广泛报道。通过比较对不同种类化学杀虫剂产生抗性的蚊虫基因组和敏感的蚊虫基因组发现,按蚊属和库蚊属基因组中编码乙酰胆碱酯酶(acetylcholinesterase, AChE)的基因第119位密码子由甘氨酸突变为丝氨酸(G119S),与蚊虫对有机磷酸酯类(organophosphate)和氨基甲酸酯类(carbamate)杀虫剂产生抗性相关(Djogbénouetal., 2010; Camerinoetal., 2015; Tmimietal., 2018);伊蚊属基因组中编码电压门钠离子通道蛋白(voltage-gated sodium channel, VGSC)的基因第1534位密码子由苯丙氨酸突变为半胱氨酸(F1534C),与蚊虫对拟除虫菊酯类(pyrethroid)杀虫剂产生抗性相关(Chenetal., 2016; Xuetal., 2016)。如果同时存在第1 016位密码子由缬氨酸突变为异亮氨酸(V1016I)或甘氨酸(V1016G),则与蚊虫对杀虫剂DDT产生抗性相关(Alvarezetal., 2015; Sombiéetal., 2019)。
转录组学(transcriptomics)是一种生理状态下细胞所能转录出来的所有mRNA的总和,是研究特定生理状态下机体表型和功能的重要手段。传统上用于转录组数据获得和分析的方法主要有基于杂交技术的芯片技术,包括cDNA芯片和寡聚核苷酸芯片,但目前使用最普遍的是转录组测序技术(RNA-seq)。基于Illumina高通量测序平台的转录组测序技术能够在单核苷酸水平对任意物种的整体转录活性进行检测,在分析转录本的结构和表达水平的同时,还能发现未知转录本和低丰度转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。
斯氏按蚊雄性个体具有X和Y染色体,雌性个体具有一对X染色体,因此雄性的X染色体基因只有一份拷贝,雌性的X染色体基因有两份拷贝,但雌性X染色体基因和雄性X染色体基因的表达水平是相同的,这种现象被称为剂量补偿效应(dosage compensation)(Jiangetal., 2015)。斯氏按蚊X染色体上有上千个编码基因,利用高通量的转录组测序的方法可以高效、快速、精确地计算每个编码基因的相对表达水平,有研究发现在亲本斯氏按蚊常染色体中转入并表达Y染色体基因Guy1会导致雌性子代全部死亡,通过比较雄性子代和雌性子代转录组数据,证明了Y染色体基因Guy1是直接启动剂量补偿效应的信号,异常表达Guy1基因使雌性X染色体基因表达水平被错误上调是导致雌性子代全部死亡的主要原因(Qietal., 2019)。
另外,转录组学分析还常用于蚊虫不同发育阶段、不同器官和不同性别的差异表达基因研究,例如:有研究通过比较和分析白纹伊蚊在卵(egg)、幼虫(larva)、蛹(pupa)、雄性成蚊和吸血前后雌性成蚊、感染登革病毒前后等不同生理状态的转录组数据,筛选得到了与胚胎发育相关基因、与雌性成蚊吸血相关基因、蚊虫感染登革病毒后免疫相关基因等(Poelchauetal., 2013; Grigorakietal., 2015; Esquiveletal., 2016);还有研究通过比较埃及伊蚊的头(head)、触角(antenna)、触须(palp)、吻突(proboscis)、喙(rostrum)、腿(leg)、腹节(abdomere)和卵巢(ovary)等器官组织的转录组数据,可以得到多种基因的空间表达谱,包括编码气味分子受体(odorant receptor)、亲离子型受体(ionotropic receptor, IR)和味觉受体(gustatory receptor, GR)的基因,这些基因被认为与蚊虫搜寻宿主密切相关(Priceetal., 2011; Alfonso-Parraetal., 2016; Matthewsetal., 2016)。
转录组学的技术手段是深入研究蚊虫的分子生物学相关领域的强大工具,提供了精确的数字化信号、高效的检测通量和广泛的检测范围,适用于综合测量和计算蚊虫基因相对表达水平,有助于研究者了解蚊虫在不同生理状态下的整体转录活动。
小RNA(small RNAs)主要指长度在18~30 nt的一类非编码RNA(ncRNA)。在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNA, miRNA)、内源小干扰RNA(endo-siRNAs)和piwi干扰RNA(piRNA)。miRNA和endo-siRNA长度主要集中在20~24 nt,piRNA长度集中在26~31 nt。miRNA在动植物和微生物中都普遍存在,据估计一个物种中约1/3的基因会受到miRNA的调控,大量的实验也表明miRNA参与了诸多生命过程的调控,例如细胞周期、细胞分化、组织器官的发生、营养代谢、信号途径以及对外界生物的、非生物环境的反应。piRNA目前主要在动物的生殖系干细胞、果蝇的卵巢体细胞中被发现(Klattenhoff and Theurkauf, 2008; Lauetal., 2009),其主要功能是参与转座子的沉默。以往用于寻找小RNA的方法主要有实验克隆法和计算机预测法。实验克隆法可以直接用于鉴定新的小RNA,是初期发掘小RNA的常用方法,不足之处是实验周期较长,对低表达的小RNA的发现能力十分有限;计算机预测法多是针对某一已知的小RNA特征设计算法,从全基因组或EST数据库中快速发掘大量潜在的小RNA,一定程度上弥补了克隆法的缺点,然而,预测的小RNA最终还需要实验证明,而且计算机预测法对新类型小RNA的发掘能力十分有限。随着第二代高通量测序技术的问世,小RNA测序(small RNA-Seq)技术开始逐渐取代原始的小RNA发掘法,该技术具有速度快、成本低、覆盖度深等多方面的优点,对鉴定与发现生命体内的小分子RNA及其功能与机理研究具有重要作用。
目前为止,仅冈比按蚊、斯氏按蚊、埃及伊蚊、致倦库蚊和白纹伊蚊有miRNA的鉴定报道(Winteretal., 2007; Mead and Tu, 2008; Lietal., 2009; Thirugnanasambanthametal., 2013; Biryukovaetal., 2014; Liuetal., 2015)。miRNA功能分析表明,miRNA对蚊虫的卵巢发育和吸血后的血液消化具有调节作用(Bryantetal., 2010; Lucasetal., 2015)。另外,病毒感染可以对宿主细胞miRNA的表达水平产生巨大影响,这可能与宿主抗病毒机制及病毒入侵后改变细胞内环境有关,雌蚊中miRNA的表达模式会随着病原体的感染而发生变化(Hussainetal., 2013; Zhouetal., 2014b)。国外有学者对登革病毒(DENV)编码的miRNA或病毒小RNA(vsRNA)的进行了功能研究,他们发现6个vsRNA能通过作用于病毒基因组RNA茎环结构中的5′和3′ UTR区,显著增加病毒复制(Hussain and Asgari, 2014)。中肠屏障是蚊虫防止病原体入侵的一道重要屏障,有研究发现miR-1174仅在伊蚊和按蚊的中肠中表达,且雌蚊吸血后其表达量明显上调;而当miR-1174表达下调后,蚊虫吸血率明显降低,寿命明显缩短(Liuetal., 2014)。
国内有研究对白纹伊蚊不同发育时期(卵、幼虫、蛹、雄蚊、雌蚊、吸血后雌蚊)的小RNA进行了深度测序分析。结果在白纹伊蚊中筛选出119条已知的miRNA基因,确定了15条新的miRNA基因,其中11条是白纹伊蚊特异的,并且许多miRNA仅在特定的发育时期表达:经过实验验证,miR-286、miR-2492和miR-1891分别在白纹伊蚊的卵、幼虫和成虫期特异高效表达,敲低或敲除这些miRNA会对蚊虫的生长发育造成显著影响(Guetal., 2013; Liuetal., 2015)。这些研究为新型生物杀虫剂的研发提供了靶标。另外还有研究对感染登革病毒前后白纹伊蚊的细胞和成虫的小RNA进行了深度测序分析,结果在感染登革病毒的白纹伊蚊中找到了10条表达上调的miRNA和11条表达下调的miRNA(Skalskyetal., 2010)。通过对这些差显表达miRNA的功能分析发现,miR-252通过与E蛋白3′ UTR区域的结合,对登革病毒的复制起到抑制作用(Yanetal., 2014);而miR-281则通过与E蛋白5′ UTR区域的结合,对登革病毒的复制具有促进作用。这些研究为抗登革病毒药物的设计和研发提供了线索和方向(Zhouetal., 2014b)。
piRNA来源于转座子、基因间隔区和一些编码蛋白质基因的3′ UTR区,对维持基因的完整性和稳定性有一定作用,最近还有研究证明piRNA在抗病毒免疫中也有较大作用:对蚊虫细胞感染虫媒病毒可以引发piRNA通路,而敲除piRNA基因会使病毒滴度增加(Lucasetal., 2013; Schnettleretal., 2013)。多个24~30 nt与piwi相互作用的RNA基因组簇可以比对到转座子和蛋白质编码基因的3′ UTR区,很多转座子和一些内源性基因的3′ UTR区会产生大量具有piRNA样特征、长度为29 nt的小RNA峰(Castellanoetal., 2015)。另有研究通过对比缺失dicer-2基因的蚊细胞系和野生型蚊细胞系发现,病毒产生的piRNA样小RNA可以在病毒产生siRNA的过程中调节病毒感染的发生,这可能是一种蚊虫抗病毒感染的途径(Morazzanietal., 2012)。