利用第三代纳米孔长读段测序技术构建和注释蜜蜂球囊菌的全长转录组

2021-03-08 03:37杜宇祝智威王杰王秀娜蒋海宾范元婵范小雪陈华枝隆琦蔡宗兵熊翠玲郑燕珍付中民陈大福郭睿
中国农业科学 2021年4期
关键词:孢子球囊菌丝

杜宇,祝智威,王杰,王秀娜,蒋海宾,范元婵,范小雪,陈华枝,隆琦,蔡宗兵,熊翠玲,2,郑燕珍,付中民,2,陈大福,2,郭睿,2

利用第三代纳米孔长读段测序技术构建和注释蜜蜂球囊菌的全长转录组

杜宇1,祝智威1,王杰1,王秀娜3,4,蒋海宾1,范元婵1,范小雪1,陈华枝1,隆琦1,蔡宗兵1,熊翠玲1,2,郑燕珍1,付中民1,2,陈大福1,2,郭睿1,2

1福建农林大学动物科学学院(蜂学学院),福州 350002;2福建农林大学蜂疗研究所,福州 350002;3福建农林大学生命科学学院,福州 350002;4福建省病原真菌与真菌毒素重点实验室(福建农林大学),福州 350002

【】利用第三代纳米孔(nanopore)长读段测序技术对蜜蜂球囊菌(,简称球囊菌)的纯化菌丝(Aam)和孢子(Aas)进行测序,构建和注释球囊菌的高质量全长转录组。通过Oxford Nanopore PromethION平台对Aam和Aas进行测序。利用Guppy软件对原始读段(raw reads)进行碱基识别(base calling),通过过滤短片段和低质量原始读段得到有效读段(clean reads)。通过识别两端引物鉴定全长转录本序列。通过比对Nr、Swissprot、KOG、eggNOG、Pfam、GO和KEGG数据库获得全长转录本的注释信息。分别利用CPC、CNCI、CPAT、Pfam 4种方法对长链非编码RNA(long non-coding RNA,lncRNA)进行预测,取四者的交集作为高可信度的lncRNA。Aam和Aas的纳米孔测序分别测得6 321 704和6 259 727条原始读段,经质控得到5 669 436和6 233 159条有效读段,其中包含的全长有效读段分别为4 497 102(79.32%)和4 963 101(79.62%)条。共鉴定到9 859和16 795条非冗余全长转录本,N50分别为1 482和1 658 bp,平均长度分别为1 187和1 303 bp,最大长度分别为6 472和6 815 bp。Venn分析结果显示有6 512条非冗余全长转录本为菌丝和孢子所共有,分别有3 347和10 283个非冗余全长转录本为二者特有。此外,在球囊菌菌丝和孢子中共鉴定到20 142条全长转录本,其中分别有20 809、11 151、17 723、12 164、11 340和9 833条全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库。注释全长转录本数量最多的物种是球囊菌、和荚膜组织胞浆菌()。GO数据库注释结果显示,上述全长转录本可注释到45个功能条目,涉及细胞组件、细胞和细胞器等细胞组分相关条目;催化活性、结合和转运器活性等分子功能相关条目;以及细胞进程、代谢进程和单一组织进程等生物学进程相关条目。KEGG数据库注释结果显示,上述全长转录本还可注释到抗生素的生物合成、核糖体、氨基酸的生物合成、碳代谢和剪接体等49条通路。此外,鉴定到648条高可信度的lncRNA,包含480条基因间区lncRNA、119条反义链lncRNA和49条正义链lncRNA。构建和注释了球囊菌的首个高质量全长转录组,为探究球囊菌转录组的复杂性,完善参考基因组的序列和功能注释信息以及深入开展球囊菌可变剪接体的功能研究提供了关键依据。

第三代高通量测序技术;纳米孔测序;全长转录本;参考转录组;蜜蜂;蜜蜂球囊菌

0 引言

【研究意义】蜜蜂球囊菌(,简称球囊菌)是专性侵染蜜蜂幼虫的致死性真菌病原,引发的白垩病是长期危害养蜂生产的顽疾,不仅可导致蜜蜂幼虫的大量死亡,还能导致成年蜜蜂数量的锐减以及蜂群群势和蜂产品产量的骤降[1-2]。目前,球囊菌的基因组注释信息尚不完善,高质量参考转录组匮乏,严重限制了球囊菌的组学和分子生物学研究。利用纳米孔(nanopore)长读段测序技术构建和注释球囊菌的全长转录组,有利于完善球囊菌的基因组注释,揭示其转录组的复杂性,并为其组学和分子生物学研究提供重要的参考信息。【前人研究进展】Qin等[3]曾利用Sanger测序法对球囊菌0.5-1 A和A10菌株的菌丝进行测序,基于156 Mb的测序数据拼接出8 092条contig(总长度约为21.57 Mb),进一步组装成1 627条scafford(总长度约为21.28 Mb);但作者当时仅公布了基因序列信息,没有同时公布基因功能注释信息,导致无法利用版本基因组开展球囊菌的组学研究。直到2016年,Shang等[4]测序并公布了球囊菌ARSEF 7405菌株的完整基因组信息(assembly AAP 1.0),为其组学和分子生物学研究打下了基础。笔者所在团队前期对球囊菌开展了较为系统的转录组研究[5-13]。例如,基于Illimina短读段测序得到的146 135 308条短读段组装出球囊菌的42 609个unigene,其中有29 316个unigene在Nr、Swiss-prot、KOG和KEGG数据库中具有功能和通路注释信息[5];并在此基础上通过比较转录组分析初步揭示了球囊菌对意大利蜜蜂()幼虫和中华蜜蜂()幼虫的侵染机制[6-7]。第二代测序技术虽具有通量高和准确性较高的优势,但因得到的读段较短(<300 bp),需要对短读段进行拼接得到转录本,无法直接获得转录本的全长信息。近年来,以PacBio单分子实时(single molecule real time,SMRT)测序和Oxford Nanopore测序为代表第三代高通量测序技术因具有超长读长、较短测序周期及直接读取核酸修饰等优势[14],已成功应用于动植物的全长转录组研究[15-20]。但微生物的全长转录组研究相对滞后,有限的研究多集中在病毒[21-22]。【本研究切入点】目前,利用纳米孔测序技术对球囊菌的转录组研究十分滞后,高质量的球囊菌全长转录组缺失。【拟解决的关键问题】利用纳米孔长读段测序技术对球囊菌的纯化菌丝(Aam)和纯化孢子(Aas)分别进行测序,将高质量的三代测序数据混合后用于构建球囊菌的全长转录组,并通过比对主流数据库进行功能注释,同时对球囊菌的长链非编码RNA(long non-coding RNA,lncRNA)进行鉴定和分析。

1 材料与方法

试验于2019年8月至2020年1月在福建农林大学动物科学学院(蜂学学院)蜜蜂保护实验室完成。

1.1 供试生物材料

球囊菌菌株[1,5]由福建农林大学动物科学学院(蜂学学院)蜜蜂保护实验室分离、纯化和保存。参照笔者所在实验室前期已建立的技术流程[23-24]进行球囊菌活化及菌丝和孢子纯化。纯化得到的纯净菌丝样品和孢子样品经液氮速冻后迅速转移到-80℃超低温冰箱保存备用。

1.2 RNA提取、cDNA文库构建及纳米孔测序

(1)参照说明书步骤,利用TRizol试剂盒(Thermo Fisher公司,美国)分别提取Aam和Aas的总RNA;(2)引物退火,利用Maxima H Minus Reverse Transcriptase试剂盒(Thermo Fisher公司,美国)进行反转录,得到的cDNA添加switch oligo,再合成互补链;(3)对DNA进行损伤修复和末端修复,再利用磁珠对cDNA进行纯化;(4)委托北京百迈克生物科技有限公司对上述构建好的cDNA文库进行全长转录组测序,测序平台为PromethION(Oxford Nanopore Technologies公司,英国)。

1.3 数据质控及全长转录本鉴定

参照Chen等[25-26]的方法进行数据质控:(1)因PromethION测序下机的原始读段格式为二代FAST5格式,包含所有原始测序信号,故利用MinKNOW2.2软件包中的Guppy软件[18]对原始读段进行碱基识别(base calling),将数据转换为FASTQ格式;(2)进一步过滤短片段和低质量的原始读段,得到高质量的有效读段;(3)根据纳米孔cDNA测序原理[27-28],对有效读段的两端进行引物识别,两端均识别到引物则判定其为全长转录本序列。

1.4 全长转录本的数据库注释

利用Blast工具将上述所有全长转录本比对Nr[29]、Swissprot[30]、KOG[31]、eggNOG[32]、Pfam[33]、GO(Gene Ontology)[34]和KEGG(Kyoto Encyclopedia of Genes and Genomes)[35]数据库,获得相应的功能和通路注释信息。

1.5 LncRNA的鉴定和分析

通常认为lncRNA不具备蛋白编码能力,因而可通过对转录本进行编码潜能筛选判定该转录本是否为lncRNA[36]。分别利用CPC[37]、CNCI[38]、CPAT[39]、Pfam[33]蛋白结构域分析4种方法对上述转录本进行lncRNA的鉴定,取四者的交集作为高可信度的结果。

2 结果

2.1 球囊菌菌丝和孢子的纳米孔测序数据质控

球囊菌菌丝和孢子的纳米孔测序分别得到6 321 704和6 259 727条原始读段,N50分别达到1 094和1 157 bp,平均长度分别为992和1 047 bp,最大长度分别为9 421和13 060 bp(表1)。来源于Aam和Aas的原始读段的长度分布介于1—10 kb以上,其中分布reads数最多的长度均为1 kb(图1-A、1-B);原始读段的Q值分布介于Q6—Q15,分布reads数最多的质量值分别为Q9和Q11(图1-C、1-D)。

表1 纳米孔长读段测序产生的原始读段信息概要

A:球囊菌菌丝测序产生的原始读段的长度分布Length distribution of raw reads produced from sequencing of Aam;B:球囊菌孢子测序产生的原始读段的长度分布Length distribution of raw reads produced from sequencing of Aas;C:球囊菌菌丝测序产生的原始读段的质量值分布Quality distribution of raw reads produced from sequencing of Aam;D:球囊菌孢子测序产生的原始读段的质量值分布Quality distribution of raw reads produced from sequencing of Aas

2.2 球囊菌全长转录本的鉴定和分析

对Aam和Aas样品测序产生的原始读段进行质控,分别得到5 669 436和6 233 159条有效读段,其中包含的全长有效读段分别为4 497 102(79.32%)和4 963 101(79.62%)条(表2);全长有效读段的长度介于1—9 kb,其中分布在1 kb的全长有效读段数最多(图2-A、2-B)。

表2 全长有效读段的信息概览

A:球囊菌菌丝测序产生的全长有效读段Full-length clean reads yielded from sequencing of Aam;B:球囊菌孢子测序产生的全长有效读段Full-length clean reads yielded from sequencing of Aas;C:球囊菌菌丝测序产生的全长转录本Full-length transcripts yielded from sequencing of Aam;D:球囊菌孢子测序产生的全长转录本 Full-length transcripts yielded from sequencing of Aas

进一步过滤冗余全长有效读段,分别得到9 859和16 795条非冗余全长转录本,N50分别达到1 482和1 658 bp,平均长度分别达到1 187和1 303 bp,最大长度分别为6 472和6 815 bp(表3);上述非冗余全长转录本的长度介于1—7 kb,其中分布在1 kb的全长转录本数最多(图2-C、2-D)。进一步对Aam和Aas的非冗余全长转录本进行Venn分析,结果显示有6 512个非冗余全长转录本为菌丝和孢子所共有,分别有3 347和10 283个非冗余全长转录本为二者特有(图3)。

图3 球囊菌菌丝和孢子全长转录本的Venn分析

2.3 球囊菌全长转录本的数据库注释

在球囊菌菌丝和孢子中共鉴定出20 142条全长转录本,数据库注释结果显示,分别有20 809、11 151、17 723、12 164、11 340和9 833全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库。注释全长转录本数量最多的物种是球囊菌、和荚膜组织胞浆菌()(图4-A)。球囊菌的全长转录本可注释到KOG数据库的24个功能分类,注释数量最多的是一般功能预测(1 658,13.29%),其次是翻译后修饰、蛋白质翻转和分子伴侣(1 180,9.46%),以及翻译、核糖体结构及生物合成(1 147,9.19%)(图4-B)。上述全长转录本还能注释到eggNOG数据库的25个功能类别,注释数量最多的前3位分别是未知功能(7 721,42.33%),翻译、核糖体结构和生物合成(1 285,7.04%),以及翻译后修饰、蛋白质翻转和分子伴侣(1 265,6.94%)(图4-C)。

GO数据库注释结果显示,上述全长转录本可注释到45个功能条目,其中细胞组分大类中注释数量最多的是细胞组件(6 423,56.64%)、细胞(6 349,55.99%)和细胞器(4 769,42.04%),分子功能大类中注释数量最多的是催化活性(5 178,45.66%)、结合(4 315,38.05%)和转运器活性(714,6.30%),生物学进程大类中注释数量最多的是细胞进程(6 138,54.13%)、代谢进程(5 853,51.35%)和单一组织进程(3 769,33.24%)(图5)。

图4 球囊菌全长转录本的Nr(A)、KOG(B)和eggNOG(C)数据库注释

KEGG数据库注释结果显示,上述全长转录本还能注释到的49条通路,其中注释数最多的通路是抗生素的生物合成(760,13.15%)、核糖体(589,10.19%)、氨基酸的生物合成(395,6.84%)、碳代谢(372,6.44%)和剪接体(335,5.80%)(图6)。

表3 过滤掉冗余全长有效读段的全长转录本概览

1:胞外区Extracellular region;2:细胞Cell;3:拟核Nucleoid;4:细胞膜Membrane;5:病毒Virion;6:细胞膜内腔Membrane-enclosed lumen;7:大分子复合物Macromolecular complex;8:细胞器Organelle;9:胞外区Extracellular region part;10:细胞器组件Organelle part;11:病毒体组件Virion part;12:细胞膜组件Membrane part;13:细胞组件Cell part;14:超分子复合物Supramolecular complex;15:转录因子活性,蛋白结合Transcription factor activity, protein binding;16:核酸结合转录因子活性Nucleic acid binding transcription factor activity;17:催化活性Catalytic activity;18:信号传感器活性Signal transducer activity;19:结构分子活性Structural molecule activity;20:转运器活性Transporter activity;21:结合Binding;22:电子载体活性Electron carrier activity;23:抗氧化活性Antioxidant activity;24:金属伴侣活性 Metallochaperone activity;25:蛋白标签Protein tag;26:翻译常规活性 Translation regular activity;27:分子转换器活性Molecular transducer activity;28:分子功能调节器Molecular function regulator;29:生殖Reproduction;30:免疫系统进程Immune system process;31:代谢进程Metabolic process;32:细胞进程Cellular process;33:生殖进程Reproductive process;34:生物黏附Biological adhesion;35:信号Signaling;36:多细胞组织进程 Multicellular organismal process;37:发育进程Developmental process;38:生长Growth;39:单一组织进程Single-organism process;40:应激反应Response to stimulus;41:定位Localization;42:多组织进程Multi-organism process;43:生物调控Biological regulation;44:细胞成分组织或生物合成Cellular component organization or biogenesis;45:解毒作用Detoxification

2.4 球囊菌lncRNA的鉴定及分析

利用CNCI、CPC、Pfam和CPAT 4种方法分别鉴定出750、1 906、648和1 682条lncRNA,四者的交集为648个(图7-A);其中基因间区lncRNA(long intergenic RNA,lincRNA)、反义链lncRNA(anti-sense lncRNA)和正义链lncRNA(sense lncRNA)的数量分别为480、119和49个(图7-B)。

图6 球囊菌全长转录本的KEGG数据库注释

图7 球囊菌lncRNA的数量(A)和种类(B)

3 讨论

对于一个物种,高质量的参考转录组可为其组学和分子生物学研究提供可靠的参考信息。此前,笔者所在课题组利用二代测序技术对球囊菌开展了一系列转录组研究[5-13]。但对于包括球囊菌在内的所有蜜蜂病原,迄今尚没有基于纳米孔测序技术的组学研究报道。本研究利用纳米孔长读段测序技术对球囊菌的纯化菌丝和纯化孢子样品进行测序,分别测得6 321 704和6 259 727条原始读段,质控后得到5 669 436和6 233 159条有效读段;分别鉴定到9 859和16 795条非冗余的全长转录本;有20 809、11 151、17 723、12 164、11 340和9 833条全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库。此前,笔者所在团队利用PacBio SMRT测序技术对球囊菌的纯化菌丝进行测序,鉴定出168 740条可比对上参考基因组的全长转录本,并通过比对Nr、KOG、GO和KEGG数据库对这些全长转录本进行了功能注释[40]。PacBio SMRT测序技术和纳米孔长读段测序技术为当前三代测序技术的两大代表,前者的单碱基准确性更高,在转录本结构分析方面更具优势;而后者不仅可以进行转录本结构分析,同时还能进行转录本定量分析,此外因测序设备体型较小、便于携带而具有更广泛的应用性[14,41]。本研究构建的球囊菌全长转录组版本与此前构建的全长转录组版本相互补充,同时提供两套高质量的全长转录本集,可为球囊菌的基因组注释完善、转录组分析和基因全长序列克隆提供宝贵资源。

第一代测序技术即Sanger测序技术的读长最长可达约1 000 bp,具有准确性高的优点,但高成本和低通量对其大规模应用产生了极大限制。以Illumina HiSeq技术为代表的第二代测序技术虽具有通量高和准确性较高的优势,但因得到的读段较短(<300 bp),转录本需要由短读段拼接而来,难以获得转录本的全长信息。笔者所在团队前期基于Illimina HiSeq测序得到的短读段组装出42 609条球囊菌unigene,N50和平均长度分别为1 550和966 bp[5]。本研究中,球囊菌菌丝和孢子的全长转录本的N50分别达到1 482和1 658 bp,与前期研究结果相比有所提升;平均长度分别为1 187和1 303 bp,显著优于二代测序研究结果。Workman等[15]曾利用纳米孔测序技术对人类B淋巴细胞GM12878细胞系进行测序和分析,鉴定到的全长转录本的N50和平均长度分别为1 334和771 bp,与本研究的结果相似。以上结果表明纳米孔长读段测序技术在鉴定全长转录本方面具有独特优势。

菌丝和孢子是真菌生长发育阶段的两种不同形态,当外界环境适宜时真菌形成菌丝进行无性或有性繁殖,当外界环境不适宜时真菌形成休眠态孢子确保生存[42]。球囊菌孢子被蜜蜂幼虫经口摄入后,在中肠低水平萌发,并伴有菌丝的少量生长,至预蛹期中肠和后肠隔膜消失、相互连通,孢子随食物残渣涌入后肠并在此剧烈生长,进而致死宿主[43]。本研究发现,有6 512条非冗余全长转录本为菌丝和孢子所共有,分别有3 347和10 283个非冗余全长转录本在菌丝和孢子中特异性表达。鉴于本研究的测序材料来源于球囊菌的纯培养,不同于处于侵染和增殖状态的球囊菌,推测二者共有的全长转录本及其编码蛋白在球囊菌生长发育的不同阶段都发挥必要功能;特异性表达的全长转录本及其编码蛋白在球囊菌生长发育的不同阶段发挥不同作用;这些共有和特有全长转录本与病原的毒力和致病性存在潜在联系,未来可结合处于侵染和增殖状态的球囊菌全长转录组数据进一步挖掘和验证。进一步对球囊菌的全长转录本进行数据库注释,分别有20 809、11 151、17 723、12 164、11 340和9 833条全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库。Nr数据库是NCBI中的非冗余蛋白质数据库,包含Swissprot、PIR(Protein Information Resource)、PRF(Protein Research Foundation)、PDB(Protein Data Bank)蛋白质数据库及从GenBank和RefSeq的CDS数据翻译过来的蛋白质数据信息。本研究中,共有多达19 275(92.63%)条全长转录本注释到球囊菌(图4-A),与实际情况相符。另外,共有5 135(24.68%)条全长转录本在Nr数据库中注释为假定蛋白(hypothetical protein),说明球囊菌的基因功能注释信息还很不完善。究其原因,一是球囊菌目前的参考基因组版本公布时间较晚(2016年),而且由于该版本是基于二代测序短读段组装而成,基因组注释质量仍有较大的提升空间;二是由于相关转基因操作技术体系尚未完全建立,球囊菌的基因功能研究相对滞后且进展缓慢。鉴于此,若要进行球囊菌的基因功能研究,首先需要对其CDS序列进行克隆。本研究鉴定出的球囊菌全长转录本序列可为基因全长序列克隆提供关键的数据基础。Tauber等[44]利用靶向-葡聚糖合成蛋白编码基因以及Ras家族编码基因的双链RNA(dsRNA)处理球囊菌,发现外源遗传物质可能在病原萌发初期被吸收,进而抑制相关转录本,导致孢子萌发率降低。该研究为球囊菌的基因功能研究提供了方法借鉴。

目前,球囊菌的lncRNA研究滞后,相关信息匮乏。前期研究中,笔者所在团队基于球囊菌菌丝和孢子的二代测序得到的短读段数据,鉴定出379条lncRNA,包括123条反义链lncRNA、242条lincRNA、13条正义链lncRNA和1条内含子lncRNA[12]。本研究鉴定到480条lincRNA、119条反义链lncRNA和49条正义链lncRNA,但没有鉴定到内含子lncRNA。本研究鉴定到的lncRNA可进一步丰富球囊菌的lncRNA信息,为今后开展lncRNA的功能研究提供数据支撑。

4 结论

构建和注释了球囊菌的首个高质量全长转录组,为探究球囊菌转录组的复杂性、完善参考基因组的序列和功能注释信息以及深入开展球囊菌可变剪接体的功能研究提供了关键依据。

[1] CHEN D F, GUO R, XU X J, XIONG C L, LIANG Q, ZHENG Y Z, LUO Q, ZHANG Z N, HUANG Z J, KUMAR D, XI W J, ZOU X, LIU M. Uncovering the immune responses oflarval gut toinfection utilizing transcriptome sequencing.Gene, 2017, 621: 40-50.

[2] GUO R, CHEN D F, DIAO Q Y, XIONG C L, ZHENG Y Z, HOU C S. Transcriptomic investigation of immune responses of thelarval gut infected by.Journal of Invertebrate Pathology, 2019, 166: 107210.

[3] QIN X, EVANS J D, ARONSTEIN K A, MURRAY K D, WEINSTOCK G M. Genome sequences of the honey bee pathogensand. Insect Molecular Biology, 2006, 15(5): 715-718.

[4] SHANG Y F, XIAO G H, ZHENG P, CEN K, ZHAN S, WANG C S. Divergent and convergent evolution of fungal pathogenicity. Genome Biology and Evolution, 2016, 8(5): 1374-1387.

[5] 张曌楠, 熊翠玲, 徐细建, 黄枳腱, 郑燕珍, 骆群, 刘敏, 李汶东, 童新宇, 张琦, 梁勤, 郭睿, 陈大福. 蜜蜂球囊菌的参考转录组组装及SSR分子标记开发. 昆虫学报, 2017, 60(1): 34-44.

ZHANG Z N, XIONG C L, XU X J, HUANG Z J, ZHENG Y Z, LUO Q, LIU M, LI W D, TONG X Y, ZHANG Q, LIANG Q, GUO R, CHEN D F.assembly of a reference transcriptome and development of SSR markers forActa Entomologica Sinica, 2017, 60(1): 34-44. (in Chinese)

[6] 陈大福, 郭睿, 熊翠玲, 梁勤, 郑燕珍, 徐细建, 黄枳腱, 张曌楠, 张璐, 李汶东, 童新宇, 席伟军. 胁迫意大利蜜蜂幼虫肠道的球囊菌的转录组分析. 昆虫学报, 2017, 60(4): 401-411.

CHEN D F, GUO R, XIONG C L, LIANG Q, ZHENG Y Z, XU X J, HUANG Z J, ZHANG Z N, ZHANG L, LI W D, TONG X Y, XI W J.

Transcriptomic analysis ofstressing larval gut of(Hyemenoptera: Apidae).Acta Entomologica Sinica, 2017, 60(4): 401-411. (in Chinese)

[7] 郭睿, 陈大福, 黄枳腱, 梁勤, 熊翠玲, 徐细建, 郑燕珍, 张曌楠, 解彦玲, 童新宇, 侯志贤, 江亮亮, 刀晨. 球囊菌胁迫中华蜜蜂幼虫肠道过程中病原的转录组学研究. 微生物学报, 2017, 57(12): 1865-1878.

GUO R, CHEN D F, HUANG Z J, LIANG Q, XIONG C L, XU X J, ZHENG Y Z, ZHANG Z N, XIE Y L, TONG X Y, HOU Z X, JIANG L L, DAO C. Transcriptome analysis ofstressing larval gut of. Acta Microbiologica Sinica, 2017, 57(12): 1865-1878. (in Chinese)

[8] 郭睿, 李汶东, 陈大福, 熊翠玲, 郑燕珍, 付中民, 徐细建, 黄枳腱, 骆群. 意大利蜜蜂幼虫肠道内球囊菌及其纯培养的高表达基因差异分析. 微生物学通报, 2018, 45(2): 368-375.

GUO R, LI W D, CHEN D F, XIONG C L, ZHENG Y Z, FU Z M, XU X J, HUANG Z J, LUO Q. Highly-expressed gene differences betweenstressing the larval gut ofand the pure culture of. Microbiology China, 2018, 45(2): 368-375. (in Chinese)

[9] 陈大福, 王鸿权, 李汶东, 熊翠玲, 郑燕珍, 付中民, 徐细建, 黄枳腱, 郭睿. 胁迫中华蜜蜂幼虫肠道的球囊菌及其体外培养的高表达基因分析. 福建农林大学学报(自然科学版), 2017, 46(5): 562-568.

CHEN D F, WANG H Q, LI W D, XIONG C L, ZHENG Y Z, FU Z M, XU X J, HUANG Z J, GUO R. Analysis of highly expressed genes ofinfecting the gut oflarvae and itsculture. Journal of Fujian Agriculture and Forestry University (Natural Science Edition),2017, 46(5): 562-568. (in Chinese)

[10] 郭睿, 陈华枝, 童新宇, 熊翠玲, 郑燕珍, 付中民, 解彦玲, 王海朋, 赵红霞, 陈大福. 蜜蜂球囊菌基因结构优化及新基因鉴定. 中国农业大学学报, 2019, 24(1): 61-68.

GUO R, CHEN H Z, TONG X Y, XIONG C L, ZHENG Y Z, FU Z M, XIE Y L, WANG H P, ZHAO H X, CHEN D F. Structural optimization of annotated genes and identification of novel genes in.Journal of China Agricultural University,2019, 24(1): 61-68. (in Chinese)

[11] 郭睿, 王海朋, 陈华枝, 熊翠玲, 郑燕珍, 付中民, 赵红霞, 陈大福. 蜜蜂球囊菌的microRNA鉴定及其调控网络分析. 微生物学报, 2018, 58(6): 1077-1089.

GUO R, WANG H P, CHEN H Z, XIONG C L, ZHENG Y Z, FU Z M, ZHAO H X, CHEN D F. Identification ofmicroRNAs and investigation of their regulation networks. Acta Microbiologica Sinica, 2018, 58(6): 1077-1089. (in Chinese)

[12] GUO R, CHEN D F, XIONG C L, HOU C S, ZHENG Y Z, FU Z M, DIAO Q Y, ZHANG L, WANG H Q, HOU Z X, LI W D, KUMAR D, LIANG Q. Identification of long non-coding RNAs in the chalkbrood disease pathogen. Journal of Invertebrate Pathology, 2018, 156: 1-5.

[13] GUO R, CHEN D F, CHEN H Z, FU Z M, XIONG C L, HOU C S, ZHENG Y Z, GUO Y L, WANG H P, DU Y, DIAO Q Y. Systematic investigation of circular RNAs in, a fungal pathogen of honeybee larvae. Gene, 2018, 678: 17-22.

[14] LU H Y, GIORDANO F, NING Z M. Oxford nanopore MinION sequencing and genome assembly. Genomics Proteomics and Bioinformatics,2016, 14(5): 265-279.

[15] WORKMAN R E, TANG A D, TANG P S, JAIN M, TYSON J R, RAZAGHI R, ZUZARTE P C, GILPATRICK T, PAYNE A, QUICK J,. Nanopore native RNA sequencing of a human poly (A) transcriptome. Nature Methods, 2019, 16(12): 1297-1305.

[16] LEA W A, PARNELL S C, WALLACE D P, CALVET J P, ZELENCHUK L V, ALVAREZ N S, WARD C J. Human-specific abnormal alternative splicing of wild-typeinduces premature termination of polycystin-1. Journal of the American Society of Nephrology, 2018, 29(10): 2482-2492.

[17] CHEN S Y, DENG F L, JIA X B, LI C, LAI S J. A transcriptome atlas of rabbit revealed by PacBio single-molecule long-read sequencing. Scientific Reports,2017, 7: 7648.

[18] BAYEGA A, OIKONOMOPOULOS S, ZORBAS E, WANG Y C, GREGORIOU M E, TSOUMANI K T, MATHIOPOULOS K D, RAGOUSSIS J. Transcriptome landscape of the developing olive fruit fly embryo delineated by Oxford Nanopore long-read RNA-Seq. bioRxiv, 2018. doi: https://doi.org/10.1101/478172.

[19] CHAO Q, GAO Z F, ZHANG D, ZHAO B G, DONG F Q, FU C X, LIU L J, WANG B C. The developmental dynamics of thestem transcriptome. Plant Biotechnology Journal, 2019, 17(1): 206-219.

[20] ZHU C H, LI X F, ZHENG J Y. Transcriptome profiling using Illumina- and SMRT-based RNA-seq of hot pepper for in-depth understanding of genes involved in CMV infection. Gene, 2018, 666: 123-133.

[21] TOMBÁCZ D, BALÁZS Z, CSABAI Z, MOLDOVÁN N, SZŰCS A, SHARON D, SNYDER M, BOLDOGKŐI Z. Characterization of the dynamic transcriptome of a herpesvirus with long-read single molecule real-time sequencing. Scientific Reports, 2017, 7: 43751.

[22] TOMBÁCZ D, BALÁZS Z, CSABAI Z, SNYDER M, BOLDOGKOI Z. Long-read sequencing revealed an extensive transcript complexity in herpesviruses. Frontiers in Genetics, 2018, 9: 259.

[23] 陈华枝, 祝智威, 蒋海宾, 王杰, 范元婵, 范小雪, 万洁琦, 卢家轩, 熊翠玲, 郑燕珍, 付中民, 陈大福, 郭睿. 蜜蜂球囊菌菌丝和孢子中微小RNA及其靶mRNA的比较分析. 中国农业科学, 2020, 53(17): 3606-3619.

CHEN H Z, ZHU Z W, JIANG H B, WANG J, FAN Y C, FAN X X, WAN J Q, LU J X, XIONG C L, ZHENG Y Z, FU Z M, CHEN D F, GUO R.Comparative analysis of microRNAs and corresponding target mRNAs inmycelium and spore. Scientia Agricultura Sinica, 2020, 53(17): 3606-3619. (in Chinese)

[24] 陈华枝, 王杰, 祝智威, 蒋海宾, 范元婵, 范小雪, 万洁琦, 卢家轩, 郑燕珍, 付中民, 徐国钧, 陈大福, 郭睿. 蜜蜂球囊菌菌丝和孢子中长链非编码RNA的比较及其潜在功能分析. 中国农业科学, 2021, 54(2): 435-448.

CHEN H Z, WANG J, ZHU Z W, JIANG H B, FAN Y C, FAN X X, WAN J Q, LU J X, ZHENG Y Z, FU Z M, XU G J, CHEN D F, GUO R. Comparison and potential functional analysis of long non-coding RNAs betweenmycelium and spore.Scientia Agricultura Sinica, 2021, 54(2): 435-448. (in Chinese)

[25] CHEN H Z, FAN X X, DU Y, FAN Y C, WANG J, JIANG H B, XIONG C L, ZHENG Y Z, CHEN D F, GUO R. Nanopore-based long-read transcriptome data of-infected and un-infected western honeybee workers’ midguts. bioRxiv, 2020. doi: https://doi.org/10.1101/2020.03.21.001958.

[26] DU Y, FAN Y C, CHEN H Z, WANG J, XIONG C L, ZHENG Y Z, CHEN D F, GUO R. A full-length transcriptome dataset of normal and-challenged midgut tissues of eastern honeybee workers. bioRxiv, 2020. doi: https://doi.org/10.1101/2020.03.18. 997981.

[27] JENJAROENPUN P, WONGSURAWAT T, PEREIRA R, PATUMCHAROENPOL P, USSERY D W, NIELSEN J, NOOKAEW I. Complete genomic and transcriptional landscape analysis using third-generation sequencing: a case study ofCEN.PK113-7D. Nucleic Acids Research, 2018, 46(7): e38.

[28] BOLDOGKOI Z, MOLDOVAN N, BALAZS Z, SNYDER M, TOMBACZ D. Long-read sequencing-A powerful tool in viraltranscriptome research. Trends in Microbiology, 2019, 27(7): 578-592.

[29] 邓泱泱, 荔建琦, 吴松锋, 朱云平, 陈耀文, 贺福初. nr数据库分析及其本地化. 计算机工程, 2006, 32(5): 71-73, 76.

DENG Y Y, LI J Q, WU S F, ZHU Y P, CHEN Y W, HE F C. Integrated nr database in protein annotation system and its localization. Computer Engineering, 2006, 32(5): 71-73, 76. (in Chinese)

[30] The Uniprot Consortium. UniProt: the universal protein knowledgebase. Nucleic Acids Research, 2017, 45(D1): D158-D169.

[31] KOONIN E V, FEDOROVA N D, JACKSON J D, JACOBS A R, KRYLOV D M,MAKAROVA K S, MAZUMDER R, MEKHEDOV S L, NIKOLSKAYA A N, RAO B S,. A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes. Genome Biology, 2004, 5(2): R7.

[32] POWELL S, FORSLUND K, SZKLARCZYK D, TRACHANA K, ROTH A, HUERTA-CEPAS J, GABALDÓN T, RATTEI T, CREEVEY C, KUHN M, JENSEN L J, VON MERING C, BORK P. eggNOG v4.0: nested orthology inference across 3686 organisms. Nucleic Acids Research, 2014, 42(Database issue): D231-D239.

[33] FINN R D, BATEMAN A, CLEMENTS J, COGGILL P, EBERHARDT R Y, EDDY S R, HEGER A, HETHERINGTON K, HOLM L, MISTRY J, SONNHAMMER E L L, TATE J, PUNTA M. Pfam: the protein families database. Nucleic Acids Research, 2014, 42(Database issue): D222-D230.

[34] ASHBURNER M, BALL C A, BLAKE J A, BOTSTEIN D, BUTLER H, CHERRY J M, DAVIS A P, DOLINSKI K, DWIGHT S S, EPPIG J T,. Gene ontology: tool for the unification of biology. Nature Genetics, 2000, 25(1): 25-29.

[35] KANEHISA M, GOTO S, KAWASHIMA S, OKUNO Y, HATTORI M. The KEGG resource for deciphering the genome. Nucleic Acids Research, 2004, 32(Database issue): D277-D280.

[36] 熊翠玲, 耿四海, 王心蕊, 刘思亚, 陈大福, 郑燕珍, 付中民, 杜宇, 王海朋, 陈华枝, 周丁丁, 郭睿. 意大利蜜蜂工蜂中肠的长链非编码RNA的预测、分析及鉴定. 应用昆虫学报, 2018, 55(6): 1034-1044.

XIONG C L, GENG S H, WANG X R, LIU S Y, CHEN D F, ZHENG Y Z, FU Z M, DU Y, WANG H P, CHEN H Z, ZHOU D D, GUO R.Prediction, analysis and identification of long non-coding RNA in the midguts ofworkers. Chinese Journal of Applied Entomology, 2018, 55(6): 1034-1044. (in Chinese)

[37] KONG L, ZHANG Y, YE Z Q, LIU X Q, ZHAO S Q, WEI L, GAO G. CPC: assess the protein-coding potential of transcripts using sequence features and support vector machine. Nucleic Acids Research, 2007, 35(Web Server issue): W345-W349.

[38] SUN L, LUO H T, BU D C, ZHAO G G, YU K T, ZHANG C H, LIU Y N, CHEN R S, ZHAO Y. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts. Nucleic Acids Research, 2013, 41(17): e166.

[39] WANG L, PARK H J, DASARI S, WANG S, KOCHER J P, LI W. CPAT: coding-potential assessment tool using an alignment-free logistic regression model. Nucleic Acids Research, 2013, 41(6): e74.

[40] CHEN D F, DU Y, FAN X X, ZHU Z W, JIANG H B, WANG J, FAN Y C, CHEN H Z, ZHOU D D, XIONG C L, ZHENG Y Z, XU X J, LUO Q, GUO R. Reconstruction and functional annotation offull-length transcriptome via PacBio single-molecule long-read sequencing. bioRxiv, 2019. doi: https://doi.org/10.1101/770040.

[41] MAGI A, SEMERARO R, MINGRINO A, GIUSTI B, D’AURIZIO R. Nanopore sequencing data analysis: state of the art, applications and challenges. Briefings in Bioinformatics, 2018, 19(6): 1256-1272.

[42] Aronstein K A, Murray K D. Chalkbrood disease in honey bees. Journal of Invertebrate Pathology, 2010, 103(Suppl.1): S20-S29.

[43] 李江红, 郑志阳, 陈大福, 梁勤. 影响蜜蜂球囊菌侵染蜜蜂幼虫的因素及侵染过程观察. 昆虫学报, 2012, 55(7): 790-797.

LI J H, ZHENG Z Y, CHEN D F, LIANG Q. Factors influencinginfection on honeybee larvae and observation on the infection process. Acta Entomologica Sinica, 2012, 55(7): 790-797. (in Chinese)

[44] TAUBER J P, EINSPANIER R, EVANS J D, MCMAHON D P. Co-incubation of dsRNA reduces proportion of viable spores of, a honey bee fungal pathogen. Journal of Apicultural Research, 2020, 59(5): 791-799.

Construction and Annotation ofFull-Length Transcriptome Utilizing Nanopore Third-Generation Long-Read Sequencing Technology

DU Yu1, ZHU ZhiWei1, WANG Jie1, WANG XiuNa3,4, JIANG HaiBin1, FAN YuanChan1, FAN XiaoXue1, CHEN HuaZhi1, LONG Qi1, CAI ZongBing1, XIONG CuiLing1,2, ZHENG YanZhen1, FU ZhongMin1,2, CHEN DaFu1,2, GUO Rui1,2

1College of Animal Sciences (College of Bee Science), Fujian Agriculture and Forestry University, Fuzhou 350002;2Apitherapy Research Institution, Fujian Agriculture and Forestry University, Fuzhou 350002;3College of Life Sciences, Fujian Agriculture and Forestry University, Fuzhou 350002;4Key Laboratory of Pathogenic Fungi and Mycotoxins of Fujian Province (Fujian Agriculture and Forestry University), Fuzhou 350002

【】Purified mycelia sample (Aam) and spore sample (Aas) were sequenced using third-generation nanopore long-read sequencing technology, followed by construction and annotation of high-quality full-length transcriptome.【】Aam and Aas were respectively sequenced using Oxford Nanopore PromethION platform. Guppy software was used to conduct base calling of raw reads. Clean reads were obtained after filtering out short fragments and low-quality raw reads. Full-length transcripts were identified by recognizing primers at both ends of clean reads. Full-length transcripts were aligned to Nr, Swissprot, KOG, eggNOG, Pfam, GO and KEGG databases to gain corresponding annotations. Four approaches such as CPC, CNCI, CPAT, and Pfam were used to predict lncRNAs, and the intersection was deemed to be high-reliability lncRNAs.【】In total, 6 321 704 and 6 259 727 raw reads were yielded from nanopore sequencing of Aam and Aas, and after quality control, 5 669 436 and 6 233 159 clean reads were obtained, including 4 497 102 (79.32%) and 4 963 101 (79.62%) full-length clean reads. Additionally, 9 859 and 16 795 non-redundant full-length transcripts were identified, with a N50 of 1 482and 1 658bp, an average length of 1 187 and 1 303 bp, and a maximum length of 6 472 and 6 815 bp, respectively. Venn analysis showed that 6 512 non-redundant full-length transcripts were shared by Aam and Aas, while 3 347 and 10 283 ones were specific for Aam and Aas, respectively.Besides, a total of 20 142 full-length transcripts were identified in Aam and Aas, among them 20 809, 11 151, 17 723, 12 164, 11 340 and 9 833 full-length transcripts could be annotated to Nr, KOG, eggNOG, Pfam, GO and KEGG databases, respectively. Most of full-length transcripts were annotated to,and. Moreover, GO database annotation demonstrated that the above-mentioned full-length transcripts could be annotated to 45 functional terms, involving in cell component-associated terms such as cell part, cell and organelle; molecular function-associated terms such as catalytic activity, binding and transporter activity; and biological process-associated terms such as cellular processes, metabolic processes and single-organism processes. KEGG database annotation indicated that these full-length transcripts could be annotated to 49 pathways, including biosynthesis of antibiotics, ribosome, biosynthesis of amino acid, carbon metabolism, spliceosome and so on. In addition, 648 lncRNAs were identified, including 480 long intergenic RNAs (lincRNAs), 119 anti-sense lncRNAs and 49 sense lncRNAs. 【】The first high-quality full-length transcriptome was constructed and annotated in this work, which offers a key basis for exploration of the complexity oftranscriptome, improvement of sequence and functional annotation of reference genome and further study on isoforms’ function of.

third-generation high-throughput sequencing technology; nanopore sequencing; full-length transcript; reference transcriptome; honeybee;

10.3864/j.issn.0578-1752.2021.04.017

2020-05-04;

2020-05-22

国家现代农业产业技术体系建设专项(CARS-44-KXJ7)、福建省自然科学基金(2018J05042)、福建农林大学杰出青年科研人才计划(xjq201814)、福建省病原真菌与真菌毒素重点实验室开放课题(郭睿)、江西省蜜蜂生物学与饲养重点实验室开放基金(JXKLHBB-2020-04)、福建农林大学优秀硕士学位论文资助基金(杜宇)

杜宇,E-mail:m18505700830@163.com。祝智威,E-mail:zzw15235470398@163.com。杜宇和祝智威为同等贡献作者。通信作者陈大福,E-mail:dfchen826@fafu.edu.cn。通信作者郭睿,E-mail:ruiguo@fafu.edu.cn

(责任编辑 岳梅)

猜你喜欢
孢子球囊菌丝
隐孢子虫入侵相关蛋白分子研究进展
降低体表孢子含量对僵蚕总灰分的影响
羊肚菌母种培养基配方的优化研究
心肌缺血预适应在紫杉醇释放冠脉球囊导管扩张术中的应用
宫颈阴道双球囊与米索前列醇在高危产妇引产中的应用
切割球囊用于冠状动脉疾病治疗的现状及应用前景
鸡菌菌丝体固体培养基配方的优化
中国被毛孢三种菌丝形态的超显微特征观察
大球盖菇菌丝生长环境和营养条件探究
主动脉球囊反搏应用于胃贲门癌手术1例