细粒棘球绦虫原头蚴mRNA测序及表达谱分析

2015-01-25 11:14:45李子华王娅娜赵嘉庆朱明星李君良

中国人兽共患病学报 2015年1期

巨艳，李子华,王娅娜,赵嘉庆，朱明星，李君良，赵巍

巨艳1,2,3，李子华1,3,王娅娜1,3,赵嘉庆1,3，朱明星1,3，李君良1,3，赵巍1,3

目的通过对细粒棘球绦虫原头蚴的mRNA的测序及表达谱分析，初步建立起细粒棘球绦虫原头蚴的表达谱数据库，了解细粒棘球绦虫原头蚴基因表达及蛋白构成情况，为全面了解细粒棘球绦虫原头蚴生物学特征及寄生虫与宿主之间的关系奠定基础并为新的诊断方法、筛选新的药物靶点和疫苗候选分子选择提供理论依据。方法用TRIZOL法提取人源细粒棘球绦虫原头蚴的总RNA，构建细粒棘球蚴的转录组测序文库，Illumina的solexa测序平台对RNA进行测序并进行生物信息学分析。结果测序结果去杂后得到2G数据，通过从头拼接我们得到18 569个contig，这些contig的总长度为71 329 bp，contig平均长度为384 bp，最小的contig长度为201 bp，最大contig长度为4 618 bp，N50(覆盖50%所有核苷酸的最大序列重叠群的长度)为384 bp。预测得到unigene为9 029条，将这9 029条基因与NCBI的nr数据库做blast比对，最终有7 441条unigene具有同源比对信息。结论根据GO分析可以发现，共有10 550条unigene与数据库中的基因有较高同源性，且较多的unigene可以与多条基因相对应，一共建立了10 550条对应关系。通过与KEGG数据库进行比对分析，细粒棘球绦虫原头蚴的转录组中有4 731条unigene得到注释，这4 731个得到注释的基因位于241条代谢通路中，这些代谢通路分别与代谢过程，基因信息过程，环境相关过程，细胞过程及与人类疾病相关。

原头蚴；转录组学；生物信息分析；表达谱

细粒棘球蚴病(echinococcosis)也被称为囊性包虫病(hydatid disease)是一种人兽共患的寄生虫病。包虫病影响范围广泛，具有全球性分布趋势，在各个大陆基本都有包虫病被发现，有报道显示100个国家都存在包虫病患者[1]。包虫病严重危害人畜健康，该病广泛流行于世界各地的畜牧业发达地区。包虫生活史复杂，在细粒棘球绦虫由六钩蚴发育到原头蚴时会形成包囊，包囊的囊壁由多层的非细胞层和细胞层构成[2]，对原头蚴形成了良好的保护，这导致宿主的免疫攻击及药物都不能对其造成伤害，临床的观察也发现一些细粒棘球绦虫原头蚴在进入宿主体内后会被宿主的免疫系统抑制并杀伤，但也有一些棘球蚴能够逃逸宿主的免疫攻击而生存下来，我们对这一期间细粒棘球绦虫的发育及免疫机制认识有限，这给包虫病的有效诊断及靶分子的筛选带来了挑战。

不论是寻找具有特异性的诊断抗原分子还是筛选出有效的靶蛋白分子，亦或是研发具有真正疗效的新型药物都需要对细粒棘球绦虫原头蚴有更深刻和全面的认识，对细粒棘球绦虫原头蚴的发育机制或免疫机制都需要更深入的研究，而这些研究的前提是对细粒棘球绦虫原头蚴的基础有深入全面的认识，对细粒棘球绦虫原头蚴的基因构成，蛋白组成情况及其功能研究是上述一切研究的基础及理论支持。而这正是包虫病研究的薄弱环节，因此研究者期望从整体出发全面研究细粒棘球绦虫原头蚴的基因构成及蛋白组成情况。

1 材料与方法

1.1 细粒棘球绦虫原头蚴实验所需原头蚴来自于包虫病人的包囊，包囊由外科手术剥离所得，包囊主要由宁夏医科大学附属医院提供。无菌条件下抽取包囊中的囊液，分离原头蚴，再用PBS洗涤3次。

1.2 细粒棘球绦虫原头蚴总RNA提取总RNA提取方法参照Invitrogen公司的 Trizol Reagent 说明书进行。

1.3 细粒棘球绦虫原头蚴的转录组测序细粒棘球绦虫原头蚴的转录组测序委托北京基因组完成

1.4 序列的拼接及注释序列分析利用 Illumina 平台将测序所得的图像数据转化为相应的序列数据，对所产生的原始序列文件进行质量评估和可信度分析，并去除测序过程中低质量的序列和不确定的序列(Q<20)。之后利用Trinity分析软件对所获得的高质量序列进行转录组 de novo 拼接，以得到contig序列。先用repeatmasker去参考序列中的简单重复序列，augustus软件，Pasa软件，cufflinks进行基因预测并将上述结果整合。生成的uni转录物与NCBI的nr数据库进行比对注释，然后将生成的uni转录物与GO数据库进行比对注释，并获得相应的GO功能分类。最后与KEGG数据库进行比对获得代谢通路数据。

2 结果

2.1 细粒棘球绦虫原头蚴mRNA的测序及转录组数据的组装结果分析 mRNA测序完成后，我们对结果进行去杂处理共得到2G的clean reads。将clean reads通过从头拼接我们得到18 569个contig，这些contig的总长度为71 329 bp，contig平均长度为384 bp，最小的contig长度为201 bp，最大contig长度为4 618 bp，N50(覆盖50%所有核苷酸的最大序列重叠群的长度)为384 bp。对转录组contig的长度特征进行分析，其中长度在200～300 bp范围内的contig数目有10 265条，占总数的55%，300～400 bp内的contig有3 488条占总数19%，≥400 bp的contig共有14 816条，比例为36%(见表1)。

表1 细粒棘球绦虫原头蚴转录组contig数据组装质量统计

Tab.1 Data assembly for contig digital transcriptome of protoscolex

2.2 细粒棘球绦虫原头蚴转录物功能注释及分类经过augustus、pasa、cufflinks三种软件对contig进行基因预测，最终预测得到unigene为9 029条，我们将这9 029条基因与NCBI的nr数据库做blast比对，最终有7 441条unigene具有同源比对信息，在这些比对信息中，其中2 984条unigene与中华肝吸虫(Clonorchissinensis)同源占总数的40.71%，其次与曼氏血吸虫和日本血吸虫的同源性也较高，分别占总数的27.01%和8.8%。不知道功能的假设蛋白和未命名蛋白分别为1 228条和68条。在这些匹配的同源基因中与细粒棘球绦虫相吻合的98条基因，还有69条基因与多房棘球绦虫同源。

根据GO分析可以发现，共有10 550条unigene与数据库中的基因有较高同源性，且较多的unigene可以与多条基因相对应，一共建立了10 550条对应关系，从而能够得到尽可能全面的注释和分类。细粒棘球绦虫原头蚴的转录组中的Unigene根据GO功能大致可分为生物过程、细胞组分和分子功能3大类44分支。由表2可知,在所有转录本中，有4 912个转录本(50.75%)的GO注释归类为生物学过程，2 820个(29.14%)归为细胞组分，1 947个(20.12%)被归为分子功能。在细胞组分类型中，细胞和细胞组分所含比例较高，分别占34.82%和30.60%。与突触相关转录本最少仅有3条。在分子功能中细胞进程相关基因最多有967条，起连接作用和有催化活性的转录本都较多占总数的39.29%和48.79%，与核酸连接调控转录的和与蛋白相连调控转录的unigene最少，分别只有4条和5条。

2.3 细粒棘球绦虫原头蚴转录组的pathway注释分析通过与KEGG数据库进行比对分析，细粒棘球绦虫原头蚴的转录组中有4 731条unigene得到注释，这4 731个得到注释的基因位于242条代谢通路中，这些代谢通路分别与代谢过程，基因信息过程，环境相关过程，细胞过程及与人类疾病相关。其中代谢map00230即嘌呤代谢涉及的基因个数最多有112个(图1)。

3 讨论

同一有机体在不同的时期所表达的基因是不完全相同的，具有特定的空间性和时间性[3]。与基因组所具有的静态实体的特点不同，转录组是受多种因子调控的，因此转录组是有机体基因组和外部物理特征的动态联系[4]。本研究利用二代高通量测序对细粒棘球绦虫原头蚴转录组进行深入测序，丰富了细粒棘球绦虫的基础资料。

最后测序得到的经过过滤(将错误或存在杂质的数据去除)的数据达到2G。我们对数据进行从头拼接,通过拼接获得18 569个contig，这些contig的总长度为71 329 bp，contig平均长度为384 bp，最小的contig长度为201 bp，最大contig长度为4 618 bp，N50(覆盖50%所有核苷酸的最大序列重叠群的长度)为384 bp。对转录组contig的长度特征进行分析，其中长度在200～300 bp范围内的contig数目有10 265条，占总数的55%，从上述结果可以看出拼接的片段长度与预测相符，N50的值也大于300 bp说明测序结果较为完整，这次的测序结果能够较准确的说明细粒棘球绦虫在原头蚴阶段的表达情况，另一方面本次表达谱测序也能为将来的基因组注释提供基因鉴定的基础。

我们用从头拼接的方法得到9 027条unigene，这9 027条unigene中有7 441条unigene获得同源比对信息，在这些比对信息中，其中2 984条unigene与中华肝吸虫(Clonorchissinensis)同源占总数的40.71%，其次与曼氏血吸虫和日本血吸虫的同源性也较高，分别占总数的27.01%和8.8%。值得注意的是在这些基因注释信息中有98条与NCBI数据库中的细粒棘球绦虫原头蚴信息吻合，这其中有62条(63.27%)匹配率达90%以上，这说明基因拼接过程基本准确。比对的信息中有21条未知蛋白，这些蛋白中17条和血吸虫相匹配，且同源性高，这些蛋白可能是寄生虫的特有蛋白，值得更深一步研究。还有1 588条转录本未匹配到基因信息可能是由于转录组序列偏单过短，在魏利斌等的芝麻发育转录组研究中未匹配到信息的转录组中长度范围在100～500 bp的占98.07%，在水稻[5]、茶树[6]和粉虱[7]的转录组研究中有相同的现象出现。由此可以看出转录组注释信息的多少和转录组拼接后unigene的长短密切相关，unigene越长可注释的信息越多，注释结果也更据可靠性细粒棘球绦虫原头蚴基因信息的匮乏，目前细粒棘球绦虫原头蚴基因组的研究才刚刚起步，数据库中与细粒棘球绦虫相关的基因缺乏，也是造成注释困难的主要原因之一，尽快开展细粒棘球绦虫的基因组学研究有助于我们对细粒棘球绦虫生活史的了解。细粒棘球绦虫原头蚴转录组的特异性，与果蝇、拟南芥、线虫等模式生物相比，细粒棘球绦虫的基因组研究落后，可供参考的基因组信息较少，且细粒棘球绦虫在生物学上与日本血吸虫有一定距离，所以这其中也有一些基因可能是细粒棘球绦虫原头蚴的特属基因。

我们在GO分析中发现共有10 550条unigene与数据库中的基因有较高同源性，这其中存在一个unigene对应多个数据库基因的现象。在分子功能中大部分的分子都是起连接作用和催化活性，这可能是由于在原头蚴阶段，寄生虫已经稳定寄生于宿主体内，原头蚴阶段需要形成与肝脏相连接的包囊，且寄生虫与外界稳定连接并获取营养，寄生虫在这一阶段最主要的生活是寄生，需要从宿主获取营养并进行一系列的代谢活动所以七催化活性的蛋白也占大多数。而起发育作用的基因只占0.3%。另一需要注意的是其转运功能的基因有122条，在本研究组前期对细粒棘球绦虫原头蚴的囊液蛋白质组研究就发现囊液中含有大量的转铁蛋白和白蛋白，前者转运铁离子，后者可以与难溶的小分子结合并作为营养物质。寄生虫靠汲取宿主的养分生活，若能截断这种转运则很有可能截断寄生虫的营养源，所以从这个角度看，这些具有转运功能的蛋白具有很大研究价值。

通过与KEGG数据库进行比对分析，细粒棘球绦虫原头蚴的转录组中有4 731条unigene得到注释，这4 731个得到注释的基因位于241条代谢通路中，这些代谢通路分别与代谢过程，基因信息过程，环境相关过程，细胞过程及与人类疾病相关，其中代谢过程的代谢最多。

[1]Thompson RCA. Biology and systematics ofEchinococcus[J]. In Thompson RCA, Limbery AJ (eds):Echinococcus and Hydatid Disease. Wallingford: CAB International, 1995:1-50.

[2]Zhao WX. Human parasitology[M]. Beijing:People’s Medical Publishing House, 1983: 514. (in Chinese) 赵慰先.人体寄生虫学[M].北京:人民卫生出版社,1983:514.

[3]Lander ES, Linton LM, Birren B, et al. Initial sequencing and analysis of the human genome[J]. Nature, 2001, 409(6822):860-921. DOI:10.1038/35057062

[4]Wu Q, Sun C, Chen SL. The application of transcriptome in medicinal plant research[J]. World Sci Technol/Modernizat Traditional Chin Med Materia Medica, 2010, 12(3):457-462. (in Chinese) 吴琼,孙超,陈士林，等. 转录组学在药用植物研究中的应用[J].世界科学技术中医药现代化,2010,12(3):457-462.

[5]Lu TT, Lu GJ, Fan DL, et al. Function annotation of the rice transcriptome at single-nucleotide resolution by RNA-seq[J]. Genome Res, 2010, 20: 1238-1249. DOI:10.1101/gr.106120

[6]Shi CY, Yang H, Wei CL, et al. Deep sequencing of theCamelliasinensistranscriptome revealed candidate genes for major metabolic pathways of tea-specific compounds[J]. BMC Genomics, 2011, 12:131. DOI:10.1186/1471-2164-12-131

[7]Wang XW, Luan JB, Li JM, et al. De novo characterization of a whitefly transcriptome and analysis of its gene expression during development[J]. BMC Genomics, 2010, 11:400. DOI:10.1186/1471-2164-11-400

mRNA sequencing and transcriptome characteristic ofEchinococcusgranulosus

JU Yan1,2,3，LI Zi-hua1,3，WANG Ya-na1,3，ZHAO Jia-qing1,3，ZHU Ming-xing1,3，LI Jun-liang1,3，Zhao Wei1,3

(1.CenterofMedicalScience,NingxiaMedicalUniversity,Yinchuan750004,China;2.NingxiaCentersforDiseasesPrevention&Control,Yinchuan750004,China;3.DepartmentofGeneticsandCellBiology,NingxiaMedicalUniversity,Yinchuan750004,China)

The objective of this study was to establish preliminarily expression profile database of protoscolex and comprehend gene expression and protein composition of protoscolex by mRNA sequencing of protoscolex and analysis of expression profile, and laid the foundation for the research of relationship between the parasites and hosts. It would be the theoretical basis for finding the new methods of diagnosis, screening new drug targets and selecting the vaccine candidate. TRIZOL method was used to extract total RNA from human protoscolex. Illumina’s solexa sequencing platforms for RNA sequencing gene annotation and the analysis of metabolic pathways were performed by comparing unigene with non redundant database of NCBI, the gene ontology database and KEGG database gene. As a result, we obtained 18 569 contigs, the total length of the contig was 71 329 bp and the average length was 384 bp, the smallest contig was 201 bp and the largest one was 4 618 bp. The N50 was 384 bp and the predicted unigene was up to 9 029. Comparing the unigene with non redundant database of NCBI, the gene ontology database and KEGG database gene, we got 7 441 annotation comparison information in NR database of NCBI, 10 550 information from gene ontology and 4 731 annotation in KEGG. The 4 731 annotated genes from KEGG was mapped in 241 metabolic pathways, which was associated with metabolism process, the genetic information process, environment relative processes, cellular processes, and human disease respectively.

protoscolex; transcriptome; biological information analysis; expression profile

Zhao Wei, Email:zw-6915@163.com

赵巍，Email： zw-6915@163.com

1.宁夏医科大学医学科学技术研究中心，银川 750004； 2.宁夏疾病预防控制中心，银川 750004； 3.宁夏医科大学医学遗传学与细胞生物学系，银川 750004

10.3969/cjz.j.issn.1002-2694.2015.01.005

R383.3

1002-2694(2015)01-0021-05

2014-03-11；

2014-09-22

宁夏教育厅基金(NGY2010041)资助

Supported by the Key Fund Project of Department of Education of Ningxia Hui Autonomous Region (No. NGY2010041)

细粒棘球绦虫原头蚴mRNA测序及表达谱分析

1 材料与方法

2 结 果

3 讨 论

2 结果

3 讨论