中国淡水大型底栖无脊椎动物条形码数据库构建

2022-03-11 01:59于海燕贾显乐黄浩然陈月仙金小伟林晓龙王备新
中国环境监测 2022年1期
关键词:条形码测序物种

王 萌,苑 艺,于海燕,贾显乐,黄浩然,陈月仙,金小伟,林晓龙,王备新

1.南京农业大学植物保护学院,江苏 南京 210095

2.浙江省生态环境监测中心,浙江 杭州 310012

3.温州市生态环境局,浙江 温州 325027

4.中国环境监测总站,国家环境保护环境监测质量控制重点实验室,北京 100012

5.南开大学生命科学学院,天津 300071

淡水生态系统是人类赖以生存和发展的重要资源,也是受人类活动干扰最严重、所面临物种灭绝风险最大的生态系统[1]。 我国已成为淡水生物多样性受威胁最严重的国家之一。 2010 年,我国发布了《中国生物多样性保护战略与行动计划(2011—2030 年)》,将水生生物资源调查与养护列为优先行动项目[2]。 大型底栖无脊椎动物(以下简称底栖动物)是淡水生态系统的重要组成部分,主要指生活史的全部或部分生活在水体底部,个体不能通过500 μm 孔径网筛的无脊椎动物,包括节肢动物门昆虫纲的水生昆虫、软甲纲的淡水蟹和钩虾,软体动物门的蚌类、螺类,环节动物门的寡毛纲、蛭纲,扁形动物门的涡虫等[3]。 底栖动物具有种类多、生活周期长、生活场所比较固定、对水质变化敏感等特点,是国内外广泛应用的水质生物监测指标[4-7]。 底栖动物形态学鉴定高度依赖经验丰富的分类人员[8],且所鉴定的标本大多为幼期形态,相关分类资料不足,因此,其形态学鉴定大多只能精确到科或属级别[9]。 然而不同底栖动物种类对水质的敏感性不同,同一科、属内的不同种的耐污性也存在明显差异[10-11],科或属级别的粗糙鉴定无法科学、准确地评价水生态质量及其受到的威胁。 因此,对底栖动物物种水平的准确鉴定不仅是水质生物监测的迫切需要,也是水生态环境管理的必然要求。

DNA 条形码技术(DNA Barcoding)能够破解底栖动物鉴定过度依赖分类专家和对不同发育阶段的标本的鉴定水平不一致等难题[12]。 该方法通过DNA 分子标记准确区分、鉴定物种[12-13],已在生命科学、法医学、药学、食品学和检验检疫等领域获得广泛应用[12]。 此外,结合高通量测序技术的宏条形码技术(DNA Metabarcoding)可以通过对水和土壤环境样品中的混合DNA 的测序、比对,快速、大规模地获得物种信息,极大地革新了生物多样性调查方法[8,14-16]。

准确、完整的DNA 条形码数据库是DNA 条形码技术与宏条形码技术成功应用的重要保障[17]。 不完善的数据库会使得相当多的环境DNA-宏条形码数据得不到注释,或得不到准确注释,易造成物种漏检或错误鉴定[17]。 国际上虽然有GenBank 和生命条形码数据库(Barcode of Life Database,BOLD)等公共数据库,但其对我国特有底栖动物种类的收录很少,而且还存在着大量的鉴定和标记错误,无法满足国内底栖动物鉴定的需求。 因此,构建我国淡水底栖动物条形码数据库具有重要的科学和应用价值。

本文在回顾DNA 条形码技术在底栖动物多样性调查中的应用情况以及国内外条形码数据库构建现状的基础上,详细介绍了由南京农业大学组织、国内15 所高校和科研院所参与构建的中国淡水大型底栖无脊椎动物条形码数据库的设计和组织架构、功能特色。 该数据库的建成和应用不仅弥补了国内底栖动物条形码数据库的空白,也为我国底栖动物多样性调查、水质生态监测及健康评价提供了坚实的技术保障和重要的数据资源。

1 DNA 条形码和宏条形码技术

DNA 条形码技术是指利用标准的、有足够变异的、易于扩增的、相对较短的一个或几个基因片段进行物种鉴定的方法[18]。 由于DNA 片段与物种存在唯一对应关系,可以像商品的条形码一样标识对应的物种信息,故被称为DNA 条形码[18]。DNA 条形码的概念由HEBERT 等[19-20]于2003 年首先提出,其中在动物类别中往往将细胞色素C氧化酶亚基Ⅰ(CytochromecOxidase Subunit Ⅰ,COⅠ)作为条形码的首选标记。 与传统的形态学分类鉴定相比,DNA 条形码鉴定具有诸多方面的显著优点。 首先,DNA 条形码鉴定利用同一段固定的基因片段,更有利于物种鉴定的标准化,使鉴定结果更准确、客观[12]。 其次,DNA 条形码基于分子水平进行鉴定,无需分类学基础,摆脱了形态学鉴定对专业分类人员的依赖,且不受样品性别、发育阶段、形态特征的限制[13,21-22]。 最后,DNA条形码重新定义了物种边界,有助于发现新物种,并为解决近似种和隐存种等传统分类鉴定难题提供新的研究方法和思路[21-23]。

近些年,高通量测序技术的快速发展在降低DNA 条形码技术应用成本的同时,进一步扩展了该技术的应用范围[8,14]。 结合高通量测序的宏条形码技术,可以通过对各类生物向环境中释放的分泌物、唾液、精子等降解程度不同的DNA 混合物进行提取和测序,完成对环境样本中不同物种类群的大规模鉴定[14]。 同时,该技术也可通过提取不同类群的混合组织样本或其酒精保存液中的游离DNA 进行测序和物种注释[17,24]。 现今,宏条形码技术已成为推进淡水底栖动物多样性监测甚至水质评价的一项最有前景的新兴技术,广泛用于水生生物多样性调查[25]、入侵和稀有物种检测[26-27],以及目标生物丰度、群落大小、分布和动态检 测 等 方 面[28]。 HAJIBABAEI 等[29]首 次 将DNA 条形码技术应用于淡水底栖动物多样性分析,并证明宏条形码技术可成功用于底栖动物监测。 研究显示,宏条形码技术对大部分底栖动物的检出率高达98%,其中水质敏感昆虫EPT 类群(蜉蝣目+衤责翅目+毛翅目)的检出率为100%[30]。

相对于传统的形态学分类鉴定,新兴的DNA条形码和宏条形码技术也存在一定的局限性。 例如,不能区分死亡个体[24],不能直接获得物种的发育时期、性别比例等信息[31],无法对生物量和物种相对丰度进行准确估测[14],PCR 引物的偏向性容易造成假阴性结果[17]。 此外,条形码与宏条形码技术的应用有效性高度取决于参考数据库的大小和质量[17],而现有数据库存在不同类型的缺陷,无法满足监测鉴定的需要。 综上可知,虽然条形码技术有广阔的应用前景,但目前仍不能完全取代传统的形态学分类鉴定。 因此,在进行物种鉴定和生物多样性监测时,应充分结合两种技术,进行综合评估。

2 国内外条形码数据库构建现状及存在的问题

DNA 条形码数据库不仅可以为统一存储样品信息和DNA 条形码序列提供场所,而且可以为进一步应用DNA 条形码进行物种鉴定分析、物种进化过程研究、生物地理谱系研究等提供生物信息学分析平台[12,18,23]。 数据库的大小和质量直接决定了应用条形码技术进行物种鉴定的可靠性和准确性[32],对于利用环境DNA-宏条形码技术进行水质监测尤为重要。 研究显示,缺少完善的参考数据库可使50%以上的宏条形码数据无法注释到水质监测所需的物种鉴定精度[32]。

针对此问题,全球很多研究机构开始着手建立可靠、完整的分子数据库和信息分享平台(表1)。 国际上第一个 DNA 条形码数据系统——BOLD 系统(http:/ /boldsystems. org),由国际生命条形码协会(Consortium for the Barcode of Life)于2007 年建立[18]。 迄今为止,BOLD 系统内包含了超过32.7 万种生物的条形码信息,包括234 038 种动物、70 026 种植物、23 762 种真菌和其他生物物种[18]。 2011 年,我国也建立了中国生命条形码数据门户,该数据库包含了64 176 个标本的77 957 条序列[18]。 此外,国内各行业/学科也有针对性地逐步建立了一系列条形码数据库,如中药材DNA 条形码鉴定系统[33]、中国珍稀濒危植物DNA 条形码鉴定平台[18]、中国检疫性有害生物DNA 条形码鉴定系统[12]、中国重要渔业生物DNA 条形码信息平台、传统药物DNA 条形码数据库、中国两栖类信息系统等。

表1 国内外部分DNA 条形码数据库构建现状Table 1 Current status of some domestic and overseas DNA barcoding reference databases

针对底栖动物,澳大利亚建立了专门包含EPT 物种的Aquatic Invertebrates of Australia 数据库[34]。 加拿大建立了水质敏感昆虫EPT 数据库,收录有112 个EPT 物种、2 277 条COⅠ序列[35],随后又建立了包含150 万条条形码数据和凭证标本的参考数据库[36]。 美国建立了收录有209 种毛翅目昆虫和超过1 000 条序列的参考数据库[37]。 德国也建立了EPT 数据库,收录了363个物种和2 000 多条序列[38]。 然而,我国底栖动物条形码数据库发展较慢,大部分条形码数据只零散分布在成幼虫联系和系统发育研究中[13]。

尽管近些年DNA 条形码相关数据库的发展如火如荼,但其构建和应用仍存在一些突出的问题。 首先,大多数DNA 条形码序列缺少对应的形态图像凭证,造成形态鉴定信息与分子信息割裂[22]。 很多条形码数据记录的凭证信息缺失或不全面,难以追溯其测序的准确性。 其次,大部分条形码信息缺少专家鉴定,存在大量的鉴定和标记错误[22]。 再次,由于全球各地在条形码研究上的投入差异和物种多样性差异,数据库中的条形码数量在不同地理区域与不同物种类群上存在明显的不平衡[32]。 因此,尽管GenBank 和BOLD 中有宏量的条形码数据,但对我国特有种类的收录较少。 最后,由于我国独特的地理位置和水域生态环境,部分物种产生了较大的物种地理分化,与许多国外已报道种类有相当明显的分子和形态差异,难以利用GenBank 和BOLD 中的现有序列对国内物种进行准确注释。

3 中国淡水大型底栖无脊椎动物条形码数据库

3.1 数据库内容与功能

该数据库由南京农业大学组织,中国农业大学、南开大学、南京师范大学、中山大学、华南农业大学、扬州大学、重庆师范大学、南昌大学、广西师范大学、中科院水生生物研究所、中科院沈阳应用生态研究所等15 所高校和科研院所的分类专家及团队历时一年半构建完成。 该数据库的中文名称为中国淡水大型底栖无脊椎动物条形码数据库(图1),涉及的生物类群主要有水生昆虫(蜉蝣目、蜻蜓目、衤责翅目、毛翅目、鞘翅目、半翅目、广翅目、脉翅目,以及双翅目摇蚊科和大蚊科等)、软体动物(蚌类、螺类等)、环节动物(寡毛纲、蛭纲)、甲壳动物(溪蟹、钩虾等)。

图1 中国淡水大型底栖无脊椎动物条形码数据库首页Fig.1 The homepage of the Chinese freshwater macroinvertebrate barcode library

数据库注册用户可以在线进行物种分类检索,以及底栖动物COⅠ条形码和环境DNA-宏条形码数据的比对工作,完成对物种的鉴定和注释。用户在首页或者后台通过物种名进行搜索,不仅可以得到该物种的分类信息和图像信息,还可以得到该物种的所有样本信息,包括样本所属项目信息、凭证标本信息、采集信息和条形码数据。 物种鉴定主要通过COⅠ条形码的比对功能实现。用户可将底栖动物条形码的序列信息粘贴在数据库网络平台搜索框进行比对,从而得到物种鉴定结果,也可将环境DNA-宏条形码数据输入搜索框进行比对,完成对分子可操作单元(Molecular Operational Taxonomic Units)的注释。

3.2 数据库设计及组织架构

中国淡水大型底栖无脊椎动物条形码数据库以门户网站的形式呈现,设立有三大模块,具体如图2 所示。

图2 中国淡水大型底栖无脊椎动物条形码数据库设计架构Fig.2 The design and structure of the Chinese freshwater macroinvertebrate barcode library

3.2.1 门户展示模块

各个项目组负责成员从后台上传样本相关信息,在门户展示模块显示数据库及样本的相关信息,包含物种分类信息、凭证标本信息和序列信息3 个部分。

1)物种分类信息。 包括物种在各个分类阶元的拉丁学名(门、纲、目、科、属、种)、中文译名以及鉴定者信息。 鉴定者信息包括鉴定者姓名、单位、联系方式和鉴定日期。

2)凭证标本信息。 包括样本编号、样本凭证信息、采集信息、地理分布信息、性别、生长阶段以及图像信息。 其中,样本编号在整个数据库系统中是唯一的。 对于用来鉴定和提取DNA 条形码信息的凭证标本,要进行编号并妥善保存。 样本凭证信息中,要上传凭证标本的存放地点、保存方式以及博物馆馆藏号。 样本采集信息包含采集者、采集时间、采集地点、经纬度、海拔、深度、采集方式等。

关于样本图像信息,每个样本至多可上传20 个照片文件,一般每个样本至少拍摄1 个整体图和2~5 个形态特征鉴别图。 图片格式必须为JPG、GIF 和PNG 3 种格式之一。 相机图片要求像素不低于500 万,图像清晰度不低于300 dpi,矢量绘图不低于600 dpi。 图片需附有比例尺,并在图片下方附有对图片内容的简要说明。

3)序列信息。 包括首选遗传标记名称,如COⅠ;其他遗传标记名称,如28S、Cytb;处理序列的实验室或机构名称,如南京农业大学;GenBank或BOLD 编号,如果序列在GenBank 或BOLD 中有对应编号,上传其GenBank 或BOLD 编号;PCR正反向引物等。

3.2.2 数据查询鉴定模块

该模块包括3 种不同的查询途径:

第一种是根据分子序列进行查询。 将获得的未知样品的条形码序列粘贴到查询框,并点击提交进行鉴定(图3)。 查询COⅠ序列须大于300 bp,且序列所含不确定碱基(Ns)的数目占比应小于1%。 系统基于VSEARCH 模块对序列进行比对,并给出数据库中该序列的物种信息。 当前,该系统支持Fasta(含“>”号)格式和纯序列格式(不含“>”号)查询。 物种鉴定系统可以迅速查询到数据库中与未知样品序列最相似的序列,并给出数据库中该序列的物种信息。 为便于使用者对鉴定结果进行核对,物种鉴定系统会列出数据库中与查询序列相似性最高的30 条序列,并列出序列比对长度、覆盖度、相似性及鉴定信息。

图3 数据库条形码序列物种鉴定结果展示Fig.3 The species identification results using DNA barcodes query in the barcode library

第二种是根据物种分类信息进行查询。 在首页的分类检索搜索框或登录后台样本管理中的分类检索框中,输入物种分类等级(门、纲、目、科、属、种)的拉丁学名或者中文名进行检索。

第三种是根据地理分布信息进行查询。 点击地图上某个具体的地区或地点,进而链接到在相应区域存在分布的物种类别,从而搜索得到物种其他相关信息。

3.2.3 后台管理模块

后台管理模块共包括3 部分,分别为项目信息管理、样本信息管理以及生物分类列表,主要用于面向项目成员的可视化数据管理,包括数据的查看和信息的导入、导出、备份、整理及更新。 其中,项目信息管理模块用于项目管理组成员对某个条形码项目信息的管理、整合与更新。 在样本信息管理模块中,用户可进行某个门类物种分类信息的搜索、查询,管理者可以进行物种分类信息、图像信息及条形码信息的逐个或批量上传及导出。

3.3 数据库特色及现状

该数据库的最大特点是所有物种名录均由分类学专家审定确认,每一条入库条形码均来自分类专家的精确鉴定,确保了条形码序列与形态学物种的一致性。 现有底栖动物类群相关条形码数据存储混杂、信息零散,各类群的条形码数据以不同形式储存于不同数据库,且其中的绝大多数序列缺少形态学图像凭证,导致同一物种不同发育阶段的形态与分子信息往往难以建立联系,给物种鉴定带来了极大困难。 该数据库首次将零散的信息汇总至统一的信息平台,并整合了同一物种下的分类信息、分子条形码信息、地理分布信息以及不同虫态的形态图像等全面的物种信息,从而更有利于对物种的整合鉴定。

迄今为止,该数据库已收录有800 余个底栖动物物种、1 100 余条条形码数据以及5 600 余种中国常见淡水大型底栖无脊椎动物的物种信息。统计数据显示(图4、图5),当前该数据库已收录的各底栖动物类群的物种数和条形码数并不均衡,其中水生昆虫的数据量最大,而端足目、寡毛纲等难以鉴定的物种类群的条形码数据仍有所欠缺,尚待补充。

图4 数据库现有收录物种及DNA 条形码数量相对比例Fig.4 The proportion of taxa and barcodes in the current barcode library

图5 数据库现有不同生物类群收录物种和DNA 条形码数量统计Fig.5 The statistics of the taxa and barcode in the current barcode library

4 总结和展望

中国淡水大型底栖无脊椎动物条形码数据库是我国首个具有自主知识产权的淡水底栖动物条形码数据库。 通过在用户界面的简单操作,无分类基础的研究人员也可完成对底栖动物全发育形态的准确鉴定,实现鉴定过程的自动化、标准化和远程化,可为底栖动物分类鉴定、种质资源利用、濒危物种保护提供重要的数据资源。 同时,该数据库可为我国淡水生物多样性调查与评估,外来入侵水生生物早期监测、预警与风险评估,水质敏感物种(如EPT 水生昆虫)监测与识别,以及重新构建更加科学合理的基于底栖动物物种水平的耐污值、BI、BMWP 指数评价体系等提供坚实的数据基础和技术保障,有助于更好地提升我国水质监测水平。

在数据库的后续建设中,需加大对底栖动物中的易忽视类群、形态鉴定困难类群条形码信息的采集力度[34]。 在增加底栖动物各类群条形码信息覆盖度的同时,持续扩大单一种类不同地理种群的样本条形码数量,进一步挖掘水生生物的物种多样性,提高对淡水生物多样性及分布规律的认识,为水生动物类群的生态学研究、生物谱系地理学研究等提供数据资源和分析平台。 此外,目前数据库中的条形码标记仅限于COⅠ,后续需逐步将其他分子标记数据(12S、16S 等)上传至数据库,以满足日益增长的对不同生物类群的比对注释需求。

随着下一代测序技术的不断进步,条形码技术也向更加高通量、智能化、自动化方向发展。 通过基于第三代测序技术的PacBio 等平台,条形码测序可无需PCR 操作,并不断增加测序通量和长度[39]。 此外,基于试纸(Dip-Stick)和封闭管内(Closed-Tube) 的 PCR 自 动 测 序 设 备, 如FASTFISH-ID 等新兴技术,条形码技术在应用于野外采样和处理时更加便携,实现了实时化、远程化和自动化[22]。 因此,相信随着新方法和新技术的应用,DNA 条形码和宏条形码技术在未来还将大放异彩,继续在生物多样性保护和生态学研究方面引领新的方向,促进全球生物物种条形码信息数字化时代的到来。

致谢:中国农业大学杨定、刘星月,南开大学卜文俊、王新华、叶瑱,南京师范大学周长发、孙红英,中山大学贾凤龙,华南农业大学童晓立,扬州大学杜予洲,重庆师范大学于昕,南昌大学吴小平,广西师范大学杜丽娜,中科院水生生物研究所谢志才、崔永德,以及中科院沈阳应用生态研究所边冬菊为数据库的构建提供了宝贵的数据支持与帮助,在此一并致以诚挚的谢意。

猜你喜欢
条形码测序物种
创意条形码
生物测序走在前
外显子组测序助力产前诊断胎儿骨骼发育不良
中草药DNA条形码高通量基因测序一体机验收会在京召开
回首2018,这些新物种值得关注
基因测序技术研究进展
电咖再造新物种
有趣的条形码
世界上的15个最不可思议的新物种
疯狂的外来入侵物种