黄、渤海鱼类DNA 条形码信息平台构建及应用

2023-01-05 04:44曲欣宇刘璐李纯厚王晨阳彭子为刘敏姝焦天琪陈治樊鑫
水产学杂志 2022年6期
关键词:条形码渤海鱼类

曲欣宇,刘璐,李纯厚,王晨阳,彭子为,刘敏姝,焦天琪,陈治,樊鑫

(1.山东交通学院,山东 威海 264209;2.中国水产科学研究院南海水产研究所,广东 广州 510300;3.海南热带海洋学院,热带海洋生物资源利用与保护教育部重点实验室,海南 三亚 572022;4.海南热带海洋学院,海南省热带海洋渔业资源保护与利用重点实验室,海南 三亚 572022)

DNA 条形码(DNA barcoding)被定义为生物体内一段或者几段能够代表物种的、标准的、有足够变异的且易扩增的基因片段。与商品条形码对应商品信息类似,此类片段与物种信息存在唯一的对应关系而得名。国际生命条形码协会(the International Barcode of Life,iBOL)建议以线粒体COI(CO1 或COX1)基因作为动物DNA 条形码[1]。作为生态学研究的重要工具,DNA 条形码通过序列分析和核苷酸差异比对,可准确鉴定物种,有助于发现新物种、隐存种和新记录种[2]。基于分子生物学分析手段的DNA 条形码对分类学基础的要求较低。以DNA 序列为检测对象,在整个生物个体发育过程中遗传信息不会改变。在一些特殊情况下,DNA 条形码也可以得到有效应用[3]:如1)标本受到严重损坏或标本经过加工,形态发生变化,单靠肉眼无法观察识别;2)生物发育过程中常经历“变态”过程,卵和幼体存在差异;3)某些生物具有世代交替的现象,形态学方法难以分辨识别;4)外形极为相近的近缘物种;5)在鱼类早期发育过程中,复杂多样的“同种异型”(包括雌雄异型)和“异种同型”现象时有发生,传统形态学分类困难;6)对于濒危物种,个体取样会对生物造成不可修复的损伤,近距离观察同样存在较大困难。与基于物种外观或者解剖特征的传统分类学相比,DNA 条形码检测样本范围广、准确率高、节省时间和精力。凭借这些优势,DNA 条形码广泛应用于生物、医药、食品等科学领域。

随着DNA 条形码技术应用和不断发展,产生了海量的DNA 条形码与对应的物种分类信息。快捷有效地管理和共享这些信息成为制约DNA 条形码进一步使用和发展的因素。构建DNA 条形码数据信息系统为解决这一问题提供了有效办法。DNA条形码数据信息系统既可以作为存储DNA 条形码序列和样品信息的媒介,又可以为后续条形码研究和物种分类鉴定提供生物信息平台[4,5]。2007 年,生命条形码协会(Consortium for the Barcode of Life,CBOL)建立了生命条形码数据库系统(Barcode of Life Database Systems,BOLD systems)[6],这是全球第一个集存储、分析和利用为一体的DNA 条形码数据系统,截止2020 年2 月已收录了800 多万条DNA 条形码序列,涵盖了30 多万种动物、植物和真菌等生物[7]。为了深入研究特定生物类群,生命条形码协会还设立了一些具有针对性的特殊条形码数据库,如鱼类条形码数据库--Fish Barcode of Life(http://fishbol.org/)。2011 年我国建立了首个DNA条形码平台--中国生命条形码数据门户中心(http://www.barcodeoflife.cn/)[8]。此后,国内各领域又针对性地建立了一系列条形码数据库(表1)。

表1 我国DNA 条形码数据库构建代表举例Tab.1 Representative examples of DNA barcode database construction in China

随着第二代生物测序技术的出现,高通量测序技术在传统DNA 条形码研究中应用,DNA 宏条形码技术(DNA metabarcoding)应运而生。相比于传统DNA 条形码技术能综合、快速、有效地分析复杂混合样品和大尺度范围样品,能自动识别多个物种,既降低成本又扩展了该技术的应用范围[9]。然而,DNA 宏条形码技术依然存在一些问题:(1)需要控制测序错误率,提高测序质量。DNA 宏条形码技术的文库构建依托于PCR 扩增产物,测序时易产生碱基不平衡现象,增加数据误差,降低测序质量[10];(2)样品前处理差异和实验过程差别会影响样品DNA的浓度和质量,而DNA 宏条形码技术的实验结果直接取决于DNA 是否完整[11];(3)DNA 片段的选择、对照数据库的规模和精确度与样品的识别准确率直接相关[12];(4)物种间可变引物和模板错配会产生PCR 偏差,可能导致某些物种的漏检或错检,还会影响DNA 宏条形码技术的定量应用[13]。基于以上几个因素,再考虑到实验结果的准确性和实验经济成本、时间成本等问题,采用一代测序技术构建DNA 条形码信息平台更为可行。

相比于传统形态学分类,DNA 条形码技术和宏条形码技术在物种鉴定方面具有不可取代的优势。然而,后两者依然存在一定的局限性。例如:二者在应用中无法区分死亡个体和存活个体,无法直观地判定物种的发育阶段,针对物种生物量和丰度无法开展定量分析,无法获取性比等。因此,不能用两种条形码技术完全替代传统形态学分类,而是在生物信息库的建设过程中要充分结合传统形态标本的观察和DNA 条形码技术的应用构建综合性平台。

我国黄海和渤海拥有丰富的鱼类资源,有记录的鱼类多达三百余种[14]。常见的市场在售和渔业资源调查统计中的鱼类对象也有几十种,表明黄、渤海拥有大量的鱼类生物学信息数据。然而,由于近些年的过度捕捞和环境污染,很多经济鱼类一度出现严重的资源衰退甚至枯竭,有效保护鱼类生物种质资源迫在眉睫,开展黄、渤海鱼类DNA 条形码信息的收集工作势在必行。尽管BOLD 系统、Fish-BOL系统和我国国家海洋水产库已收录了海量的(包括鱼类在内)海洋生物DNA 条形码数据,但是前两个系统主要侧重点在于欧、美和澳等国家的渔业物种信息,缺少对我国特定种类的收录,同时无法体现由我国特定的水域环境和地理位置而造成的物种分化,而后者因涉及的水产和渔业生物种类繁多,具体到鱼类分类的收录内容和记录种偏少,部分鱼类形态图像凭证不清晰,有些缺少条形码记录,凭证信息不全面或存在一些模糊标识。

本课题组以黄、渤海地区常见鱼类[14-17]和DNA条形码数据库资料为基础,搭建黄、渤海鱼类生物的DNA 条形码数据库,为物种鉴定、信息浏览及查询提供网络平台,以期快捷、有效、安全地管理数据和共享信息,完善鱼类流通监管体系,并为黄、渤海鱼类的分类鉴定、种质资源遗传多样性保护和质量安全的相关研究提供借鉴和理论依据。

1 材料与方法

1.1 材料

本研究选取鱼类线粒体COI 基因片段作为DNA 条形码标记。其中,DNA 条形码数据来源于项目组采集的鱼类凭证标本(图1)及其对应的DNA条形码序列。采集标本后,首先进行传统形态学的分类鉴定,然后取背鳍基部肌肉提取DNA 基因组。扩增鱼类样本的线粒体COI 基因序列,通过DNASTAR 软件进行序列比对分析[18]。分析所得数据经实验验证,对应的凭证标本均可追溯。将提交的DNA 序列信息使用NCBI 进行BLAST 比对,判断其是否为污染序列或同源序列,以保证所得DNA条形码序列和物种信息数据真实可靠。还收集了与DNA 条形码对应的样品基本信息、凭证标本采集信息等数据,作为保障DNA 条形码序列真实性的可追溯信息。

图1 部分鱼类凭证标本图Fig.1 Specimen of some fish certificates

另一部分数据从GenBank 数据库中检索收集,根据黄渤海鱼类志等有记录的参考资料,选择基因名称为“COI”、“CO1”、“COX1”的序列。采用BLAST进行数据校正分析、构建系统树检验数据准确性和Barcoding Gap 校验防错等,以保证条形码数据的可靠性。也将一并记录鱼类的分类阶元、拉丁名、条形码序列相关信息等。针对存在同源序列,笔者选取序列长度最长的一条序列作为DNA 条形码使用。

1.2 数据库的设计

本信息平台主要由以下三个数据库组成:DNA条形码数据库、标本数据库和物种文献数据库,三个数据库采用统一的规范格式建立数据,以避免数据形式不统一造成数据存储、共享过程产生障碍。数据库采用SQL server 服务开展存储和检索。其中,物种文献数据库以NCBI Taxonomy 数据库的分类阶元分类为基础,同时借鉴参考《黄渤海鱼类图志》、FishBase(http://fishbase.org/)和国家水产种质资源库(http://zzzy.fishinfo.cn/)等构建而成。每个物种作为一条记录,拥有唯一明确的分类阶元关系,以拉丁名作为唯一标识和主键。物种的英文名、中文名、俗名、同种异名、形态特征、生态习性、地理分布和参考文献等信息也将一并展示。本数据库中,物种的拉丁名和分类地位作为必要信息出现。标本数据库展示课题组所采集样品的详细信息,包括拉丁名、凭证编码、标本保存位置、样品照片、特征描述、提交者以及录入时间等。本数据库以物种拉丁名作为外键,并关联于物种文献数据库的拉丁名。对于在标本数据库中,入库编号、物种的拉丁名作为必要信息。DNA 条形码数据库展示以上两数据库所对应的DNA 条形码,每条DNA 条形码对应唯一的物种信息。该数据库包括物种拉丁名、英文名、中文名、DNA 编码、序列长度、基因位点、物种序列二维码、数据来源等。以物种拉丁名为外键,与物种文献数据库的拉丁名关联。

1.3 共享平台的模块设计

搭建门户网站是国内外实现数据开放和共享的主要方式之一。本系统包括三个模块:(1)数据门户模块(面向用户):在网页门户展示项目进展、数据统计和新闻信息。用户利用搜索框键入关键词后可查询数据库中的物种文献、标本和DNA 条形码序列信息。该模块同样支持通过鱼类物种图鉴浏览物种名录,选择感兴趣的物种,查询对应的信息;(2)物种鉴定模块(面向用户):针对开展了分子测序的样品,分析其测序锋图,根据Q 值检验单个碱基和双向测序序列质量,对比合成该测试样品的线粒体COI 序列片段。将待鉴定序列与数据库进行同源比对,参考比对结果及阈值鉴定物种;(3)管理模块(面向开发者):执行可视化数据平台管理,后台数据查询、导入、增删改、备份和日志维护等功能。

1.4 平台框架的实现

基于CentOS 7.8.2003 x86_64 操作系统构建的服务器服务以上三个模块。为实现数据门户和物种鉴定的两个功能,笔者采用“浏览器+服务器端”的架构。用户通过浏览器访问服务器,检索查询信息和鉴定物种。服务器端以表现层、数据访问层、设计层进行开发(图2)。表现层包括信息检索、物种鉴定和数据统计等功能,利用PHP+sqlite 轻型数据库技术开发网站实现表现层功能;在数据访问层的实现方面,数据门户模块通过SQLdb 连接服务器端的SQL Server 数据库,系统支持内容模型、多语言、自定义表单、筛选、多条件搜索,允许以物种拉丁名、物种学名、物种分类阶元等为关键词查询标准数据集信息;在数据库设计层中放入PHP 空间即可直接使用,可选mysql、pgsql 等数据库,满足各类存储需求。

本研究采用高效、简洁、兼容的模板标签,基于LayUI 的响应式管理后台,满足各类设备随时管理的需要,自主研发的高速多层框架及缓存技术,代码整齐规范,便于二次开发(图2)。基于第三方开源代码PHP QR Code 的编码方式将各种鱼类基于原物种拉丁名和COI 序列进行编码,将构建信息平台所使用的鱼类DNA 条形码提交至二维码生成器,获得各物种二维DNA 条形码图片。

图2 信息平台构建框架Fig.2 The construction framework of the information platform

2 结果与分析

2.1 数据统一规范管理

黄、渤海鱼类DNA 条形码信息平台包括物种文献数据库、标本数据库和DNA 条形码数据库。物种名称和基本信息将这三个数据库紧密联系在一起,建立“物种—标本—DNA 条形码”三者的相互对应关系,达到利用DNA 条形码清晰明确地反映对应鱼类物种信息的目的。本平台数据中,一个鱼类物种可能对应多个样品标本,这是因为同一物种所采样品的形态和年龄存在差异,此外,样品的采样时间和地点亦可能不同。反之,由于遗传信息的高度保守性,同一物种的多个样品有且只有唯一的DNA 条形码。目前,本标准库已收录309 个鱼类物种的900 多条DNA 条形码序列(图3)。

图3 以蓝点马鲛(Scomberpmprus niphonius)为例展示DNA 条形码数据库检索Fig.3 DNA barcode database retrieval is demonstrated taking mackerel Scomberpmprus niphonius as an example

标本数据库含有相对完整的相关采集信息和标本信息,主要分为样品编码、分类阶元、分布范围、采样地、一张或多张样品照片等;物种文献数据库主要介绍该物种的分类地位、别名、同种异名、分布、习性和形态特征等基本要素;DNA 条形码数据库主要涵盖了各种鱼类的COI 基因序列,一部分由笔者采集到的鱼类标本通过实验得到的序列片段,另一部分是由NCBI、BOLD 等数据库收集到且经校验后的序列片段。虽然依靠自身采样测序实验等所获取的数据更加详实可靠,但是在实际操作中,非习见种的采样存在一定的困难和偶然性,所获得的样本数据量较小。因此,参考其他数据库的扩充途径是切实可行且必要,能够有效弥补原有自建数据库数据量不足的短板。

2.2 平台客户端

本平台有两种访问模式,首先是网页访问模式,有黄、渤海鱼类分类信息和DNA 条形码数据使用需求的用户可以访问https://www.fishdna.com.cn/,该网站具有全面的信息查询和检索功能。可分别在三个数据库页面中以鱼类拉丁名即学名检索物种信息,并通过页面链接图标进行数据库切换(图4)。黄渤海鱼类DNA 条形码信息平台数据库每隔2 周更新维护一次。新增加的样品按照各子数据库的内容要求上传标本信息、文献分类信息和对应的DNA条形码序列。

图4 黄、渤海鱼类DNA 条形码数据库构成Fig.4 Composition of DNA barcode database of fish in the Yellow Sea and Bohai Sea

另一种访问模式是通过手机浏览器访问,借助移动终端平台,用户可以更加方便、快捷地进行网页浏览,随时随地查询物种信息,项目成员则可以及时维护平台、上传和更新数据。本平台的数据每3个月备份一次,保障数据避免丢失(图5)。

图5 手机浏览器访问数据库的可视界面Fig.5 Visual interface of mobile browser accessing database

2.3 物种鉴定系统

准确高效地鉴定物种是构建黄、渤海鱼类DNA条形码数据库的高阶目标。需要鉴定物种的用户访问黄、渤海鱼类DNA 条形码数据库平台,选择目标物种(图6),完成数据检索后下载,为保证数据准确性,采用生物学软件进行序列比对和构建系统关系树。通过对比未知物种与目标物种DNA 条形码的相似度,判断二者亲缘关系。

图6 以蓝点马鲛(Scomberpmprus niphonius)为例演示物种鉴定Fig.6 Species identification progress taking mackerel Scomberompurus niphonius as an example

2.4 黄渤海鱼类二维DNA 条形码流通监管体系

黄、渤海鱼类DNA 条形码二维码的建设分为DNA 条形码序列的获得和DNA 条形码信息跨平台转换两部分,包括DNA 提取、PCR 扩增和测序等分子生物学相关实验步骤以及序列拼接和二维码转换等生物信息学步骤,用户可以通过扫描二维码得到物种条形码序列信息(600 bp 左右),将得到的序列与黄渤海鱼类DNA 条形码数据库中对应物种序列进行比对,即可获知该鱼的物种信息(图7),通过以上操作可形成完整的二维DNA 条形码监管体系。

图7 黄、渤海鱼类二维DNA 条形码流通监管体系Fig.7 Two dimensional DNA barcode circulation supervision system of fishes in the Yellow Sea and Bohai Sea

3 讨论

黄、渤海鱼类生物DNA 条形码信息平台的网页内容和平台设置具有较强的阅读性,任何对黄渤海鱼类感兴趣的个人和单位均可通过该网址鉴定和查询黄渤海鱼类。通过用户界面的简单快捷操作,没有专业分类学经验的研究人员也能够完成对黄渤海鱼类的鉴定,充分实现整个鉴定过程的准确、远程、便捷。黄、渤海鱼类生物DNA 条形码信息平台的建立具有重要的理论意义和广泛的应用前景。首先,数据库的不断更新和整合能够对渤海鱼类DNA 条形码进行拾遗补缺,促进鱼类生物学的研究。其次,借助DNA 条形码技术,能够提供准确的物种鉴定,及时发现濒危种、新种和外来种等,助力黄、渤海区域渔业资源和生物多样性的保护[19,20]。在鱼类工厂化繁育和增殖放流过程中,能够保证种质资源的准确性和稳定性,确保增养殖过程和放流过程的顺利开展。最后,在生产生活中,黄、渤海鱼类DNA 条形码信息平台的应用能够规范鱼类制品加工、流通等环节,有效杜绝以次充好和以假乱真等现象[21]。

在通过DNA 条形码鉴定物种的过程中,笔者根据Hebert 等[2]对动物界数万种生物的COI 基因序列比较分析表明,98%的物种种内遗传距离差异为0%~2%[22]。因此,当利用黄、渤海鱼类DNA 条形码数据库进行鉴定时,只有当查询序列与参考序列通过生物学软件比对后发现具有小于或等于2%的遗传差异时,才能够被认定为是同一物种。

黄、渤海鱼类DNA 条形码信息平台的建设也将随着科技信息技术的发展而推进。近几年,大家所熟知的微信、APP 等成为各种信息服务平台开展用户使用交流的平台,信息传播和应用过程中扮演了重要角色,而目前仅有电脑端和手机端两种浏览器访问模式。在今后的研究中,用户通过以上平台与笔者的信息平台建立链接,无论是下载APP、关注公众号或者使用微信小程序,都可以直接通过移动端进行检索。以上服务终端的运营维护,能够加快对平台的宣传,提高网站质量,保证数据共享和信息服务的便捷、准确和稳定,不仅可以推广本研究平台的使用,还能够定期向用户推送物种鉴定相关信息和文献,将新物种、稀有物种、常见经济鱼类等依次面向公众进行科普。为了促进本平台在国内外的数据共享,帮助更多用户实现数据检索和使用,笔者在网页主界面中添加了NCBI 数据库、中国动物主题数据库、世界鱼类数据库和BOLD 等数据库链接框,以便用户参考比对。同时,在后续的网页设计和数据更新中还将设计中英文对照界面或增设网站英文版。

目前,本平台条形码数据仅限于物种的线粒体COI 序列,物种的鉴定方法只支持COI 基因的检索下载。现有研究表明,只依靠单一的条形码基因往往不能准确鉴定区分一些特定物种[23]。针对这一问题,在后续的研究中,本平台将开展多基因条形码鉴定,补充16S rRNA、12S rRNA、D-loop、cyt b 和核基因等作为新的DNA 条形码序列,不断丰富数据类型、充实数据库,进一步提高物种鉴定的准确度,满足不同类型研究的需求。在后期的数据库建设中,需要加大对于黄、渤海不常见鱼类、易忽视类群、形态鉴定极易混淆类群的条形码信息采集力度,增加条形码信息的覆盖度,同时持续性地增加单一种类不同地理群体样本条形码的数量,为进一步发掘黄、渤海鱼类的物种遗传多样性,更深层次地寻找分布规律,更好地开展鱼类生态学、分子系统地理学研究提供数据基础和良好平台。

对于黄、渤海鱼类的生产应用而言,保证种质极为重要,二维码DNA 条形码技术能通过溯源监控物种的真实性,通过DNA 条形码数据库比对和鉴定,确保甄别物种的准确性,避免因不易区分的物种混淆而造成不必要的经济纠纷,保证消费者的切身利益。该数据库也可为水产品养殖公司定制专属鉴定系统,提供企业所经营物种的二维DNA 条形码,对各养殖场和苗种繁育基地进行标示,便于企业统一管理和经营。食品采购商在购买海洋鱼类时,通过扫描水产养殖公司提供的二维码即可了解商品的基本信息(包括产地、生产日期、种类、加工方式等),同时还能够通过DNA 条形码信息辨别真伪,尤其适用于失去形态结构的初加工鱼制品,真正实现“扫一扫,知真假”。同时,还可以实地抽检,以便二次核实。超市、水产品交易市场等可使用二维码对其经营的鱼类冷鲜食品进行归类整理,避免标识错误或地方名、俗名不统一的情况发生。随着生物信息新技术和新方法的诞生和应用,DNA 条形码技术在未来仍将持续发展,成为海洋生态学和海洋生物保护学重点研究内容。本平台的建设将为黄、渤海鱼类理论研究和产业发展提供可靠的信息服务和技术支持。

猜你喜欢
条形码渤海鱼类
渤海大学作品精选
基于MFCC和ResNet的鱼类行为识别
创意条形码
鱼类运动会
渤海竞渡帆高举——记渤海轮渡集团党委书记、总经理于新建
渤海大学剪纸作品选登
从条形码到二维码
有趣的条形码
条形码也有春天
渤海国后裔第一联