胡 圣,刘浩兵,刘 辉,曹桂英,王玉波,胡愈炘,彭 玉,张 晶,陈丽雯,王英才
1.生态环境部长江流域生态环境监督管理局生态环境监测与科学研究中心,湖北 武汉 430010
2.睿克环境科技(中国)有限公司,湖北 武汉 430080
3.南水北调中线干线工程建设管理局河南分局,河南 郑州 450008
浮游藻类是淡水生态系统中的主要初级生产者,对水环境变化敏感,其种类、密度及群落组成与水质状况密切相关[1]。 当前,我国水体富营养化问题严重,水华事件频发,严重破坏了水生态系统的平衡[2]。 浮游藻类监测是水生态监测的重要组成部分,在水华成因分析、机理研究及富营养化湖库监测预警与治理中都发挥着非常重要的作用,是开展水生态系统评价、水环境管理和保护的重要基础[3]。
浮游藻类物种鉴定是一项既复杂又困难的工作,需要在光学显微镜下对浮游藻类的分类学特征进行充分识别,特殊情况下还需要借助其他技术,例如:硅藻鉴定可能需要进行烧片预处理;而对于超微藻类,可能需要通过扩增其DNA 序列进行分子鉴定等。 当前,浮游藻类监测主要依靠专业技术人员在显微镜下进行藻细胞形态鉴定。 浮游藻类形态多样,有单细胞、群体和丝状等多种类型,不同种类又具有不同的细胞特征或群体组成方式,因此,准确进行浮游藻类鉴定需要丰富的浮游藻类分类知识和鉴定经验[4],成为一名合格的浮游藻类检测人员需要经过长期的学习和培训。浮游藻类检测需要检测人员在显微镜下对浮游藻类逐一鉴定并计数,因此,检测过程耗时耗力。 此外,不同实验室和检测人员鉴定能力的差异也可能导致鉴定结果的差异,造成不同来源的浮游藻类监测结果的可比性较差,限制了浮游藻类监测数据在水华和水质管理中的业务化应用。
自动化监测系统能够节省人力、时间、硬件等成本,其技术先进、结果可靠、易于操作,能够显著提高监测效率。 同时,标准化的检测流程和自动化的检测过程也可避免前文所述偏差的出现。 当前,浮游藻类在线监测技术多基于光谱吸收、激发原理或显微图像处理技术进行浮游藻类分类。 例如,国外多将荧光技术或流式细胞仪技术应用于藻类监测[5],然而受限于监测原理的缺陷,无法基于荧光技术对浮游藻类进行属水平的分类学鉴定[6-8]。 国内也有基于图形识别技术的藻类在线监测设备,如藻类分类计数仪。 该类图形识别技术是通过显微图像处理原理进行浮游藻类鉴定,需要运用大量图片进行训练,且图片库的建立需手动完成,故针对多种藻类进行分类的效果并不理想,识别精度有待提高。
上述浮游藻类监测技术的检测结果误差较大,难以在属或者种水平上进行浮游藻类的准确鉴定,远远满足不了水生态监测和评价的需要。因此,迫切需要开发能够快速且准确进行浮游藻类检测的智能监测技术,实现浮游藻类监测工作的标准化和自动化,并应用于浮游藻类常规监测和应急监测,以快速、准确掌握水体中浮游藻类的变化情况,为水生态环境管理和保护提供支撑。
近年来,深度学习技术中的神经网络技术发展迅速[9],在相似场景下的目标追踪、识别和图像分类[10]方面具有广阔的应用前景。 因此,将深度学习技术中的神经网络技术应用于浮游藻类图像识别,并建立高效、准确的浮游藻类智能识别系统成为了可能。 为实现对浮游藻类的自动化监测,需要从进样、拍摄和识别3 个方面进行设计研发。 本研究技术路线:首先,开发浮游藻类自动进样系统,以完成浮游藻类样品自动化进样;其次,开发浮游藻类智能识别系统,进行浮游藻类样品多景深拍摄,并基于深度学习技术建立浮游藻类智能识别模型,实现对浮游藻类的智能鉴定与计数;再次,利用南水北调中线浮游藻类样品开展神经网络模型训练,逐步提升浮游藻类智能识别和计数的准确率;最后,集成开发出浮游藻类智能监测系统,实现对浮游藻类的智能检测。 该系统能够快速、大量且准确地进行浮游藻类样品鉴定,投入实际应用后,可显著节省人力物力,从而提高我国浮游藻类监测的效率。
浮游藻类智能监测系统总体设计思路如图1所示,各主要功能模块如下。
图1 浮游藻类智能监测系统总体设计思路Fig.1 The overall design idea of intelligent identification system for planktonic algae
1)浮游藻类数据集和图谱库
本模块主要由浮游藻类分类信息和图谱数据组成。 使用数据集和图谱库对本研究构建的深度学习模型进行训练,能够提高人工智能识别系统对浮游藻类鉴定和计数的准确性。 本研究首先在南水北调中线总干渠开展了全面的浮游藻类生态调查,掌握了总干渠的浮游藻类群落特征及主要代表性浮游藻类,并在具备国家计量认证资质的专业藻类鉴定人员和藻类分类学家的帮助下,对浮游藻类进行了鉴定,保证浮游藻类物种分类信息准确无误。 在此基础上,建立了总干渠浮游藻类数据集和图谱库,为人工智能识别系统提供基础训练数据集。
2)浮游藻类自动进样系统
为实现自动化进样,本研究针对浮游藻类的样品特征,研发出适用于浮游藻类的全自动进样系统,以实现浮游藻类检测过程的自动化进样及进样管路的自动化清洗,为开展浮游藻类智能监测提供自动进样关键模块。
3)浮游藻类智能识别系统
利用本模块可以实现对浮游藻类样品的自动化拍摄和鉴定。 通过对现有显微镜及自动化平台进行改造和集成开发,实现在显微镜下对浮游藻类样品的自动聚焦、分层观测及自动成像。 在此基础上,本研究开发并优化了适用于浮游藻类鉴定的深度学习识别算法和模型,利用30 000 余张典型浮游藻类标识图谱进行神经网络模型训练,以提高浮游藻类智能识别系统的学习能力和识别能力,并通过反复训练提升浮游藻类鉴定和计数的准确率。
4)浮游藻类智能监测系统
本模块的主要功能是控制上述各个模块的数据传输和操作。 通过研发保障智能监测设备有效运行所需的控制系统与数据传输系统,并与自动进样系统和智能识别系统有机融合,集成开发出浮游藻类智能监测系统。 该设备具备自动进样、自动聚焦、自动识别、自动计数等功能,能够实现对浮游藻类的自动检测。
浮游藻类自动进样系统由毛细管、蠕动泵、三通电磁阀和电机平台等组成。 本研究使用蠕动泵和三通电磁阀来控制自动进样系统。 系统中的毛细管夹芯包含3 路毛细管,每路毛细管均可实现自动进样和自动清洗,可自动或手动切换样品检测状态和管道清洗状态。 浮游藻类自动进样系统整体设计思路如图2 所示。 液体在毛细管内的移动由蠕动泵和三通电磁阀控制,蠕动泵可控制管道中液体或空气的流速,三通电磁阀则用于选择是将液体还是空气泵入毛细管。 进样系统还具有自动切换功能,使进样口能够在3 种采样液和冲洗液之间切换。
图2 浮游藻类自动进样系统总体设计思路Fig.2 The overall design idea of automated flow-injection apparatus for planktonic algae sample
浮游藻类智能识别系统由XYZ轴控制器、显微镜和控制系统等多个组件组成。 通过对显微镜的自动化改造,该系统可实现对不同景深、多焦平面的快速自动对焦,并且能够在高倍镜下完成对各焦平面的连续自动扫描和摄影。 最后,由自主编写的GUI 处理软件整合不同焦平面的摄影图片,生成待观测样本的清晰影像。该系统采用磁浮直线电机平台,通过IP 和端口号实现对显微镜的自动化控制,确保显微镜平台自动出片、进片及归位。 通过调整X、Y、Z轴步距,自动控制载物台的移动(图3)。 在计算软件和框架方面,可通过自主编写的GUI 软件设置图像采集装置的分辨率及图片格式,自动存储摄影图片和识别出的浮游藻类种类及计数信息,并可实现对存储结果的查阅功能。 同时,该智能识别系统采用深度学习框架,具备智能学习和升级拓展功能。
图3 浮游藻类智能识别系统部件Fig.3 The components of intelligent identification system for planktonic algae
浮游藻类智能识别和计数软件是本系统的重要组成部分。 该部分需满足硬件、软件和可视化界面3 个方面的保障要求,如图4 所示。
图4 浮游藻类智能识别系统软件开发调试环境Fig.4 The development and debugging environment of intelligent identification software for planktonic algae
硬件环境方面,为满足深度学习模型的训练要求,需要配置性能优秀的显卡、CPU、内存和硬盘等。 软件环境方面, 必需的软件包括CUDA[11]、 cuDNN[12]、 OpenCV[13]、 Keras[14]和TensorFlow[14]等。 在配置好硬件和软件环境后,基于Windows 操作系统建立稳定的深度学习框架,然后开展深度学习模型训练。
在计算机视觉领域,浮游藻类图像识别目前主要有机器学习和深度学习两种方法。 就机器学习而言,研究人员需要提取浮游藻类图像的特征量,即从输入图像中准确提取藻类信息转换器,然后基于机器学习技术来实现对特征量的学习和判定,找到浮游藻类识别规律和判定模式。 但在上述过程中,将浮游藻类图像转换为特征量需依靠人工设置,存在一定的主观性,且特征量的定义和提取难度较大,难以实现对浮游藻类分类特征的全面覆盖和精确定量。 神经网络是深度学习中的一种端到端(End-to-End)的学习方法,可以直接学习图像本身,以及图像中包含的特征量。 这种方法能够从原始数据中直接获取目标结果,最大限度地防止人为介入,降低主观性带来的误差。本研究采用端到端的深度学习方法,对通过显微镜拍摄的浮游藻类照片直接进行鉴定和计数,不仅消除了机器学习法引入的主观性误差,而且具有实时性等特点。 采用基于深度学习的目标检测算法实现对浮游藻类图像的识别和计数,将单阶段[15]实时物体检测算法YOLOv3 作为浮游藻类识别算法[16]。 在保持YOLOv3 快速检测特点的前提下,将特征金字塔网络(FPN)引入框架,使模型性能较其他算法有所提升[17]。 采用迁移学习进 行 模 型 训 练[18-19], 使 用 Common Objects in Context(COCO)数据集作为基准数据集[20]。 整个算法框架如图5 所示。
图5 COCO 数据集训练模型示意图Fig.5 The diagram for training model based on COCO dataset
在进行模型训练前,首先准备用于训练的数据集(含有浮游藻类的图片),然后由藻类鉴定专家在GUI 软件中使用方框进行标识,标注出所有出现的待识别藻类的种类及位置信息。 获得训练数据集后,进一步开展神经网络模型训练,主要步骤包括:
1)将浮游藻类数据集分为训练集和验证集,训练集用于模型训练,验证集用于训练完成后的模型准确度检验;
2)基于Keras 深度学习库构建神经网络鉴定模型、YOLOv3 输出层及YOLOv3 损失函数;
3)获取基于COCO 数据集经预训练得到的模型权重文件;
4) 生成适合数据集的多尺度滑动窗口(Anchor Box);
5)读取训练集浮游藻类图片和标注文件,解析标注文件,调用预训练权重数据进行迁移学习,计算模型在训练集和验证集上的损失并进行迭代训练;
6)对训练过程中的损失函数值进行可视化,根据可视化结果调整训练模型参数,进行模型优化;
7)保存最优模型权重值并进行模型验证测试,根据测试结果调整浮游藻类数据集,对模型开展进一步优化训练。
在进行神经网络模型训练和验证的同时,本研究基于PyQt5 实现GUI 界面编程[21],用于Windows 上GUI 界面软件的开发,从而实现直观的人机交互操作。 通过GUI 软件直接与显微镜扫描系统通信,读取扫描后的浮游藻类图片,调用训练好的深度神经网络模型进行浮游藻类检测鉴定,并将结果显示在软件界面上。 该GUI 界面还嵌入了显微镜操作软件,用户仅通过一个软件即可完成显微镜平台控制、显微图像扫描、图片获取、浮游藻类识别结果显示、浮游藻类数量统计结果显示、检测结果存储等功能。 同时,该软件与模型数据库连接,可以直接存储和读取信息,便于后续检索、分析和对比等。
浮游藻类智能监测系统主要由浮游藻类自动进样系统、数字显微影像扫描系统和浮游藻类智能识别软件构成,总体如图6 所示。
图6 浮游藻类智能监测系统集成Fig.6 The mechanical structure of intelligent identification system for planktonic algal
浮游藻类智能监测系统总体运行步骤如图7所示。 首先,通过自动进样系统完成待测样品自动化进样和载入,通过计算机图形界面完成显微镜平台初始化,并将镜头移动到第一个视野。 其次,通过载物台Z轴的自动移动,实现对多个焦平面浮游藻类样品的显微摄影,并获取图像信息。然后,通过图像处理软件对获取的图像进行优化和合并,输出合并后的图像供识别软件识别计数。完成全过程后,通过数字显微影像扫描系统自动控制载物台X轴和Y轴移动到下一个视野,重复以上Z轴移动—多焦平面图像拍摄—图像处理和识别等检测分析过程,直至所有视野计数完毕。最后,通过识别软件自动进行不同浮游藻类的分类统计和密度计算。
图7 浮游藻类智能监测系统运行步骤示意图Fig.7 The schematic operating procedures of intelligent identification system for planktonic algal
使用30 000 余张浮游藻类图片对该智能监测系统进行训练。 相关图片涵盖了硅藻门(Bacillariophyta)、甲藻门(Pyorophyta)、金藻门(Chrysophyta)、 蓝 藻 门(Cyanophyta)、 裸 藻 门(Euglenophyta)和绿藻门(Chlorophyta)等共计6门43 属,平均每个属包含约800 张各类形态和角度的图片。 使用藻类智能监测系统对实际样品进行检测,结果显示:各样品的平均检测时长低于20 min;适宜的浓度检测范围为5×105~2×107个/L,此范围之外的浮游藻类样品需适当稀释或者浓缩。 分别使用汉江水华样品和南水北调中线样品对该系统的检测结果进行验证。
2021 年1 月底,汉江中下游发生水华。 研究人员在汉江中下游宜城断面、仙桃断面1、仙桃断面2、兴隆断面采集了水华藻类样品,用于浮游藻类智能监测系统的藻类分类与计数能力验证。 首先,使用传统人工显微镜检测法对样品进行浮游藻类定量检测,重复3 次,统计各样品3 次重复镜检的平均密度。 然后,使用浮游藻类智能监测系统对样品进行鉴定计数,重复3 次,统计平均密度。 结果如表1 所示。
表1 人工镜检与智能检测结果对比Table 1 Comparison of results from manual identification and machine identification
比对结果显示,人工镜检与智能检测的误差范围为5.41%~16.92%,平均为11.04%,整体误差较小。 此外,本次汉江浮游藻类样品涵盖了隐藻门、蓝藻门和绿藻门等各种浮游藻类常见门类,人工镜检的总密度为0.76×107~3.11×107个/L。根据《水华遥感与地面监测评价技术规范(试行)》(HJ 1098—2020),此范围属于轻度水华水平。 上述结果说明,该浮游藻类智能监测系统已经初步具备了对各类群浮游藻类和水华暴发样品的检测能力。 另外,该浮游藻类智能监测系统的数据库数据来源于南水北调中线总干渠浮游藻类样品,检测前未使用汉江样本进行训练,但测试结果显示,该模型对汉江水样的检测误差较小,说明其具有良好的泛化能力。
在总量计数的基础上,为进一步验证该系统的识别准确率和精度,本研究使用南水北调中线沙河南、张村分水口、应河倒虹吸入口、淇河倒虹吸入口、新蟒河倒虹吸入口5 个采样点的浮游藻类样品进行系统的验证测试。
研究人员首先通过人工镜检对每个样点的小环藻(Cyclotella)、脆杆藻(Fragilaria)、针杆藻(Synedra)、 舟 形 藻 (Navicula)、 桥 湾 藻(Cymbella)、 曲 壳 藻 (Achnanthes)、 栅 藻(Scenedesmus)开展计数,并计算各个样点的浮游藻类密度;然后使用本研究开发的浮游藻类智能监测系统重复测定上述指标。 两种方法的检测结果如图8 所示。
图8 不同水样的浮游藻类人工镜检结果与智能监测系统自动识别结果对比Fig.8 Comparison of planktonic algal identification result based on microscope and intelligent identification system in different water sample
检测结果显示,本研究开发的浮游藻类智能监测系统在部分浮游藻类的鉴定和计数上与专业检测人员人工镜检的结果基本一致,例如小环藻、脆杆藻、曲壳藻和栅藻。 使用秩和检验比较上述4 种藻类的智能监测系统检测结果和人工镜检检测结果,其P值依次为0.21、0.83、0.21、1.00,均大于0.05,说明两种方法对4 种浮游藻类的检测结果差异不显著,证明该系统具备有效的浮游藻类识别和计数功能。
智能监测系统自动识别并鉴定出的针杆藻、舟形藻和桥湾藻的数量均超过了人工镜检结果。使用秩和检验比较上述3 种藻类的智能监测系统检测结果和人工镜检检测结果,P值依次为0.01、0.01、0.04,均小于0.05。 主要原因可能是样品中上述浮游藻类的密度较低,占比较小,偶然性误差的影响较大。
浮游藻类总密度的验证结果中,秩和检验P值为0.53,差异不显著,说明该系统具备有效的浮游藻类总密度检测能力。 但人工镜检检出了更多的浮游藻类,主要是因为目前该系统中用于模型训练的浮游藻类物种数量还比较有限。 在后续研究中,通过扩充浮游藻类数据集,提升神经网络模型训练水平,可进一步增加智能识别系统有效鉴定的浮游藻类种类,有效改善浮游藻类密度检测结果。
得益于自动化进样系统和自动识别模块,该系统可快速对大批量浮游藻类样品进行鉴定和计数,实现对常规浮游藻类样品的实时智能检测。在处理大批量样品时,该系统的鉴定计数时间远低于人工镜检法。 这种大批量、高效率的鉴定计数优势是传统人工镜检法所无法比拟的。
上述两部分的验证结果表明,该浮游藻类智能监测系统能够高效且准确地鉴定浮游藻类样品。 为进一步评估该浮游藻类智能监测系统在属水平上的鉴定准确率,使用30 个南水北调样品进行测试。 本次测试保证每个属的个体数量均在1 000 个以上,共测试了6 门37 属,测试结果如图9 所示。
图9 浮游藻类智能监测系统对不同属的自动识别准确率Fig.9 The identification accuracy based on intelligent identification system for planktonic algal of different genus
该系统对硅藻门各属(桥弯藻属、针杆藻属、曲壳藻属、舟形藻属、直链藻属、小环藻属、菱形藻属、脆杆藻属、等片藻属、卵形藻属、异极藻属、窗纹藻属、布纹藻属)的平均识别准确率为89%,甲藻门(角甲藻属、多甲藻属)为91%,金藻门(锥囊藻属、黄群藻属)为93%,蓝藻门(伪鱼腥藻属、颤藻属、束丝藻属、鱼腥藻属、平裂藻属)为82%,裸藻门(囊裸藻属、裸藻属)为94%,绿藻门(盘星藻属、栅藻属、转板藻属、卵囊藻属、角星鼓藻属、新月藻属、鼓藻属、空星藻属、纤维藻属、空球藻属、水绵属、丝藻属、十字藻属)为84%。 整体而言,该浮游藻类智能监测系统对所有属的平均识别准确率为87%,中位数为90%。
上述结果表明,该浮游藻类智能监测系统能够在属水平上对绝大多数浮游藻类进行准确鉴定,但对部分浮游藻类的鉴定准确率相对偏低,如绿藻门水绵属、十字藻属等。 其原因可能是南水北调中线样品中,这两个属的浮游藻类较少见,模型图谱库中用于学习相关属的特征量的图片标本较少。
复杂的浮游藻类鉴定分析过程加大了培养浮游藻类检测人员和开展浮游藻类检测工作的难度,成为制约浮游藻类监测及相关水生态调查监测工作的主要因素。 本研究开发的浮游藻类智能监测系统能够顺利完成浮游藻类样品自动化进样、拍摄、鉴定和识别等一系列操作,其计数结果与专业鉴定人员采用显微镜检测法得到的计数结果的误差较小。 与同类型仪器设备相比,基于荧光传感方法的藻类荧光在线监测仪不能进行属水平上的浮游藻类分类鉴定,而本研究开发的智能监测系统能够较为准确地完成鉴定[5];基于显微图像处理方法的藻类识别技术的识别准确率只有70%[22],而本研究开发的智能监测系统的平均识别准确率达到了87%;基于流式细胞仪技术的浮游藻类在线监测设备尽管具有较好的实用性,但不太适用于组成复杂的浮游藻类样品[23],而本研究开发的智能监测系统能够有效识别各类藻类,适用于组成复杂的藻类样品。 综上所述,本研究开发的智能监测系统比同类仪器具有更好的浮游藻类监测能力。 验证结果说明,该系统具备有效的浮游藻类总密度检测能力,在属水平上的检测准确率高,而且具有较强的泛化能力。
同时,该浮游藻类智能监测系统目前也还存在着一定的局限性,需要采集更多的浮游藻类样品以扩充用于深度学习训练的图谱库,对深度学习模型的训练和优化也需要逐步完成。 因此,当前该系统的识别精确度受到了一定程度的限制。由于浮游藻类智能监测系统具有较强的学习和泛化能力,随着后续图谱库得到进一步的扩充,其对浮游藻类的鉴定准确率将进一步升高,检测误差也将进一步缩小。
本研究将深度学习技术运用于浮游藻类图像识别,建立了高效准确的浮游藻类智能监测系统。与传统的显微镜检测法相比,本研究提出的浮游藻类智能监测系统不仅能够快速、高效、高通量地对浮游藻类进行智能鉴定并计数,显著提升浮游藻类监测工作的效率,而且可以降低研究人员个人经验和“师承派别”对浮游藻类检测工作的影响,提升浮游藻类监测工作的规范化和标准化水平。 深度学习框架不仅保证了鉴定结果和计数结果的准确性,而且具有良好的可拓展性。 后续,需进一步完善该系统,使用更多的浮游藻类数据对深度学习框架进行训练,进一步提升浮游藻类群落鉴定和计数的准确率,从而实现对南水北调中线浮游藻类的实时在线监控,也为实现浮游藻类监测工作的标准化和普及化、及时掌握重要水体藻类群落的动态特征、准确分析水环境质量的演变趋势奠定基础,为我国的水生态环境管理和保护工作提供支撑。