王 维,陶青川,沈建军
(四川大学 电子信息学院,四川 成都 610065)
河流、湖泊等场景下的智能视频监控在水质分析监测、水文预报以及捕获异常行为等方面发挥着重要作用。因此,对水陆分割线快速准确的提取,在水质预测、洪涝灾害预警以及水面目标识别等方面具有重要意义[1,2]。
文献[3]提出利用模糊C均值聚类迭代提取水陆交界线,但对于较复杂的水陆场景,实用性不强。文献[4]对水陆交界线的提取受陆地背景干扰影响大,同时对光照较敏感。文献[5]对于规则的水陆分割线提取较准确,但对于较曲折的水陆分割线提取效果欠佳。目前的大多研究是基于传统机器视觉进行水陆分割线的提取,即根据获取水域与陆地之间的特征差异进行图像的分割,对于不同场景需要更新相关的参数设置,适用性较差。
基于图像领域的深度学习方法在水陆分割方面研究较少,主要原因可能是采集样本制作数据集需要耗费大量的人力和成本。融合了传统的图像分割和目标识别任务的图像语义分割是对图像中的每一个像素进行类别的预测,目前已广泛应用于自动驾驶等领域。Long等[6]提出基于像素级分类的全卷积网络(fully convolutional network,FCN)图像语义分割算法,能够解决传统图像分割精度低、抗干扰能力较弱等问题,但原有的FCN网络对图像进行多次缩放导致许多有用信息的缺失。
文中提出一种改进的FCN网络模型对水域图像进行分割,通过融合池化层带来的信息缺失,实现对水域的准确提取,通过分割的结果确定水陆分割线。将所提方法应用于实时在线分割,验证了算法的可行性,为水利智能监控提供新的方法。
由于文中选用的FCN-8s是一种监督学习的经典语义分割网络[7],需要利用标签数据进行训练,生成分类模型,实现对水域的分割。目前针对水域的公开数据较少,因此文中的数据集主要来源于成都河长制办公室、人工拍摄以及采用网络爬虫技术获取不同自然条件下的水域图像。为降低训练所需时间以及硬件资源成本,将采集的所有图片尺寸调整为512×512范围内。采用LabelMe开源工具包进行水域图片的标注,其中“0”代表陆地区域且对应可视化RGB值为(0,0,0),“1”代表水域区域且对应可视化RGB值为(255,255,255)。为保证最终分割效果的准确性,提升网络泛化性能,防止因数据样本过少导致的欠拟合问题,对原图以及标签图进行翻转、拉伸等处理,最终数据集扩充为原来的5倍,其中,随机选取6020张图像作为训练集,1980张图像作为验证集,668张图像作为测试集。样本扩增图如图1所示。
图1 样本扩展
文中水陆分割线提取方法主要基于改进的FCN网络对图像中的水域进行分割,根据分割后的结果进行水陆分割线的提取,算法的具体流程如图2所示。
图2 算法流程
文中所提算法分两部分组成,即网络训练阶段和水陆分割线提取阶段。训练阶段将数据集输入到改进后的网络中,采用随机梯度下降法进行网络学习,并通过微调网络参数进行训练,当网络loss收敛到一定程度时,停止网络训练。水域分割阶段,首先,由部署的摄像头进行含水域图像的采集,通过FFMpeg进行视频流的解码获取RGB图像;其次,利用训练好的网络模型计算得到水域分割结果;最后,对水域分割结果进行边缘提取,通过分割图与原图的映射关系确定最终的水陆分割线。
2.2.1 全卷积网络
由Long等提出的FCN网络,以VGG网络作为目标特征提取的基础,主要由卷积层、反卷积层、池化层以及softmax层组成[8]。其中卷积层通过与输入的水陆图像进行卷积操作,获取不同目标的特征图;池化层是对卷积层所获取的特征图进行降维操作,目的是增大网络学习的感受野、减少模型参数,同时还可以加快训练。通过卷积层和池化层处理后,获取的特征图大小按2的倍数递减。网络底层卷积有利于目标的局部和细节特征的获取,而高层卷积更偏向于语义信息的获取,若直接对第5层特征图进行上采样恢复原图大小,会导致图像中许多有用信息的丢失,因此分割目标精度不高。FCN-8s通过融合底层特征,跨层连接操作来弥补多层池化导致的细节信息的丢失,使最终的预测结果精度更高,同时采用反卷积使预测图与输入图具有相同的分辨率。跨层连接结构如图3所示。
图3 FCN跳跃结构
2.2.2 空洞卷积特征提取
图4 空洞卷积
由FCN-8s网络中采用多个池化层操作来减少模型参数,加快训练的速度,增大感受野,但同时它也导致输入图像信息的丢失且丢失信息无法被还原,因此会制约水域分割精度的提高。若网络中采用空洞卷积进行替代部分池化层,可以降低池化层对图像信息丢失的影响[11]。除此之外,还可维持与原网络相同的感受野大小。空洞卷积如图4所示,其中图4(a)是感受野为3×3的常规卷积,图4(b)是感受野为7×7的空洞卷积,空洞率为2。在卷积核不变的情况下,相比于常规卷积,空洞卷积保留的特征图周围像素信息更丰富,更有利于图像语义分割像素点分类的准确性。
2.2.3 改进的FCN网络
对跨层连接的FCN-8s网络进行微调,采用自己建立的数据集进行网络训练,并将最终的网络模型用于对复杂水陆场景图像进行语义分割,经测试集发现边缘分割效果有所欠缺。原因是FCN的过多的下采样操作导致图像细节有用信息的丢失,而反卷积操作并不能弥补丢失的有用信息,为进一步提升网络的分割精度和效率,改善网络因逐层卷积及池化操作造成的图像有用信息的丢失,分割效果不佳等问题[7],提出一种全卷积网络改进方法,旨在减少网络池化引起的图像缩放次数,使更多细节信息得到有效保留,以实现对水陆图像准确的分割。
与FCN-8s模型相比,文中对原网络的主要改进方案如下:
(1)去除原网络中的pool5,同时将第5阶段卷积层采用空洞卷积进行替代,弥补因删除pool5导致的感受野变小的问题;
(2)将pool1以及pool2的输出特征信息进行融合,通过实验比较发现,只对pool2的输出特征信息进行融合的网络模型分割性能优于同时对前两个池化层进行融入的网络模型。改进的全卷积网络结构如图5所示。
图5 改进FCN结构
通过改进的网络模型结构如图5所示,为了便于后续的实验对比区分,文中将WaterFCN+1作为最终用于水域分隔的网络,即只进行pool2输出信息的融入;将同时融入前两池化层的网络称为WaterFCN+2。去除原网络中的pool5后,在设计的网络模型中输入图像缩小的倍数降为16,该模型在特征学习过程中为后续的预测分类保留了更多的有用图像信息。为使最终的预测结果图与输入图像具有相同的分辨率,对最后融合的特征图进行4倍上采样操作,从而实现对图像中的每个像素点的预测分类。
文中软件实验环境为TensorFlow1.8, cuda9.0, python3.6, Win10, VS2015;硬件实验环境采用GPU显卡为NVIDIA GTX 1080TI,内存8 G,i5-6500处理器,该配置是目前深度学习的主流配置。
3.1.1 评价指标
为了比较网络的性能,采取了图像分割领域中一个衡量图像分割精度的重要指标——平均交并比(MIOU)以及像素准确率(PA)对结果进行网络评估比较[12]。平均交并比计算方法如下
(1)
(2)
其中,Pii表示正确预测的点,Pij表示本身被标记为i类的像素,在经过语义分割网络后,被预测为j类像素,Pji表示本身被标记为j类的像素,在经过语义分割网络后,被预测为i类像素。
3.1.2 数据集对网络性能影响
由于原始图像数据量较小,为提高文中所提网络分割性能,将原图进行翻转、拉伸等操作进行数据集的扩充,并利用扩充后的数据集进行网络的训练、验证以及测试。为了验证扩充数据集对文中所提网络分割性能的影响,文中比较了数据扩充前后的网络分割结果,见表1。
表1 数据扩充前后对比
由表1可知,使用未扩充的数据集进行训练的网络,水域的平均交并比为87.58,像素准确率仅为89.673;而采用图像的拉伸和旋转进行扩充的数据集训练的网络模型,图像的水域的平均交并和像素精度分别提高了0.05和0.067,水域分割性能得到一定的提升。因此,较丰富的数据样本对网络的性能有重要的影响。
3.1.3 分割性能对比实验
采用扩充后的数据集分别对原FCN网络、更改后的WFCN+1以及WFCN+2进行训练,通过训练后的网络模型进行水域图像的语义分割,其中图6(a)是池塘水域测试图像。水域语义分割实验结果如图6所示。
图6 水域分割结果
由图6可知,原FCN网络分割的结果不仅边界分割较粗糙,而且还具有空洞现象。但是WFCN+1不仅边缘信息分割更准确,而且还减少了空洞现象、边缘更加的平滑。WFCN+2分割效果相对于WFCN+1出现了一定程度的过分割现象并且边缘不够平滑,但是较原FCN网络效果更好。实验结果表明去除第五池化层并将第5阶段卷积层采用空洞卷积替代的WFCN+1在水域分割方面的效果更佳。
为了验证文中所提网络的分割性能优越性,采用扩充后的验证集对网络性能进行测试对比,通过计算各方法的平均交并比(MIOU)、水域的像素精度(PA)实现对网络的评估,结果见表2。
表2 网络对比值
由表2可以发现,WaterFCN+1得到的平均交并比以及水域像素识别精度均优于WaterFCN+2和原FCN,充分表明了文中改进的WaterFCN+1综合性能更高,更适合于水利智能监控平台。
为了验证文中所提算法在水陆分割线提取方面的优越性,选用了传统水陆分割线提取算法与文中算法进行对比。首先选取具有代表性的4幅图像且每幅图像都包含水域和陆地,如图7所示。传统的水陆分割线提取方法选用文献[5]中提出的边界分段处理方法、文献[4]中经形态学处理后的边缘提取方法。为了方便后文的描述分别将文献[5]选用的算法设为算法1、文献[4]选用的算法设为算法2以及文中所提算法进行实验对比,水陆分割线提取结果如图7所示。
图7 水陆分割线提取结果
由以上实验效果可知,在背景较简单且规则水陆情况下,3个算法都能实现对水陆分割线的准确提取;但对于水陆交接线曲折变化且水域与陆地颜色相近、水面具有倒影以及光照不均匀等复杂水陆图像,传统的分割方法水域识别率较差,而文中所提的方法能有效实现水陆分割线的提取,相比于传统的方法,能够克服光照、倒影、水陆交接不规则等因素的干扰,稳定性较强,准确率较高,具备一定的工程实用价值。
采集20个不同场景下的200幅水陆图像进行算法的准确性检验,若误差在5个像素以内,则认为算法准确[5]。实验检测统计结果如图8所示,误差在3个像素内的达到90%,误差在5个像素内达到95%,误差在10内达到99%左右。通过统计的结果图表明,文中提出的算法对水陆分割线的提取准确率达到95%以上。
图8 水陆分割线检测结果统计
在实时性测试中,采用文中算法对视频中的水陆分割线进行检测,选取图片大小为512×512,平均处理时间为160 ms,相比于以往的算法,文中的算法实时性更高。
文中提出一种改进FCN的水陆分割线提取算法,利用了构建的河岸场景数据集训练网络模型,克服了光照等不可控因素的干扰,实现了对水陆分割线的快速、准确提取。文中方法不仅能实现对智能视频监控中水位的监测,同时还能辅助实现对河流中水色的提取以及无人舰艇的导航,具有一定的工程应用价值。但文中算法目前因样本量少,对于水域占比小的图像分割精度还待于进一步提高。