何书锋 孙钿奇 王 诏 杨洪山
1(中国地质调查局青岛海洋地质研究所 山东 青岛 266071)2(星环信息科技(上海)有限公司 上海 200233)
随着经济发展,人口数量增加,陆地可用资源减少,人类对资源的开发从陆地领域转移到海洋领域。在这种情况下,海洋研究受到很大重视。海洋领域开发活动中最基础的任务是海底地形测量,目的是测量海洋深度及绘制精确的海底地形图。在如今的海洋测绘中,多波束测深系统[1-3]已经成为最主要的海洋测量设备,覆盖面广、精度高、取样密集是其测量数据的主要特征[4]。然而,与陆地测量相比,海洋测量仍存在许多不稳定因素,例如机器噪声、人为因素、海况环境等[5],因此不可避免地存在数据异常值。同时海洋测量还存在动态效应,海水阻隔是其主要原因之一。除大气影响海洋测量外,海洋测量还受到海水运动、海水流速、海水的物理性质等与实际海底不一致等的影响,可能给舰船航行带来危险。
此外,衡量设备性能最基本和最重要的问题是设计原则是否先进,但不同制造商有不同的设计原则,这涉及获得数据可靠性、精度分辨率和信号处理等诸多方面。多波束系统是由单波束回声测深仪采用幅度检测原理进行开发的,因其幅度较强,且横向波束相对容易检测,因此可以很容易地检测中间波束。但由于信号散射变弱,对应的检测结果也会较差。对此,以相位检测相干声呐为设计原理的多光束系统可弥补这方面的不足。虽然中间光束之间的相位差较小会导致难以检测,但是侧面光束之间的相位差较大,因此可以进行高精度检测,以提高设备精度。根据这两个设计思想,不同的制造商已经开发并生产了自己的多光束系统。但是,随着科学技术的发展,大多数制造商不再应用单一的设计思想,而是同时使用幅度检测(中间光束)和相位检测(横向光束)设计概念。
多波束测量数据预处理的目的是实现海量多波束海底地形数据以及各种空间和属性数据的输入、处理、管理和可视化输出。多波束数据预处理中的各子模块有:数据格式转换与读取模块,声速剖面处理模块,定位数据处理模块和姿态数据处理模块,如图1所示。
图1 多波束数据预处理结构图
任何设备的开发都应考虑到进行特定测量的目的、水深范围、精度和分辨率等因素。多波束测深系统使用安装在水中的转换器传输扇形束以接收在海底反射的回波信号,进而根据水中声波的传播特性测量水深。换能器的发射和接收包括垂直于方向的发射阵列和接收阵列。发射阵列平行于船的纵向方向,扇形脉冲声波在正下方的两侧对称地传输,并且接收阵列沿船的横向方向排列。在垂直于母船航向的方向上,通过波束形成技术在若干个预成波束角方向上形成若干个波束,根据各角度声波到达的时间或相位就可以分别测量出与每个波束对应点的水深值。多波束系统是一种大型组合设备,它的基本组成如图2所示。以工作站为代表的数据处理系统集成了声波测量、定位、船舶姿态、声速剖面和潮汐水平信息几部分,可以计算波束足迹的坐标和深度然后绘制海底平面或三维地图,最后用于海底勘探。
图2 多波束系统基本组成
对多波束测深数据进行异常检测的通用方法有三种,分别为鲁棒M估计方法[6]、中值滤波方法[7-8]和趋势面滤波方法[9-10]。鲁棒M估计方法的一些参数十分敏感,例如权重函数参数、初始值参数等。如果参数选择适当,检测效果比趋势面滤波方法强,但该方法计算量很大,适用于复杂地形的检测。中值滤波方法对脉冲异常效用极佳,但对小的离群值无效。趋势面滤波方法的计算简单,适用于检测和消除平坦地形中的异常值。在实际应用中,由于多波束测深数据量大,通常会选择趋势面滤波作为简单可行的异常检测和消除方法。但是,由于探测数据点包含离群值,因此通过常规曲面拟合获得的趋势面通常包含少量异常数据点信息,在偏离了实际地形的同时影响了异常检测的效果,所以需要一种更好的方法进行检测。本文方法可以有效解决这些问题,在检测精度提高的同时,还能检测出离群值中的异常数据点。
本文提出一种新的异常检测方法——深度支持向量[11-14]检测方法(Support Vector Data Description,SVDD),这是一种基于深度学习的多波束海底数据异常检测方法,如图3所示。该方法在检测出更多异常值的同时,减少了误判和漏判的个数,提高了检测精度。
图3 深度支持向量模型图
深度学习[15-16]作为机器学习的新发展方向,它可以利用具有多个处理层的模型架构来学习输入数据间的高阶隐含特征。本文将利用深度学习的方法分类为“混合”和“完全深度”两种。混合方法表示在先前的步骤中进行单独学习,然后再将这些表示馈入OC-SVM等的数据表示。多个抽象级别允许以非常紧凑和分布式的形式表示功能丰富的空间。深度(多层)神经网络特别适合于学习本质上分层的数据表示,例如图像或传统的(浅)异常检测方法。相反,完全深度的方法直接将表示学习目标用于检测异常。借助支持向量机引入了一种新颖的、有多层神经网络的无监督异常检测方法。SVDD通过训练神经网络以使网络输出适合最小体积的超球面来学习提取数据分布变化的公共因素。相比之下,几乎所有现有的深度异常检测方法都依赖于重构错误,这些方法或是混合方法仅用于学习表示,或是直接用于表示学习和检测。
自编码器的学习目标为通过最小化重构误差来获得原始数据在低维空间上的特征表征。在异常检测任务中,自编码器能够从正常样本中学习到共性的低维表征并且可以通过解码器准确地重构数据,但是对于异常的数据由于其缺乏共性特征,所以在编码和解码的过程中会存在较大的重构误差。因此将自编码器学习到的低维表征与经典方法相结合能够有效提升现有异常检测任务的准确度[17-19]。此外,在一些端到端的深度网络模型中,可以直接将重构误差的数值作为异常检测任务的衡量指标。用于异常检测的自编码器主要有四大类:变分自动编码器,稀疏自动编码器,去噪自动编码器,深卷积自动编码器,其中最后一个变体主要用于带有图像或视频的异常检测应用中的数据。
自动编码器具有降维的目的,并且不直接针对异常检测。在选择合适的压缩度(即降维)时,给出了将自动编码器用于异常检测的主要困难。如果没有压缩,则自动编码器将仅学习标识函数。在信息减少到单个值的另一种边缘情况下,平均值将是最佳解决方案,即数据表示的“紧凑性”是一个模型的超参数,由于具备不受监督的性质和数据的固有维数通常难以估计,因此难以选择正确的平衡。相比之下,本文通过最小化封装数据的超球面的体积,将表示的紧凑性纳入本次的深度异常检测的目标中,从而直接定位异常点。除了自动编码器,Schlegl等[20]提出了一种基于生成对抗网络(GAN)的新型深度异常方法,称为AnoGAN。在这种方法中,首先根据训练数据训练GAN以生成样本,给定一个测试点,AnoGAN会尝试在生成器的潜在空间中找到一个点,以生成最接近所考虑的测试输入的样本。直观地讲,根据训练数据训练GAN得到样本后,正常样本(即来自分布的样本)应该在潜在空间中具有良好的表示能力,而异常样本则不会。为了找到潜在空间中的点,Schlegl等[20]提出的方法在潜在空间中执行梯度下降,以使生成器的学习权重保持稳定。最后,AnoGAN还通过重构错误定义异常分数。与自动编码器类似,这种生成方法的主要困难在于如何规范生成器的紧凑性。
使用SVDD时,通过找到最小尺寸的数据封装超球面,在基于内核的SVDD和最小体积估计的基础上进行构建。借助SVDD可以学习数据的有用特征表示以及进行单类分类时的目标,为此,本文采用了经过联合训练的神经网络,可以将数据映射到最小体积的超球面中。
(1)
式中:v∈(0,1]为模型的超参数;R为半径。
与内核SVDD中一样,最小化R2可以最小化超球面的体积。优化式(1)中的第二项是通过网络后位于球体外部的点的惩罚项,最后一项是超参数λ>0的网络参数W的权重衰减调节器,其中‖·‖F表示Frobenius范数。优化式(1)使网络学习参数W,以使数据点紧密映射到超球面的中心c。为此,网络必须提取数据变化的共同因素。结果是数据的正常示例都紧密映射到中心c,而反常的示例则被映射为远离超球面的中心或超球面之外。
对于假设大多数训练数据Dn正常的情况,这通常是在单类分类任务中的情况,本文提出一个额外的简化目标,将单类深度SVDD目标函数定义为:
(2)
式(2)中第二项还是具有超参数λ>0的网络权重衰减正则化器,也可以认为单类深度SVDD是寻找一个以超球以c为中心的体积最小的超球面。但与软边界不同,通过直接惩罚半径和落在球体之外的数据表示来收缩超球体,SVDD通过最小化所有数据表示到中心的平均距离来缩小球面。同样,为了将数据(平均)映射到尽可能靠近中心c的位置,神经网络必须提取变化的公共因子。惩罚所有数据点上的平均距离而不是允许某些点落在超球面之外符合以下假设:大多数训练数据来自一类。给定一个测试点x∈X,本文可以通过点到超球面中心的距离来定义SVDD的两个变体的异常得分:
s(x) =‖φ(x;w*)-c‖2
(3)
式中:w*是训练模型的网络参数。
本文使用随机梯度下降(SGD)及其变体(例如Adam)和反向传播来优化两个SVDD目标中的神经网络参数W,进行训练直到损失收敛到局部最小值。使用SGD可使SVDD在大型数据集上很好地扩展,因为它的计算复杂度在训练批次的数量上呈线性增长,而不是指数增长,复杂度不会大到难于训练,并且每个批次都可以并行处理来提升训练速度(例如使用GPU进行并行处理)。SGD优化还可实现迭代或在线学习,例如一边用最新的数据一边训练优化。由于网络参数W和半径R通常在不同的尺度上,因此使用一种常见的SGD学习速率可能不足以优化软边界,会出现优化时损失一直不能下降的情况。相反,本文采用交替最小化/块坐标下降法交替优化网络参数W和半径R,即在半径R固定的情况下训练了k个周期的网络参数W;接着在每个第k个周期之后,使用最新更新的网络参数W,根据网络的数据表示来求解半径R,再通过行搜索可以轻松解决R。采用该方法的优点在于可进一步提高优化边界速率。
多波束测深系统提供的信息非常丰富,具体内容如下:1) 测量水深的基本信息:波束号,经度,纬度,水深值;2) 测量船舶位置信息:倾斜度,吃水,航向,速度;3) 中心梁信息:中心梁北坐标,中心梁东坐标,侧向距离,航向距离;4) 其他时间信息:行进时间以及角度。具体数据如表1所示。此处的水深数据是经过实时处理的水深值,例如滚动、倾斜、吃水、声波校正等,指示每个检测光束的特定位置。本文算法处理的数据是其中三种:经度、纬度和水深值。
表1 数据字段汇总表
3.2.1基于改进GA的异常值检测算法[21-24]
基于改进GA的异常值检测算法主要思想如下:1) 在生成初始种群之前,将调查区域划分为多个子空间,以确保每个空间的水深数据能够不断变化。2) 在实际工作中,有必要先确定选择规则,再采用一种基于染色体适应度大小排序的选择算子。
3.2.2截断最小二乘估计异常值检测算法[25-26]
截断最小二乘估计是一种具有高崩溃点的稳健估计方法,估计方法的崩溃点值越高,说明可以接受的异常值越多,表明其鲁棒性越好。这个方法的目标函数为使升序排列在前半部分的残差平方和取最小时的估计值,并不是所有数据点的残差平方和取最小时的估计值,因此截断最小二乘估计的崩溃点高达50%,说明数据集中异常值的数量可占总数据的一半,证明它极为健壮。当数据点集中偏离实际值较大的数据点时,该方法能够有效防止数据点中异常值参与参数估计的计算,从而获得准确的参数估计值。实际地形数据统计结果显示,异常深度数据点不到总数据的一半,而由于地形的复杂度造成的异常深度数据点的比例不到十分之一,完全满足此估计方法的适用条件,但该方法的缺点在于网络复杂,训练的时间较长。
将基于改进GA的异常值检测算法(方法1)、截断最小二乘估计异常值检测算法(方法2)和本文方法进行对比分析,实验结果如表2所示。实验的预置值包括:测试数据的总个数(总个数)、总个数中离散的个数(其中的离散点数)、总个数中的异常点的个数(异常点数);实测值包括不是异常点判成了异常点(误判个数)、是异常点但判成了正常点(判漏个数)、正确判对的数量(总判对个数)、总判对个数中正常点判成了正常点(判对的正常点数)、总判对个数中异常点判成了异常点(判对的异常点数)、总判对个数中的离散点数和精度。从实验结果可得出本文方法优于方法1和方法2,主要体现在:在总个数和异常点个数不变的情况下,基于本文方法计算得出的误判个数和漏判个数少于方法1和方法2,总判对个数多于方法1和方法2,其中正确检测出来的正常点数、正确检测的异常点数和正确检测出来的离散点数都高于其他两种方法。
表2 方法对比实验结果
本文提出基于深度学习的多波束海底地质数据检测方法,设计应用深度支持向量检测方法对异常数据进行检测。在海底地形数据下进行了实验对比分析,结果表明本文方法显著优于基于改进GA的异常值检测算法和截断最小二乘估计异常值检测算法,并且对离散点识别的正确样本数也显著高于两种对比方法。此外,本文方法在维持较高召回率的同时,在准确率方面平均比对比方法提升了1百分点左右。实验结果表明了本文方法的有效性,同时其为海洋地质数据分类提供可靠的算法支撑,减少了误判和漏判的情况,提高了检测精度。