钟纯怿,张俊波,2,杨振昊,季舒恒,万荣,2,3*
( 1.上海海洋大学 海洋科学学院,上海 201306;2.国家远洋渔业工程技术研究中心,上海 201306;3.国家远洋渔业工程技术研究中心舟山分中心,浙江 舟山 316014)
在我国渔业现代化进程不断加快,渔业科技迅猛发展的形势下,渔业装备已广泛应用于捕捞与养殖业[1]。长期在水中作业的渔业装备,常被营固着生活的水生动植物附着,如藤壶类、附着型贝类、藻类等。这些水生生物的分泌物以及死后的残留物对渔业装备性能产生较大的负面影响[2-5]。水体流速是影响固着型水生生物能否成功附着在渔业装备上的重要环境因素,例如,流速的变化会改变藻类新陈代谢过程,制约藤壶类与附着型贝类幼虫大面积扩散[2,6-7]。声学多普勒流速仪(Acoustic Doppler Velocimetry,ADV)是测量水流速度的主要仪器[8],根据声学多普勒移频效应原理,利用超声波探测水流速度,实现流体三维的瞬时速度、湍流特性和功率谱密度[9]测量,被广泛应用于野外和实验室水动力学实验中。相关系数和信噪比是影响ADV测量准确度的重要参数[10]。野外监测中常遇到水体产生浪花与气泡(例如,海浪、池塘水体中增氧器的使用)、水底表层出现再悬浮颗粒物(例如,在近海水动力环境紊乱区及生物扰动、人类活动的影响)等情况,会影响ADV测量的相关系数,降低信噪比,导致监测的流速数据中出现大量野点[11-12],即产生与真实值差异较大的值。因此,进行多普勒流速仪数据后置处理,对提高流速数据准确度有着重要的意义。
目前,国内外用于多普勒流速仪后置处理的算法主要有小波阈值法[13]、稳健估算法[14]、三维相空间法[11]等。其中稳健估算法和三维相空间法是数据后置处理算法中最重要的两个方法[15]。稳健估算法通过估算定位值和尺度估算值标准化样本数据,对比所设定的最小通过值进行野点检测;三维相空间法则是基于样本平均值和标准偏差,采用迭代计算模式检测野点[11]。然而,目前关于定量化评估两种算法检测效果的研究还尚未见报道。
本文以ADV实测流速数据为例,基于稳健估算法与三维相空间法进行数据后置处理,对比分析两种方法的峰度系数与偏斜系数,评估检测效果,以期为准确定量研究水流对渔业装备附着生物的附着量与种类影响等内容提供准确的流速数据。
本研究使用的流速数据来自于上海市宝山区中华绒螯蟹养殖池塘(以下简称蟹塘),蟹塘内设有微孔充氧系统,间隔5 m均匀分布于塘底,由于曝气而出现气泡以及引起塘底颗粒物再悬浮,会对多普勒流速仪产生干扰,导致研究塘内渔业装备生物附着的流速测量不准确。池塘面积为15 480 m2,长为180 m,宽为86 m,水深范围为1~1.5 m。流速监测站点A(图1)位于蟹塘右下方,距最近岸边距离10 m,附近设有1个微孔充氧器。流速监测设备为声学多普勒流速仪(VECTOR,NORTEK Inc.,Normay ),采样频率为 1 Hz。测量深度为水面下30 cm以及离底20 cm,测量时间分别为2 min和70 min。
图1 研究区域与流速监测站点Fig.1 Study area and velocity monitoring site
2.2.1 稳健估算法
该方法最初由Rousseeuw[14]开发,利用估算定位值和尺度估算值标准化样本数据,通过标准化后的数据与所设定的检测阈值进行比较,检测阈值外的点为野点。稳健估算法的计算公式为
式中,M为估算定位值(单位:m/s);n为速度数据点的数量;u为水流速度数据(单位:m/s);S为尺度估算值(单位:m/s);e为估计器系数(1.483);Zi为标准化观测值;Oi为野点判断值;c为截止值(2.5)。如果Oi的值大于0,则确定为野点并删除。通常对野点前两个数据进行外推法计算,获得的新数据作为替换值代替被删除的野点。
2.2.2 三维相空间法
三维相空间法最初由Nikora和Goring[16]开发,并由Wahl[17]进行了改进。该方法通过全局阈值将流速数据与其导数构筑成椭球体,位于椭球体外的点被视为野点,采用迭代的方式不断收缩全局阈值以进一步检测野点。三维相空间法的计算公式为
式中,U为水流速度的平均值(单位:m/s);n为速度数据点的数量;u为水流速度数据(单位:m/s);ui′为脉动速 度 (单 位 : m/s) ; Δui′为 速 度 的 一 阶 导 数 (单位:m/s),为其平均数;Δ2ui′为速度的二阶导数(单位:m/s),为其平均数;σ为波动速度的标准偏差;λ为通用阈值;θ为主轴的旋转角度(rad),由于对称性,Δui′与ui′以及 Δ2ui′与 Δui′的旋转角度为 0。由公式(12)和公式(13)构筑椭球体,位于椭球体外的点为野点,被删除的野点通常使用三阶样条式插值法进行插值。
主要采用标准偏差、峰度系数、偏斜系数等指标统计分析数据处理结果[18-19]。其中,峰度系数是表征概率密度分布曲线在平均值处峰值高低的特征数。峰度系数高说明数据存在大于或小于平均值的极端差值。偏度系数是表征概率分布密度曲线相对于平均值不对称程度的特征数。计算公式为
式中,kur为峰度系数;skew为偏斜系数。
水面下30 cm处流速监测数据如图2所示。图3为稳健估算法检测结果图,虚线为标准化观测值Zi,高于Zi的数据被判断为野点。稳健估算法在3个速度分量的流速数据中检测出野点个数分别为7个、6个、5个,检出率为5.76%、4.96%、4.13%。三维相空间法检测结果如图4所示,检测出野点个数分别为18个、12个、23个,检出率 14.88%、9.92%、19.01%。表1为水面下30 cm处数据及经两种方法处理后数据的统计参数值,原始数据的峰度系数分别约为16.91、27.14、23.12。经稳健估算法处理后峰度系数平均下降77.71%,速度分量v峰度系数较高,约为7.71,降幅为71.58%。经三维相空间法处理后峰度系数平均下降84.05%,速度分量w峰度系数较高,约为6.11,降幅为73.59%。经两种方法处理后偏斜系数较原始数据偏斜系数均降低。
图2 站点A水面下30 cm处流速数据Fig.2 Flow velocity data at 30 cm below the water surface at Station A
表1 站点A水面下30 cm处流速数据统计参数值Table 1 Statistical parameter values of flow velocity data at 30 cm below the surface of Station A
图3 站点 A 水面下 30 cm 处稳健估算法检测结果Fig.3 The detection results of the robust estimation method at 30 cm below the water surface of Station A
图4 站点 A 水面下 30 cm 处三维相空间法检测结果Fig.4 The detection results of the three-dimensional phase space thresholding method at 30 cm below the water surface of Station A
离底20 cm处数据及处理结果如图5所示。稳健估算法在3个速度分量流速数据中检测出野点个数分别为:52个、45个、167个,检出率为1.62%、1.36%、3.95%。三维相空间法检测出野点数分别为68个、57个、166个,检出率1.24%、1.07%、3.92%。表2为站点A离底20 cm处数据统计参数值。原始数据3个速度分量的峰度系数分别约为28.52、18.55、18.83。两种方法处理后数据峰度系数平均降幅均高于80%,分别为81.45%、84.07%。稳健估算法与三维相空间法在速度分量w数据的峰度系数降幅分别为79.72%和73.63%。原始数据3个速度分量偏斜系数分别约为0.54、0.10、0.13。稳健估算法和三维相空间法在速度分量v的偏斜系数均升高,分别上升50.01%和65.09%。
表2 站点A离底20 cm处流速数据统计参数值Table 2 Statistical parameter values of flow velocity data at 20 cm above the bottom of Station A
图5 站点A离底20 cm处数据处理效果对比Fig.5 Comparison of data processing effects at 20 cm above the bottom of Station A
由水下30 cm数据处理结果可见,三维相空间法检测出野点数显著多于稳健估算法,在3个速度分量的检出率分别高于稳健估算法9.12%、4.96%、14.88%。对于离底20 cm处的数据,稳健估算法检测出野点多于三维相空间法,但在3个速度分量的检出率仅高于三维相空间法0.38%、0.29%、0.03%。三维相空间法检测率较低的主要原因是三维相空间法检测阈值的计算基于平均值和标准偏差,两者对野点值非常敏感,数据中野点超过5%时,野点的存在会显著影响两个参数的性能,导致检测阈值增大,野点被视为有效数据而未被剔除[17]。离底20 cm处的数据中野点含量高于7%,因此对三维相空间法的检测精度存在影响。这一问题可以通过迭代的方法改善,但在迭代过程中位于野点周围速度数据的一阶导数 Δv和二阶导数 Δ2v可能超出阈值椭球边界值,将野点附近部分真实数据判断为野点[20],出现过处理情况。
经两种方法处理后数据和原始数据的峰度系数对比发现,三维相空间峰度系数降幅均高于稳健估算法。在离底20 cm处测量的流速数据中,稳健估算法与三维相空间法峰度系数在速度分量w均较高,但稳健估算法峰度系数低于三维相空间法。这是因为稳健估算法是基于样本的中位数和绝对偏差,不受平均值和标准偏差影响,只能有效检测出与样本平均值差异较大的野点,而速度分量w流速数据中的野点距离平均值较近。因此,稳健估算法无法有效检测这些野点,从而导致速度分量w数据的峰度系数较高。三维相空间法速度分量w流速数据峰度系数较高的主要原因是速度分量w流速数据中野点含量显著多于速度分量u、v,三维相空间法检测精度会随污染程度增加而下降[21-22]。因此,速度分量w数据中部分野点未被有效剔除,从而导致速度分量w数据峰度系数偏高。
以速度分量v流速数据为例,稳健估算法与三维相空间法处理后偏斜系数均升高,分别为0.16和0.17。两种方法对于污染数据偏度的处理均与污染程度无关。稳健估算法仅计算关于位置估计量的对称统计量,不处理偏度[23]。偏斜系数升高可能是由于插值法产生的新数据值导致数据右偏。
综上所述,三维相空间法综合检测效果优于稳健估算法。当野点含量低于5%时,野点对三维相空间法检测阈值的影响较小,三维相空间法通过迭代不断收缩检测阈值,能够检测出更多与真实数据相近的野点,检测精度更高。但该方法的局限性是当野点含量高于5%时,其检测精度降低,且存在过处理现象。稳健估算法能有效检测出与样本平均值差异较大的野点,但该方法不进行迭代,仅检测1次,因此无法有效检测出与真实数据相近的野点。
本文以实测流速数据为例,通过定量化评估了稳健估算法与三维相空间法的检测效果。对比分析了两种方法的峰度系数与偏斜系数,结果表明,三维相空间法处理效果较好,其检测准确性高于稳健估算法,但存在过处理现象。本研究对降低流速数据误差,准确定量研究水流对渔业装备附着生物的附着量与种类影响有着重要的意义,也为后续开发一种检测精度高且过处理现象少的后置处理算法提供了科学的参考。