王楚扬,王长永,陈尚登,杨振林,颜惠庆
(中交上海航道勘察设计研究院有限公司,上海 200120)
海图是商船从事海上航行的必备资料,其中海图水深的准确程度、更新周期,覆盖区域等对航海作业的安全具有重要影响[1]。目前,全球仅有约 15 %的海洋有较为准确的水深数据,且公开发布的海图约40~50 %的水深资料来源于1950 年以前,海图水深覆盖面及更新时效性远不能满足各类商船航行的安全需求。而客船、货船等商船每天产生大量的航海数据(包括定位及水深数据等),若能对这些数据加以合理利用,对于海图传统的专业测量数据将是极大的补充。
由于商船测深数据的采集、处理过程缺少专业人员的指导,且通常未严格执行相关的行业规范和标准,测量数据的质量远不如专业测量数据,需要分析和改正水深数据中包含的各种误差项,提高数据精度以满足使用要求。如袁浩等[2]定量分析了风浪对商船测深数据精度的影响程度,国际海道测量组织数字测深数据中心、英国TeamSurv 等采用不同的潮位改正软件进行潮位改正[3]。在航道或航路等公共水域每天通航的船舶艘次众多,单个位置或区域的测深数据有多个,由于每艘船舶改正后的测深数据精度也参差不齐,如何由众多测深数据得到尽量接近真实水深的数据显得更为重要,但目前相关研究还较为少见。
本文提出了一套基于可信度理论的商船测深数据质量评价体系,通过商船自身测深设备等固有属性、商船测深数据自身对比、商船测深数据与测量精度较高的专业测深数据对比等多个方面,综合评价商船测深数据的可信度,为商船水深利用提供一种新方法。
“可信度”概念源自自发地理信息[4-6],是一种表示准确性、权威性、可依赖性等概念的综合体,是依据一定经验对人或物的相信程度。信息可信度由信息自身数据特征的可信度和信息来源的可信度构成[7]。在没有任何参考数据的情况下,很难通过商船测深数据本身获取数据质量的定量评价。
对于商船测深而言,如果用户对测深数据的质量有充分的了解,那么该数据就是“可用的”。根据标准,一个领域的最佳可用数据可能不是最好的质量数据,但只要这些数据的质量是量化的或合格的,它就提供了最好的可用数据。可信度是一种评价数据质量高低的概率,故可信度和数据质量是两种不同的概念:可信度高的数据,其质量并不一定高,而是具有高质量的概率更高[8-10]。
商船测深数据可信度具有以下基本特征:
1)稳定性。根据IHO B-12 指南给出的27 种元数据可以看出,每个元数据都是商船自身的一种固有属性,除非参与商船测深的船舶发生明显的事故或者经过改装,则各项元数据保持不变,具有一定的时域稳定性;
2)概率性。商船测深数据的可信度是一种数据质量的概率,可信度越高,数据质量高的概率越大;
3)唯一性。与自发地理信息平台(VGI)的 可信度特征不同的是,后者是指针对一定区域内的数据可信度,不是指单个目标的可信度。而对于商船测深来说,是针对某一艘商业船舶进行的可信度评价,具有唯一的特性。
由于商船测深数据的可信度与数据质量密切相关,因此和数据质量相关的因素都会影响测深数据的可信度。参与商船测深的用户数量以及数据上传的专业程度会影响可信度。
在计算机领域中,Linus Law 提出了“多眼原则”,即参与创建功能的用户数量越多,可信度越高。对于商船测深来说,参与上传数据的可用船舶(用户)越多,可信度评价数据越多,最终可用于测深数据的修改、完善以及优化的机会就越多,数据质量就会随之提高。
另外,商船测深的数据质量还和数据的直接上传者相关。经验丰富的专业人员可将各项元数据信息准确的上传,用于最终的可信度评价和处理的数据源。若元数据不准确,将在很大程度上影响后续的可信度评价。
商船测深的水深数据来源广泛,数据量大,数据质量参差不齐。为了节约系统资源,提高后期数据处理效率,与数据集相关的元数据提供了与数据收集方式相关的有价值的信息,有助于对数据质量进行适当的处理、更正和知情评估,所以在进入后期数据处理之前,需先进行必要的数据预处理,对数据集信息的可信度分级与评价是一项重要工作。这也凸显了商船测深数据贡献者提供尽可能多的数据集信息的重要性。可信度针对的是每一艘商船及其所采集的水深数据,即每艘目标商船及其数据在数据库中对应一个数据可信度评价的标签。每次搜集数据时,当前数据集的可信度标签与该商船的可信度标签一致,且不再改变,而该商船自身的可信度评价可能会随着每次提交数据的过程而动态变化。理论来说,在数据稳定提交一段时间后可信度评价也随之稳定,除非遇到诸如硬件变化、设备改装等可能影响数据质量的事件,此时则需要在数据库中及时更新相关信息,该商船及其以后采集的水深数据的可信度评价也应重新评估。测深可信度评价的目的主要是在后续数据成果生成时,若需对商船水深数据进行取舍或过滤,则可以根据不同商船的可信度分别定权,或直接设定可信度阈值,降低或消除可信度低的水深数据对最终成果的影响。
每艘目标商船在接入数据采集网络之前均需经过相关技术人员的调查,主要目标是确定船只硬件情况(如船只类型、尺寸等)、主要测深设备性能(如测深仪定位仪型号、标称精度等)和设备安装情况(如测深仪定位仪偏心、吃水、默认声速等),这些数据通常统称为“元数据”。元数据是一种商船自身的固有属性,即描述数据的数据。在2020 版IHO《众包测深指南》给出的元数据中,本文结合商船测深的现实应用场景,提出可以作为可信度评价依据的元数据及对应的评价规则,如表1 所示。
表1 可作为可信度评价依据的元数据Tab.1 Metadata that can be used as a basis for credibility evaluation
表1 中,5 个客观维度与商船属性相关,且除非商船经过改装,否则这些元数据保持不变;3 个主观维度则依赖技术人员根据商船情况进行主观评价。其中,“技术人员评论”为负责某艘商船设备维护和数据收集等工作的技术人员对该商船某一批次数据的质量及可靠性进行整体的评价,评价需考虑该批次数据记录期间发生的可能影响数据质量的各类事件,如风浪大小、意外事故等。
将各个维度的评价值进行分别评价后,需汇总为一个总的元数据可信度T。可将表1 中所列各个维度分别按相应规则进行评分。对于三个主观维度来说,理论上其评价得分会随不同技术人员的主观因素产生一定的波动,从而导致数据离散程度相较于客观维度较大。根据熵权法理论,数据越分散,计算熵值越小,数据中的信息越不可靠。因此,采用经验权数的方法,人为降低主观维度的权重,并认为同类维度的各项元数据可信度等权,最终得到汇总后的船只元数据可信度T元,如下式所列:
将商船数据收集后进行进一步处理之前,先将该商船与上述可信度评价相关的元数据进行汇总评价,得到该商船的元数据可信度。将计算得到的可信度与平台设定的硬件可信度阈值对比,若低于该阈值,则数据直接舍弃,避免浪费计算资源;若高于该阈值,则进行下一步工作。
商船测深的自一致性可信度评价方法,是在有多余的测深数据可用的情况下进行的,通常是利用比较彼此交叉的测深数据来完成。这也是在专业水深测量布设测线时,必须同时布设一定数量的检查线,这一措施作为数据处理阶段精度评定的方法之一,在专业水深测量时极为重要。精度评定时,需统计主测线与检查线相交处一定范围内的重合点水深值,将两者水深值进行比对,若两者之间差值超限的点数超过一定比例,则需要进行重新测 量。商船测深中无法事先规划测线。但一般来说,大部分商船如远洋货轮或近海渔船等,在服役期间都有较为固定的航线,或者有较为固定的停泊港口,因此有较大的可能性存在航线交叉的情况。某一艘商船在同一次出航或不同次出航时存在测深点重合时,即可参照上述专业水深测量时的精度评定方法,对重合点水深进行统计比对,分析该商船测深的内符合精度。该方法计算得到的内符合精度可以在一定程度上衡量商船测深的软硬件精度水平和测量稳定性,因此可以将内符合精度水平作为商船测深可信度评价的一个指标,即基于重复测量的商船测深可信度评价。
具体实施时有几个问题需要考虑,其一是水深重合点的定义。根据《水运工程测量规范》规定,水深重合点的定义与水深测量比例尺相关,即为图上1 mm 范围内的水深点。然而这一规定难以直接应用于商船测深的水深重合点定义中,因为商船测深无法确定成果比例尺。理论上来说,水深重合点定义距离越小,水深比对越能真实反映出测量设备的误差,减少了实际地形带来的影响。但由于商船测深数据记录的形式多为定时记录,即每隔固定几秒记录一个水深值,得到的水深轨迹线上测点间距受船速影响可能较稀,若测线存在交叉则可能最近的交叉点距离也较远。因此重合点距离的定义可以在可信度评价时根据大多数商船的平均船速和数据记录的采样间隔综合考虑选定。需要注意的是,水深重合点与可信度评价相关,为了使可信度评价的标准统一,水深重合点的定义也应统一。
另外一个需要考虑的问题是历史数据的时效性。考虑到真实水下地形随着时间的推移也会发生变化,因此商船水深重合点比对应自动忽略超过一定时间间隔之前的数据,如3 个月或6 个月。另外如果在该时间间隔之内了解到重合点区域内有施工活动等可能影响水下地形情况的,应在比对前掌握并记录,避免降低可信度评价的参考意义。
有研究人员认为,权威数据可以作为可信度评价的指标之一。且在以上可信度指标中,权威数据是更重要的一个。对于水深测量而言,近期航道测量数据通常可以作为来源可靠、准确度高的权威数据。这些水深测量数据均通过专业设备采集,经过各项精确的改正措施,水深精度满足现行测量规范要求。当商船航行经过该区域时,可以这些专业水深数据作为标准,将商船水深数据与该区域内的专业水深数据进行比对,即可分析得到各艘商船测深数据的外符合精度水平,将其作为评价商船可信度的另一个指标,即基于权威数据的商船测深可信度评价。在实际情况下,由于部分专业测量数据为定期监测,因此比对时应尽量选择测量时间相近的专业数据作为权威数据。另外同样需要注意可能的施工活动带来的影响。与重复测量数据一样,一些商船同样可能长期未航行到有权威水深数据覆盖的区域内,此时也采取同上节重复测量可信度评价一样的方法,即将该商船的权威数据可信度值设为空值,后续使用时再将其设为所有商船的平均值参与计算。
经过以上3 方面的可信度评价,每艘商船及其提供的测深数据都有对应的可信度标签,但同时存在3 个可信度标签不利于后续使用,需要将3 方面的可信度合并为一个总体可信度指标。考虑到上述3 个可信度指标可能对总体指标的影响大小,可采用加权平均法计算总体可信度,根据经验权系数给出3 个可信度指标对总体可信度的影响权重,分别为0.3、0.3、0.4。则总体可信度计算公式如下:
可信度作为测深数据的隐含属性,可以在数据利用阶段起到作用。一般来说,商船测深数据利用的最终成果是数据覆盖区域的水深格网图,每个网格点根据处理后的商船水深建模得到水深值。当同一个网格点有多艘商船的水深覆盖时,便涉及到数据取舍或融合的问题。此时,假设A 船在该点的水深为hA,B 船的水深为hB,两船数据的可信度分别为TA和TB,则该点的水深值h可依下式计算。多艘商船数据计算方法相同。
综上,商船测深可信度分级及应用技术路线如图1 所示。
图1 商船测深可信度分级应用示意图Fig.1 Schematic diagram of the application of bathymetric confidence classification for merchant ships
商船测深模式的出现,对水深测量领域的发展具有重大意义。在采集商船测深数据后,如何针对不同测深精度的数据源进行有效的数据预处理,也是最终获得较为准确的水深数据的关键。本文从三个方面进行了可信度评价问题的研究:首先给出了8 种可利用的可信度分级评价元数据,研究了基于固有属性的可信度评价模型;其次提出可利用重复的水深数据进行自一致性的可信度评价的研究;然后将商船测深数据与权威的水深测量数据进行比对后得出的外符合精度作为一项评价指标,进行对等一致性的可信度评价。最终将这三种可信度评价指标进行加权平均,获得商船测深的最终水深数据值。通过可信度评价,降低不可靠船舶在数据处理中所占比重,从而在源头上改善数据质量,减少恶意数据对最终测深结果的影响。