刘帅++杨松++常歌++董亚卓
摘 要:论文针对海空目标航迹数据的内容与特点,面向海空目标探测效能评估需求,提出了海空目標航迹数据清洗方法和流程,包括数据格式规范化处理、数据筛选、去离群点和航迹插值等。试验证明,论文提出的数据清洗算法能够优化数据格式,剔除原始数据中的错误、无效数据,增加样本数量,从而为后续开展海空探测效能评估做好数据准备。
关键词:海空目标航迹数据;数据清洗;算法
中图分类号:TP391;E917 文献标识码:A
Abstract: Based on the contents and features of the sea and air target trace data, facing the requirements of effectiveness evaluations, this paper puts forward a method and process of the sea and air target trace data cleaning, including data formatting processing, data filtering and so on. The tests prove that the data cleaning algorithm proposed can optimize the data format, eliminate the wrong and invalid data, increase the sample numbers, and prepare the data for the subsequent effectiveness evaluations.
Key words: the sea and air target trace data; data cleaning; algorithm
1 引言
海空目标航迹数据是各海空目标探测系统、海空目标信息综合处理系统、海空目标用户系统之间生成和传递的海上、空中、水下目标的位置、属性、状态、时间等信息数据。当前,海军承担海空目标探测任务的装备主要有各雷达站、观通站、海上平台、空中平台、水下平台等,这些平台的使命任务是及时、准确地发现、定位、跟踪各类海上、空中、水下目标,对目标进行初步识别,并将探测到的原始海空目标航迹数据上报至上级海空情综合处理系统,海空情综合处理系统对各平台上报的海空目标航迹数据经多级融合处理和识别认证,形成最终的海空目标态势产品,送往指挥所,辅助指挥员指挥决策。
因此,要对整个海空目标探测体系的目标探测质量、信息流转效率、融合识别流程等进行分析评估,就离不开对海空目标探测数据的自动、准确的分析、处理和运算。当前,由于海空目标探测体系内包含的系统、平台、装备类型众多,由多家单位承研承建,而在装备论证之初对各装备数据记录的内容、格式、量纲等缺少统一要求和规范,因此,导致整个体系内采集的装备原始数据存在很大程度的不统一、不规范、不完整等问题,同时还存在部分空数据项和错误数据项,因此,需要对原始的海空目标航迹数据进行清洗和规范化处理,去除无效的数据字段、增加标识字段、统一格式与量纲、剔除离群点和错误点,对稀疏航迹进行插值,以确保最终入库参与运算的海空目标航迹数据格式统一、规范、准确,以便于后续的分析运算和装备效能评估。
当前,国外对数据清洗的研究主要集中在四个方面:检测并清除数据异常;检测并清除近似重复数据;数据的集成;特定领域的数据清洗。国内的数据清洗技术研究主要集中在对数据质量需求很高的行业,他们以各自需求为牵引在特定领域展开相关研究[1,2]。
2 海空目标航迹数据内容及特点分析
各海空目标探测系统、海空目标综合处理系统和海空目标用户系统之间传递的海空目标航迹数据,主要包括信息字段:海空目标批号、情报源号、目标探测时间、目标经纬度位置、目标方位、目标距离、目标高度、目标类型、目标属性等。原始的海空目标航迹数据有四个特点。
(1)数据规模大。由于海空目标态势是动态变化的,海空目标航迹数据也在不断更新,因此整个海空目标探测体系内流转的数据量非常大,以方向级空情综合处理系统为例,平均每秒钟报文更新率在100条左右。
(2)多型装备数据记录格式不统一。由于在装备论证之初,缺少对数据记录内容、格式、量纲等的顶层规划和统一要求,导致当前各装备记录的数据存在内容、格式等不统一、不规范的问题。
(3)存在大量复合字段。原始海空目标航迹数据中存在大量的复合数据字段,如“年+月+日”、“站号+批号”等,需要将这些数据记录拆分成“年”、“月”、“日”、“站号”、“批号”这样的单独字段,以用于后续的处理、分析和运算。
(4)存在离群点和空字段。当前,由于海空装备的探测能力有限,探测结果经常会出现错误的离群点,需要在扫描到这样的离群点后,将离群信息记录下来,并将相应的数据行删除,离群点不参与后续运算。另外,采集的原始数据还存在部分空字段,即没有探测到相应的目标属性信息,需要在扫描到字段后,对相应的字段进行记录和处理,以确保数据入库的整齐性。
因此,海空目标航迹原始数据存在数据记录格式不统一、存在复合字段、存在离群点和空字段等问题,需要建立一套统一的海空目标航迹数据格式规范,将所有装备的原始数据按照规范的格式要求进行数据规范化处理,并按照数据后续运算要求,对数据进行筛选、去错、插值等操作,以保证数据整齐入库,便于后续评估运算。
3 数据格式规范化
进行数据清洗的第一步是建立统一的海空目标航迹数据格式规范,将所有装备记录的海空目标航迹数据按照统一的内容、格式和量纲等要求集中存储。经全面分析后续开展装备效能评估的需要,建立海空目标航迹数据格式规范,如表1所示。endprint
将来自多平台的多类数据按表1的格式要求进行规范化处理,删除冗余字段、拆分复合字段、统一格式与量纲,同时为了辨识来自不同试验、不同装备的多类数据,需要适当增加数据标识字段,以实现数据的分门别类存储,便于后续的数据处理和查询。通过将算法代码化,实现对海量的海空目标航迹数据的自动、快速规范化处理。本文提出的数据格式规范化方法如图1所示。
第一步:输入原始的海空目标航迹数据。
第二步:添加标识字段。增加多源多类数据标识、试验标识、装备标识等字段,如“数据类型编号”、“所属试验号”等字段,实现数据的分门别类存储。
第三步:删除冗余字段,拆分复合字段。按照数据格式规范,从左至右扫描数据字段,判断该数据字段是否在数据格式规范中,如果是,则保留,如果不是,则删除。如果是复合字段,如“情报源站号+批号”,则提取当中的有效字段予以保留存储。
第四步:统一数据格式、量纲。将所有的字段转换成统一的格式和量纲,如将长度的单位统一为“米”,经度、纬度、方位等的单位统一为“度”等。
第五步:数据字段排序。按照规范的格式要求,将数据字段排序。
第六步:輸出数据。
4 数据清洗
在多系统的数据进行规范化之后,数据清洗过程是对数据中存在的错误数据行、空数据行等进行进一步的细化处理。
4.1 数据筛选
海空目标航迹数据规模庞大,在进行装备效能评估时,通常不需要全部时段的所有数据,如演习过程是10:00至12:00,那么我们就可以重点提取10:00至12:00的数据进行综合分析,而不需要考虑全天的数据。当前,常用的数据提取方法有三种:一是按照时间轴提取,提取固定时间段或者时间节点的数据;二是根据经纬度进行提取,提取重点海域内的海空目标航迹数据;三是根据演习关注的重点,提取重点目标航迹数据。
4.2 检测并剔除离群点
在海空目标航迹数据中,存在部分离群点,即相应的目标位置偏离目标原有航迹不合理的距离,视其为探测错误点,这样的航迹点,在数据监测中,要将其记录下来并删除相应的数据行,作为问题进行分析,但不参与后续装备效能评估运算。
采用基于邻近性的离群点检测方法[3],基于距离监测离群点,对一个目标航迹定义距离阈值r,如果一个航迹点与相邻若干个航迹点的距离在r之内,则将其视为有效点,如果一个航迹点与其临近的若干个航迹点距离超出r,则将其认为是离群点,记录并剔除。
4.3 航迹插值
采集的原始数据中,部分航迹点存在航迹过于稀疏的情况,这样在后续计算中,会存在样本量少的问题,对这种情况要将其航迹稀疏现象记录下来,并进行插值处理,增加航迹点数量。
采用拉格朗日三点插值法[4],对稀疏的航迹点进行插值处理。当没有和真值航迹时标一致的目标航迹时,对与真值航迹时标一致的目标航迹点数据进行插值计算。确保在两小时的目标航迹上有至少5个航迹点,且相邻两个航迹点间隔不大于20分钟。
本文提出的数据清洗算法[5]如图2所示。
第一步:输入格式规范后的数据。
第二步:数据筛选。根据装备评估需求,对重点时段、重点目标、重点海域的目标航迹数据进行筛选,提取出重点时间段重点海域的所有航迹数据,并提取其中的重点目标航迹数据。
第三步:剔除离群点。针对重点目标航迹数据,按照时间轴从前到后扫描每一行数据的经纬度和探测时间信息,采用基于邻近性的方法判断航迹点是否为错误的离群点,若是则记录该离群点出现的时间、经纬度、目标属性、探测源、目标批号等信息,并删除该数据行。
第四步:重点时段、重点目标、重点海域数据的分类存储。
第五步:针对重点目标航迹数据,综合比对分析该时段内的目标真值数据,分析目标航迹数据的稀疏程度,分析目标航迹数据与真值航迹数据中时间戳相同的数据行的数量(因为后续在定位误差等指标的计算中,要比对同一时刻的目标探测位置和目标真值位置,因此要保证时间戳相同的数据行达到一定数量,以确保参与计算的样本量),设置阈值R,如果时间戳重合数据行数量少于R,则需要对目标航迹进行插值处理,如果时间戳数据行数量大于R,则无需作任何处理。
第六步:输出数据。
5 试验验证
为验证本文所提出算法的有效性,选取部分样本数据,进行数据规范化和数据清洗。如图3所示为选取样本数据。样本数据包括原始报文时间、站号、批号、经度、纬度、高度、航速、航向、入库时间、目标种类、目标属性、情报源等信息。
首先进行数据规范化处理,增加标识字段、删除冗余字段、拆分复合字段,其次进行数据筛选,设置筛选条件为入库时间从16:31:00至16:41:00,最后进行离群点剔除,得到如图4所示的清洗结果数据。
原始数据中“原始报文时间”与“入库时间”两个字段分别被拆分为 “原始报文时间-时”、“原始报文时间-分”、“原始报文时间-秒”与“入库时间-时”、“入库时间-分”、“入库时间-秒”字段。增加了“数据类型编号”、“数据所属试验号”等标识字段。筛选了重点时段数据,同时原来的第6条报文,因其经纬度位置严重偏离正常航迹,被检测为离群点,记录离群点信息并删除该行数据。
试验证明,本文提出的算法能够实现对海空目标原始数据的规范和清洗,实现对数据的有效存储。
6 结束语
为得到高质量的数据以备后续指标计算与效能评估,必须进行切实有效的清洗工作,消除数据中的冗余、缺失、离群点、不一致等问题。
随着海军海空目标探测体系内多型装备的不断发展,获取的海空目标航迹数据在内容上将更加精细、规模上更加庞大,当前提出的数据清洗方法是为了解决当前多系统数据记录不统一、不规范、不完整等问题,在后续工作中,应在装备规划之初,就充分考虑后续开展装备效能评估的需要,规范各装备数据记录的内容、格式、量纲和导出环节等,以确保整个海空目标探测体系内数据记录的整齐、统一。
参考文献
[1] 郭逸重.Hadoop分布式数据清洗方案[D].广州:华南理工大学,2012.
[2] 朱前磊.电子政务系统中海量数据清洗[D].上海:东华大学,2010.
[3] 范明,孟晓峰.数据挖掘概念与技术[M].北京:机械工业出版社,2010.
[4] 同济大学数学系.高等数学[M].北京:高等教育出版社,2014.
[5] 王红梅,胡明.算法设计与分析[M].北京:清华大学出版社,2013.endprint