面向海量数据的海情数据分析技术研究

2018-04-12 06:08慧,云,
指挥控制与仿真 2018年2期
关键词:海量意图编码

乔 慧, 苏 云, 安 瑾

(江苏自动化研究所, 江苏 连云港 222061)

现代情报系统能够收集来自地波站、观通站、侦察站以及海空平台上报的目标情报信息,能够通过民用海情数据服务系统收集交通部、农业部、海监局等地方涉海民用海情信息。后续,随着图像、音频、视频等类型情报信息的收集能力的补充,以及民用涉海资源的进一步充实,海上数据量级将进一步加大。传统的信息存储与处理方式已经满足不了正在日益增多且更加复杂的信息的检索[1]。近几年目标检测跟踪领域引入大数据处理技术,通过对海量历史情报数据的挖掘获取知识,基于知识库进行目标智能检测与跟踪,引起广泛关注,且取得了部分理论研究成果,但与军事应用还存在较大差距。主要在于当前理论研究大都基于民用情报分析需求,例如港口监控应用[2]、交通智能导引等,未涉及军事应用需求,而需求不同必然带来方法的不同。

基于此,本文以海情应用为背景,提出了面向海量数据的海情数据分析总体框架,针对海量数据访问、情报知识体系构建等关键问题,对多源异构数据高效检索、基于轨迹的目标运动规律与异常检测以及基于模板的目标意图表示与挖掘等关键技术进行了初步探讨,为后续深入研究以及进一步形成演示能力提供支撑。

1 问题分析

近几十年,我军情报信息系统建设成果显著。信息采集、传输、处理和显示等环节均已成型;数据工程建设积累了大批基础性数据;作战任务规划系统也取得初步进展。然而,现有情报信息系统的发展遭遇智能辅助能力滞后的问题,尤其是对智能程度稍高的问题,如态势理解、决策辅助等。只有突破智能辅助技术的瓶颈,方能实现系统能力的阶跃式提升[3]。

海情中心承担为各级海情用户按需提供情报保障的使命。现有情报保障主要依赖于实时情报的处理,缺乏对历史数据潜在价值的有效应用。要提升海情情报实时处理智能化程度,一方面需要在实时处理中引入智能化处理方法,另一方面需要挖掘历史数据中隐含的知识,同时将指挥员对行动、环境、目标等的日常判断形成知识,供实时处理智能系统使用。而在数据中获得知识的整个过程,即为数据挖掘[4]。

海情中心业务需求,如图1所示,主要有以下五个方面。

1)掌握海上目标总体情况

重点在于全面掌握各类海上目标的总体数量、分类、分布以及变化趋势。

2)掌握探测资源的工作情况

重点在于掌握各探测资源的工作情况以及实际探测能力。

3)掌握关键海域内、海上分界线附近目标运动情况

重点在于掌握关键海域内、海上分界线附近目标数量、组成,识别目标行为,分析非我方目标的战术意图,以及对我方的威胁情况。

4)分辨重点目标并掌握其运动情况

重点在于根据目标的属性、类别或运动特征,识别重点目标或编队目标,判断其对我方的威胁情况,并预测其战术意图。

5)发现异常情况及时处置

重点在于监视辖区内海上目标运动异常、行为异常、信号异常等情况并及时做出报告和处置。

图1 业务需求层次

因此海情中心对“知识”获取的需求,主要包括:辖区目标总量及趋势、情报源探测能力、目标关系、目标特征、目标活动规律、目标战术行为意图等。本文基于以上所明确的预期数据挖掘目标,进行进一步的软件架构设计与关键技术分析。

2 软件架构设计

如图2所示,面向海量数据的海情数据分析系统采用“以数据资源组织为基础,以批量数据处理与挖掘为手段,以数据分析服务为宗旨”的软件技术架构。具体地,以数据为中心,从结构上可分为数据获取层、数据分析层和数据显示层,基于数据获取层提供的基于时空网格的海情数据快速存储和访问能力,开发海情数据分析软件,并将数据分析结果予以展示。

图2 数据分析软件架构

该软件架构既可以适应现有硬件设施,亦可适应未来分布式数据存储与计算平台中,如基于Hadoop的高性能海量数据处理平台[5],仅需增加分布式数据存储与计算管理软件即可,解决因数据量级大、数据多源、数据多样等因素导致的海情数据分析困难的问题。

1)数据获取层,基于海情数据分析存储与计算基础设施,采用数据整合工具实现对传统海情关系数据库数据、文件接口数据、以及未来流式数据的批量接入;对数据予以基本的抽取、清洗等预处理工作,并基于剖分网格编码技术对海情数据进行高效存储与组织,实现海量海情数据的关联与整合,形成海情数据分析基础库,为后续数据挖掘与分析提供数据支持,同时为应用提供大批量数据快速访问能力。

数据分析服务支持中间件,通过服务接口向上层应用提供透明、统一、高效的数据和应用服务,支撑上层业务应用快速开发。主要包括数据访问服务、数据存储服务、数据分析服务以及数据可视化服务。其中数据分析服务提供通用的数据挖掘算法,满足客户数据分析挖掘功能;数据可视化服务,提供图形、表格等通用可视化方式。

2)数据分析层根据用户需求,基于数据分析支持中间件提供的数据访问、存储、统计计算、挖掘方法以及可视化服务,针对海情业务需求,实现目标分类统计、目标特征分析、态势分析以及传感器战场感知能力分析的功能应用,将分析结果存储于知识库中,并向显示软件推送。

本层软件为业务核心软件,其中,海上目标分类统计软件是,根据情报源、时间、空海类别、敌我属性、国家/地区、重要性等条件分类统计系统记录的海上目标数据,形成某时间段各类型目标统计图表,辅助用户掌握当时情况和分析近期变化趋势,形成辖区目标总量及趋势知识;传感器战场感知能力分析软件是,分析系统记录的传感器数据,提取传感器或探测平台实际能力指标,形成情报源实际感知能力知识;海上目标运动特征分析软件,分析系统记录的海上目标侦察数据,提取海上目标运动特征以及综合特征,形成目标综合识别特征知识;海上目标态势分析软件是,结合地理信息、传感器能力和部署等信息,分析系统记录的海上目标数据,形成目标活动规律、目标行为和意图、目标关系和战术等态势知识。

3)数据显示层以Web方式向用户呈现分析结果。

3 关键技术研究

面向海量数据的海情数据分析系统的建设有三个关键因素,分别为数据基础、计算基础及数学基础。其中计算基础即图2中的数据分析分布式存储与计算设施,目前分布式处理平台及相关应用已相对成熟,很多公司基于Hadoop平台开发了系列提供大数据平台处理服务的产品,能够为用户提供处理海量数据的软硬件基础环境。而其中的数据基础与数学基础则需根据不同的应用,开展相应的算法设计与技术攻关。首当其冲的是需要提供异构数据的高效检索技术,以满足应用对海量数据的访问需求;其次海情数据分析主要针对的数据对象是目标,而目标轨迹是理解目标最重要的数据源,需要从轨迹中获得对目标尽可能多的认知;最后,目标行为的预测一直以来都是态势领域的研究难点,从历史数据挖掘“势”的知识是我们需要深入研究的。

3.1 多源异构数据高效检索技术

多源异构数据高效检索是数据分析首先要解决的问题。时空数据的快速查询一般都是通过建立时空数据索引来实现的[6]。传统索引结构的优化,仅能提高小规模数据检索速度和查询表链接效率。针对当前海情数据“分别建库、各自组织、弱关联”组织模式导致数据查询提取操作繁琐、时间消耗大的问题,可考虑依托全球时空剖分网格,建立多源异构数据统一空间编码模型和时间离散编码模型,通过带有时空区位、属性扩展的结构化编码体系及剖分索引组织大表,将各类空间数据有机地关联起来,将传统数据组织模型中利用坐标或其他数据ID建立的数据与操作间K维关联模式,转变为“以剖分网格为参考,以网格编码为纽带”的“数据-编码-操作”三层关联模式;充分利用数据空间网格编码二进制、一维、整型的特点,设计基于网格编码的空间大数据搜索引擎,实现多源异构数据的一体化高效查询检索,如图3所示。

图3 基于网格编码的数据组织与检索

剖分网格通过三次地球扩展,实现整度、整分的四叉树剖分,形成了一个上至地球(0级)、下至厘米级面元(32级)的较完备多尺度四叉树网格。将传统网格全球剖分的浮点数计算直接用2的整数倍完成,提高空间的划分效率,并且以此设计的网格编码,从度级、分级到秒级编码的方式,与传统经纬度的记录方式具有极高的互换性(经纬度的二进制表达就是剖分的网格编码),较传统全球网格的空间关系运算需要利用浮点计算和多边形关系判断等过程,这样的设计极大地提高了空间关系与位置索引的效率。

时间离散编码:把时间离散化为不同长短的时间区间(片段),并赋予唯一的二进制编码,使得时间离散化为有长度的“时间段”,如图4所示。该编码具有多粒度、可定时、可索引、可计算、自动关联等优点,构成了大数据管理与应用的时间离散框架。

图4 时间离散网格编码

3.2 目标运动规律生成与异常监测技术

了解目标日常活动规律对于目标的检测和持续跟踪具有重要参考意义,目标时空轨迹是刻画目标活动规律的重要信息。若对所有的目标轨迹、轨迹上所有更新点进行分析,一来会产生大量的分析工作,耗时较长;二来过于精细化的轨迹,反而在轨迹分析中,丢失了不同目标之间轨迹共性特征的分析。因此为了提高分析效率,需要利用MDL(最小描述长度准则)方法确定各目标航迹的特征点集,既有效减少航迹点数目,又能保持原始航迹的精确性,使得目标航迹数据精简。

在军事应用中面临以某一条目标轨迹为样本,搜索获得与该目标类似轨迹,寻求同一目标历史记录,并提取目标运动规律的需求。而轨迹相似性的刻画也面临诸多选择,具体如表1所示。数据分析本身的作用是提供用户更多可供参考的信息,是一个反复迭代的过程,因此在软件设计中需将相似性度量方法进行综合考虑提供用户予以选择确认。

表1 轨迹相似性度量类别

异常监测数学角度本身不难,难在军事上对异常的定义。异常最直观的解释是:异常是数据中与正常行为模式不符合的模式。尽管导致船舶异常行为的原因有多种,但是所有的原因具有一个共同特征:对分析人员来说“感兴趣”,这是船舶异常行为检测的关键特征。

异常在数据层面大致分为三类:

1)点异常

单个数据与其他剩余数据相比被视为异常,如孤立点。

2)上下文异常

某个/某些数据只有在某种具体的环境下(但在另外环境下不是)才被视为异常,则称之为上下文异常或条件异常。

3)集合异常

一个相关数据的集合与整个数据集相比被视为异常,集合内单个数据的出现或许不会被视为异常,但结合起来整体就会成为异常。

从军事应用出发,异常定义如下:

1)信号异常、航路异常

2)异常进入

3)目标异常聚集行为

3.3 目标意图表示与挖掘技术

现代战争作战样式灵活多变,基于各种军事高新技术的新战术层出不穷,敌方目标的行为和意图随环境、时间、地点、对象的变化而具有多样性和模糊性特点,如何从复杂多变的战场目标行为中识别敌方的意图、对意图进行表示是本技术所要解决的难点问题。

虽然意图本身因为作战样式灵活多变而显得虚无缥缈,但很多基本的作战条例及步骤可能在很长一段时间内都不会有大的改动。如美军的作战条例明确规定当有飞机被敌方雷达锁定以后,要施放干扰,逃避打击;中距空战的过程分为发现目标、接敌和攻击。因此用结构比较固定的模板来表示目标的意图具有一定的适应性。模板的组成要素包括:目标主体、目标的行动步骤及约束关系。目标主体明确目标的类型、数量及其他属性;目标行动步骤依据作战条例或战法规则表示目标行动序列;约束关系定义了各个行动步骤间的时空关系。

如图5是一个电子侦察具体的模板,作战目标显示在模板的顶部,每一行对应于一个编队,各编队的行动步骤按最典型的时间顺序排列在每一行上。在该模板中有执行电子侦察的侦察机编队、有执行护航任务的战斗机编队,通过多个编队的协同共同完成电子侦察的作战目标。

图5 电子侦察模板

通过对大量目标积累的历史行为数据进行挖掘,分析具体意图与典型行为序列模式的关联关系,筛选意图模板关键组成要素,建立意图模板知识库,为后续对目标的意图进行识别提供基础保障,如图 6所示。

图6 基于模板意图识别挖掘模型

4 结束语

本文结合海情数据分析业务需求,以充分挖掘历史数据中隐含的有价值的信息,形成目标特征、目标活动规律、传感器探测能力等模板和知识为目标,提出一种分布式数据存储与分析架构,并进行了软件功能分解,提出了需进一步解决的关键技术及技术要点。该架构以异构数据高效检索为基础,从目标的活动规律分析以及行为要素解构出发,逐步挖掘目标间以及行为间的关系,迭代形成目标战术知识模板,以进一步获取目标意图,辅助值班值勤人员更好地分析掌握辖区内态势变化趋势,并为系统形成目标智能情报处理能力提供支撑。

参考文献:

[1]雷锟,王劲松,阳名喜. 大数据在信息作战指挥决策中的运用 [J]. 指挥控制与仿真,2016,37(3):24-27.

[2]肖潇,等.基于AIS信息的船舶轨迹聚类模型及应用[J].中国航海,2015,38(2):82-86.

[3]胡晓峰,郭圣明,贺筱媛. 指挥信息系统的智能化挑战 [J]. 指挥信息系统与技术,2016,7(3):1-7.

[4]Mehmed Kantardzic.数据挖掘——概念、模型、方法和算法[M]. 闪四清,陈茵,程雁,等译.北京:清华大学出版社,2004.

[5]翟岩龙,等.基于Hadoop的高性能海量数据处理平台研究[J].计算机科学,2013,40(3):100-103.

[6]房俊,李冬,郭会云,等. 面向海量交通数据的HBase时空索引[J].计算机应用,2017,37(2):311-315.

猜你喜欢
海量意图编码
原始意图、对抗主义和非解释主义
一种傅里叶域海量数据高速谱聚类方法
陆游诗写意图(国画)
生活中的编码
制定法解释与立法意图的反事实检验
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
海量快递垃圾正在“围城”——“绿色快递”势在必行
Genome and healthcare
“海量+”:大学生品格提升的浸润方——以高职艺术设计专业为例