基于评估需求的舰艇通信训练数据挖掘研究*

2016-02-24 06:03王睿牛海徐亚光
现代防御技术 2016年6期
关键词:局域离群舰艇

王睿,牛海,徐亚光

(海军大连舰艇学院 通信系,辽宁 大连 116018)

导航、制导与控制

基于评估需求的舰艇通信训练数据挖掘研究*

王睿,牛海,徐亚光

(海军大连舰艇学院 通信系,辽宁 大连 116018)

数据是舰艇通信训练效果评估组织实施的基础,其质量优劣直接关系到评估结果的准确性。针对舰艇通信训练数据缺乏科学化、标准化管理的问题,从训练效果评估需求出发,将改进优化后的聚类划分、立方体归约、贝叶斯分类和直方图归约等技术方法应用于训练数据挖掘工作中,构建了一套规范化的训练数据挖掘体系,可为舰艇通信训练效果评估工作提供技术理论支撑。

评估;舰艇通信训练;体系架构;数据清洗;数据检测;数据挖掘

0 引言

舰艇兵力是海上方向作战的核心力量,可靠的通信保障是提升舰艇作战能力的中枢神经。各军事强国广泛开展舰艇通信实战化训练,旨在通过训练提高舰艇部队通信保障能力,尽可能的发挥武器装备最大作战效能。训练效果评估,作为组训工作重要环节,其成效直接关系到训练效益的发挥程度,评估结论将对各级决策产生重大影响。效果评估工作强烈依赖于获取数据的质量,舰艇通信训练数据量大、类杂,采集的数据中充斥着大量无法直接使用的问题数据,严重制约着训练效果评估工作的顺利实施,因此,合理的数据挖掘是进行训练评估的关键和基础。

目前,国内外许多学者已在数据挖掘理论方法方面进行了深入的研究。文献[1]从数据产品与传统有形产品、软件产品类比的视角,提出了包括准备、检测、定位、修正和验证的数据清洗一般性系统框架;文献[2]引入D-S证据理论,提出了一种基于待测数据项置信区间检测查询结果中错误数据的方法;文献[3]以身份证信息识别为背景,构建了一个针对性较强的数据清洗系统,并给出了具体操作实施流程;文献[4]运用信息熵理论,提出了基于信息熵的异常数据挖掘算法;文献[5]将数据清洗视做消除数据中错误和不一致的问题,提出了实体分辨问题的解决过程。

综上所述可知,相关研究成果主要集中在以下2个方面:一是从数据理论内涵概念出发,分析构建具有较强通用性的数据挖掘体系架构;二是侧重于数据挖掘中某一项技术方法的突破创新和在专向领域中的实际应用。这些成果从不同程度研究了数据挖掘方法和技术,但考虑问题系统化程度不足,并未针对具体问题将数据挖掘体系、流程和技术方法等强相关因子统一进行分析研究。此外,由于专业领域特殊性,军事训练数据挖掘问题可见研究成果很少,这与训练效果评估需求迫切性呈现出极为强烈的矛盾。因此,本文以研究成果实用性为目标,以舰艇通信训练为任务背景,提出一套训练数据挖掘体系架构和与之相匹配的数据挖掘处理方法,为效果评估工作提供可靠的基础支撑。

1 舰艇通信训练数据特点

1.1 数据整体量多类杂,迫切需要规范处理

根据训练计划和具体任务,为达到训练目的进而最大限度提升训练效果,舰艇通信重点围绕具体科目进行短波、超短波、卫星、数据链等多种通信手段进行长时间的针对性训练。舰艇通信训练效果评估指标体系层次多,底层指标可达到数十个,而每个底层指标都有相应的数据进行支撑,在长时间的训练背景下通信数据整体量将十分庞大。数据类型上主要分为人为判定的主观数据和提取计算的客观数据,体现形式为序数属性和数值属性。客观数据又存在数据量纲不一致、聚焦方向相冲突等问题。为保证后续数据使用的便捷,迫切需要将训练数据进行规范处理。

1.2 采集形式人工为主,数据质量难以保证

鉴于通信训练数据属性特点,舰艇通信训练的数据采集过程中,主要采取人工表格记录、录音、视频录像和系统自动数据采集等形式,其中大多需要进行人工分析,因此,数据采集中人为参与因素较大。数据处理和记录人员能力素质、责任感的不同,直接导致数据质量的巨大差异。舰艇通信训练中的残缺数据、错误数据、重复数据和冲突数据广泛存在,这些数据无法直接使用,在训练效果评估工作中严重制约着评估实效性和准确性。此外,舰艇通信训练原始数据按照时间序列分布,可视化程度较低,无法与效果评估指标的量化直接匹配,需要进行多级转换。

1.3 训练环境任务多变,特殊数据广泛存在

舰艇通信训练中,外部环境和任务背景多样,既有常态化的自然环境,又有强干扰的电磁环境,既有长时间的适应性训练,又有背靠背的编组对抗训练,外部电磁环境和任务背景不同将使得各类训练数据呈现跳跃性变化。此外,在同一训练环境和作战任务的不同阶段中,训练数据的属性差异也较大。从数据清洗的角度讲,特殊数据(异常数据)常被视为噪声数据,应予以检测并删除。而在舰艇通信训练中,特定环境、任务背景或作战阶段中的数据往往不同于训练全过程数据发展趋势,表现出较强离散性,但其可能并不属于无用数据,而是对训练评估工作极为重要的,并不应删除,而应进行提取归类。

2 舰艇通信训练数据挖掘体系架构设计

2.1 舰艇通信训练数据挖掘体系构建思路

数据的价值体取决于需求,不同目标任务对数据需求程度也不相同。舰艇通信训练数据用于对训练效果的评估,其评估对象主要包括整体训练效果评估和局部训练效果评估。整体训练评估指从训练开始至结束这一整个训练过程中通信保障效果,局部训练评估指对作战任务的某一关键阶段通信保障能力的评估(如编组对抗任务中舰艇编队抗击来袭导弹阶段)。评估对象不同,对相关支撑数据的质量要求存在较大差异。整体训练评估需使用整个训练过程中的全部数据,数据量十分庞大,数据处理过程中应重点进行异常数据清洗和常规数据归约。局部训练评估的数据使用具有特殊性,当使用数据量较大且无特殊性时,可直接调用全域处理数据;当使用数据量较小时,需调用经过针对性处理的数据,其重点应是噪声数据清洗和数据挖掘。基于上述因素,舰艇通信训练数据挖掘应按照逐级递进的形式建立“三级处理”模型,并在第3级处理层级中采用不同的方法分类构建具有不同特点的数据库,数据使用层面上根据需求差异对相同的数据库调用,具体架构如图1所示。

2.2 舰艇通信训练数据挖掘体系构建

(1) 数据1级处理。包括人工记录数据、音频数据、视频数据、系统录取数据采集及人工干预处理,其中人工记录数据和采集系统录取数据中的人工干预因素较轻,体现在数据整体分类方面;音频数据和视频数据的人工干预程度大,重点是将相关信息转化为可解读程度较高的可视化数据。

(2) 数据2级处理。该层级属于数据统一标准规范处理阶段,包括数据检测和预处理2部分。数据检测主要进行相似重复记录、不完整数据记录、逻辑错误、异常数据等数据质量问题的检测,统计数据检测的结果并进行分类归档,这些是数据挖掘处理的基础;本层级的数据处理聚焦“通用性”,应同时满足全域评估和局域评估的需求,重点是重复数据的合并。

图1 舰艇通信训练数据挖掘架构Fig.1 Data mining framework of warship communication training

(3) 数据3级处理。本层级对数据进行分类处理,首先进行训练评估属性判定,全域评估是将整个训练过程视为一个整体,对训练中的全部数据进行规范化处理,根据“局部服从整体”的原则,主要对缺失数据、不完整数据进行柔性挖掘(剔出与线性回归相结合)和离群数据判定处理,而后为克服因数据集庞大而造成的数据挖掘速率降低,同时保证分析结果的正确性,对数据进行归约处理,进而形成基于训练整体的全域数据库;局域评估聚焦于某一训练作战阶段,阶段性数据规模较小、珍贵程度高,按照“深度挖掘”的原则,在最大限度进行缺失数据分析、不完整数据填充和离群数据使用等处理,旨在充分挖掘采集数据的可用度,并形成针对性较强的局域数据库。

(4) 数据使用对接[6-9]。建立的数据库可满足全域评估和局域评估时的数据调用,全域评估任务可直接调用全域数据库存储信息;局域评估任务在数据库调用时应结合数据使用需求进行灵活选择,可直接调用局域数据库存储信息,对数据无特殊性需求时(数据离群属性较弱)也可调用全域数据库信息。

3 舰艇通信训练全域数据挖掘关键技术运用

3.1 基于聚类划分的全域离群数据检测处理

聚类划分可把大数据对象划分为多个分布广泛且相互独立的簇,簇内数据具有高相似度,簇间数据具有高相异性,而游离于各簇之外的数据可认定为全域离群数据。全域离群数据检测采用k-均值方法对数据整体进行聚类划分[7-8],然后根据对象点与最近簇距离判定疑似离群点,最后通过检验考查点与距离均值差异度判定离群点。具体步骤如下:

步骤2:根据k—均值算法进行迭代计算,多次改变簇内变差。对每个簇,根据重新分配的对象不断计算新的内变差,直至最终形成稳定的簇,即各簇包含数据不再变化,至此可确定各簇的中心点。

步骤4:对上述过程中确定的离群点数据进行清除处理。

3.2 数据立方体归约化处理

舰艇通信训练全域数据信息存储体系庞大,可视化程度不高,难以高效对接不同类别的评估任务需求。数据立方体技术是一项高效的数据规约化处理方法,通过对数据进行多维建模和观察,将列表形式数据转化为可视化较强的3D几何结构,以此将海量数据分级压缩进而实现满足用户快速使用。以报文接收数量为例,赘述数据立方体归约化处理。如表1。

将表1中纬度和数值转化为数据立方体,如图2。针对不同数据需求,数据立方体在使用过程中可充分利用上卷、下钻、切片、切块、转轴、钻过和钻透等技术[10]。如使用1#, 2#网络的接收报文总量时可采用上卷技术将2个网络维度合并处理形成新的压缩立方体。

表1 基于多维度的接收报文量统计Table 1 Receiving messages quantity statistics based on multi-dimensions

图2 接收报文量的3D数据立方体Fig.2 3D data cube of receiving messages quantity

上述是从3个维度考虑数据的归约,当需要多个维度(3个以上)时可把n维数据立方体显示成(n-1)维“立方体”的序列具体实施操作。维度越多,构建立方体越复杂,因此在使用数据时尽量压缩在低维度空间。

4 舰艇通信训练局域数据挖掘关键技术运用

4.1 缺失数据挖掘方法

(1) 定量数据挖掘

定量数据是指通过数值来描述事物属性的一类统计数据,从数据元组属性出发进行此类数据的挖掘需考虑的因素众多、往往难以实现,通常应根据其它数据集量化值大小的规律性变化进行预测。当数据整体呈对称分布时,可用数据集的均值来代替;数据整体呈倾斜分布时,应使用中位数代替;数据集呈无规律性变化时,可采用数据拟合光滑曲线的方法预测待挖掘值。但某些局域训练阶段数据相对较少,可能造成上述方法产生大的误差,若该缺失数据重要性巨大,则必须依靠情景复现并结合人工查找的方式实现。

(2) 定性数据的贝叶斯形式化挖掘

定性数据是指用语言文字来描述客观事物属性进而形成的一类统计数据,如优秀、良好、合格与不合格等,此类数据与定量数据特点截然不同,其缺失值挖掘技术方法选择上也具有很强的特殊性[11]。贝叶斯形式化方法可充分利用现有数据的元组属性信息,通过挖掘缺失值与其数据属性之间联系,实现缺失的定性数据预测。根据贝叶斯定理和朴素贝叶斯分类,具体步骤如下:

步骤2:分别计算每个类的先验概率P(Ci),依据数据训练元组矩阵分别计算后验概率P(X|Ci)。

4.2 基于多情景制约的局域离群数据检测与处理方法

舰艇通信训练局域数据具有明确的时间序列属性,符合情景离群点判定概念范畴,但其外部情景并非单维,而可能在不同程度上融合了附加情景影响因子。局域数据检测与处理时,应以时间序列为基本情景,选用非参数离群点检测方法计算处理[12-13],在结论判定阶段融入附加影响情景对可疑数据进行判定。具体步骤如下:

步骤1:使用某一时间序列的全部数据(局域数据)构造一个直方图。其中,宽度参数的确定需要人工干预,通常由数据统计专家或评估专家依据数据特点给出。

步骤2:为确定一个待测数据o是否为离群点,可直接对比直方图来测试。如果该点在图中所标各组中,则为正常数据,否则可判定为离群点。鉴于直方图中箱宽度的人为影响误差,为避免将正常数据误判,可引入核函数K( )及核密度估计概念来进一步精确检测[10]。

核函数是一个非负实数值可积函数,通常可视做均值为0,方差为1的标准高斯函数:

应用过程中,设定x1,x2,…,xn是随机变量f的独立、同分布样本,则概率密度函数的核函数近似为

5 结束语

本文以提升舰艇通信训练数据质量和规范数据挖掘体系为目标,针对整体训练效果评估和局部训练效果评估的数据需求特点,构建基于任务的舰艇通信训练数据挖掘体系架构,将聚类划分、立方体归约、贝叶斯分类和直方图归约等技术方法应用于全域数据库和局域数据库建设中,形成一套规范化的训练数据挖掘体系。提出的数据挖掘体系方法与计算机相结合形成舰艇通信训练数据处理系统,可直接服务于舰艇通信训练效果评估工作,能够有效拓展评估的效率。

[1] 曹建军,刁兴春,陈爽,等. 数据清洗及其一般性系统框架[J]. 计算机科学, 2012, 39(11): 207-210. CAO Jian-jun, DIAO Xing-chun,CHEN Shuang, et al. Data Cleaning and Its General System Framework[J]. Computer Science, 2012, 39(11): 207-210.

[2] 樊金辉,岳昆. 基于D-S证据理论的不确定数据清洗[J]. 云南大学学报, 2014, 36(6): 815-821. FAN Jin-hui, YUE Kun. Cleaning Uncertain Data Based on the D-S Evidence Theory[J]. Journal of Yunnan University, 2014, 36(6): 815-821.

[3] 武小平,左春. 基于工作流程的数据清洗系统[J]. 计算机工程与设计, 2008, 29(8): 1878-1880. WU Xiao-ping, ZUO Chun. Data Clean System Based on Work Flow[J]. Computer Engineering and Design, 2008, 29(8): 1878-1880.

[4] 陈玉明,吴克寿,李向军. 一种基于信息熵的异常数据挖掘算法[J]. 控制与决策, 2013, 28(6): 867-872. CHEN Yu-ming, WU Ke-shou,LI Xiang-jun. A Kind of Outlier Mining Algorithm Based on Information Entropy[J]. Control and Decision, 2013, 28(6): 867-872.

[5] HERNANDEZ M A,STOLFO S J. Real-World Data is Dirty:Data Cleaning and the Merge/Purge Problem[J]. Data Ming and Knowledge Discover,1998,2(1):9-37.

[6] 陈晓峰,刘兴,高元博,等. 基于数据挖掘的海战场态势可视化平台构建[J]. 火力与指挥控制, 2015, 40(4): 144-147. CHEN Xiao-feng, LIU Xing,GAO Yuan-bo, et al. Structure for Naval Battlefield Situation Visualization Platform Based on Data Mining[J]. Fire Control and Command Control, 2015, 40(4): 144-147.

[7] 陶雪娇,胡晓峰,刘洋. 大数据研究综述[J]. 系统仿真学报,2013,25(3):142-146. TAO Xue-jiao, HU Xiao-feng, LIU Yang. Overview of Big Data Research[J]. Journal of System Simulation, 2013, 25(3):142-146.

[8] 谢娟英,蒋帅,王春霞,等.一种改进的全局K均值聚类算法[J].陕西师范大学学报:自然科学版,2010,38(2):18-22. XIE Juan-ying, JIANG Shuai, WANG Chun-xia, et al. An Improved Global K-Means Clustering Algorithm[J]. Journal of Shaanxi Normal University:Natural Secience ed,2010, 38(2):18-22.

[9] 薛青,罗佳,郑长伟,等. 面向作战仿真的数据挖掘[J]. 四川兵工学报,2013,34(8):93-95. XUE Qing,LUO Jia,ZHENG Chang-wei, et al. Study on Data Mining for Combat Simulation[J]. Journal of Sichuan Ordnance, 2013,34(8):93-95.

[10] 范明,孟小峰. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2008. FAN Ming, MENG Xiao-feng. Data Mining Concepts and Techniques[M]. Beijing:China Machine Press,2008.

[11] 林印华,张春梅,刘洁. 基于清洗规则和主数据的数据修复算法实现[J]. 计算机科学, 2012, 39(11): 174-176. LIN Yin-hua, ZHANG Chun-mei, LIU Jie. Realization of Data Cleaning Based on Editing Rules and Master Data[J]. Computer Science, 2012, 39(11): 174-176.

[12] 谢庆华,张宁蓉,宋以胜,等. 聚类数据挖掘可视化模型方法与技术[J]. 解放军理工大学学报, 2015, 16(1): 7-15. XIE Qing-hua, ZHANG Ning-rong,SONG Yi-sheng, et al. Visualization Methods and Techniques of Clustering Data Mining[J]. Journal of PLA University of Science and Technology, 2015, 16(1): 7-15.

[13] 唐懿芳,钟达夫,严小卫. 基于聚类模式的数据清洗技术[J]. 计算机应用, 2004, 24(5): 116-119. TANG Yi-fang, ZHONG Da-fu, YAN Xiao-wei. Data Cleaning Based on Clustering Technique[J]. Computer Applications, 2004, 24(5): 116-119.

[14] 周傲英,金澈清,王国仁,等.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16. ZHOU Ao-ying,JIN Che-qing,WANG Guo-ren,et al. A survey on the Management of Uncertain Data[J]. Chinese Journal of Computers, 2009,23(1):1-16.

[15] MO L, CHENG R, LI X, et al. Cleaning Uncertain Data for Top-k Queries[C]∥ IEEE International Conference on Data Engineering, 2013:134-145.

Data Mining of Warship Communication Training Based on Evaluation Requirement

WANG Rui, NIU Hai, XU Ya-guang

(Dalian Naval Academy,Department of Communication,Liaoning Dalian 116018, China)

As the foundation of warship communication training evaluation, the data quality directly relates to the veracity of evaluation result. To deal with the problem of lacking scientific and standard management for warship communication training, from the aspects of the training requirement, the improved clustering partition, cube reduction, bayes classification and histogram reduction techniques are applied to the training data mining work, and a set of standard training data mining system is established. The result can provide technique theory support for warship communication training evaluation.

evaluation;warship communication training;system framework;data cleaning;data detection;data mining

2015-12-20;

2016-04-05

国家社会科学基金资助项目(15GJ003-208)

王睿(1982-),男,黑龙江巴彦人。讲师,硕士,主要研究方向为指挥信息系统与作战应用、军事通信。

10.3969/j.issn.1009-086x.2016.06.010

E925.6;TN92;TP274

A

1009-086X(2016)-06-0054-07

通信地址:116018 辽宁省大连市中山区解放路667号

E-mail:yuezhiying@yeah.net

猜你喜欢
局域离群舰艇
舰艇入列
薄膜型局域共振声子晶体低频隔声特性研究
一种基于邻域粒度熵的离群点检测算法
由超辐射引起的迁移率边和重返局域化*
海战中的蒙面杀手——隐形舰艇
一类树型量子网络的非局域性
基于Hardy-type佯谬的混合态高概率量子非局域关联检验*
一种相似度剪枝的离群点检测算法
从数学的角度初步看离群点检测算法
海军舰艇前往演戏海域