基于Weka平台的辐射源数据挖掘研究

2017-08-07 07:18王扬钧王登林
航天电子对抗 2017年3期
关键词:辐射源数据挖掘关联

姜 楠,王扬钧,王登林,廖 帅

(中国人民解放军61646部队,北京 100091)

·工程应用·

基于Weka平台的辐射源数据挖掘研究

姜 楠,王扬钧,王登林,廖 帅

(中国人民解放军61646部队,北京 100091)

数据挖掘可以提高大规模数据集的有效利用,是电子侦察辐射源数据库深入开发的方向之一。通过对现有的数据挖掘算法进行归类分析,对不同算法的适用范围和处理效果进行分析比较,详细阐述了电子侦察辐射源数据挖掘过程的一般流程,并针对不同层级辐射源数据设计了基于Weka平台的挖掘模型。

数据挖掘;Weka;聚类算法;关联规则

0 引言

数据挖掘(DM)是20世纪90年代发展起来的数据库系统和数据库应用领域的一个欣欣向荣的前沿学科,是从大量的、 不完全的、 有噪声的、 模糊的、 随机的实际应用数据中,提取潜在有用信息和知识的过程[1]。

Weka是由新西兰怀卡托大学用Java开发的数据挖掘常用软件,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。Weka系统得到了学界广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一[2]。

1 数据挖掘常用算法1.1 聚类算法

聚类算法是数据挖掘的重要工具。聚类通过建立数学模型,根据数据相似性将数据库划分为不同的部分,使得类内数据尽可能相似,类间数据差异尽可能大。

聚类算法通常有分层聚类、分割聚类、基于密度的聚类、基于栅格的聚类、字符属性联合聚类、高维数据聚类和神经网络聚类等7种[2-3]。这种分类并非完备正交的,相互之间有交叉。评价聚类算法的优劣主要考虑其所能处理数据属性的种类,处理高维数据和不规则数据的性能,抗干扰性和算法的时间复杂度。

1.2 基于关联规则的数据挖掘算法

关联规则挖掘,就是在数据列表中找出满足最小置信度和最小支持度的规则,挖掘不同数据项集之间潜在的关联关系。在现有关联规则挖掘中,最典型的算法是Apriori算法[4]。该算法依据频繁项集性质的先验知识命名,是一种通过多次扫描数据库来获取支持度大于最小支持度的频繁项集的广度优先算法。

设I={i1,i2,…,in}是由n个不同项目组成的集合,T代表一个具体的事务数据库,同时T也是I的子集,即T⊆I。假设对于项目i1和i2有i1⊆T、i2⊆T,且i1∩i2=∅,1个关联规律就是满足数据最小支持度阈值(min_support)和最小置信度阈值(min_confidence)的形如“i1⟹i2”的蕴含式,该过程的公式表述如下:

在基于支持度—置信度框架中,同时满足用户给定的最小支持度阈值与最小置信度阈值的关联规则称为强关联规则。关联规则的挖掘实际上就是在事务数据库T中找出满足给定的最小支持度与最小置信度的强关联规则[5]。

2 辐射源数据挖掘过程

对海量的辐射源数据进行挖掘,只有遵循了一定基本规范,才能保证数据挖掘工作的顺利进行,可以按照定义目标、数据准备和处理、建立和验证模型、实施和维护模型的步骤进行数据挖掘。

2.1 定义目标

定义目标就是要根据数据挖掘工作的需要,明确数据挖掘的工作目标。这一步是数据挖掘工作进行的关键,不正确的目标往往导致资金的浪费和机会的丧失。在进行数据挖掘之前,必须明确数据挖掘需要达到的目的:是发现异常值,还是保证重点目标,或者是要通过对重点雷达关联性的挖掘来提升关联的准确性。在经过以上目标的分析和确认之后,就可以比较明确地知道要做什么,基本要求是什么,该采用什么样的算法。

2.2 数据准备和处理

在明确数据挖掘目标之后,另一个非常重要的工作就是数据准备和处理。数据准备和处理本身也可以分为多个工作步骤。具体包括如下:

1)明确数据源:明确数据挖掘的数据来源。对于辐射源数据,可以从厂所、雷达站、电子侦察卫星等渠道获得。

2)数据清洗:数据清洗主要完成填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据等工作。从各种渠道所得到的数据,往往会出现缺失数据、存在异常数据、甚至是错误数据的状况。然而,不能因为数据存在缺陷而放弃利用数据,浪费大量的数据资源。

3)数据集成:是将多个数据源的数据合并在一起。对于雷达辐射源数据,我们得到的数据很有可能是从多个数据源得到的,在合并中需要对不一致和冗余的数据进行规范和处理。比如,对相同辐射源应当选择侦获精度高的侦获手段所获得的数据。

4)数据转换:数据转换需要根据数据挖掘的需求对数据进行必要的规格化操作。例如辐射源三参数中,载频的重要性在一定程度上要高于脉宽,在分析的时候可能会对使两个因素对模型的影响力不一样,将不同属性的数据规范到一定范围之内。

5)数据削减:是使用各种技术减小挖掘数据规模。通过这种方法,能够将分析的资源集中到最有价值的数据信息上。数据削减方法包括:数据聚合、消减维数、数据压缩、数据块消减等。数据聚合,是通过建立立方的方法降低数据维数;消减维数,是通过相关分析等方法降低属性的数量;数据压缩,是通过编码的方法完成;数据块消减,是利用聚类或参数模型方法实现。

2.3 建立和验证模型

首先,需要根据数据挖掘的目标确定是建立预测模型(predictive model)还是建立描述模型(descriptive model)。前者主要计算未来活动的值,而后者是要创建规则,把对象归入描述的类中。

其次,需要了解输入和输出的变量可能有哪些,它们是标称变量、类别变量、序数变量等。其中:标称变量仅是确定唯一实体的标号,如处理过程中的处理批号等:类别变量是组的标号,如对空、对海、多功能雷达等:序数变量能够按照合理的顺序排列,如载频值的不同频段。

最后,确定模型的输入、输出数量。根据以上的信息与现有各种数据挖掘模型的特点、其输入和输出状况,可以选择合适的模型。在完成模型的选择之后,需要对模型的效果进行评价,并根据评价的结果进一步优化模型,直到得到最后的理想的数据挖掘结果。

2.4 实施和维护模型

在建立好数据挖掘模型之后,一些没有充分考虑的因素很有可能会影响到模型的效果。而且,随着时间的推移一个好的模型的效果会变差。所以,需要对模型进行评分、审计和跟踪,出现问题后及时调整。

3 基于Weka平台的辐射源数据挖掘模型设计

数据挖掘模型设计是整个数据挖掘过程的核心。针对具体的需求,需要设计不同的数据挖掘模型对电子侦察辐射源数据进行处理。

3.1 针对不同种类辐射源的分类预测模型设计

电子侦察所能侦获到的辐射源种类很多,其中不仅包含着有价值的雷达辐射源信息,也夹杂着各种各样的噪声,使用Weka平台自带的分类器进行分类筛选,利用已知参数的雷达信息建立训练集,使用该训练集对侦获到的辐射源数据进行预测与分析,这样就能够将不同种类的辐射源区分开来。该模型设计如图1所示。

图1 针对不同种类辐射源的分类预测模型设计

3.2 针对单一雷达不同工作模式的聚类模型设计

为满足多样化的作战任务需求,单一雷达常常存在多种工作模式,如美国“伯克”级导弹驱逐舰在执行一般性巡航任务与执行反导部署时,其配备的“宙斯盾”雷达工作模式存在明显差异。

在海量侦察数据中将不同模式的参数信息进行精确的聚类,分析不同簇类间的具体差异,能得到很多有用的信息。首先,找到某型号雷达不同模式之间的差异有助于全面掌握该型雷达功能特点,便于后续的分析研究;其次,可以将聚类结果反馈给处理系统,优化处理系统的学习能力和判别能力,进而提升区分单一雷达不同工作模式的能力。该模型具体设计如图2所示。

图2 针对单一雷达不同工作模式的聚类模型设计

3.3 针对平台与雷达协同关系的关联模型设计

对于特定的作战任务,多种型号的平台常常协同部署,其所配属的不同型号的雷达同样需要协同工作。侦察积累的平台数据集以及雷达辐射源数据集中挖掘平台之间、雷达辐射源之间以及平台与雷达辐射源之间的关联关系,可以帮助我们理清平台和雷达之间协同工作情况,掌握协同部署规律,摸清外军常用战术原则,从而为作战指挥决策提供有力支撑。这种协同关系的关联模型如图3所示。

图3 针对平台与雷达协同关系的关联模型设计

4 结束语

本文通过对现有的数据挖掘算法进行归类分析,对不同算法的适用范围和处理效果进行分析比较,详细阐述了电子侦察辐射源数据挖掘过程的一般流程,并且针对不同层级辐射源数据设计了挖掘模型。■

[1] Agrawal R. Data mining :crossing thechasm[R/OL].2002-11-20.http://www.almaden.ibm.com/cs.people/regrawal/papers/kdd99_chasm.ppt.

[2] 郑文娟,王会青.陈俊杰.基于Weka平台的FCM算法的研究与实现 [J].计算机应用与软件,2013,10:41-44.

[3] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,1:48-61.

[4] 刘大有,杨建宁,杨博,等.基于环路紧密度的复杂网络社区挖掘方法[J].吉林大学学报(工学版),2013,3(1):98-105.

[5] 裴泽霖,金培进,张顺健.雷达对抗侦察数据关联规律挖掘模型研究[J].航天电子对抗,2007,23(4):35-37.

Electronic reconnaissance radiation source data mining based on Weka platform

Jiang Nan, Wang Yangjun, Wang Denglin, Liao Shuai

(Unit 61646 of PLA, Beijing 100091, China)

Data mining can improve the efficient use of large-scale data sets, and it’s one of the directions for further development of the electronic reconnaissance radiation source database. Existing data mining algorithms are classified and analyzed, and the application scope and processing effect of different algorithms are compared. The general process of electronic reconnaissance radiation source data mining is given in detail and several mining models based on Weka platform are designed for different levels of radiation source data.

data mining; Weka; clustering algorithm; association rules

2017-04-21;2017-05-26修回。

姜楠(1989-),男,助理工程师,硕士,主要研究方向为航天电子侦察。

TN971

A

猜你喜欢
辐射源数据挖掘关联
基于单站干涉仪测向法的未知辐射源定位技术*
改进支持向量机在特征数据挖掘中的智能应用
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
基于博弈论的GRA-TOPSIS辐射源威胁评估方法
基于事故数据挖掘的AEB路口测试场景
“一带一路”递进,关联民生更紧
数字电视外辐射源雷达多旋翼无人机微多普勒效应实验研究
外辐射源雷达直升机旋翼参数估计方法
奇趣搭配