战术导弹数据挖掘平台设计及其关键技术

2017-12-15 00:52
计算机测量与控制 2017年11期
关键词:数据挖掘导弹算法

(中国人民解放军92941部队,辽宁 葫芦岛 125001)

战术导弹数据挖掘平台设计及其关键技术

马艳

(中国人民解放军92941部队,辽宁葫芦岛125001)

为了优化导弹生产流程、降低武器装备寿命周期费用、利用导弹在生产和使用维护阶段获取的海量数据,运用数据挖掘技术,提出了导弹数据挖掘平台的总体设计思路;对导弹数据挖掘过程中的数据预处理方法、数据挖掘算法和异常检测算法等关键技术进行了研究,采用FP-Growth算法挖掘导弹生产过程中的工艺参数与产品质量的关联,采用Z-Score检测法完成异常参数检测;通过在导弹全寿命周期中的应用,方案合理可行,可以有效地提高导弹质量和装备的战备完好性,具有广阔的军事应用前景。

数据挖掘平台;系统设计;数据预处理;异常检测

0 引言

大数据已经成为当前计算机科学领域的热点问题和发展趋势,大数据中蕴含着巨大的社会、经济、科研和军事价值,英美等国已将大数据研究列为战略性技术和研究发展计划,给予优先的资金支持[1-3]。我国针对大数据的科学研究日新月异,在诸如电子商务、云计算、卫生保健、生物信息学、网页挖掘、灾难信息管理等领域逐步开展了实际运用,但在武器装备领域的军事应用尚处于摸索阶段。在大数据时代,数据的产生和收集是基础,数据挖掘是关键,数据挖掘是在大型数据存储库中自动发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式,还可以预测未来观测结果,能够解决数据的高维性、可伸缩、分布式、异种数据和复杂数据以及非传统分析等问题[4]。目前导弹从生产、装备部队直到退役,会产生大量的数据,采用适当的数据挖掘方法,充分利用这些海量数据,可以有效地优化导弹生产流程、控制生产成本、提高产品质量,降低维护维修费用,提高武器装备的战备完好率。

1 系统设计需求分析

装备部队的导弹在全寿命周期内一般都要经过工厂生产、部队使用维护和维修等过程。在导弹生产阶段,要经过元器件筛选、弹上设备组装调试、导弹总装测试、军检验收等环节,一般包括几百个工序,每个工序包含多个工位,每个工位对应一台到数台仪器设备,过程中要产生装配、调试、加注、充气、检查、测试、吊装、转运、交接等各种数据、记录。在导弹部队使用维护阶段,要经过日常维护、吊装转运、装备转场、值班值勤、故障维修等环节,过程中要产生检查、测试、拆卸、安装、维修、吊装、转运、值班日志、环境监测、交接等各种数据、记录。在生产工序复杂、任务转换频繁、测试参数众多、数据分布广泛、人为及环境因素交织、数据量庞大的背景下,仅靠人为分析研究数据来提高导弹质量、控制生产成本、降低维护维修费用是无法实现的,因此迫切需要研究基于导弹生产和使用维修过程的数据挖掘工具,从而提高过程管控能力和产品品质,有效降低成本,改变以往单纯依靠工艺技术、材料技术提高产品品质的方法。

2 导弹数据挖掘平台设计

2.1 总体设计思路

系统总体设计思路是应用导弹在工厂生产阶段和部队使用维护阶段产生的大量数据,综合运用人工智能、计算智能、模式识别、数理统计等先进技术,对积累的数据进行挖掘。平台采用四层结构,以数据分析、分析任务管理、逻辑资源和物理资源平台分层,这种分层架构充分考虑了海量数据的分布式存储、不同数据挖掘算法的集成、多种分析任务的配置以及系统和用户的交互功能。平台建立所采用的数据挖掘方法主要包括:差异分析、关联分析、预测分析和分布分析等。差异分析主要对导致不同产品品质的工艺参数、环境因素、使用年限等进行对比分析,关联分析用于分析不良品质特性与各种因素间的潜在关联关系,如Apriori算法、FP-Growth算法等,预测分析通过建立挖掘模型分析各种因素的变化对产品品质测量值的对应关系,分布分析更侧重于对产品品质的分布与各种因素的关系。

2.2 平台总体架构

平台由物理资源层、逻辑资源层、数据分析任务管理层和数据分析层组成。导弹数据挖掘平台架构如图1所示。

1)物理资源层:物理资源层主要包括底层的物理设备。这些物理设备能有效支撑导弹各任务阶段数据的存储和扩展。

2)逻辑资源层:逻辑资源层包括存储和计算资源。存储资源建立在物理设备基础上,包括传统数据库、本地文件系统、分布式文件系统等。计算资源是逻辑上的计算单元。平台的计算能力依赖计算单元的数量,通过扩展配置计算单元的数量能有效支撑上层的导弹数据挖掘任务。

3)数据分析任务管理层:数据分析任务管理层是平台的核心。它有效地连接了分析功能与后台集群。合理的平台设计需要具备以下任务管理能力:易于算法扩展、支持任务流和任务间依赖关系的配置、任务调度、计算和存储资源分配。导弹数据挖掘平台通过数据分析框架FIU-Miner[5]来有效支撑数据分析任务管理。

4)数据分析层:数据分析层提供具体分析任务的用户执行接口。导弹数据挖掘系统的数据分析任务主要包括数据立方、对比分析、时间维分析、操作平台、结果展示和报告管理等。

图1 导弹数据挖掘平台架构

2.3 平台功能设计

操作人员先通过数据立方、对比分析、时间维分析3个子系统(见图1)对数据进行探索性分析总结出数据的分布特性,然后通过数据操作子系统实施数据挖掘任务,挖掘结果通过图形和报表等可视化手段形成分析报告,为提高导弹质量、优化导弹生产流程、控制生产成本、降低维护维修费用等不同目的和任务提供依据。

其中数据立方子系统使分析人员能够对数据进行宏观理解和快速预览,采用OLAP技术建立数据立方可以帮助分析人员大致掌握数据特性,通过选择维度和建立测度对数据集进行分析,使用数据立方操作实现对数据的多粒度、多角度的理解;对比分析子系统能快速发现敏感参数和验证重要参数,通过比较参数在不同时期的统计特性,有效发现异常参数值;时间维分析子系统重点关注在不同时期和时间粒度上环境因素变化情况以及导弹性能退化程度;数据操作子系统负责集成数据挖掘算法,提供任务操作接口,数据挖掘算法被合理封装到各个任务中,对操作人员透明;分析报告子系统则基于任务分析结果,产生分析报告,通过分析报告可以直接给决策者提供依据,同时也为领域专家提供收集反馈的接口,领域专家知识的引入对优化模型、改进算法具有重大的指导意义。

3 关键技术

数据挖掘过程通常经过数据预处理、数据挖掘和后处理3个环节(见图2所示),是一个反复迭代的过程。数据预处理环节完成数据的提取,满足用户在源数据中提取自己所需的相应的数据[6];数据挖掘环节中,需要对不同性质的数据提取方法进行处理分析,选择适合的数据挖掘算法;后处理环节包括模式过滤、可视化和模式表示3个方面,结果可以作为原始数据、表格、决策树、规则、图表显示或三维图形,这个环节是设法使数据挖掘的结果更容易使用和理解。

图2 数据挖掘过程

3.1 数据预处理

导弹在工厂生产阶段和部队使用维护阶段由于获取数据的方式不同,数据由不同载体存储,如文本、电子表格、各类数据库、图片、影像文件等,可以驻留在集中的数据存储库中,或分布在多个站点上。为了便于数据分析,需要把这些来自不同数据源的数据集成起来,建立格式统一的数据表示,从而为后续的数据挖掘奠定基础。多种数据源的语义复杂性、数据维度的丰富性、多样性等新特点使得传统的表达方式已不能满足实际应用需求[7-8],需要根据不同情况进行多元离散特征的提取、融合和降维、归一化表达,以提高数据处理的效率,实现数据向知识的转化。可以将所有数据集成到MySQL数据库中,利用MySQL建立数据仓库。通过在数据仓库中关联不同的维度,对数据进行多角度、多粒度的整合,从而构建数据挖掘算法。

在原始数据表中,每枚导弹在不同阶段的数据和记录形成了许许多多条数据,从数据管理角度出发,进行数据挖掘前,需要将与一枚导弹有关的所有数据整合成一条记录,最终构成集合作为数据挖掘算法的输入。这个数据转换过程需要表的多次自关联,用常规的SQL语句实现很困难,需要依赖数据转换算法完成。

转换后的数据还需要统一进行清理,以使各枚导弹的数据规范、一致。通过填写空缺值、平滑噪声数据、识别删除孤立点,并解决“不一致”来清理数据,从而增强数据挖掘结果的质量。

3.2 数据挖掘算法

选择并实现适当的数据挖掘算法是数据挖掘阶段的主要任务,目前主流的十大数据挖掘算法包括:决策树分类、K均值聚类、支持向量机分类、关联规则挖掘、最大期望算法、链接分析、集成算法、K近邻分类、朴素贝叶斯分类、分类和回归[4]。从数据中学习和发掘的基本原则主要是依赖这些理论,实现从数据中成功地学习,并应用这些技术对模型给出客观可信的评估,从而找到适当的模型。

以挖掘导弹生产过程中的工艺参数与产品质量的关联为例,这种关联关系体现为参数值组合在某类缺陷数据集合中出现的频率,一些经典的挖掘频率特征集合的算法适用于挖掘重要参数组合,比如Apriori算法、FP-Growth算法[9]等,从某类缺陷出发,应用FP-Growth算法挖掘出出现频度最高的参数组合,分析出与该缺陷关联性较高的参数组合,从而实现快速定位缺陷原因,修正参数设置,提高产品质量。

FP-Growth算法由两步组成:(1)利用集合数据构建FP树,此过程输入为事务表CK和最小支持度MinSup,输出为树表TreeTable,头表HeaderTable;(2)从构建好的FP树上使用一种自底向上的分治算法逐步获取重要的参数组合,这些参数可以根据经验和试验进行调试和优化。通过算法可以挖掘出与某缺陷关联性最大的参数组合,我们以在数据集中出现频率对这些组合进行排序,排序靠前的组合如果均包含某个或某几个参数,则说明此组参数与某缺陷有很大关系。

FP-Growth算法的挖掘过程实现如下:

输入:树表TreeTable,头表HeaderTable,后缀模式Postfix,最小支持度MinSup

输出:频繁项集表FP

1)If IsDifferent(TreeTable, Prefix) then //判断是否有分支

2) for each Pi=Combination(ItemID) //输出所有组合

3) Insert into FP values(Pi∪Postfix,min(ItemCount))

4)Else for each αiin HeaderTable {

5) Insert into FP values(αi∪Postfix, αi.(ItemCount))

6) Create DA as select Decompose(Prefix), NodeCount from TreeTable where ItemID=αi//生成条件模式基

7)Call Create_Tree(DA, TreeTable2, HeaderTable2, MinSup) //生成条件模式树

8) If TreeTable2≠Ф then

9) Call FP_Growth(TreeTable2, HeaderTable2, αi∪Postfix, MinSup)} //递归调用FP-Growth

10)Drop table TreeTable, HeaderTable //删除临时无用的表格,释放空间

3.3 异常参数检测

异常参数检测的任务是识别其特征显著不同于其他数据的观测值。异常检测算法的目标是发现真正的异常点,避免错误地将正常的对象标注为异常点。通过对导弹数据中的参数进行异常检测,能够迅速发现参数的异常值,这里采用Z-Score检测法来计算某参数的取值相对于正常状态下的偏离程度,从而找到离群参数值。

文献[10]推荐使用下列公式计算的Z-Score进行离群点检测:

4 试验与验证

实际应用中以某批次50枚导弹作为样本,将50枚导弹生产过程中和8年使用维护过程中的所有历史数据信息录入数据库。经过数据预处理后将与一枚导弹有关的所有数据整合成一条记录,共形成50条记录,每条记录中含各类数据信息五千余个,包括导弹型号、批次号、导弹编号、弹上各分设备及组件编号、装配记录、工艺参数、历次检查测试记录、环境监测数据、交接记录、故障维修记录、值班记录等等。

通过数据挖掘平台分析生产过程中的工艺参数与产品质量的关联,找出数据中与特定缺陷“S001”关联最紧密的参数组合,以在数据集合中的出现频率对这些组合进行排序后发现,排名最高的4个组合均含有“Char_120105-56”和“Char_120105-58”两个参数,可以说这两个参数对缺陷“S001”有很大影响。

通过数据挖掘平台进行剩余寿命预测,可以有效开展导弹预防性维修和视情维修,对于降低维护维修成本、提高装备的战备完好性具有现实意义。通过数据挖掘平台的时间维分析子系统预测导弹剩余寿命,从图3可以看出,预测的剩余寿命与该枚导弹实际剩余寿命基本一致,验证了方案的可行性。

图3 导弹预测寿命与实际剩余寿命比较

5 结束语

本文从导弹数据挖掘系统设计需求分析出发,提出了导弹数据挖掘平台的总体设计思路,介绍了导弹数据预处理方法、数据挖掘算法和异常参数检测算法的思想和步骤,充分利用导弹在工厂生产阶段和部队使用维护阶段积累的海量数据,对于优化导弹生产流程、提高产品质量、降低维护维修费用有关重要的意义。这种思路、设计方案可以应用于其他型号导弹及其各型武器装备的生产和使用维护中,应用前景广阔,社会及经济、军事效益显著,对于提高武器装备的战备完好性和使用管理决策支持能力必将起到积极的作用。

[1] White House Office of Science and Technology Policy.Big Data is a Big Deal[EB/OL].[2012-03-29].http:∥www.whitehouse.gov/blog/2012/03/29/big data big deal.

[2]White House Executive Office of the President.Big Data across the Federal Government[EB/OL].[2012-03-29].http:∥www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet.pdf.

[3]Wang Weihang.The British Provides Huge Sum of Money for Developing Big Data Technologies to Promote Economic Growth[EB/OL].[2013-05-31].http :∥www.e-gov.org.cn/xinxihua/news003/201305/141545.html.

[4]Tan Pangning, Michal Steinbach, Vipin Kumar.数据挖掘导论[M].北京:人民邮电出版社,2011:2-3.

[5]FIU-Miner[EB/OL]. http://www.Datamining-node08.cs.fiu.edu/ FIU-Miner/.

[6]李秀娟,田 川,冯 欣.数据挖掘分类技术研究与分析[J].现代电子技术,2010,33(20):86-88.

[7]辛芳芳,焦李成,王桂婷.非局部均值加权的动态模糊.Fisher分类器的遥感图像变化检测[J].测绘学报,2012,41(4):584-590.

[8]李 晖,肖鹏峰,冯学智,等.基于向量场模型的多光谱遥感图像多尺度边缘检测[J].测绘学报,2012,41(1):100-107.

[9]Han J, Pei J,Yin Y. Mining frequent patterns without candidate generation[R]. In ACM SIGMOD Record, 2000,29:1-12.

[10]李 涛,等.数据挖掘的应用与实践[M].厦门:厦门大学出版社,2013.

DesignandKeyTechnologyofDataMiningPlatformforTacticalMissile

Ma Yan

(PLA,No.92941 Troop,Huludao 125001,China)

In order to optimize the production process and reduce life cycle costs of the tactical missile,the general design thinking on the missile data mining platform is put forward using huge amounts of data in the production, use and maintenance phase. Data preprocessing methods, data mining algorithms and anomaly detection algorithms are studied in the process of the missile data mining. FP-Growth algorithm is adopted to mine the association with the process parameters and products quality. Z-Score detection method is adopted to detect anomaly parameters. Practical application shows that these methods can enhance missile quality and operational readiness. It has a wide foreground of military application.

data mining platform;system design;data preprocessing;anomaly detection

2017-05-09;

2017-05-18。

马 艳(1971-),女,山东临朐人,高级工程师,硕士,主要从事战术导弹试验与鉴定方向的研究。

1671-4598(2017)11-0096-03

10.16526/j.cnki.11-4762/tp.2017.11.025

TP303

A

猜你喜欢
数据挖掘导弹算法
探讨人工智能与数据挖掘发展趋势
导弹燃料知多少
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
Travellng thg World Full—time for Rree
正在发射的岸舰导弹
进位加法的两种算法
拦截那枚导弹
导弹转运
一种改进的整周模糊度去相关算法
一种基于L-M算法的RANSAC图像拼接算法