迟明祎,侯兴明,周 瑜,陈小卫
(1.航天工程大学航天保障系,北京 102200;2.解放军63850 部队,吉林 白城 137001;3.解放军32183 部队,辽宁 锦州 121000)
防空火力试验科目中,红方发射防空导弹拦截前来袭扰的蓝军战斗机(以靶机代替),数据采集人员借助红外经纬仪测量系统对导弹跟踪拍摄,事后解算导弹坐标、遭遇段的靶机航迹和脱靶量。如何在稍纵即逝的发射窗口期内确保较高的测量精度和目标捕获率,一直是困扰着参试人员的难题。靶场传统方法是指派经验丰富的测试指挥员、技术骨干,制定初步布站方案和数据采集策略,经过会审敲定,该方法是一种过多依赖专家主观经验和阅历的“粗放式”的方法,易造成“不合格品”。刘建宏等提出一种基于自适应遗传算法的光测设备布站优化方法,构建了基于提升测量精度的目标函数,提升了经纬仪交会精度,缺点在于需要对测量精度、设备跟踪精度、逆光条件、区域约束条件和通视约束5 类复杂约束条件的分析,涉及大量运算,且容易陷入局部最优解。欧士扬等提出在有若干种方案可供选择的情况下,通过建立方案评估的指标体系和权重对各种方案的优劣进行评估,该方法过多依赖专家的专业知识、经验素质和推理能力,主观因素占比较大。近年来,随着各类光学设备承担常规武器性能、作战试验任务的增多,试验机构积累了大量的历史试验数据,这些数据在完成试验鉴定之后往往入库封存不再利用。如何在基于已有历史试验数据分析的基础上,避开对复杂约束因子和目标之间关系的分析,构建数据采集方案优化策略集,减少试验方案设计优化中主观“人算”因素,提高“机算”、“智算”的比例,从而提升数据捕获率和测试精度,对于为后续试验数据采集方案的优化改进具有重要的意义,是本文研究的主要内容。
本文提出借助对已有历史试验数据的关联规则挖掘,采取定性与定量相结合的方法,解决红外经纬仪测量系统数据采集方案优化的问题。Apriori算法是关联规则挖掘算法中较为经典的算法,能够有效降低频繁集计算量,操作简单,应用广泛。PDCA 戴明环是质量管理和优化领域应用最基本、科学的方法,具有形象化、不断演进和提高的特点。本文将广度优先搜索策略Apriori 关联规则挖掘算法和PDCA 戴明环相结合,通过对大量以往数据采集方案文本数据的分析和关联挖掘,探究影响试验数据录取的事件和因子有哪些,并分析其作用机理,采用阶跃PDCA 方法对数据采集方案进行循环优化,规避不利因素,从而提升数据录取率和精度。
Apriori 算法核心思想是通过逐层次搜索迭代,对数据库进行搜索分析,获得频繁1-项集,而后进行两两连接JOIN 操作形成频繁2-项集,以此类推,直至找到最高阶频繁k-项集,搜索结束。Apriori 算法流程如下:
1)设置最小支持度min-support 和最小置信度min-confidence;
2)搜索数据库所有数据,得到候选1-项集,计算支持度和置信度,剔除候选项集中支持度小于min-support 和置信度小于min-confidence 的项目,得到频繁1-项集,记为L;
3)连接步:对所有的频繁k-1-项集L进行JOIN 连接操作,得到候选k-项集;
4)剪枝步:剪除候选k-项集中包含不频繁项的项集。剪枝步能够有效减少对候选项集支持度和置信度比较计算的计算量,压缩数据规模;
5)计算支持度和置信度,剔除支持度小于min-support 和置信度小于min-confidence 的项,得到频繁k-项集,记为L;
6)重复第3)步~5)步,直到不再出现更高阶的项集,退出迭代,算法流程如图1 所示。
图1 Apriori 算法流程
在防空火力试验文本数据中:
1)设D 表示跟数据录取有关的事务数据库,其组成元素是若干个项集d,项集d 表示跟数据录取有关的事件的集合,其组成元素是若干个事件T。
支持度(support)是指D 中同时含有A,B 的概率,它表示规则在整个数据中的重要性:
置信度(confidence)是指在D 中包含A 的前提下,含有B 的概率,它表示A→B 规则的有效性:
为了研究的需要,以某型红外经纬仪测量系统为分析对象。在近7 年时间内,该设备参与完成的每一次试验科目中,试验设计人员会将本次参试基本情况:基线长度、站点位置、红外作用距离、长/短焦模式、地表温度、空中可见度、操作手技能等参数准确记录在案,经整理形成数据采集文本数据进行留存,供后续试验过程回溯参考使用。本例筛选300 组有代表性的数据构建数据库,部分数据如表1 所示。
表1 事件数据库原始数据
其中,事件代号及其基本描述如表2 所示。
表2 事件代号及其基本描述
由于涉及的事件较多,且种类、量纲和属性各不相同,为了便于对数据进行关联规则挖掘,对各项数值进行分类分级,离散化处理,用编号代替以便于计算机处理。
基线长度(T):A(1≤T<1.5),A(1.5≤T<2.5),A(2.5≤T<3.5),A(3.5≤T);
操作手技能(T):A(合格),A(良),A(优);
地表温度(T):A(T≤-20℃),A(-20℃<T≤-5℃),A(-5℃<T≤20℃),A(20℃<T);
目标最大角速度(T):A(T≤2°/s),A(2°/s<T≤4°/s),A(4°/s<T);
红外作用距离(T):A(T≤1.5 km),A(1.5 km<T≤3 km),A(3 km<T);
全系统无故障率(T):A(T≤70%),A(70%<T≤85%),A(85%<T);
站点个数(T):A(2 站),A(3 站及以上);
空中可见度(T):A(2 km 以内),A(2 km~3 km),A(3 km 以上);
弹丸发光特性(T):A(发动机),A(尾焰初始段消失),A(尾焰中段消失),A(尾焰终段消失);
天时(T):A(白昼),A(清晨),A(傍晚),A(夜间);
发射口令(T):A(伺机),A(倒计时);
技术把关(T):A(中),A(良),A(优);
分站操作经验(T):A(中),A(良),A(优);
跟踪方式(T):A(手动),A(自跟转手跟),A(红外自动),A(凝视);
数据录取效果(T):A(T≤70%),A(70%<T≤80%),A(80%<T≤90%),A(90%<T)。
采用广度优先搜索策略的Apriori 算法,对经过预处理的数据进行关联规则挖掘,设置最小支持度min-support 为10%,最小置信度min-confidence 为70%,借助MATLAB 工具,对300 组数据进行扫描和分析,得到所有频繁项集,其中部分关联规则如表3 所示。
表3 频繁项集关联结果
对表中关联规则进行解读,得到部分结论如下:
规则1:基线长度在2.5 km~3.5 km 之间,弹丸最大角速度小于2°/s,空中可见度3 km 以上,数据录取在90 分以上;
规则2:站点个数3 个~4 个,红外作用距离2 km~3 km,地表温度-5℃~20℃,数据录取在80 分以上;
规则3:技术把关中等,操作手技能合格,分站操作经验中等,数据录取在80 分以下;
规则4:发动机无火焰,自跟踪,红外作用距离>3 km,基线较长,数据录取结果较差。
通过关联规则挖掘得到各影响时间,在专家分析的基础上,绘制数据采集方案影响要素动态因果关系图,如图2 所示,实线为正反馈+,虚线为负反馈-。
图2 要素动态因果关系
通过关联规则挖掘,得到频繁项集,绘制了数据采集方案设计要素的动态因果关系图,在此基础上,借助PDCA 循环对数据采集方案的设计进行优化。PDCA 循环又称“戴明环”,由美国质量管理专家休哈特博士提出,经戴明推广普及,P、D、C、A分别代表优化过程的4 个步骤:
Plan:根据目标和要求,制定计划;
Do:执行,实施计划;
Check:检查计划实施情况是否与预期目标一致;
Action:处理,反馈。对结果进行处理,推广成功经验,总结失败教训。
通常在Action 环节中,未解决的问题放在下一个PDCA 的循环当中,即对PDCA 戴明环分解嵌套,实现循环提高,阶梯式进步,其原理如下页图3所示。
图3 PDCA 戴明环工作原理
结合本案例,优化分析步骤如下:
Step 1:根据PDCA 戴明环原理,将历史试验数据关联挖掘结果视为上一轮循环的结果,通过分析、总结、检查和处理,得出改进的结论;
Step 2:从影响数据录取质量的因子出发,基于关联规则频繁项集所反映的规律,为下一次试验数据采集方案制定详细计划;
Step 3:在执行过程中,根据设计和布局,执行计划的内容,并记录哪类问题得到解决,哪些经验值得推广,哪类问题没有得到解决,以及出现的新问题;
Step 4:在理论和实践相结合的过程中,对采集方案的执行进行复查。总结计划执行的结果,明确措施对应的效果,厘清有效措施、无效措施,找出遗留问题和新问题;
返回Step 1:对总结检查的结果进行处理,有效措施进行固化,无效措施改变策略,对于没有解决的问题和新问题,分析诱因,转到下一级循环中解决。
总结得出方案优化过程详见下页表4。
对表4 的数据采集方案优化策略进行解读,得到如下结论(部分)供试验人员参考:
表4 基于PDCA 戴明环理论的红外经纬仪测量系统数据采集方案设计优化策略
1)应当在一定范围内增加基线长度,增大交会角,兼顾目标作用距离,在“基线长度允许区间n 作用距离允许区间”内布设站点,此外,因临时点位稳固性差、地基下沉,易造成坐标变化,应尽量选取带有深层地基结构的固定点位,对提升数据交会精度有良好作用。
2)长焦拍摄精度优于短焦,短焦视场大易于跟踪,这是一对矛盾因子,应通过调整红外作用距离兼顾成像精度和跟踪难度。此外,科学调整经纬仪指向与弹道飞行投影路径的夹角,规避侧视点位,尽量选取后视观测点位,是提升成像和跟踪水平从而提高数据录取精度的有效措施。
3)增强对分站操控人员、操作手技能的培养,优化人员配备。设备所属单位应充分利用周、月、半年维护、进点调机和试前维护等机会,开展技能培训,以“传帮带,结对子”的形式促进赓续和传承,并加强人员持证上岗考核力度。此外,加强对试验方案的推演和技术把关,将问题遏制在萌芽阶段,是确保试验顺利开展的必要手段。
4)精细把控试验细节,与试验指挥员密切沟通、协同。试前就重要信息如弹丸发光特性、飞行特点、科目想定、发射时机和安全区域等进行充分沟通,加强对试验细节的精细把控,形成应急预案,知己知彼百战不殆,不可因惧怕麻烦而草率。
5)影响试验方案设计和数据录取质量的并不是单一或少量因子,往往是多重因素,且影响效果大多呈非线性,影响方向随区间可变,还存在相互制约的矛盾因子。本文通过关联规则挖掘找到14种影响因子,随着数据再利用方法水平的提高,结论会在今后的研究中不断得到丰富和完善。
为了验证结论的有效性,组织某试验场相关专家和参试人员对上述结论的进行了分析评议,并组织分站操作人员、操作手基于经纬仪模拟跟踪训练器进行虚拟目标的模拟跟踪和交会(正式试验因其特殊性不可作为检验手段),借助平均绝对百分比误差(MAPE)对预测效果进行评价,其计算公式如下]:
经多次试验计算平均值,红外经纬仪测量系统训练过程中的目标捕获率和采集精度分别提升了11.8%和2.1%。此外,与采用将光测系统平衡程度和特征点测量精度作为约束条件的经纬仪布站优化设计方法结果相比,数据交会精度提升了0.8%;与基于差异进化优化算法的靶场测控方案优化设计方法相比,数据交会精度提升了1.2%,通过对比,验证了上述观点的正确性和有效性。动态因果关系图和方案优化措施表可作为后续性能试验、作战试验相关科目设计和改进的参考依据,可为参试人员提升目标捕获率和数据采集的精度提供思路和借鉴。
针对提升红外经纬仪测量系统弹道测试试验目标捕获率和测试精度问题,采用Apriori 关联规则挖掘算法,对历史试验文本数据进行分析挖掘,得到数据采集方案频繁关联因子,并分析作用机理,绘制数据采集方案设计要素动态因果关系图,并结合PDCA 戴明环对数据采集方案进行循环阶跃式
优化处理,验证了方法的可行性和结论的有效性,可为弹道相机、光学经纬仪等光学设施设备数据采集方案的制定提供一定的借鉴和参考,探索了基于关联规则挖掘的试验数据再利用方法。