复杂设备维修保障数据预处理技术研究*

2016-08-11 06:59
计算机与数字工程 2016年4期

李 季 孙 凯 白 文

(1.军械工程学院 石家庄 050003)(2.63871部队 华阴 714200)



复杂设备维修保障数据预处理技术研究*

李季1孙凯2白文2

(1.军械工程学院石家庄050003)(2.63871部队华阴714200)

摘要复杂设备维修保障数据的预处理是其正确性与准确性的重要保证,决定着后续维修保障工作的质量与效益。论文分析了复杂设备维修保障数据的应用需求及特点,对其预处理过程中的相关技术和方法进行了归纳,并在此基础上总结建立了维修保障数据预处理的基本流程,最后结合某设备维修性数据采用信息熵理论进行了数据规约实例分析。

关键词复杂设备; 维修保障; 数据清洗; 数据规约

Class NumberTP391

1 引言

随着设备复杂化程度的逐步提高,对于其维修保障工作提出了更高的要求,开展维修保障决策所需数据的重要性也日益凸显。复杂设备维修保障数据的正确性与准确性决定着后续维修保障工作的质量与效益,因此在开展RMS分析、维修决策、保障资源规划等各项维修保障工作之前必须要进行所需基础数据的预处理工作。

数据预处理相关理论与方法很多,在许多领域也进行了应用[1~2]。然而,在复杂设备的维修保障方面,目前并没有与之适切的维修保障数据预处理流程规范以及相应理论与技术方法的探索研究。因此,为了便于复杂设备维修保障工作的顺利高效进行,本文首先分析复杂设备维修保障数据的应用需求及特点,结合以上分析对其预处理过程中的相关技术和方法进行归纳,并在此基础上总结建立维修保障数据预处理的基本流程,最后基于上述研究成果开展实例应用分析。

2 复杂设备维修保障数据应用需求及特点

作为资产管理的重要内容之一,维修保障工作的好与坏决定着设备的完好率和生产率的高低,也影响着设备的综合效能。现代设备维修保障科学化精确化的发展趋势,尤其是信息化技术与手段的成熟,使得维修保障数据所发挥的决策支持作用越来越大,其应用需求也越来越广泛。

2.1复杂设备维修保障数据的应用需求

复杂设备维修保障数据的用途很广,从不同的角度也可有不同的分类方式[3]。本文从设备使用过程中信息统计的角度,重点探讨其故障规律、维修器材消耗规律、使用维修性分析等应用需求问题。

2.1.1设备故障规律

根据设备的使用信息、故障信息、技术状态信息等,统计分析设备及其零部件的故障率、平均寿命等参数,进行故障原因分析,研究确定设备及其零部件的寿命分布规律。根据故障规律分析结果,评估设备维修方案的科学性和合理性。研究设备维修项目优化的内容、程序、方法和模型,为优化设备维修工作项目的类型、级别和间隔期提供技术支持。

2.1.2维修器材消耗规律

根据设备使用与维修中维修器材消耗品种、数量等数据,统计分析设备使用过程中不同时间阶段维修器材需求率、配套率等,研究维修器材消耗量分布规律。根据维修器材消耗规律分析结果,预测维修器材消耗品种和数量,制订和修订维修器材储供标准,优化维修器材库存,提高维修器材储供决策的科学性和器材供应保障的准确性。

2.1.3使用维修性分析

根据设备的维修事件、维修工序、维修时间、维修人员、资源消耗等数据,统计分析设备及其零部件的维修时间参数、维修工时参数、维修费用参数等,研究确定设备及其零部件的维修时间分布规律。根据设备使用维修性分析结果,研究设备使用维修性评估目标、评估参数体系、评估模型,为设备维修性改进提供技术支持。

2.2维修保障数据的特点

复杂设备维修保障数据的特点影响数据预处理流程的确定以及相关分析技术的选择,本文将复杂设备维修保障数据的特点归纳如下:

1) 多属性并存

如2.1节所述,设备维修保障中存在故障规律、维修器材消耗规律、设备使用维修性分析等各种需求,在许多情况下同一数据是多种需求的综合体现,也可以发挥多方面的作用,兼具多种属性。因此在设备维修保障方面,多属性并存是需要考虑的问题。

2) 单位量纲不一致

设备维修保障的模型中所需的参数众多:时间、人力、费用等,因此存在不同的单位。即使是相同的单位,量纲也存在不同,如时间参数有日历时间:秒、天、年等,也有使用时间:行驶里程、运转次数等。在后续处理之前需要进行单位量纲的一致化。

3) 多层次结构

设备维修保障中数据针对的层次也存在不同,有对单个零部件,有对局部分系统,也有对全系统等。低层次的数据是高层次数据的基础,高层次数据是低层次数据的融合,同一层次数据之间又存在相辅互补关系。

3 复杂设备维修保障数据的预处理

在数据采集过程中,会受到环境、使用情况等方面的影响,导致所采集的数据并不能直接作为一个理想样本来处理,尤其是现场数据,因此在对其进行正式分析与应用之前,必须采取相应的手段进行预处理,以提高数据源的正确性与准确性。通常来说,数据完成收集后,需要进行规格化、清洗、规约等处理,才可作为有效的数据源[4],如图1所示。

图1数据预处理一般流程

3.1维修保障数据的收集

信息的采集是进行信息分析的基础,在维修保障工作中会产生描述产品可靠性和维修性水平及其质量状况的各种数据[5],复杂设备维修保障数据的来源主要有:

1) 设备基本信息

设备(系统)在出厂之时都附带有设备的使用说明书,其中就包括设备的基本信息:设备的性能参数、设备的兼容性、设备附件的使用等。

2) 设备故障信息

设备发生故障都是由维修人员进行保障,在此期间维修人员会对设备故障的信息进行统计,如设备故障率、设备零件更换次数、设备部件实际使用寿命等。

3) 设备维修信息

维修保障人员在维修过后会对设备使用的情况进行统计,如设备报废前维修次数、维修费用、维修周期等。

3.2维修保障数据的规格化

设备维修保障模型属性较多,尤其是不同采集人员极易导致数据的格式、单位量纲等存在混乱,因此需要数据规格化。数据规格化主要有以下两种:

1) 数字格式规格化

当在数据源中数据存在不一致格式时应用多种格式函数、变换函数、标准函数库和汇总分解函数去实现数字格式的一致性。

2) 单位量纲规格化

统一采用单位无量纲化,默认为国际标准的单位量纲,在数据源中进行数据的转换,如15min,无量纲化时应该数据转换为15/60,即0.25,此时默认的单位应该为国际单位小时(h)。

3.3维修保障数据的清洗

数据清洗的就是利用现有的技术手段和方法检测出数据源中的“脏数据”,并将“脏数据”转化为满足数据使用者要求的数据[6~7]。结合设备维修保障数据的应用与特点,初始获得的维修保障数据主要有以下几种情况需要处理:

1) 含噪声数据

从工程学的角度讲,噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。由于其会导致错误的分析结果,因此需要通过数据清洗,去除空值数据、不一致数据以外的其他不准确、不客观数据。

2) 错误数据

错误数据,即在数据源中与其他的数据有着明显的差异,格式或形式等存在错误。设备维修保障数据有不同的属性,可采用不同属性间的约束来检测和修正错误。在没有有效的工具支撑的急迫情境下,也可以人工检测与修正数据的错误。

3) 重复数据

重复数据一般是由于在数据源中产生人为的失误,在记录过程中存在重复现象。此类数据可采用优先队列算法来处理,该算法几乎不受数据规模的影响,能很好地适应数据规模的变化。对于某条记录存在多条重复记录的情况,优先队列也有更好的适应性。

4) 缺失数据

在数据收集的过程中或者一些其他偶然因素,使得数据源记录不完整,不符合数据的规律性,就会导致缺失数据。目前对其处理多采用忽略缺失值,但该方法在记录多个属性存在缺失值或每个属性缺失值的百分比变化很大时性能不是特别明显。

3.4维修保障数据的规约

数据规约是对海量数据的压缩和简约,形成小型的数据且不影响数据完整性。数据规约的主要目的是解决元组规约中属性的提取以及属性重要性排序,同时也解决属性规约中的属性离散化。

1) 数据的属性离散化

属性离散化通过将属性值域划分为区间,利用数据离散化技术来减少给定属性值的个数[8]。此时,区间的标记可以替代实际的数据值,用少数区间标记替换连续属性的数值,从而减少和简化了原来的数据。

2) 属性重要性排序

对数据属性的重要性也要进行排序,这是后续信息处理的必要准备工作,常用理论依据有信息熵、粗糙集等[9~10]。之后进一步实施属性提取,包括人工甄别、小波变换、投影寻踪、多维标度等较为复杂的处理方式,在此不作详细介绍。

将上述过程采用更为直观形象的形式进行描述,可得到维修保障数据预处理流程如图2所示。

图2 复杂设备维修保障数据预处理流程

4 设备维修性数据规约实例分析

为便于理解应用,下面对某设备维修性数据进行规约处理,采用信息熵理论,对其数据属性重要度进行排序,并利用Matlab进行功能实现。

4.1基于信息熵的数据属性重要度排序原理

按照信息熵理论,一个信息系统可表示为:S=(U,R,V,f)。其中,U为对象的非空有限集合,即论域;R为属性的非空有限集合;V为属性r的值域;f是一个信息函数,指定U中各对象的属性唯一值。

在粗糙集理论研究中,Duntsch等建立了知识与信息熵的关系,引入了信息熵和条件熵概念[11]。信息熵是信源总体的平均不确定性的量度。定义知识{属性集合}P的熵H(P)和知识{属性集合}Q相对于知识{属性集合}P的条件信息熵H(Q/P)为:

式中,P(xi)为P在论域U上的划分X=(x1,x2,…,xn)上的概率。

P(xi)=|xi|/|U|

P(yj/xi)=|yj∩xi|/|xi|

其中,i=1,2,…,n;j=1,2,…,m。

这样,就可以利用每个条件属性对决策属性的条件信息熵大小来判断该条件属性与决策属性的影响程度。

4.2设备维修性数据规约实例分析

表1为某设备生产能力的各个属性构成以及所对应的各属性值,如可靠度、保障性、返修率等数据。基于维修性的特点,每个属性值均用1和0来表示。具体含义为系统配套1表示配套齐全,0表示配套不齐;可靠度1表示可靠度高,0表示可靠度低;维修间隔期1表示维修间隔期长,0表示维修间隔期短;保障性1表示保障性好,0表示保障性差;零部件使用寿命1表示使用寿命长,0表示使用寿命短;返修率1表示返修率低,0表示返修率高;装生产能力1表示生产能力好,0表示生产能力差。

表1 某设备生产能力属性统计表

在Matlab软件中依据表格数据形成txt文件,在命令窗口中输入rsdav3命令启动程序界面,得出如图3所示对话框[12]。在Browse按钮读入信息系统决策表,给出C属性和D属性所需列号,则可以进一步分析。单击Redu进行简约,结果将在Results栏目显示。

图3 粗糙集数据分析界面

图3所表示的含义为:属性2、3的重要度最高,即可靠度以及维修间隔期是影响设备生产能力的重要因素。

5 结语

本文主要分析研究了复杂设备维修保障数据预处理的相关理论与技术方法,总结了维修保障数据预处理的基本流程,并结合实例数据进行了应用分析,为后续维修保障工作的顺利与有效开展奠定了基础。由于复杂设备维修保障数据预处理是一项庞大的系统性、全局性工程,工作量大、涉及知识面广,对于数据的预处理理论与技术在其中的应用以及所构建的流程框架,还需在今后进一步深化和细化。

参 考 文 献

[1] 刘云霞.数据预处理[M].厦门:厦门大学出版社,2011.

LIU Yunxia. Data Preprocessing[M]. Xiamen: Xiamen University Press,2011.

[2] 关大伟.数据挖掘中的数据预处理[D].长春:吉林大学硕士学位论文,2006.

GUAN Dawei. Data Preparation for Data Ming[D]. Changchun: Master Degree Thesis of Jilin University,2006.

[3] 方幼林,杨冬青,等.数据仓库中数据质量控制研究[J].计算机工程与应用,2003(13):1-4.

FANG Youlin, YANG Dongqing, et al. Data Quality Management in Data Warehouse[J]. Computer Engineering and Application,2003(13):1-4.

[4] 和春慧.数据仓库中数据预处理的研究与算法实现[D].长春:吉林大学硕士学位论文,2004.

HE Chunhui. The Research and Implementation of Algorithms on Data Preprocessing in DW[D]. Changchun: Master Degree Thesis of Jilin University,2004.

[5] 韩庆田,刘梦年.军用装备现场数据收集应注意的问题[J].质量与可靠性,2002(6):38-41.

HAN Qingtian, LIU Mengnian. The Problems in Field Data Collection of Military Equipment[J]. Quality and Reliability,2002(6):38-41.

[6] 田芳,刘震.数据仓库清洗技术讨论[J].青海师范大学学报(自然科学版),2005(4):50-53.

TIAN Fang, LIU Zhen. The Discussion about Data Cleansing of Data Warehouse[J]. Journal of Qinghai Normal University(Natural Science Edition),2005(4):50-53.

[7] 王武.数据清洗方法研究及工具设计[D].上海:上海交通大学硕士学位论文,2009.

WANG Wu. Research on Data Cleansing and Tool Designing[D]. Shanghai: Master Degree Thesis of Shanghai Jiaotong University,2009.

[8] 汪庆,张巍,刘鹏.连续特征离散化综述[D].上海:上海财经大学硕士学位论文,2004.

WANG Qing, ZHANG Wei, LIU Peng. Summary of Continuous Feature Discretization[D]. Shanghai: Master Degree Thesis of Shanghai University of Finance and Economics,2004.

[9] 刘菁,解大.基于粗糙集理论和信息融合的变电站故障诊断方法[J].继电器,2007,35(6):5-9.

LIU Jing, JIE Da. Substation Fault Diagnosis Method Based on Rough Set Theory and Information Fusion[J]. Relay,2007,35(6):5-9.

[10] 谢春明,肖露欣,等.基于粗糙集和TS-ANN的柴油机故障诊断推理[J].计算机测量与控制,2013,21(1):54-56.

XIE Chunming, XIAO Luxin, et al. Research on Fault Diagnosis for Diesel Engine Based on Rough Set and TS-ANN[J]. Computer Measurement and Control,2013,21(1):54-56.

[11] 张文修,吴伟志.粗糙集理论与方法[D].北京:科学出版社,2001.ZHANG Wenxiu, WU Weizhi. The Theory and Method of Rough Set[D]. Beijing: Science Press,2001.

[12] 王琦,高军锋,常春藤.等.MATLAB基础与应用实例集粹[M].北京:人民邮电出版社,2007.

WANG Qi, GAO Junfeng, CHANG Chunteng, et al. The MATLAB Foundation and Application Study[M]. Beijing: People’s Posts and Telecommunications Press,2007.

收稿日期:2015年10月8日,修回日期:2015年11月27日

作者简介:李季,男,硕士研究生,讲师,研究方向:装备维修工程。孙凯,男,硕士,工程师,研究方向:装备试验与鉴定。白文,男,硕士,工程师,研究方向:装备试验数据分析。

中图分类号TP391

DOI:10.3969/j.issn.1672-9722.2016.04.033

Maintenance Support Data Preprocessing Technology for Complex Devices

LI Ji1SUN Kai2BAI Wen2

(1. Ordnance Engineering College, Shijiazhuang050003)(2. No. 63871 Troops of PLA, Huayin714200)

AbstractThe preprocessing of maintenance support data for complex devices is an important guarantee of its correctness and accuracy, which also determines the quality and effectiveness of the subsequent maintenance support work. The application requirements and characteristics of complex equipment maintenance support data are analyzed, the related technologies and methods are summarized, and the basic process of data preprocessing is constructed. Finally, a numerical example is analyzed with the information entropy theory for data protocol.

Key Wordscomplex device, maintenance support, data cleaning, data protocol