基于设备状态的维护策略研究

2016-12-23 17:43赵晨王潇张思宇

山东工业技术 2016年23期

关键词：维护策略

赵晨　王潇　张思宇

摘要：本文研究生产企业中单台衰变设备基于状态的维护策略，建立马尔科夫决策过程模型，通过强化学习中的Q学习算法，使总成本最小化，获得基于每个状态的维护策略，并通过实例进行了验证。

关键词：维护策略；Q学习算法；马尔科夫决策过程；质量状态

DOI：10.16640/j.cnki.37-1222/t.2016.23.182

0 引言

本文提出一种考虑设备状态和距离上次预防性维护时间的维护模式，同时设备状态由设备加工的产品质量信息为参考依据，以最小化设备运行成本为目标函数，建立多个设备状态、多种行动的马尔可夫模型[1，2]，并采用Q学习对单台设备生产模型进行求解，得到近似最优的维护策略。

1 单台衰变设备建模

本文利用一个连续时间、离散状态的马尔科夫决策过程模型呈现单一设备的衰变过程。如图1所示。

2 基于值迭代的Q学习维护策略

采用强化学习中基于值迭代的Q学习方法进行求解[3，4，5]，其步骤如下：

（1）初始化Q（s，a）为（0，0）

（2）反复执行以下步骤：初始化s值。每一次仿真进行：根据Q中的状态s选择一个行动a，执行行动a，观察得到的即时回报r和新的状态s，其迭代公式为：

（1）

3 仿真实例分析

应用基于值迭代的Q学习求解模型的步骤如下： 1）初始化所有全局参数；2）设置循环次数；3）开始仿真。仿真流程图如图2所示。

单一衰变设备系统的基本参数如表1所示。

M：生产设备 Co：设备M生产单个产品的成本 Cp：单位时间内设备M的预防维护成本 Cc：单位时间内设备M的修理成本

R：设备M生产一个好产品的收益 ave_reward：生产系统的平均收益 MTTF：设备M的平均故障时间 y（t）：设备M加工的好产品比例 a：设备M预防维护的成功率，也即预防维护速率 b：不合格产品数 t：自上次维护以来的时间

在仿真过程中，设备以线性模式衰变，y（t）=1-t/（MTTF），t为距离上次维护以来的时间，随着tt的增加，设备生产好产品的概率不断降低。通过基于值迭代的Q学习对单设备系统进行学习后，得到表2中的结果。

其中，“0”表示继续生产，“1”表示进行预防维护。b=0时，设备总是在生产的，t服从马尔科夫模型下的均匀分布，表示的是单位时间。当t为1和2，b=1时，系统采取了预防维护；而t=4，5，6，b<3时，设备都是继续生产。可以看出，通过多次仿真，呈现出倒三角模型，这是必然的。a∈A={0，1，2}，这里没有出现“2”修理行动，是因为当t=MTTF时，才进行修理。而我们考虑的是最优的决策使系统的总成本最小，所以只有继续生产和预防维护两种行动。

参考文献：

[1]王文义，张洪芳.维修策略的概念、方法和模型（I）[J].北京：机械工业出版社，1997，6（02）：95-98.

[2]陈洪根.设备维护改进实施决策模型[J].系统工程理论与实践，20n，31（05）：954-960.

[3]Wang H.A survey of maintenance policies of deteriorating systems. European Journal of Operational Research，2002，139：469-489.

[4]Aissani N，Beldjilali B，Trentesaux D. Dynamic Scheduling of maintenance tasks in the petroleum industry：A reinforcement approach[J].Engineering Applications of Artificial Intelligence，22.7（2009）：1089-1103.

[5]Arapostathis A，Borkar V S，Fernández-Gaucherand E， et al.Discrete-time controlled Markov processes with average cost criterion： a survey[J].SIAM Journal on Control and Optimization，31.2（1993）：282-344.

基金项目：2014沈阳航空航天大学生创新创业训练计划项目项目编号：DCX140410