赵晨 王潇 张思宇
摘 要:本文研究生产企业中单台衰变设备基于状态的维护策略,建立马尔科夫决策过程模型,通过强化学习中的Q学习算法,使总成本最小化,获得基于每个状态的维护策略,并通过实例进行了验证。
关键词:维护策略;Q学习算法;马尔科夫决策过程;质量状态
DOI:10.16640/j.cnki.37-1222/t.2016.23.182
0 引言
本文提出一种考虑设备状态和距离上次预防性维护时间的维护模式,同时设备状态由设备加工的产品质量信息为参考依据,以最小化设备运行成本为目标函数,建立多个设备状态、多种行动的马尔可夫模型[1,2],并采用Q学习对单台设备生产模型进行求解,得到近似最优的维护策略。
1 单台衰变设备建模
本文利用一个连续时间、离散状态的马尔科夫决策过程模型呈现单一设备的衰变过程。如图1所示。
2 基于值迭代的Q学习维护策略
采用强化学习中基于值迭代的Q学习方法进行求解[3,4,5],其步骤如下:
(1)初始化Q(s,a)为(0,0)
(2)反复执行以下步骤:初始化s值。每一次仿真进行:根据Q中的状态s选择一个行动a,执行行动a,观察得到的即时回报r和新的状态s,其迭代公式为:
(1)
3 仿真实例分析
应用基于值迭代的Q学习求解模型的步骤如下: 1)初始化所有全局参数;2)设置循环次数;3)开始仿真。仿真流程图如图2所示。
单一衰变设备系统的基本参数如表1所示。
M: 生产设备 Co: 设备M生产单个产品的成本 Cp: 单位时间内设备M的预防维护成本 Cc: 单位时间内设备M的修理成本
R: 设备M生产一个好产品的收益 ave_reward: 生产系统的平均收益 MTTF: 设备M的平均故障时间 y(t): 设备M加工的好产品比例 a: 设备M预防维护的成功率,也即预防维护速率 b: 不合格产品数 t: 自上次维护以来的时间
在仿真过程中,设备以线性模式衰变,y(t)=1-t/(MTTF),t为距离上次维护以来的时间,随着tt的增加,设备生产好产品的概率不断降低。通过基于值迭代的Q学习对单设备系统进行学习后,得到表2中的结果。
其中,“0”表示继续生产,“1”表示进行预防维护。b=0时,设备总是在生产的,t服从马尔科夫模型下的均匀分布,表示的是单位时间。当t为1和2,b=1时,系统采取了预防维护;而t=4,5,6,b<3时,设备都是继续生产。可以看出,通过多次仿真,呈现出倒三角模型,这是必然的。a∈A={0,1,2},这里没有出现“2”修理行动,是因为当t=MTTF时,才进行修理。而我们考虑的是最优的决策使系统的总成本最小,所以只有继续生产和预防维护两种行动。
参考文献 :
[1]王文义,张洪芳.维修策略的概念、方法和模型(I)[J].北京: 机械工业出版社,1997,6(02):95-98.
[2]陈洪根.设备维护改进实施决策模型[J].系统工程理论与实践,20n,31(05):954-960.
[3]Wang H.A survey of maintenance policies of deteriorating systems. European Journal of Operational Research,2002,139:469-489.
[4]Aissani N,Beldjilali B,Trentesaux D. Dynamic Scheduling of maintenance tasks in the petroleum industry:A reinforcement approach[J].Engineering Applications of Artificial Intelligence,22.7(2009):1089-1103.
[5]Arapostathis A,Borkar V S,Fernández-Gaucherand E, et al.Discrete-time controlled Markov processes with average cost criterion: a survey[J].SIAM Journal on Control and Optimization,31.2(1993):282-344.
基金项目:2014沈阳航空航天大学生创新创业训练计划项目 项目编号:DCX140410