历史相依决策模型的建立及相应过程的构造

2017-11-28 17:15莫晓云周杰明金芳
关键词:相依决策者决策

莫晓云+周杰明+金芳

摘 要 历史相依决策模型(HDDM)及历史相依决策过程(HDDP)是决策模型及相应的决策过程的一般情形. 马氏决策模型(MDM)及马氏决策过程(MDP)是HDDM及HDDP的特殊情形.本文严格地建立了历史相依决策模型,并证明了相应的历史相依决策过程的存在性,证明是构造性的. 作为HDDM及HDDP的特殊情形,建立了马氏决策模型(MDM), 并构造了相应的马氏决策过程(MDP).

关键词 历史相依决策模型的建立; 历史相依决策过程的存在性和构造; 马氏决策模型及马氏决策过程; 马氏过程

中图分类号 O212.5 文献标识码 A 文章编号 1000-2537(2017)05-0088-07

Establishment of History Dependent Decision Models and Construction of Corresponding Processes

MO Xiao-yun1,2, ZHOU Jie-ming2, JIN Fang3*

(1. College of Mathematics and Statistics, Hunan University of Finance and Economics, Changsha 410205, China;

2. College of Mathematics and Computer Science, Key Laboratory of High Performance Computing and Stochastic

Information Processing, Ministry of Education of China, Hunan Normal University, Changsha, 410081, China;

3.College of Mathematics and Computing Science, Hunan City University, Yiyang, 413000, China)

Abstract History Dependent Decision Model (HDDM) and History Dependent Decision Process (HDDP) are the most general cases of the decision model and their corresponding processes. The Markov Decision Model (MDM) and Markov Decision Process (MDP) are special cases of HDDM and HDDP. In this work, the history dependent decision model has been established, and the existence of corresponding history dependent decision process has been proved. The proof is constructive. As special cases of HDDM and HDDP, the Markov decision model has been established and the Markov decision process has been constructed.

Key words history dependent decision model; Markov decision model; Markov decision process; Markov process

在描述马氏决策模型(MDM)及相应的马氏决策过程(MDP)的决策控制系统中,系统将来的状态只依赖于系统现在的状态和现在采取的决策行动.如果系统将来的状态依赖于系统的历史状态和历史决策行动,这就是历史相依决策模型(HDDM)及相应的历史相依决策过程(HDDP).由于HDDM和HDDP过于一般,较难深入研究.但对马氏决策模型及相应过程,已经有深刻的研究,有丰富的成果[ 1-5 ].关于马氏决策模型及相应过程的诸多专著和论文中,总是简单地提及历史相依决策模型及相应过程,然而却没有详细和准确地给出历史相依决策模型的建立以及相应过程的构造. 因此,完成这个建立和构造很有必要.我们对于诸多相类似的模型及其过程的构造,已经有很好的研究[6-10],本文将利用文献[6-11]中的思想和方法.

1 历史相依决策模型

设有某個受决策者控制的系统,该系统的状态依赖于时间、系统的历史状态和决策者的历史决策行动. 时间可以是连续的,但离散时间更接近于实际的操作. 假定时间为n=0,1,2,…,N. N是正整数,也称期末时. 设在某个时刻,系统处于某个状态x,在该时刻决策者可以作出某个决策行动a,下一时刻,系统的状态将从x转移到某个状态y. 如果在每个时刻n∈{0,1,2,…,N-1},决策者都做出一个决策行动,这N个行动全体就构成一个决策策略. 策略和行动不同. 研究决策模型的目标之一是选择最好的策略,使得系统的某个指标达到最优.例如,考虑某个投资者,他是决策者,系统的状态就是他的财富,如果他希望期末时财富最多,如何投资就是他的策略.

定理6说明,对于历史相依决策过程,如果仅仅只研究其值函数,则只要研究马氏决策过程.

致谢 感谢“风险理论与随机控制”讨论班的老师们提出的研究问题和宝贵建议.

参考文献:

[1] BAUERLE N, RIEDER U. Markov decision processes with applications to finance [M]. Berlin: Springer-Verlag, 2011.endprint

[2] GUO X P, HEMANDEZ-LEMA O. Continuous-time Markov decision processes [M]. Berlin: Springer-Verlag, 2009.

[3] GUO X P, HEMANDEZ-LEMA O, PRIETO-RUMEAU T. A survey of recent results on continuous-time Markov decision processes [J]. Top, 2006,14(2):177-246.

[4] HINDERER K. Foundations of non-stationary dynamic programming with discrete time parameter [M]. Berlin: Springer-Verlag, 1970.

[5] 嚴加安. 测度论讲义(第二版)[M]. 北京:科学出版社,2004.

[6] 莫晓云. 用独立乘积空间构造相依随机变量的组装法 [J]. 湖南师范大学自然科学学报, 2010,33(2):3-6.

[7] 莫晓云,欧 辉,周杰明. Markov相依风险模型的等价定理及概率构造 [J]. 经济数学, 2012,29(1):61-64.

[8] MO X Y,YANG X Q. Criterion of semi-Markov dependent risk model [J]. Acta Math Sin, 2014,30B(7):1237-1280.

[9] MO X Y,ZHOU J M, OU H, et al. Double Markov risk model [J]. Acta Math Sci, 2013,33B(2):330-340.

[10] 莫晓云,杨向群. Markov调制风险模型的轨道刻划和概率构造[J]. 应用数学学报, 2012,35(3):385-394.

[11] ZHOU J M, MO X Y, OU H, et al. Expected present value of total dividends in the compound binomial model with delayed claims and random income[J]. Acta Math Sci, 2013,33B(6):1639-1651.endprint

猜你喜欢
相依决策者决策
血肉相依
做决策也有最佳时间段
决策大数据
诸葛亮隆中决策
论决策中的信息辨伪
决策过程的三个伦理问题
繁华·热烈之爱
决策咨询活动中的沟通艺术
相依相随
相依相伴