方爱平 田蓬勃 贾 怡 喻有理 李宏荣 王小力
(西安交通大学理学院,陕西 西安 710049)
最大熵原理在概率分布预测中的应用
方爱平 田蓬勃 贾 怡 喻有理 李宏荣 王小力
(西安交通大学理学院,陕西 西安 710049)
文章在信息熵的理论基础上,给出了求解最大熵问题的一般表述。应用最大熵原理,在信息缺失的条件下可以最大效率地实现对全局进行判断和决策。以打靶运动中运动员不同环数的分布概率为例,将最大熵问题归结为数学模型中常见的优化类线性规划问题,利用Lingo软件求解。首先分析了高分环数对运动员提高成绩的限制。然后给出了不同平均环数下最大熵值的变化,探究了不同最大熵值下概率的均匀性与对称性规律。从简单的模型出发得出最大熵值越大表明概率分布越均匀,以及熵值可以体现系统概率分布上的一致性的结论。
信息熵;最大熵原理;打靶;概率分布
在物理学特别是统计热力学的研究领域,“熵”是一个占有特殊地位的概念,它一方面是宏观热力学第二定律的引申,另一方面又是系统微观粒子无序程度的度量。相比于其他物理概念,熵的独特之处在于它与人们的现实生活密切相关,特别是在C. E. Shannon提出了“信息熵”的概念后,有关熵的理论被大量运用到生产和生活实践中。
“最大熵原理”的应用研究成果深入到许多不同的领域:将公共交通的分布方式与系统的微观状态结合起来可利用最大熵原理进行公共交通需求预测[1];以熵值最大作为优化目标,可建立城市防洪标准方案优选智能评价模型[2];在决策分析工程中,最大熵分布作为不完全信息下的未知的其他参与人的概率分布,可以在不完全信息博弈中得到应用[3]。在这些文献中广泛运用了一般的优化模型数学求解方法,如拉格朗日乘子法来进行运算,得到满足约束条件的最优解,然而这种解析求解方法具有一定的局限性。Lingo软件在求解线性规划问题中展现出强大的运算功能,从而在运筹学[4]领域得到广泛运用,可用于尝试解最大熵问题。本文旨在探索Lingo软件环境下,如何利用最大熵原理进行概率分布预测的求解,并探究这种最优预测结果下的概率分布规律,从而在实际问题中得到有助于决策分析的结论。
1948年,C.E.Shannon提出了“信息熵”的概念,将事件的不确定度进行了理论上的量化处理[5],信息论中对信息熵的定义为
(1)
其中,K=1.443;Pi代表第i件事件发生的概率,当Pi=1时,事件100%发生,此时有S=0,即不确定度为零;当Pi=0时,事件不可能发生,则S→∞,表示不确定性为无穷大。一个系统越混乱,信息熵的值越大,于是借助信息熵的概念可以来研究事件在不同概率分布下的混乱程度。
E.T.Jaynes[6]在1957 年提出“最大熵原理”的概念:“当我们根据部分信息推断概率分布时,应该选择符合已测数据并且熵最大的那个概率分布,这是唯一的客观的无偏分布,选择任何其他分布都意味着我们对未知信息添加了任意性的假设。”由此可见,在信息不完整的情况下,要确定一个复杂系统的概率分布情况有无限种可能方案,取最大熵分布能最大限度地排除主观因素的干扰,得到最公正的预测结果。故C.E.Shannon所定义的信息熵式(1)可以作为线性规划问题中的目标函数。
以概率分布为离散型随机变量为例,当给定约束后,还要满足概率的归一化条件,需要进行求解的最大熵问题的一般表述为
这是考虑具有n个可能结果的概率系统,Pi为这些结果发生的概率,目的是选择Pi使得系统的熵值最大。在一般的实际问题中,对概率的约束往往是线性的,这里用权重gij来衡量不同条件下的约束情况,Ej则一般为期望值。
射击比赛中,运动员打靶的环数可以取零到10之间离散的整数值,假设一名运动员在进行若干次打靶后得到的平均环数是8环,怎么样估计他击中某一环数的概率呢?
在这个问题中,若打靶的次数足够多,那么每种环数打中的次数占总次数的比即可用来近似替代击中该环数的概率,在前面最大熵问题的一般形式中代入具体问题参数后要求解的问题即为
问题情景中最重要的约束参数是平均环数8环,我们可以预见该运动员打8环的概率应该比较高。利用Lingo进行编程计算,求解这一线性规划问题,其算法本质是优化的单纯形法,可以避开解析计算的繁琐,表1给出了该条件下的概率分布数据。
表1 平均环数为8环时的概率分布数据
由此可得到所要求解问题的结果,该运动员击中每一环数的概率都有了确定的值。当然这是在熵值最大的条件下,即这种概率分布是最有可能发生的,但不一定与真实的情况一致,因为实际中可能受到很多因素的干扰,如运动员的心态,靶盘设计的不同等等。从这组数据可以看出,平均成绩为8环时,运动员打中某环数的概率随环数的递增而递增,打中9环和10环的概率甚至超过8环。
既然每一个平均环数都可对应计算出打每一种环数的概率,考虑在实际情况下,平均环数可以取零至10间连续的数值,而作为一名水平正常的运动员,最关心的环数概率应该是高分段环数(8环,9环,10环),讨论不同平均环数下高分环数的概率取值,得到如图1所示的曲线。从图1中可以得到,当一名运动员的平均环数很低时,打高分环数的概率相差不大,但超过6环时,3条曲线开始出现分离,说明此时打中高分环数的概率对运动员的平均水平产生越来越大的影响,想要使自己的平均环数得到10环水平的难度呈指数递增,从中可以体会到为什么运动员水平越高,想要提高成绩就越难。
图1 平均环数对高分环数概率的影响
这一简单实例说明了利用最大熵原理可以进行概率预测,尤其是在所掌握数据较少的时候,最大熵原理可以作为一种有效的挑选标准,从很多种可能的几率分布中挑选出“最佳的”“最合理的”分布作为实际的常见分布[7]。只要满足系统熵值最大,便可对系统所处的总体情况进行概率最大的预测,这种预测往往可以用于分析事件的普遍规律,若推广到更大的混乱系统,如市场运作,将有助于人们进行决策判断。
以上给出了应用最大熵原理进行概率分布预测的一般步骤和从中能分析出的部分有用结论,下面讨论最大熵值与概率分布之间存在的关系。作为线性规划的目标函数,最大熵必然反映了整个系统的状态信息,每一种最优情况下的概率分布都对应着不同的最大熵值,衡量了系统的混乱程度,表2给出了不同平均环数所对应的最大熵值。显然最大熵值呈现先增后减的趋势,当平均环数为零或者10时,该事件完全确定,故最大熵为零,越靠近中间值,最大熵越大。图2给出了不同平均环数的最大熵值。最大熵分布呈现完全对称的抛物线型,在平均环数很小(很大)的极端情况下,最大熵的递增(递减)变化趋势非常明显,而当平均环数靠近环数的中间值(5环)时曲线渐渐平稳,且最终在平均环数为5环处取得极大值。由此可以得到:当平均环数为5环时,环数分布最混乱。
图2 不同平均环数对应的最大熵值S
当运动员若干次打靶后的平均环数不同时,他打每种环数所对应的概率都会有所变化,又已知平均环数与最大熵值有二次对应关系,说明不同的最大熵值下有不同的概率分布。图3给出了不同平均环数(即不同最大熵值)下的环数分布概率。
表2 不同环数对应的最大熵值S
图3 不同最大熵值下的环数分布概率
从图3中可以得到不同最大熵值下的环数分布概率有如下规律:
1) 概率均匀度
最大熵值越小(如图3中深灰实线和深灰虚线),概率分布曲线越陡峭,当最大熵值取较大值时,即平均环数为4环或6环的情况下(如图3中黑实线和黑虚线),概率分布曲线平和,每种环数打中的概率相差不大。极端情况是最大熵值取最大值时(如图3中点线),每种环数打中的概率相同。为了对该结论进行定量分析,可以用各离散概率点的标准差来衡量特定最大熵下的概率均匀度,计算公式如下:
(8)
将式(6)中的8环改为不同的平均环数进行计算,得到不同最大熵值的概率均匀度σ,具体计算数据如表3所示,采用最小二乘法对从0环到5环的最大熵(见图3)和概率均匀度进行一次线性拟合(Matlab中的命令为polyfit),得到回归直线为
S=-12.5498σ+3.7572
(9)
经计算,由该公式给出的预测值与原始值的相关系数为0.9895,很近于1,拟合的残差已经相当小,说明一定范围内直线拟合效果足够好。
由此可以推测出最大熵值与概率的均匀度呈近似线性负相关,最大熵值越大表明概率分布越均匀,每个事件发生的概率相差不大,而最大熵值较小时,某些事件发生的概率远远超过了其他事件,概率分布不再均匀。极端情况下最大熵值取最大代表每个事件发生的概率相等,最大熵值为零表明只有一个事件可能发生,其他事件发生的概率都为零(见表3)。
表3 不同平均环数下的最大熵值和概率标准差
2) 概率对称性
概率分布呈现良好的对称性,例如平均环数9环和1环的曲线呈轴对称,即对于约束条件:
Ej代表不同平均环数的取值,满足如下的规律:
当Ej+Ek=10时,有
Pij=P(10-i)k
如果忽略对称性的差别,只考虑概率分布曲线的形状,这种规律也可以描述为:相同最大熵值所对应的概率分布状况完全相同,这正体现了熵是系统混乱程度的度量,相同的熵值可以体现系统概率分布上的一致性。
本文避开了拉格朗日乘子的常规算法,使用Lingo对最大熵问题的一般形式进行了求解,虽然给出的算例其背景很简单,但充分体现了最大熵原理在解决这类信息缺失下决策问题的普适性,它完全可以用来解决规模更大的混乱系统的分析。
另外,我们通过最大熵模型数值计算得出的部分结论,未给出严格的数学论证。这些结论对揭示最大熵的本质有重要的意义,在平均值约束下,不同最大熵值下的概率分布体现出来的均匀性和对称性规律仍然值得进一步思考和探索。
[1] 邵昀泓,赵阳. 基于最大熵原理的公共交通需求预测[J].中南公路工程,2006(02):167-170.
Shao Yunhong, Zhao Yang. The Forecast for Public Transport Demand Based on the Maximum Entropy Principle[J]. Central South Highway Engineering, 2006(02): 167-170. (in Chinese)
[2] 范秋映,金菊良,周玉良,等.基于最大熵原理的城市防洪标准方案优选智能评价模型[J].安全与环境学报,2009(02):154-157.
Fan Qiuying, Jin Juliang, Zhou Yuliang, et al. Intelligent evaluation method for optimal selection of urban flood control standard schemes based on the principle of maximum entropy[J]. Journal of Safety and Environment, 2009(02): 154-157. (in Chinese)
[3] 陶桂平,韩立岩.最大熵原理在不完全信息博弈中的应用[J].首都经济贸易大学学报,2011(03):67-71.
Tao Guiping, Han Liyan. The Application of the Maximum Entropy Principle in the Incomplete Information Game[J]. Journal of Capital University of Economics and Business, 2011(03): 67-71. (in Chinese)
[4] 韩中庚. 实用运筹学模型、方法与计算[M].北京:清华大学出版社,2007.
[5] Shannon C E. A Mathematical Theory of Communication[J]. The Bell System Technical Journal. 1948, 27: 379-423.
[6] Jaynes E T. Information Theory and Statistical Mechanics[J]. Physical Review. 1957, 106 (04): 620-630.
[7] 胡琛,王彬. 基于最大熵原理的分布模型[J]. 山东理工大学学报:自然科学版,2007(06):88-90.
Hu Chen, Wang Bin. Distribution model based on maximum entropy principle[J]. Journal of Shandong University of Technology: Natural Science Edition, 2007(06): 88-90. (in Chinese)
THEAPPLICATIONOFTHEMAXIMUMENTROPYPRINCIPLEINTHEFORECASTFORPROBABILITYDISTRIBUTION
FANGAipingTIANPengboJIAYiYUYouliLIHongrongWANGXiaoli
(School of Science, Xi’an Jiaotong University, Xi’an Shaanxi 710049)
By the theory of information entropy, this paper gives general statements of maximum entropy problem. With maximum entropy principle, it is possible to make global judgments and decisions in the absence of major information. Taken the example of probability distribution of divergent rings in shooting sports, the linear programming (LP) is solved based on Lingo, and the limitation of the high-score rings in this sport has been discussed. After showing the variety of maximum entropy in divergent mean value of rings, the data reveal the uniformity and symmetry of probability under different maximum entropy. From this simple model, we can conclude that entropy can demonstrate the consistency of probability distributions, and large entropy generally corresponds to high uniformity in probability.
information entropy; maximum entropy principle; shooting sports; probability distribution
2015-11-15;
2016-03-12
方爱平,女,讲师,主要从事大学物理和热学的教学工作,研究方向为量子光学,apfang@mail.xjtu.edu.cn。
田蓬勃,pbtian@163.com。
方爱平,田蓬勃,贾怡,等. 最大熵原理在概率分布预测中的应用[J]. 物理与工程,2017,27(6):86-89,94.
■