龚凤乾,胡玲静,刘晓蒙
(天津财经大学 统计系,天津 300222)
“杰弗里原则”及其对计量经济学的影响简介
龚凤乾,胡玲静,刘晓蒙
(天津财经大学 统计系,天津 300222)
摘要:对“杰弗里原则”的提出及其影响做了介绍。第一节是杰弗里生平,介绍他在物理学及统计学方面取得的成就;第二节介绍以他姓氏命名的“杰弗里原则”,这是对选择先验概率的“贝叶斯法则”的重大修正;第三节介绍基于“杰弗里先验”的“信息守恒原则”,此原则对当代贝叶斯计量经济学有重大影响。
关键词:盖伊金奖;杰弗里原则;信息守恒原则
英国学者哈罗德·杰弗里(Sir. Harold Jeffreys,1891-1989),在众多学科领域都有杰出贡献;他所提“杰弗里原则”克服了选择先验概率“贝叶斯法则”的一个严重缺陷,促进了“无信息先验”的研究,扩大了贝叶斯方法的应用范围;美国学者泽尔纳则基于“杰弗里原则”提出“信息守恒原则”,推动了贝叶斯计量经济学的研究进展。
本文为2012年度全国统计科研计划重点项目“哈罗德·杰弗里统计思想研究”的部分成果。
一、杰弗里生平
杰弗里(Sir. Harold Jeffreys)1891年4月22日生于英格兰德汉姆郡菲特菲尔德(Fatfield, Durham)一个矿区的校舍,父亲是当地一所小学的校长。杰弗里12岁小学毕业,当年进入泰因河畔纽卡斯尔卢瑟福学校接受中等教育,后转入阿姆斯特朗学院继续其大学学业,杰弗里1910年在该学院毕业,各科考试成绩都很好而其数学成绩则最为优秀。
大学毕业后杰弗里进入剑桥圣约翰学院,自1914 年被推选为圣约翰学院学会会员起直至1989年逝世,杰弗里一直为该会会员,圣约翰学院也由此成为他永久性的学术活动场所。
1931年至1946年,他是剑桥大学地球物理学讲师,1946年至1958年,他是天文学和实验科学教授。12年的讲师生涯加上12年的教授生涯,使他对经典力学和连续介质力学既具有真知灼见,也具有运用自如的熟练技巧。由此可见长期潜心于大学基础学科教学,是使他成为顶尖级科学家的重要条件之一,具有不可替代的作用。
作为地球物理学家的他,在地震学领域也做出过许多重要贡献。
1953英国王室授予他爵士头衔。
杰弗里在20世纪30年代出版了《科学推断》和《概率论》,这标志着一种严整的统计学理论已在贝叶斯方法的基础上建立起来,而他所提科学推断的一般框架以及选择先验分布的“杰弗里原则”,逻辑严谨,可操作性强,影响深远。不仅如此,杰弗里的著作还引发了人们对频率学派、贝叶斯学派之间学术争鸣的持续关注(事实上正是杰弗里命名了这些学派),使人们对统计学的理解更加深入和全面,促进了这门学科的发展。
杰弗里既是出色的科学家,也是自20世纪20年代以来国际地球物理学界学术活动的积极参与者和组织者。1945年至1957年,杰弗里任国际地震汇编 (ISS)主任(现在被国际地震中心(ISC)接办),1957年至1960年,任国际地震学与地球内部物理学协会的主席。由于他的工作被公认为具有世界意义以及他对国际科学合作所做的贡献,他被选为美国科学院、罗马国立林西学院、瑞典皇家科学院、纽约科学院、比利时皇家科学院以及美国艺术和科学院的国外会员。他还是新西兰皇家学会名誉会员。
杰弗里在许多科学领域都做出了独具创见的贡献,为此他赢得了多项奖章和奖金,例如:皇家气象学会巴肯(Buchan)奖金(1929年);皇家天文学会金质奖章(1937年);地质学会莫奇逊(Murchison)奖章(1939年);皇家地理学会维多利亚奖章(Victoria)(1942年);皇家学会奖章(1942);美国地球物理协会鲍伊(Bowie)奖章(1952年);皇家学会柯普莱奖章(Copley)(1960);皇家统计学会盖伊(Guy)金质奖章(1962);地质学会沃拉斯顿 (Wollaston))奖章(1964年);美国地震学会年度奖章(1978年)。
需要指出的是,获得皇家统计学会的盖伊金质奖章并非易事,获奖者应在其所专长的研究领域至少已经精心耕耘了30年乃至40年之久,且其成果已在科学界充分沉淀并得到皇家统计学会的一致认可,才能获此殊荣。杰弗里于1931年发表《科学推断》、1937年发表《概率论》(可将后者视为《科学推断》之概率部分的深化与完善),至1962年获皇家统计学会盖伊金质奖,31年光阴已逝。读者不应忘记,直至20世纪上半叶,贝叶斯统计学还未被主流统计学界认可!杰弗里获得盖伊金奖彻底改变了这种状况,抚今追昔,不禁使人感慨万千。杰弗里对贝叶斯学派在20世纪后半叶的重新兴起发挥了极其重要的作用。
有兴趣的读者可登陆英国皇家统计学会网站http://www.rss.org.uk/查阅有关盖伊奖及其获奖者细节。
二、“杰弗里原则”的提出及其意义
英国学者贝叶斯(Thomas Bayes,1702-1761)的遗作《机遇理论中一个问题的解》于1764年由其朋友普莱斯(Richard Price)代为发表,在该文中贝叶斯给出了如今被称为“贝叶斯定理”的“逆概率原理”(即后验概率∝先验概率×似然),贝叶斯推断即由此肇始。
众所周知,如将θ~R(0,1)这一选择先验概率的贝叶斯法则推广到一切场合,将会带来矛盾后果。例如,若对参数θ选用均匀分布,则对θ 的函数g(θ)作为参数时,也应选用均匀分布。但由θ 遵从均匀分布这一前提,往往导出g(θ)不是均匀分布;而从g(θ)遵从均匀分布这一前提,又可导出θ 不是均匀分布[1]53-55。
为了克服这一矛盾,杰弗里在《概率论》中提出了选择(参数)先验分布的“杰弗里原则”,即在确定参数的先验分布时,应使变换后的参数之先验分布也能由同一个准则导出,亦即先验分布具有不变性。具体地说:①若均值为未知参数x,假设在x在-∞到+∞之间取值,用P(dx|H)∝dx表示对x的“一无所知”;②若参数(如标准差)在0与+∞之间取值,用P(dν|H)∝dν/ν表示对ν的“一无所知”;而如果P(dv|H)∝dv/v,则还应有P(dv|H)∝dlogv,且logv可取-∞与+∞之间的任何值*另一种解释为:"因在(0,∞)这个区间上(0,1)与(1,∞)的区间长度很不一样,故(0, ∞)上的均与分布实际上将(0,1)与(1,∞)赋予了不同的重视程度;似然比是(0,∞)内取值的,但(0,1)与(1, ∞)反映的是同一类程度的信息,因此取对数后使(0,1)→(-∞,0),(1,∞)→(0,∞),这就可以使(0,1)与(1,∞)有相同的尺度,所以用对数变换后的均匀分布才是合理的"。见张尧庭、杜劲松著. 人工智能中的概率统计方法[M]. 北京: 科学出版社, 1998.。
无论如何,“杰弗里原则”的提出都具有重要的理论和实际意义,一方面,它克服了选择先验概率“贝叶斯法则”的缺陷,扩大了贝叶斯方法的应用范围;另一方面,它也改变了人们对“无信息先验”的偏见,同时对后来学者展开关于科学推断的进一步研究,具有启发作用。
三、“信息守恒原则”是对“杰弗里原则”的拓展
我们认为,如果说杰弗里提出选择(参数)先验分布的“杰弗里原则”,避免了贝叶斯假设中的那个矛盾,那么,泽尔纳(Arnold Zellner, 1927-2010, 芝加哥大学教授)引入信息熵、提出“信息守恒原则”而创立贝叶斯计量经济学,就是结合实际问题对“杰弗里原则”所做的一个出色拓展。
如上所述,选择参数先验分布的杰弗里原则并非任何时候都能给出前后一致的结果,对此,泽尔纳认为从信息论的角度进行考虑是必要的。泽尔纳的做法是,令p (y |q )为给定 q 下,y的概率密度函数,定义
Iy(θ)=∫π(y|θ)lnπ(y|θ)dy
(1)
为p (y |q )中所含信息的度量。先验平均信息可以定义为
(2)
其中p (q )是先验分布。再引入
(3)
泽尔纳由此迈出了很关键性的一步:定义“最小信息”先验分布就是给定π(y|θ)时最大化G的先验分布。虽然这不是如此定义的“最小信息”先验分布的唯一定义,但将该定义应用于一些特殊情况从而得到相应的先验分布,并把此先验分布与利用杰弗里先验分布所得结果进行比较,还是能给我们带来不少启示。
首先,在y服从正态分布的情况下,最大化G(它在最小化∫π(θ)lnπ(θ)dθ时得到,亦即当我们对总体参数先验分布“几乎一无所知”时)所得位置参数θ, 尺度参数σ的先验分布均与杰弗里原则下得到的(先验)分布形式一致。
其次,在y服从正态分布的情况下,若假定位置参数θ,尺度参数σ独立,在约束∬π(θ,σ)dθdσ=1下,G的最大化条件是π(θ,σ)∝σ-1, 这也符合杰弗里原则。但若认为位置参数θ, 尺度参数σ不独立,则π(θ,σ)∝σ-2, 这就违反了杰弗里原则,虽然杰弗里认识到π(θ,σ)∝σ-1的先验分布在变换η=θ+kσ下保持不变[3]30-90。
泽尔纳发现,若考虑式(3)中G的渐近形式
(4)
受选择参数先验分布的“杰弗里原则”的启发,泽尔纳提出了所谓“信息守恒原则”。所谓信息守恒,它是指
Δ(g)=outputinformation-inputinformation
=∫glngdθ+∫glnhdθ-∫glnfdθ-∫glnπdθ
(5)
在式(5)中,投入的信息是关于先验密度π(θ)的对数lnπ(θ)及样本似然函数f(y|θ)的对数lnf(y|θ)的、均以密度g加权的积分,产出的信息则为关于y的边缘密度h(y)的对数lnh(y)及密度g的对数lng的、也均以密度g加权的积分h(y)=∫f(y|θ)π(θ)dθ。
下表列出了在泽尔纳“信息守恒原则”下得到的研究成果。
表1 最优贝叶斯信息处理下的结果
①g为抽取样本数据后得到的关于θ的密度,各个λ1为拉格朗日乘数。此式可推广至参数为向量或参数为矩阵的情形(可参考多元统计回归的作法)。
在表1中,情形1就是通常的贝叶斯定理(取“核”的形式),情形2即为费歇尔的“信任推断”(亦取“核”的形式)。这都是很清楚的,无需多说。
在情形4中,投入的信息是先验密度π及关于所估参数之样本矩的边界条件,最优信息产出为先验乘以该参数(向量)的最大密度的形式。情形3与此类似。在情形5中,投入信息取“可调先验信息” 的形式,所以作如此称呼,是因为通常密度的方次若为分数,则相应随机变量的分散程度会更大些,密度函数的高度也会随之降低;在这种情况下,一旦抽取到样本观测值,百分之百最优信息产出(的形式)必将正比于πw1lw2,恰为规模报酬 = w1+w2,替代弹性为-1时的科布-道格拉斯生产函数的形式。对科布-道格拉斯生产函数也可以添加其他规模报酬及替代弹性的边界条件,以求出相应的解(我们对科布-道格拉斯生产函数应该刮目相看了)。在情形6,某期的信息产出即为下一期的信息投入,因此这是一个动态规划问题,贝尔曼解是利用贝叶斯定理估计所需参数,并使之与更新后的样本同步优化,这样就能做到逐期“信息流入 = 信息流出”,从而使贝叶斯方法百分之百有效。不过,如果改变了先验概率、或搜集到了新信息(这都需要付出代价),则所得到的解和通常贝叶斯最优解会有些出入。此时,可以参考其他学科如心理学学习模型关于数据处理的做法。
举例来说,如果Elng=a,Varlng=b,则lng的最大熵密度(themaxentdensity)就是均值为a,方差为b的正态密度,而g则有对数正态密度。g的这种密度即可用来刻画g的性质。
顺便指出,所谓“熵”就是不确定性的度量,在“无信息”情况下,应取熵最大的分布为先验分布,这就是最大熵原理。有趣的是,如果一个随机向量的均值向量、方差协方差矩阵都存在,则可以证明其最大熵分布就是正态分布。
进一步考虑表1中的情形1“贝叶斯定理”,我们有Elng=Elnc+Elnπ+Elnl,以及Var(lng)=Var(lnπ)+Var(lnl)+2cov(lnπ,lnl)。先验密度对数与似然函数对数之间相关系数的大小,可以用来刻画先验密度与似然函数之间相依关系的特点。若先验密度是均匀分布密度,则它们之间的协方差就等于零。类似地,用这种方法也可以比较传统贝叶斯学习模型与其他统计学习模型的异同。表1其余五种情形下g之性质的刻画,可以仿此进行。
泽尔纳也研究了与表1信息处理方式有联系的、关于未来观测值密度函数(pdfs)的性质,其未来观测值是利用有关回归模型产生的。给定表1所示的、最优贝叶斯信息处理下的g(作为未来观测值的密度函数),以及实际观测到的有关未来值,g的预测性能就可以通过h(yf|D)=∫g(θ|D)f(yf|θ,D)dθ得到估计,D代表和问题有关的全部先验知识及已知数据。这样的密度函数可用来构造贝叶斯因子及后验优比(posteriorodds),以便对备选模型及其建模假设的合理性程度做出评估。例如,依靠贝叶斯学派的矩法(BayesianMethodofMoments,BMOM)所建立的建模,与根据传统贝叶斯方法所建立模型之间,就可以进行这种评估[4]。
利用贝叶斯因子及先验优比(priorodds)计算后验优比,是贝叶斯统计学教科书论证并采用贝叶斯定理的主要理由。亦即,贝叶斯定理被用于推出后验优比等于先验优比乘以贝叶斯因子的结论。泽尔纳证明这一结论也可以通过采用与表1相似的论证手法得到。最小化两个互斥假设(甚至非互斥假设)之间“信息流入”与“信息流出”的差,即可得到“后验优比等于先验优比乘以贝叶斯因子”的结论,表2列出了有关结果。无论是哪种情形,在“信息守恒原则”下得到的结论,都与采用传统贝叶斯方法所得结论相同,尽管它们的假设条件并不相同。显然,表2中的问题会有一些变体,将来它们肯定也会得到
分析,而其分析形式也很可能与传统的贝叶斯分析形式不完全相同。如果采用这样的分析,其结果好于传统贝叶斯方法所得结果,比如,在药物临床检验中有上乘表现,则它们必会被人们认为是具有“客观性”而非“主观性”的分析方法。不言而喻,在当今数值积分及最优化方法已经取得重大进展的条件下,贝叶斯方法与非贝叶斯方法之间的比较,肯定能在更广泛的领域中展开。
表2 备择假设的信息处理与评估
①h1(y)=∫f1(y|θ1)n1(θ1)dθ1,h2(y)=∫f2(y|θ2)n2(θ2)dθ2
参考文献:
[1]陈希孺. 数理统计学简史[M]. 长沙:湖南教育出版社,2002.
[2][美] Samuel Kotz,吴喜之.现代贝叶斯统计学[M]. 北京.中国统计出版社, 2000.
[3]龚凤乾. 哈罗德·杰弗里统计思想研究[M]. 厦门:厦门大学出版社,2015.
[4]张尧庭. BMOM方法-贝叶斯学派的新贡献.统计与精算,2001(1).
(责任编辑:马慧)
胡玲静,女,湖南郴州人,硕士生,研究方向:经济统计;
刘晓蒙,女,山东潍坊人,硕士生,研究方向:经济统计。
【统计史研究】
Jeffreys' Principle and Its Positive Influence upon Econometrics
GONG Feng-qian, HU Ling-jing, LIU Xiao-meng
(Department of Statistics, Tianjin University of Finance & Economics,Tianjin 300222, China)
Abstract:This paper makes a fairly comprehensive introduction to Harold Jeffreys′ principle and its positive influence upon econometrics. It consists of three parts. Part one gives a fairly thorough account of his scientific achievements in the fields of mathematics, physics, etc, with an emphasis on his statistical work and the significance of his receiving the Guy golden medal in 1962. Part two shows his correction of Bayes' philosophy about selecting the prior probability distribution for some theoretical studies. Part three introduces Zellner's principle of conservation of information, which plays an important role in modern econometrics.
Key words:the Guy golden medal; Jeffreys' principle; principle of conservation of information
中图分类号:C829.29
文献标志码:A
文章编号:1007-3116(2015)12-0089-06
作者简介:龚凤乾,男,天津人,教授,经济学博士,研究方向:统计学与风险管理;
基金项目:2012年度全国统计科研计划重点项目《哈罗德·杰弗里统计思想研究》(2012LZ038)