王丙参,魏艳华,孙春晓
(1.天水师范学院数学与统计学院,甘肃 天水741001;2.西北农林科技大学理学院,陕西 杨凌712100)
(a,b,0)类分布族及其最大后验密度可信区间
王丙参1,魏艳华1,孙春晓2
(1.天水师范学院数学与统计学院,甘肃 天水741001;2.西北农林科技大学理学院,陕西 杨凌712100)
为了在模拟索赔次数时更好的运用(a,b,0)类分布族,系统研究了(a,b,0)类分布族的优良特性及相互关系,利用贝叶斯统计分析方法,在取先验分布为共轭分布的情形下,给出了最大后验密度可信区间,即最短可信区间,并通过实例与经典区间估计进行了比较.
(a,b,0)类分布族;贝叶斯估计;可信区间
由于(a,b,0)类分布族在模拟索赔次数时具有独特的优势,所以在保险精算中经常用到,但在实际问题中,我们往往不知其参数,因此对参数进行估计具有重要意义[1-3].未知参数θ的区间估计比点估计有明显的优势,它即给出参数真值所在的范围,又给出该范围包含真值的可信程度.显然在置信水平1-α确定的前提下,区间的长度越短越好.如果枢轴量的密度函数(pdf)是对称的单峰函数,当两侧各取α/2时,区间的长度为最短.如果枢轴量的pdf非对称,仍按对称情况确定的区间一般并非最短[4-5].鉴于此,本文研究了(a,b,0)类分布族的优良特性,在取先验分布为共轭分布的情形下,给出了最大后验密度可信区间,即最短可信区间.
定义1.1 如果X为n重伯努利试验中事件A成功的次数,p=p(A),q=1-p,则X~B(n,p),分布列为:pk≜P(X=k)== (pet+q)n,E(X)=np,Var(X)=npq.
定义1.2 Poisson分布X以全体自然数为一切可能值,分布列为p(X=k)=为X~P(λ).满足下面三个条件的r.νX 服从Poisson分布[6]:
(1)普通性:在充分小的观察单位上,X的取值最多为1;
(2)平稳性:X的取值只与单位时间t有关,而与观察单位的位置无关;
(3)独立增量性:在某个观察单位上X的取值与前面各不同观察单位上X的取值均独立;
为描述稀有事件,只含有一个参数的Poisson分布往往是第一选择.由于Poisson分布的均值等于方差,所以当风险集体同质时,理赔次数服从Poisson分布,但实际中,同质性保单组合的索赔次数并不满足这个规律.此外,由于保险公司采用了回避风险的机制,如免赔额、无赔款优待费率体系等,使得投保人在发生事故时会权衡利益得失而决定是否索赔,所以保单组合中索赔次数为零的保单数相对较多.基于索赔次数的这些特点,引出了调零的复合Poisson分布类.
定义1.3 若在伯努利试验序列中,每次试验成功的概率为p,则恰好出现r次成功所需失败次数X ~ NB(r,p),p(X =k)=Crk+k-1pr(1-p)k,k=0,1,…,0<p<1.
显然mgf mX(t)=即当数据的样本方差大于均值时用负二项分布拟合更合适.在非寿险中常将负二项分布推广为NB(r,β),p(X=n)=,注意r未必是整数,简记为NB(r,β).今后为叙述方便,在非寿险中如无特别说明,负二项分布一律指推广的NB(r,β).
对于pk=P(X=k),k≥0,称满足的分布为(a,b,0)分布,满足p= (a
k的分布为(a,b,1)分布.
定理1.1[7]除退化分布外,(a,b,0)类包含且仅包含B(n,p),NB(r,p),P(λ).令q=1-p
(2)若X ~ NB(r,p),a=q,b= (1-r)q,p0=pr
(3)若X ~p(λ),a=0,b=λ,p0=e-λ
贝叶斯统计推断利用了先验知识,往往收到较好的效果,尤其对于小样本.
引理1 若X ~Be(a,b),则Y =X/(1-X)~Z(a,b);若X ~Z(n1/2,n2/2),则Y = (n2/n1)X~F(n1,n2);
(1)设X1,…,Xn是来自二项分布B(n,p)的样本,样本观测值为里纹科定理知,利用经验分布去替换总体分布,便可得到p的矩估计为在贝叶斯统计中,若对事件A毫无了解,贝叶斯建议用 “同等无知”原则,则适用相应区间上均匀分布作为待估参数的先验分布,因为它在每一点的机会均等,没有偏爱[8].若取p的先验分布为其共轭型先验分布Be(a,b),即π(p)∝pa-1(1-p)b-1,那么π(p|x)∝pa+nx-1(1-p)n2-nx+b-1,即p的后验分布为Be于构造枢轴量的原则是:利用所有已知信息,不出现未知参数,于是令F+b-nx))(构造F分布便于查表,实际上可直接用贝塔分布做),其中A=则P(c<p<从而p的可信水平为1-α的最短可信区间满足:解 由题意可知a=3,b=1.又因为,所以λ的后验分布为Γ(11,9),即Y ≜18λ~
x2(22),从而求λ在可信度为95%最短可信区间为(d-c)/18,由前面推导可得c=9.95787,
d=35.22668,最短可信区间为 (0.55321,1.95704),区间长度为1.403823.若采用等尾区间估计可得(2.0433728936,0.6101289297),区间长度为1.43324.显然可见最大后验密度可信区间比一般的等尾区间要短.运行程序如下:
function y=myfun100 (x)
y (1)=chi2pdf(x (1),22)-chi2pdf(x (2),22);
y (2)=chi2cdf(x (2),22)-chi2cdf(x (1),22)-0.95;
format long;x=[40,70];
x=fsolve ('myfun100',x)x/18
data;d=cinv (0.975,22)/18;put d=;
c=cinv (0.025,22)/18;put c=;
a=d-c;put a=;run;
综上所述,实际上对于统计量pdf f(x)的为单峰函数,只要取f(d)=f(c)且F(d)-F(c)=1-α就可使得区间估计最短.
[1] 王丙参,魏艳华.保费收取次数为负二项随机过程的风险模型 [J].江西师范大学学报,2010,34(06):604-608
[2] 王丙参,魏艳华,石春燕.泊松分布与负二项分布在模拟索赔次数中的应用 [J].河北北方学院学报:自然科学版,2011,27 (02):13-16
[3] 王丙参,魏艳华,孙春晓.泊松分布与负二项分布在风险管理中的应用 [J].天水师范学院学报,2008,28(05):23-24
[4] 王丙参,徐长伟,宋立新.概率分布中的递推问题与Panjer递推公式 [J].河北北方学院学报:自然科学版,2010,26 (02):13-15
[5] 袁长迎,徐明民.伽玛分布参数的最短置信区间 [J].数理统计与管理,2006,25(04):435-437
[6] 马先莹,孙红卫,相静.Poisson分布易被忽视的重要性质 [J].大学数学,2009,25(05):184-186
[7] 杨静平.非寿险精算学 [M].北京:北京大学出版社,2006,12:40-60
[8] 茆诗松.贝叶斯统计 [M].北京:中国统计出版社,1999:15-30
(a,b,0)Class Distributions and Their Confidence Interval of Highest Posterior Density
WANG Bing-can1,WEI Yan-hua1,SUN Chun-xiao2
(1.School of Mathematics and Statistics,Tianshui Normal University,Tianshui 741001,Gansu,China;2.College of Science,Northwest University of Agriculture and Forestry,Yangling 712100,Shanxi,China)
This paper systematically discusses the properties and relationships among families to use them in the stochastic simulation.When prior distributions are conjugate distributions,it gives their confidence interval of the highest posterior density by using the method of Bayes statistical analysis,and compares the classical interval estimation by examples.
(a,b,0)class distributions;Bayesian estimation;confidence interval
O 212.8
A
1673-1492 (2011)06-0007-04
来稿日期:2011-09-23
甘肃省自然科学研究基金计划 (096RJZE106);甘肃省教育厅项目 (0908-07);天水师范学院科研基金 (TSA0931)
王丙参(1983-),男,河南南阳人,天水师范学院数学与统计学院讲师,硕士.
刘守义 英文编辑:刘彦哲]