陈卓恒
(华侨大学数学科学学院,福建泉州 362021)
负二项分布的广义线性模型及其应用
陈卓恒
(华侨大学数学科学学院,福建泉州 362021)
讨论一类散度偏大的分布负二项分布的相关性质,以服从负二项分布的索赔次数为响应变量,引入风险分级变量和对数联结函数,建立广义线性模型.采用极大似然估计法进行参数估计,并用Wald检验法进行检验.最后,利用SAS软件包对一组保险索赔数据进行实证分析.
负二项分布;广义线性模型;Wald检验;风险分级
在风险理论中,总索赔次数的分布的研究一直是个中心论题.一般情况下,常采用均值等于方差的Poisson分布来描述索赔次数分布,但这与实际情况是不符的.事实上,索赔次数的分布规律往往偏离实际出事故次数的分布规律.鉴于此,本文引入方差大于均值的分布负二项(NB)分布,并在此基础上建立相应的广义线性模型.
对于风险非同质性保单组合而言,索赔次数往往可用混合Poisson分布来拟合.即索赔次数满足
其中:u(λ)是某个区间[a,b]上某连续分布的密度函数,0≤a
此时的索赔次数N服从负二项分布.若记α=r,β=r/μ,则带参数r和μ(r>0)的负二项分布的概率函数又可表示为
由负二项分布的性质,易得
2.1 模型的建立
广义线性模型是由Nelder提出的,十分适合离散的,厚尾的保险数据.它对于传统线性模型有以下3个方面的推广.
(1)响应变量Y的分布,可以取自于指数型分布族中的任一种分布.
(2)自变量的线性组合为η=β1x1+…+βk xk=X′β.这与多元线性回归模型没有什么区别,Y,X可取连续或离散值,但在应用上更多的是取离散值.
(3)响应变量的均值E(Y)=μ=h(X′β),h单调且可导,其反函数g=h-1称为联结函数.
设某险种的保单按其属性分为n类风险组,Yi表示第i类保单的索赔次数,且Yi服从于NB(μi, r),i=1,2,…,n,Yi之间相互独立.这里的r可看成冗余参数,在各次观察中不变.X为风险分级变量,采用对数联结函数g(x)=log(x)建立广义线性模型,有
式中:Xi=(xi,1,xi,2,…,xi,k)′,β为k维待估参数.
2.2 极大似然估计
考虑用极大似然估计法进行参数估计.对于独立样本(Xi,Yi′),i=1,2,…,n,把Y的分布写成指数标准型,有
由于一维指数型分布的分布密度(概率函数)的标准形式为
将式(5)对应于式(6),即有
由于μi=exp(Xi′β),因此式(5)中的θi与Xi有关,与参数β也有关.似然函数为
而对数似然为
由式(3)可得
由指数标准型分布的常用结论,易知
于是,由式(11),(12),(13)可得
因此,似然方程(10)又可写成
一般来说,在一定条件下,满足似然方程=0的极大似然解(MLE)β是存在且唯一的[3].
2.3 MLE的迭代计算
则从初始值β(0)开始,第k步算到β(k),并采用迭代式
式中:H-1(β)表示式(18)的H(β)逆矩阵.对于设定的ε,当进行到‖β(k+1)-β(k)‖/‖β(k)‖<ε时,即停止迭代.初始条件β(0)可取为{(g(yi),Xi),1≤i≤n}下线性回归系数的LS估计,即
式(19)最终可化为一个加权最小二乘估计的形式,并通过采用SAS软件包中线性回归的程序实现.
2.4 假设检验
检验部分采用Wald检验.由于模型的选择和解释变量的显著性检验问题可化为线性假设检验,原假设H0∶Cβ=ξ,备则假设H1∶Cβ≠ξ.其中,C为s×k的行满秩矩阵,β为k维向量.
引入Wald统计量,即W=(Cβ-ξ)′[CH-1(β)C′]-1(Cβ-ξ).这里的β表示β的MLE,当原假设成立时,W d服从于χ2(s),即统计量W渐进服从自由度为s的χ2分布.所以,对于给定检验水平α(0<α<1),若W>χ2α(s),则拒绝原假设H0;否则,接受H0.
数据来源于某保险公司关于机动车辆的保险索赔资料[4-5],如表1所示.考虑有如下3种风险因素影响着索赔额(N)和索赔次数(Y):(1)保单持有者的年龄(PA).有17~20岁,21~24岁,25~29岁, 30~34岁,35~39岁,40~49岁,50~59岁,60岁以上8个水平,分别用α1~α8表示;(2)车型(CG).有A,B,C,D共4个水平,分别用β1~β4表示;(3)车龄(VA).有0~3 a,4~7 a,8~9 a,10 a以上4个水平,分别用γ1~γ4表示.
按照这3种风险因素,可以将保单持有人分为128个风险单元,用Yi表示第i个风险单元的索赔次数.设Yi服从于NB(μi,r),i=1,2,…,128.Yi之间相互独立,采用对数联结函数建立的广义线性模型为
式中:Xi=(xi,1,xi,2,…,xi,18)′;β=(μ0;μ1;α1,…,α8;β1,…,β4;γ1,…,γ4)′;μ0为截距;μ1为索赔额的对数值.采用SAS软件的GENMOD过程编程计算,所得结果算法收敛.
表1 3种风险因素影响下的索赔额和索赔次数Tab.1 Number and amount of claims in three risk factors
GENMOD过程的第3型分析表明,PA,CG,VA的自由度分别是7,3,3,卡方值分别为150.07, 107.64,119.32,而其显著性水平p值均小于0.000 1.由此可知,在决定投保人的索赔行为时,3种因素都是非常显著的.
从评价拟合优度的标准可知,3种因素自由度都为109,但NB分布相对于Poisson分布具有更小的离差和平均离差(NB分布分别为131.732 7,1.208 6,而Poisson分布分别为1 107.793 5,10.163 2).因此,与Poisson分布相比,用NB分布来拟合数据,其拟合程度更好.参数估计的结果,如表2所示.
从表2可以看出,从保单持有者年龄来说,年龄在40~49岁的人风险最大;而处于17~20岁年龄阶段的人风险最小.这里的风险是相对于索赔次数而言.由此可以说明,17~20岁年龄阶段的投保人索赔频率不高,当然,索赔额则不一定了.从车型来看,A,B,C,D等4种车型中,车型B风险最大,而车型D风险最小.从车龄来看,0~3 a的车风险最大,而10 a以上的车风险最小.分析原因应该是与新车驾驶员的车技和心理等因素有关,而老车驾驶员相对更重视安全.此外,从表中的Wald卡方统计量和显著性水平p值可以看出,所检验的参数对于模型基本都是显著的.
表2 参数估计的结果Tab.2 Analysis of parameter estimates
[1]SUSANNE G,CLAUD IA C.Model ling count data with over dispersion and spatial effects[J].Statistical Papers, 2008,49(3):531-552.
[2]田霆,刘次华.定时截尾缺失数据下指数分布的参数AMLE[J].华侨大学学报:自然科学版,2006,27(4):351-353.
[3]FAHRM EIR L,THTZ G.Multivariate statistical model ling based on generalized linear models[M].2nd ed.New York:Sp ringer-Verlag,1996.
[4]毛泽春,刘锦萼.一类索赔次数的回归模型及其在风险分级中的应用[J].应用概率统计,2004,20(4):359-367.
[5]MCCULLAGH P,NELDER J A.Generalized linear models[M].2nd ed.London:Chapman and Hall,1989.
(责任编辑:陈志贤英文审校:张金顺,黄心中)
Generalized Linear Model Based on Negative Binomial Distribution and Its Application
CHEN Zhuo-heng
(School of Mathematical Sciences,Huaqiao University,Quanzhou 362021,China)
The properties of the negative binomial distribution which is over-dispersion is discussed in the paper.A generalized linear model which based on the distribution is in truduced.The maximum likelihood estimates and wald test for the model are considered.A t last the model is applied to a real data set of aggregate claims for automobile insurance using SAS package.
negative binomial distribution;generalized linear model;wald test;risk classification
O 212;F 84
A
1000-5013(2011)02-0226-05
2009-04-14
陈卓恒(1980-),女,讲师,主要从事金融统计和保险精算方向的研究.E-mail:ranic@163.com.
华侨大学科研基金资助项目(07HZR04)