张连增 申晴
摘 要:为分析我国交强险各因素对索赔频率的影响,以2016年广东、河南、湖北、山东四省的保单数据为样本,采用广义可加模型(GAM)对其保单中的驾驶员年龄、汽车车龄和汽车重量进行非参数分析,并对公路里程数等变量进行参数分析。结果表明:索赔频率有明显的地区差异,公路里程数对索赔频率有正向的影响,其中除汽车车型对索赔频率没有影响外,其余变量均有显著影响。
关键词: 交强险;索赔频率;广义可加模型
一、引 言
交强险是“机动车交通事故责任强制保险”的简称,是我国第一个由法律规定实行的强制性保险。在“不盈利、不亏损”的原则下由国家根据被保险车辆的种类和座位数的不同,统一规定相应的基础费率,由各家经营交强险业务的保险公司统一征收。交强险自2006年7月1日实行以来,一直备受关注与争议。一方面,交强险作为一种福利性保险,在发生交通事故时使事故受害人能够获得及时的经济赔付和医疗救助,并且通过建立一套“奖惩系统”(即BMS)增强了驾驶人的交通安全意识,充分发挥了保险的社会保障功能,实现了社会的稳定和谐;另一方面,根据中国银行保险监督管理委员会(原中国保险监督管理委员会)于2017年11月公布的数据,截止2016年12月3日中国交强险总体私保亏损22亿元,而且不同地区的交强险赔付率有明显的差异。整体上看,经济欠发达地区的赔付率低于较发达地区的赔付率。因此,如何在现有监管政策下,进一步改善交强险承保亏损情况,以及经济欠发达地区隐形交强险补贴经济发达地区情况成为了学界、业界争相探讨的议题。
解决上述问题的关键在于科学合理地进行交强险费率厘定。索赔频率是车险费率厘定以及非寿险精算的重要组成部分,自从20世纪90年代英国精算师把广义线性模型(Generalized Linear Models,GLM)应用于非寿险定价中,非寿险产品得以科学定价的同时,GLM在精算中的应用也得到不断完善与发展。另外,Jong等(2008)、Ohlsson等(2010)详细介绍了车险费率厘定中广义线性模型的相关理论,并结合案例介绍了广义线性模型的相关扩展模型,进一步丰富了车险费率厘定的相关理论[1,2]。虽然我国保险精算业起步较晚,但近几年得到了迅速的发展,保险产品的定价也更加科学、合理。在理论方面,卢志义等(2007)、张连增等(2013)主要分析了GLM在非寿险费率厘定中的应用[3,4],为未来的相关研究提供了方向。GLM在车险费率厘定中作为经典模型得到广泛应用的同时,GLM的局限性也不断凸显出来,其中,孟生旺等(2017)指出,GLM的缺点是需要建立在各种分布假设上,而实际的损失数据有时可能难以满足这些分布假设,这就需要对GLM进行推广[5]。张连增等(2018)指出,在大数据时代背景下广义线性模型在数据维度非常大的时候,就显得不是特别有效了,回归树方法在车险定价领域是广义线性模型很好的辅助与参考[6]。
为了更加科学、合理地进行车险费率厘定,许多GLM的扩展模型应运而生,广义可加模型(Generalized Additive Models,GAM)就是在这个背景下产生的。在GAM中,可以通过样条函数等形式来描述连续型解释变量的影响,在数据拟合中更具有灵活性。例如,Hastie等(1986)[7]较早地介绍了GAM,Hastie等(1990,1993)[8,9]将非参数光滑技术应用于指数散布族(EDF)分布,保留了GLM的基本结构,并使用非参数函数代替GLM中的线性预测部分来扩展GLM[10]。Wood等(2017)重点介绍了广义可加模型在车险费率厘定中应用的相关理论以及在R中的实现,为GAM在车险中的运用提供了借鉴[11]。国外关于GAM在车险中应用的相关研究成果较少。一方面,现有研究成果主要介绍GAM的扩展模型,如Klein等(2014)介绍GAMLSS与贝叶斯方法在车险中的应用[12],Chouldechova等(2015)引入一种被称为GAMSEL用于拟合高维稀疏广义可加模型的惩罚似然方法[13];另一方面,介绍GAM在其他领域的应用,如Segurado等(2006)[14]。最近几年,国内开始将GAM应用到车险费率厘定中,如张连增等(2012)通过构建GLMlogistic回归模型和GAMlogistic回归模型对影响汽车保险索赔频率的相关因素进行实证分析,结果表明后者比前者更具有优势,预测效果更好[10]。孙维伟(2014)基于Tweedie类分布的数据集,用GAM对汽车保险索赔额的影响因素进行分析与拟合,通过实证分析说明了广义可加模型是对广义线性模型的有效拓展应用[15]。高光远等(2018)通过建立索赔频率的广义可加模型为汽车保险费率厘定提供了驾驶者行为这一新的费率因子[16]。除此之外,国内关于GAM的研究像国外一样大部分集中在GAM的扩展模型以及GAM在其他领域的应用方面;在车险方面的研究主要集中于车险定价方面的研究[3,17],还有对交强险成本因素进行分析[18]以及车险出险概率等方面[19],而关于车险索赔频率影响因素的研究较少。
总结国内外研究成果,我们发现:第一,GLM作为非寿险定价的经典模型,在非寿险定价中得到了充足的发展,但是在非寿险定价中存在自身的局限性。第二,相对于GLM模型,GAM模型虽然在模型设定方面具有很大的灵活性,但在非寿险中的相关研究成果较少,尤其是国内。第三,不论是GLM、GAM模型还是其他没有相关模型在非寿险中的应用大部分都是着眼于非寿险的定价,而索赔频率作为车险费率厘定的重要组成部分,单独对索赔频率的影响因素相关研究较少。另外,中国精算研究院课题组根据全国各地风险水平的不同将国内交强险市场分为三类,即湖北省、山东省和河南省、廣东省,所以,基于此分类标准以及考虑到各省交强险数据的可获得性,本文以这四个省份的保单经验数据为样本,对我国不同区域交强险索赔频率的影响因素进行分析研究。采用GAM不仅对四个省份交强险的保单信息进行参数与非参数的建模分析,而且尝试在GAM模型中加入省份公路里程数这一变量进行参数建模分析。估计和检验各个参数与非参数系数,旨在得到各指标对交强险索赔频率的影响形式和影响程度,以期为相关研究和交强险定价工作提供理论借鉴和参考。
二、方法介绍
(一)广义可加模型(GAM)
广义可加模型是在广义线性模型(GLM)基础上发展起来的,GLM模型事先确定被解释变量的均值经变换后是解释变量的线性函数。在现实生活中变量之间存在着复杂的关系,因此,GLM模型在实际的应用中存在着很大的局限性。于是,Hastie和Tibshirani(1986)提出了广义可加模型(GAM),该模型中解释变量和被解释变量之间是一种不确定的非参数平滑函数形式,这样不仅降低了广义线性模型中的线性假定的设定误差,而且使模型具有更大灵活性。
GAM模型保留了GLM模型的基本框架。GLM模型由随机部分、系统部分和联结函数三部分组成,其中联结函数联结着其他两个部分。
三、实证分析
(一)数据来源及说明
本文以某保险公司2016年交强险171768个保单数据为样本,其中广东省29803个、河南省54454个、湖北省17468个、山东省70043个。为了方便进行比较,本文统一选用A6座以下的保单数据为样本。每条样本共包括11个变量:索赔次数(Clm.count)、索赔金额(Clm.incurred)、承保区域(Region,共分为4个地区)、风险暴露(Exposure)、驾驶员年龄(Drv.age)、驾驶员性别(Drv.gender)、无赔款优待水平(Ncd.level,共分为九类)、汽车车型(Body.code,共分为五类)、汽车年龄(Veh.age)、汽车重量(Weight)、保单类型(Nb.Rb)。另外,张连增等(2012)对全国各省交通事故和公路里程数相关关系的研究表明:公路里程数每增加1%,交通事故损失额将增加5.41%,交通事故和公路里程数具有明显的正相关关系[20]。故本文將2016年四省的公路里程数作为一个变量,各省公路里程数据来源于《2017年中国统计年鉴》。
(二)变量符号及相关变量汇总
各变量符号及其含义见表1,相关变量的数据汇总见表2。由表2可知,四个省份的索赔频率水平各不相同,其中河南省索赔频率为0.036,低于四省的平均水平(0.047),另外三个省份的索赔频率均高于平均水平,而且广东省和湖北省都高出平均水平较多。
注:①1~4分别代表广东、河南、湖北、山东四省;②A表示连续三个及以上年度未发生有责任事故,B表示连续两年未发生有责任事故,C表示上年度未发生有责任事故,E类(D过户、E1新保、E2新车),F表示上年度发生一次有责任不涉及死亡的交通事故,G表示上年度发生两次及两次以上有责任交通事故,H表示上年度发生有责任道路交通死亡事故。根据2016年最新交强险费率表及浮动标准规定:首次投保交强险的机动车费率不浮动;在保险期限内,被保险机动车所有权转移应当办理交强险合同变更手续,且交强险费率不浮动。所以,无赔款优待水平(Ncd.level)中的D过户、E1新保、E2新车三种类型的保险可以合并为一类。③高速公路里程数与一级、二级公路里程数之和,单位:万公里。
(三)模型的建立及其参数估计结果
结合样本中的变量属性建立GAM模型。在该模型中,索赔次数为被解释变量,解释变量中的承保区域(Region)、驾驶员性别(Drv.gender)、无赔款优待水平(Ncd.level)、汽车类型(Body.code)、保单类型(Nb.Rb)等都是分类变量,因此,在建模过程中把这几个变量进行参数分析。另外,公路里程数(Road.level)是连续型变量,但这个变量比较特殊,同一个省份的不同个体对应着相同的公路里程数,由于该变量取值个数较少,不适合对该变量构造平滑函数进行非参数分析,因此,在建模过程中直接对该变量进行参数分析。其余三个变量:驾驶员年龄(Drv.age)、汽车车龄(Veh.age)、汽车重量(Weight)是连续型变量,它们与被解释变量之间是否存在线性或非线性关系有待确定,为此,需要进行非参数分析。
运用R软件的mgcv包中的gam函数,得到该模型的参数估计结果如表3所示。通过分析表3发现,汽车车型(Body.code)中各个水平的参数估计结果都不显著,也就是说汽车车型对交强险索赔频率没有影响。另外,无赔款优待分类中的H类(上年度发生有责任道路交通死亡事故)参数估计不显著。通过查看原始数据初步认为H类的参数估计之所以不显著,很有可能是由于H类样本数据较少造成的。除上述变量以外,其它变量的参数估计以及非参数估计结果都比较显著。因此,删除不显著的变量汽车车型(Body.code),并把变量无赔款优待水平(Ncd.level)中的H类(上年度发生有责任道路交通死亡事故)合并到G类(上年度发生两次及两次以上有责任交通事故),重新进行GAM回归分析。
通过分析表4可以发现,GAM模型中除变量Nb.RbNb的P值为0.07外,其余所有的参数变量和非参数变量的估计结果都在95%的置信水平内显著。同时还发现:(1)无赔款优待水平中的各个分类水平对索赔频率呈现出正向的影响作用,说明Ncd.level等级越高,保单持有人的索赔频率越高,即保单持有人之前有记录的索赔次数越多,则可以预测该保单持有人未来出事故的概率越大、索赔的次数越多。(2)就省份而言,四个省份对交强险索赔频率的影响程度各不相同。仅就样本参数估计的结果来看,地区对索赔频率的影响系数按高低顺序分别为:湖北省、广东省、山东省和河南省,其中,湖北省最高。由于各个省份的社会结构、经济发展、文化习惯以及自然地理状况不同,因此,造成各地区索赔频率的差异是不可避免的。(3)保单类型中新保(Nb)对索赔频率的影响系数高于非新保(Rb),这种情况主要是由于新保单持有人大部分是新司机,驾驶经验缺乏,出事故的概率较大,索赔次数较多。相反,非新保对索赔频率的影响较小,是因为这类保险的保单持有人驾驶经验丰富,出事故的概率较小,因此,发生索赔的次数相对较少。(4)驾驶员性别方面,通过分析四省份的样本数据得到女性对索赔频率的影响程度高于男性,即女性的索赔频率高于男性。有研究表明,女性驾驶员的轻微交通事故概率明显高于男性驾驶员,在致命交通事故中男性驾驶员的事故率明显高于女性驾驶员。本文样本数据中共有53个上年度发生有责任道路交通死亡事故即H类的索赔记录,但是女性只有8个,远远低于男性。(5)公路里程数对交强险索赔频率的影响系数为0.17573,即在其它变量保持不变的条件下,公路里程数每增加1万公里,相应的索赔频率增加19.2%(e0.1757-1),有正向影响作用。
图1中纵轴表示平滑函数值,括号中数字表示有效自由度(edf),虚线表示置信区间上下限,实线表示索赔频率的平滑拟合曲线,横坐标表示解释变量的实测值。通过图1发现,三个非参数变量Veh.age、Weight、Drv.age与索赔频率的关系表现为非线性关系。具体如下:(1)汽车车龄(Veh.age)对索赔频率的影响呈现出先缓慢上升,再迅速下降的趋势。即汽车车龄在0~10的范围内,对索赔频率的影响是缓慢上升的,在车龄为10时的索赔频率最大。当车龄大于10时对索赔频率的影响是不断下降的。(2)汽车重量(Weight)对交强险索赔频率的影响程度具有明显的波动。首先,在0~0.5的范围内其影响程度具有缓慢下降的趋势,在0.5~1.8的范围内,其影响程度呈现出上升的趋势;当汽车重量为1.8时索赔频率达到最大;当汽车重量大于1.8时的其影响程度是不断下降的。(3)驾驶员年龄(Drv.age)對交强险索赔频率的影响程度在20~40的区间内呈现出不断下降的趋势,当驾驶员年龄为20时的索赔频率最大,在40时影响最小;在40~50的区间有了较小幅度的上升,之后逐渐趋于平稳。
四、结论与启示
本文利用某公司四省交强险2016年的保单数据,通过建立广义可加模型,其相应的参数与非参数估计结果表明:无赔款优待水平、驾驶员性别、保单类型、承保区域以及公路里程数等对交强险索赔频率具有线性影响;而汽车年龄、汽车重量和驾驶员年龄等变量对我国交强险索赔频率具有非线性影响。在参数方面:我国交强险的索赔频率是有地区差异的,其中,索赔频率最高为湖北省,其他依次为广东省、山东省、河南省;无赔款优待水平等级与索赔频率成正相关的关系,即历史索赔记录越多,则预测个体未来出险的概率越大,索赔频率则越大;保单类型中新车对索赔频率的影响高于非新保;女性索赔频率高于男性,公路里程数与索赔频率成正相关关系。非参数方面:通过对汽车车龄、汽车重量和驾驶员年龄进行GAM非参数建模分析。结果表明三个变量均比较显著,即三个变量对索赔频率具有非线性的影响。汽车车龄在0~10的范围内,对索赔频率的影响是缓慢上升的,当车龄大于10时对索赔频率的影响是不断下降的。汽车重量(Weight)在0.5~1.8的范围内汽车的索赔频率较大,在其他范围内则相对较小。驾驶员年龄(Drv.age)对交强险索赔频率的影响在20~40的区间内达到最大,即汽车驾驶员年龄较小时的出事故的概率较大,则索赔频率较大。
本文研究结论为我国交强险定价提供了一些新的思路:(1)目前国内车险行业通常是应用GLM模型对索赔频率与索赔强度分别建模得到纯保费,而GLM默认被解释变量的均值经变换后是解释变量的线性函数,现实应用中特别是在大数据时代背景下变量之间存在着复杂的关系,因此,GLM模型有很大的局限性。为了实现更为精准的定价,建议财险公司在进行车险费率厘定时尝试使用GAM等灵活性较好的模型。(2)目前,全国实行统一交强险费率,不能反映各地实际风险差异,费率与风险不匹配,为此,建议在交强险费率厘定时引入“区域因子”,实行地区差异化费率。(3)目前我国交强险定价仍是根据被保险车辆的种类和座位数实行统一费率,并根据无赔款优待水平按照相应的比例奖惩交强险投保人。本文研究发现,除此之外,公路里程数、保单类型、驾驶员性别、驾驶员年龄、汽车车龄、汽车重量等变量对汽车索赔频率均有显著影响,因此,建议财险公司将这些变量纳入新的费率因子进行交强险定价,从而一定程度上提高交强险费率的公平性和合理性。
参考文献:
[1] Jong P, Heller G. Generalized linear models for insurance data [M]. New York: Cambridge University Press, 2008.
[2] Ohlsson E, Johansson B. Nonlife insurance pricing with generalized linear models [M]. Berlin Heidelberg: Springer, 2010.
[3] 卢志义,刘乐平.广义线性模型在非寿险精算中的应用及其研究进展[J].统计与信息论坛,2007(4):26-31.
[4] 张连增,吕定海. 广义线性模型在非寿险费率分析中的应用[J].数理统计与管理,2013(5):903-909.
[5] 孟生旺,李天博,高光远.基于机器学习算法的车险索赔概率与累积赔款预测[J].保险研究,2017(10):42-53.
[6] 张连增,谢厚谊. 回归树方法在车险索赔频率预测建模中的应用[J].保险研究, 2018(1):101-111.
[7] Hastie T, Tibshirani R. Generalized additive models [J]. Statistical Science, 1986, 1(3): 297-310.
[8] Hastie T, Tibshirani R. Generalized additive models [M]. Chapman and Hall, 1990.
[9] Hastie T, Tibshirani R. Varying coefficient models (with discussion) [J]. Journal of the Royal Statistical Society, 1993, 55(1): 757-796.
[10] 张连增,孙维伟,段白鸽.GLM与GAM在车险索赔频率建模中的应用及其比较[J].天津财经大学学报,2012(12):7-56.
[11] Wood S N. Generalized additive models: an introduction with R. Second Edition [M]. Chapman & Hall /CRC, Boca Raton, Florida, 2017.
[12] Klein N, Denuit M, Lang S, et al. Nonlife ratemaking and risk management with Bayesian generalized additive models for location, scale, and shape [J]. Insurance: Mathematics and Economics, 2014, 55(1): 225-249.
[13] Chouldechova A, Hastie T. Generalized additive model selection[J]. arXiv: 1506.03850, 2015.
[14] Segurado P, Araujo M B, Kunin W E. Consequences of spatial autocorrelation for nichebased models [J]. Journal of Applied Ecology, 2006, 13: 433-444.
[15] 孙维伟.基于Tweedie类分布的广义可加模型在车险费率厘定中的应用[J].天津商业大学学报,2014(1):60-67.
[16] 高光远,孟生旺.基于车联网大数据的车险费率因子分析[J].保险研究,2018(1):90-100.
[17] 王新军,王亚娟.基于广义线性模型的车险分类费率厘定研究[J].保险研究,2013(9):43-56.
[18] 孟生旺,李 皞,商 月.交强险的成本因素分析[J].统计研究,2011 (6):47-52.
[19] 周县华.我国交通事故责任强制保险定价研究——来自北京、吉林、内蒙古和山东的经验证据[J].统计研究,2010(5):81-86.
[20] 张连增,段白鸽.行驶里程数对车险净保费的影响研究——基于公路里程对交通事故损失的影响视角[J].保险研究,2012(6):29-38.
(责任编辑:宁晓青)