肖陆祇 肖陆镝 杜 平 刘小西
(1.中国核工业集团有限公司,北京 100822;2.东方证券股份有限公司,上海 200001;3.杭州银行股份有限公司北京分行,北京 100005 ;4.金汇财富管理有限公司,北京 100033)
对于解决社会资源约束、环境污染问题,共享经济功不可没。其中出行行业最具代表性,P2P租车服务(司机是租客)是很重要的一部分。P2P租车公司本质是租车中介,它将车主和租客的信息整合匹配并提供第三方监管保障服务。由于汽车购置金额较大、风险影响因子较多且事故发生频率较高,对于P2P平台的车,除交强险外,必须有商业车险。商业车险的购买方已从车辆所有方转移到租客,保险周期缩短至以天为计算单位。一方面,由于被保险人的保险周期监测时间短、对于每辆车的被保险人频繁更换这两个原因,导致保险中信息不对称性愈加明显,由此导致的逆向选择以及道德风险问题更加突出,传统商业车险定价体系已不再适用。另一方面,P2P租车公司为其平台上的每一辆车安装了OBD设备,它可以提取到车辆的实时位置、速度、方向等信息,可以分析出租客的驾驶行为,以此来判断驾驶风险。
本文将数据分为从车、从人(静态、动态)因素两大类,基于定量风险度量与评价,设计出P2P商业车险厘定模型,并进行实证检验及对比验证,为P2P租车商业车险进行用户风险衡量、精准定价提供理论依据,对于其他类型车险也有一定的借鉴意义。
P2P平台的商业车险是传统车险的衍生品,与传统乘用车保险有几点不同,具体可以分为:(1)保险参与人关系的变化,传统乘用车商业保险的投保人是车主,而P2P平台的商业车险投保人是租客;(2)保险标的变化,传统乘用车商业保险根据标的不同又可以分为车辆损失险、商业第三者责任险等,目前P2P平台所出售的商业车险是混合标的;(3)被保险车辆性质的变化,乘用车范畴变成了商用车的性质;(4)保险周期的变化,传统商业车险一般的保险周期是一年,而P2P平台商业车险的周期为一天。
基于P2P平台商业车险特点,本文着重从区分用户风险大小的角度来设计车险厘定方法,具体步骤如下:
第一步,以可得性、相关性、正向激励为原则分别对静态从人因素以及动态从人因素进行风险因子筛选。
第二步,对于静态从人因素部分,用广义线性模型进行风险因子的拟合。在广义线性模型拟合的过程中,需对因变量的分布函数进行选择(正态分布、泊松分布、Tweedie分布等),选取依据是拟合优度检验和P值检验最优。
第三步,利用广义线性模型拟合结论中的估计值判断出每个风险因素不同组别的风险大小(估计值越高,风险越大)。根据估计值的大小分别对每个风险因素进行费率的赋权,对于同一风险因素不同组别之间的费率赋权比例要与其估计值之间的比率基本相同,并将各风险因素的费率赋权值加总得出基础费率。
第四步,利用熵权分析法对所筛选的动态从人因素进行权重计算,并拟定驾车行为评分模型。
第五步,将驾车行为评分模型的不同分数段与不计免赔额费率建立联系,以驾车行为评分越高不计免赔额费率越低为原则,拟定动态从人因素费率参照表。
第六步,根据保险公司的成本率、预期收益率的大小,对费率进行调整(不改变每个风险因子组别之间费率赋权的比例关系)。
最后,根据公式:“保费=日租金×(基础费率+不计免赔额费率)”进行样本检验,判断在不降低保险公司保费收入的前提下,是否能够对被保险人的风险大小进行区分。
本文样本数据全部来自宝驾P2P租车平台。总体样本按地区划分进行分层,从上海、北京两个城市分别抽取500个样本。抽取样本时以订单编号为关键字,进行随机抽样。
静态样本维度分别为地区、订单编号、性别、年龄、驾龄、实际取车时间、实际还车时间、购买保险类别、车辆品牌系列、车龄(年)、已行驶里程、出险原因、车辆损失状况、报案时间、赔付客户金额,共15个维度。
风险因子筛选要符合可靠性、相关性、正向激励三个原则。
下面以风险因子分组数据的索赔强度和索赔频率来刻画该风险因子的风险大小。风险因子分组的索赔频率=该风险分组的出险次数/该风险分组的样本数量×100。风险因子分组的索赔强度=该风险分组赔付客户总金额/该风险风阻的出险次数。
分别计算地区(a)、性别(b)、年龄(c)、驾龄(d)、从车因素(e)五个维度的风险因子的频率分布,得出a、b、c、d四个因子风险水平具有显著的差异性,而因子e相关性低,舍去。因此,选择地区(a)、性别(b)、年龄(c)、车龄(d)这四个从人因素作为风险因子加入模型。
由于P2P租车平台上的保单都是短期保单,仅将索赔强度作为因变量进行拟合,建立广义线性模型:
(1)E(Yabc)=μabc; (2)ηabc=Xβ=(1,xa,xb,xd)×β, β=(β0,βa,βb,βc,βd)T ; (3)Φ(μabc) =ηabc,Φ为连接函数。
利用SPSS软件,分别用正态分布、Poisson、Tweedie分布拟合索赔额分布,对比不同分布下的拟合优度, Tweedie分布的总离差最小,拟合效果最好。然后,分别用上述三个分布对各个参数进行显著性检验,泊松分布和Tweedie分布的所有参数均通过了显著性检验。综合来看,选取Tweedie分布来拟合赔付客户金额。
用SPSS软件,以Tweedie分布拟合索赔额分布,连接函数为对数连接,得出结果:
分组数据均通过置信水平为1%的显著性检验。(1)在地区分组中,北京地区的估计值要高于上海地区,这可能与路况有关,如交通拥堵情况等。(2)在性别分组中,男性的估计值要明显高于女性,这可能与性别整体性格有关。(3)年龄分组中,年龄在21岁~24岁的估计值(2.003)明显高于其他年龄组,30岁~34岁的参数估计值(1.566)相对较大,25岁~29岁以及35岁~39岁的人群驾驶的平均损损失相对较低,39岁以上随着年龄的增大,驾驶的平均损失成本开始增大。(4)在驾龄分组中,刚拿到驾照的人群(驾龄1年之内)的损失程度较大,8年~9年驾龄损失程度较小,之后随着车辆使用年限的增长,其平均损失程度也在呈现逐步降低的趋势。值得注意的是,驾龄在4年~7年的阶段,损失程度仅次于刚拿到驾照的人群。
从Tweedie分布拟合的广义线性模型来看,它与上文所进行的单因子分析结论基本一致,说明模型拟合有很好的解释效果。
通过动态数据来进行被保险人风险大小甄别,要设计一个对驾驶行为进行评分的模型,根据评分的高低判断被保险人风险的大小。为了避免主观赋权的主观性,选择熵权法来赋权。
此部分动态数据样本均取自上文中的1000个样本,其中33个是出险样本的动态数据(原本35个出险样本,去除无效数据后剩余33个)。另外35个样本是在未出险的965个样本中随机抽取的35个对比样本。原始的动态数据是由OBD设备提取到的,平均每隔30秒提取一次车辆瞬时经度、纬度、速度及行驶方向。
驾驶行为因子指标的筛选同样也要符合可得性、相关性、正向激励三个原则。
原始行为数据只有四个维度,在刻画出最终行为因子数据前,需要预先构建一些中间变量。
(1)0distance_delta(△s):相邻两个取样时间点之间的地理坐标距离(米)。点 A的经纬度为(LonA, LatA),点B的经纬度为(LonB, LatB),得到两点距离计算公式如下:
C = sin(MLatA)×sin(MLatB)×cos(MLonA-MLonB)+ cos(MLatA)×cos(MLatB)
Distance = R*Arccos(C)*Pi/180(半径R取值6371004米)
(2)time_delta(△t):相邻两次记录的时间间隔(秒);
(3)at_night(f1):是否在夜间(20:00-06:00,是为1,否则为0);
(4)continuous_time(tc):累计的连续驾驶时间(秒)(若中间停车,瞬时速度为0);(5)acceleration(a):实时加速度(米/秒2),用公式a=(V2-V1)/(T2-T1)表示。
(6)highWay(f2):是否在高速路上(0表示否,1表示是),采用速度来判断。
下面进行行为因子的筛选,分为三大类,基于原始数据和上述中间变量计算出汽车驾驶员行为评分指标。(1)行驶里程及时间:行驶总时间(T行)、平均单日行驶时间(t行)、总里程(S)、平均单日行驶里程(S日)、夜间行驶总时间(T夜)、平均单日夜间行驶时间(t夜)、夜间行驶平均占比(W夜行);(2)超速行驶情况:非高速公路行驶每百公里超速(≥70km/s)次数(q非)、 高速公路行驶每百公里超速次数(q高)。(3)驾车行驶情况:平均加速度(a均)、每百公里急加速(≥1.38m/s2)次数(d加)、每百公里急减速(≤-1.5m/s2)次数(d减)、每百公里急变速次数(d总)、最大连续驾驶时间tmax、速度标准差Sv均、非高速公路行驶的平均速度(V非)、高速公路行驶的平均速度(V高)。
根据样本数据拟合后,对出险样本和未出险样本对比,判断驾驶行为因子是否均符合相关性与正向激励原则,选出夜间行驶时间(h)、每百公里急减速次数、行驶总里程(km)、最大连续驾驶时间(h)、速度标准差(m/s2)、行驶总时间(h)6个指标。由于行驶总里程与行驶总时间高度相关,将行驶总时间这一指标去除。下面对这5个指标进行熵权分析赋权。
(w1,w2,w3,w4,w5)=(0.1848,0.4445,0.2273,0.1293,0.0141)
由于w5值较小,剔除速度标准差,重新计算得出:
(w1,w2,w3,w4)=(0.1874,0.4509, 0.2306,0.1312)
100分为满分,夜间行驶时间(h)、每百公里急减速次数、总里程(km)、最大连续驾驶时间(h)这4个指标最大分值分别为19、45、23、13,对每个指标的若干数据档按照安全性高低分别赋相应分值,得到驾驶行为评分。
用驾驶行为评分模型计算样本数据得分情况,按照驾驶评分的大小对样本进行分组,共五组:90(含)~100(含)、80(含)~90、80(含)~90、70(含)~80、60(含)~70。计算出每组的频数、驾驶评分均值、未出险样本个数、出险样本个数。用归一化指标(出险样本个数/组频数)来评价该驾驶评分分组的风险大小。结果得出,驾驶评分均值越高,该组的出险概率越低,这说明评价模型有效。
此部分检测样本为动态因素风险评价选取的68个样本。
根据静态因素风险度量的结论,针对不同风险因素进行风险区分,并根据风险大小进行费率赋权。计算得到,出险样本的平均费率为10%,未出险样本为9%,总平均费率9.76%。出险样本费率高于未出险样本,说明本文基于静态从人因素的风险区分方法有效。
为了方便与传统方法对比(传统方法基础保险费率20%),我们将静态从人因素费率每个权值乘以2,得到对比数据:对于高风险用户(出险样本)保费提高了1%~21%,低风险用户(未出险样本)保费下降了1%~19%。这说明基于静态从人因素进行风险区分的保费定价方法有效。
根据动态因素风险评价的结论,基于评分越高费率越低的原则,对应不同驾车评分段的样本给定不同的保费费率。根据动态从人因素费率参照表可以计算出每个样本的不计免赔额费率大小,得到不计免赔费率均值为1.7313%。
为了方便与传统方法对比(传统方法不计免赔额保险费率8%),将不同评分等级所对应的费率值各乘以5。根据调整后的动态从人因素费率参照表再次计算出每个样本的不计免赔额费率大小,得到对比数据:对于保险公司来说,运用基于动态从人因素风险区分方法样本不计免赔费率均值上升了0.69%,总体的保费收入有所增加;对于高风险用户(出险样本)保费提高了1.6875%~9.6875%,低风险用户保费下降了0.6567%~7.7143%。这说明基于动态从人因素进行风险区分的保费定价方法有效,并且对于被保险人有正向激励作用。
无论是本文所设计的加入从人因素的风险分类定价方法或是传统方法,其定价公式均为:保费=日租金×(基础费率+不计免赔额费率)。
假设所有样本车辆的日租金均为200元 ,利用本文所设计的加入从人因素风险分类定价方法计算出每个样本的费率,并将出险样本与未出险样本的保费进行对比,得到对比数据。对于保险公司来说,新的车险定价方法使样本均值变为56.26元,而传统定价方法样本均值为56。对于被保险人来说,出险样本的保费均值为60元,高于传统定价方法;未出险样本的保费均值为52,低于传统定价方法。由此可以验证,本文所设计的加入动态从人因素的风险分类定价方法能够区分风险大小,体现出保险定价中公平合理的原则。
本文拟定了P2P商业车险定价的基本方法和步骤,同时提供了用户风险甄别的基本方法。
静态从人因素部分采用了服从Tweedie分布的广义线性模型对出险金额进行拟合,分别对地区、性别、年龄、驾龄四个因素进行用户风险大小的衡量,四个因素对被保险人风险大小的衡量均有显著作用。地区方面,北京出险风险大于上海;性别方面,男性出险风险远大于女性;从年龄来看,21岁~24岁的被保险人风险最高,40岁以上的被保险人风险其次,而25岁~29岁年龄段的风险相对较低;从驾龄来看,驾龄小于1年的被保险人风险最大,其次是驾龄在4年~7年的被保险人,而7年以上驾龄的被保险人,其风险会随着驾龄的增加而降低。
动态从人因素部分,利用P2P车险平台天然的数据优势,采用熵权法对用户驾车行为进行打分。其中,每百公里急减速次数这一行为因子指标对出险风险的影响最大,夜间行驶时间、行驶总里程以及最大连续驾驶时间这三个行为因子对风险的高低也有比较显著的影响。
基于静态以及动态从人因素风险大小的识别,分别厘定基础费率、不计免赔额费率。经过出险样本与未出险样本的对比,得到采用从人因素的风险分类定价方法可以在不降低保险公司保费收入的前提下,区分被保险人风险大小的结论。与此同时,这种加入从人因素的风险分类定价方法对于被保险人有正向激励作用,即被保险人为了降低保费费率会更加注重自己驾车行为的安全性,针对此模型的正向激励作用未来也有待于进一步研究。
注:
OBD设备:On-Board Diagnostics的缩写,车载自动诊断系统。