大数据分析对保险风险评估模式的影响——从二战时期德国与英国的航空侦察之争说起

2019-07-15 11:23
关键词:定价损失模型

赵 亮

(中国社会科学院研究生院,北京 102488)

一、从军事侦察模式之争比较两种数据应用路径的特征

二战时期,航空侦察可以准确及时查明敌人兵力部署、战略资源布局以及战时计划与企图,为各国战地指挥机构快速准确决策起着至为关键的作用。为此,轴心国与盟国都高度关注航空侦察,但二者的发展路径却不相同。以德军为代表的轴心国部队主要通过研发更为先进的侦察飞机和高焦距的拍照相机,提升自身的信息侦察能力,即照片质量是第一位的,不断提升图像数据的清晰度和丰富性,而对于图片的信息处理则交给稍经培训的普通军士;以英军为代表的盟军部队则主要聘用了大量军工及数学、物理等专家,对现有照片进行深度挖掘,虽然有些图像并不清晰,但专家具有丰富的专业知识与行业经验,依然可以大体判断或还原照片中呈现的信息,为盟军的军事决策提供有力支持。

当年德军和英军的做法孰优孰劣,大部分历史学家或评论者倾向于肯定盟军的做法。事实上,对军事信息的侦察和处理本质上是要减少敌方策略的不确定性,直至准确把握对手的真实意图。如同前述案例,在资源投入有限的前提下,提升数据预测的准确性可以有两种路径:一是将资源投入到数据信息的获取和处理环节,降低数据分析难度及资源需求,以此提升数据预测的准确度;二是将资源投入到数据分析环节,通过科学方法依然能够有效评估有限和不完善的数据,评估精度能够匹配相应的需求。

表1 两种风险数据应用模式成本—收益比较

二、以保险精算为基础的风险评估及定价模式

(一)风险的不确性与保险的可保性

战争中敌方的行动往往难于判断,存在高度的不确定性,依靠航空侦察和分析是战争中风险评估与预测的主要手段之一。同样,保险面对的是保险标的的不确定性,也是通过数据(信息)的获取和分析对风险进行评估与定价。总的来说,保险学中针对的风险是未来发生损失的可能性,不确定性既包括盈利的不确定性,也包括损失的不确定性。在纯粹风险的范畴内,保险的可保性体现在以下几个方面:一是损失发生的随机性,即不能由于任何一方的故意使得损失发生或严重增大发生的可能性。二是损失发生的明确性,包含两个层面,损失发生的事件必须是明确的,损失的金额也必须是明确的。三是损失金额界定于合理的范围内,即损失金额太小,将缺乏保险的必要性;而损失金额过大,则将降低保险理赔的可能性[注]针对重大自然灾害的巨灾保险以及相关再保险机制等内容暂不在本文讨论。。这也可以从双方在合同权利与义务的界定来理解,显失公平的合同在法律上是无效的。四是损失在客观上不能危害公众利益,也不应存在违法性。五是损失的频率和金额是可以预测的,这是保险公司定价风险、运营风险与管理风险的基础。

(二)保险精算与精算理论依据

在保险实务中,风险评估所需足够量级的数据通常难以获取,或者说成本过于昂贵。因此,传统保险业通常会选择“盟军路径”来提升数据预测质量,即聘用专业的精算师,通过构建精算模型来评估拟承保风险,主要应用于费率厘定和保险定价、保险公司偿付能力测算及准备金的计提以及再保险测算等领域。

保险精算理论的基础在于独立同分布数据风险波动的可测性与趋稳性。在精算理论中,度量风险水平的两个常用指标为方差和变异系数。其中,方差反映风险的绝对水平,而变异系数反映风险的相对水平。假定个体风险的随机损失均值为E(x),对于个体风险而言,其风险的方差为Var(x),变异系数CV=Var(x)/E(x)。在单次单人的保险交易中,被保险人通过支付固定费率,期望损失E(x)来让保险人承担随机损失X及相应风险,方差为Var(x),变异系数为Var(x)/E(x)。在个体风险的交换中,保险人与投保人的风险交换与其说是“交易价格上的不公平”,不如说是“发生潜在不公平的波动性过大”,因为投保人不出险或出险较大赔付的情况都可能出现,即在期望损失相似的前提下,由于方差较大而存在最终赔付额的较大波动性。考虑保险成本核算是由纯保费、风险加权成本与管理费用构成,会出现因单个风险的风险加权成本难以测算而造成保险的成本及费率厘定难以确定的局面。

当构成风险集合的元素不再是单个的个体风险,而是达到一定规模量的相互独立且具有相同损失特征的个体风险,在风险集合构成同样的期望损失条件下,即期望损失仍为E(x),单个个体风险的变异系数CV=Var(x)/E(x),则新的风险集合的变异系数为

在“大数原则”基础上,精算师分别根据原有历史数据进行赔付额分布和索赔次数分布。在赔付额分布方面,应注意赔付额不等于损失额,在保险公司应用诸如免赔额或无赔款优惠应用系统等鼓励政策的背景下,理性投保人往往会在损失额较小的情况下,对自担损失和保险赔付进行经济性比较,并作出不申请赔付的决策,这样赔付额往往要低于损失额。在索赔次数方面,精算师最常见的精算假设是,假定风险集合的保单具有同质性,即集合内的保单对应的标的具有相同的索赔频率,各自相互独立,且在每一时间区间内发生的索赔次数只与时间长度有关而与时间起点无关,在该同质性假定成立的前提下,索赔频率服从参数为λ的泊松分布[注]泊松分布与时间起点无关的假设,不符合寿险实践,因寿险的给付是在约定年龄时段发生的。。在对风险集合的风险个体特征进行调整与细化分组后,不同质的保单组合也可以服从泊松分布,并以负二项式分布、逆高斯分布以及离散型分布等结构函数作为索赔次数模型的数理基础。

综合赔付额分布和索赔次数分布,精算师会利用计算机模拟卷积计算,将上述分布合成为复合分布,并以索赔次数的名称定义复合分布的名称,如复合泊松分布或复合负二项式分布,从而测算一个保险组合的期望赔付成本,或者说给定概率下的总赔付成本,并由此形成纯保费的测算基础。同时,还将运用极值理论(如Expected Shortfall)对分布尾部进行测算,形成安全附加费的测算基础。这样,由纯保费、安全附加费构成的风险保费,再加上经营管理、佣金等营运费用,就形成了保费厘定的测算基准。当然,这并不是保险定价的全部,因为保险定价还将综合考虑市场竞争环境、公司营销战略等因素,但是对于保险精算的风险评估与定价来说,这可以认为是最核心的精算内容。

三、大数据与传统数据应用模式的比较与分析

以大数据、云计算、深度学习算法等新兴信息技术的广泛应用为标志,保险业对数据分析与预测不确定性开始进入人工智能时代。大数据以其“4V标准”,即海量的数据规模(volume)、高速的数据流转(velocity)、多样化的数据类型(variety)以及高性价比的输出价值(value)的特征,将数据管理和分析提升至一个新的高度(见表2)。相比于传统数据应用模式,大数据技术无论在“量”还是“质”上都有显著的提升与革新,主要体现在数据获取、传输、存储、分析及展示五个方面。传统的数据库软件正是在这五个方面进行数据集合的工具。而大数据应用模式是在传统数据应用模式的基础上,在数据应用的各个流程上实现了技术上的突破和理念上的革新。

表2 大数据应用模式和传统数据应用模式的区别与比较

(一)在数据获取方面,数据融合程度不断加强,不断接近实现“全量数据”效应

传统的数据获取模式是基于业务系统和交易系统产生,如传统保险公司的数据库来源于客户资料信息的收集和报案资料信息的累积,保险定价主要基于保险公司或相关机构的内部数据库进行精算分析。然而,大数据的信息获取方式在于数据的广自发与数据的大融合。所谓数据的大融合是指在人工智能时代下,获取、识别、整合和聚合各种自发但分散的数据。随着手机、相机、摄像头乃至可穿戴设备等各种移动终端设备的应用,无论是文字、数字、声音、图像乃至气味,各种感官可接收的各种格式数据一方面不断地被大量个体创造和释放,另一方面又被强大的社会数据设备收集、存储和快速联结。2007年,微软工程师阿尔卡斯利用Flicker网站上成千上万普通拍摄者的照片,重建了一座虚拟的巴黎圣母院大教堂,人们可以在网上以不同角度感受教堂,甚至可以放大、细赏建筑外墙上的具体部位。阿尔卡斯在演讲中称:“从每个人那里得到数据——从人类对地球的集体视觉记忆中得到数据——然后把它们联结在一起。”无独有偶,2014年10月8日,世界多地发生月全食,全球各地天文爱好者拍摄月全食照片,上传至云端,呈现出不同地点、不同拍摄角度的月全食景象。天文研究者意识到,如果整合起来,其对研究工作的意义可能比一台超级天文望远镜还要重大[1]。海量数据的收集、传输与存储在硬件设备上实现了质的突破,这些基础数据呈几何倍数的增长,从根本上改变了原有数据处理模型和分析的固有模式。随着新科技的不断突破以及应用的普及,数据整合的功能将不断完善,“全量数据”效应将日益显现。

传统数据应用模式下的保险定价与开发模式存在诸多局限。如在寿险方面,我国现行的生命表主要依据占保险市场份额80%的6家保险公司保单数据,由于高年龄段投保人数较少,造成案例数据过少,高年龄段的死亡率初始估计并不确切,必须基于初始估计,结合先验观点对初始估计值进行修正得到[2]。这也反映了保险精算定价的一个理论缺陷是精算模型的左尾数据缺失。通常情况下高额赔付的统计数据十分有限,使得对左尾均值的预测稳定性和可信度降低,即使采用了Conditional Var或Expected Shortfall等极值评估方法作为补充,精算模型的模型风险在尾部评估方面仍然较高。因此,保险公司要么选择不开发相关风险产品,要么在保险精算中加入过高的风险补偿附加费,这种对可保风险评估的扭曲和误判直接影响了保险的本质意义与社会效益,也不符合保险业监管的核心要求。

在大数据时代下,数据的可获取性增强,乃至全量数据效应将使精算模型在尾部损失数据的计量上更加精准,而且数据的动态更新将更加及时。如通过构建数据融合与管理平台,生命表的编制不仅会丰富高龄投保人的生命率数据,也会实时维护与更新“动态生命表”。此外,数据采集与存储的社会性,如专属医疗用途的云存储和云计算的社会数据采集与共享,使保险公司将更加集中投入到保险产品的设计与开发,而不是将精力耗费在前端数据库的构建与维护上。

(二)数据处理与分析的多维化,实现大数据“关联效应”

借助人工智能技术的发展,大型计算机和云计算在数据挖掘及智能计算能力的深度与速度上都得到了代际性的提升。在大数据时代,数据的多维化成为数据分析与展示的主要发展特征。

所谓大数据分析,是一种新的商业处理技术,主要特点为对商业数据库中的大量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助于商业决策的有效信息[3]。大数据的“大”不仅仅指向数据的绝对数量,其深层含义还包括处理数据所使用的“大模式”。大数据分析的实质是完整数据和综合数据,进行数据挖掘以实现数据增值。大数据分析对象的基本单位是数据集,在每一个数据集中可以有若干个数据对象,这些数据对象可以理解为是数据集的基本元素,可以由一组描述其特征的属性来确定,这种数据对象的属性数量也被称为数据集密度。数据对象的属性在数据特征方面可以分为标称属性、序数属性、区间属性和比率属性四类。其中,前两类数据属性属于定性判定,无法进行数据的数学性运算;后两类数据属性属于定量判定,具有数据的数学运算性质,可以进行加减乘除的运算处理。此外,数据对象的属性还可以依据数据区间内可以取值的个数,分为离散属性和连续属性。

与传统保险定价模型相比,大数据保险数据多维效应的优势在于以下几个方面:

第一,可以增强对风险数据的保险评估模型的可靠性。一般来说,数据集中的数据对象的属性数量越丰富,数据集密度越高,其数据分析统计的自由度越大,数据分析的可靠性就越显著。大数据技术条件下,可以对数据集中的数据对象进行规模性的属性细分,属于同类细分属性的数据对象特征更为相似,概率估算的可信度将大大增强。经验数据是固化的,不同时期的数据特征存在偏差,风险损失的特性会随着时间的变化而改变,大数据下的数据获取是实时更新的,动态数据虽然在性质上仍然是截面数据,但是可以在很大程度上避免数据沉淀带来的评估偏差,降低模型风险[4]。

第二,数据集的多维化,即数据集密度越高,数据间的关联性就越易发觉,可以形成更多细分场景下的风险数据评估模型。在传统数据模式下,保险定价主要基于公司内部数据库中的经验数据,由于计算机处理和展示能力的限制,一些大型复杂的数据模型无法实现应用。正如1988年施乐公司的科学家韦泽提出“普适计算”,预测人类的第三股计算浪潮将是“万物皆联网,无处不计算”。在大数据时代下,互联网保险的风险评估与保险定价主要基于关联数据。通过对数据多维属性的细分,可以进一步梳理风险数据,排除数据噪音,突出风险数据背后的风险因子映射关系。借助大型计算机的复杂算法,互联网模式下的海量多维数据可以通过深度的数据挖掘,找寻更为精准的风险相关逻辑和风险估算模型,在提高风险定价精度的同时,还可以根据市场的场景化保险需求快速报价、核保与理赔。如国内纯互联网保险公司众安保险在业务流程中将精算环节放入前端,使精算师承担起“半个产品经理”的角色,在业务洽谈之初积极介入,客户的需求能够直接面对面传递给精算师,让精算师在定价时能充分考虑风险因素,并最大限度地贴近实际情况进行精准定价[5]。

第三,数据分析与风险定价的低成本与高速率使保险精算更为便捷化,精算适用性更好,场景与假设条件的更新也更加及时。在大数据时代的保险估算模式下,碎片化、细节化的保险需求不仅可以实现保险产品的有效供给,并且在运营成本方面实现了商业可行,在有效的保险精算和风险评估基础上,可以推出更多满足长尾客户需求的多样化、个性化的保险产品,保险核保与理赔程序更快捷,从而推动普惠金融理念在保险行业的深入和扩展。如众安保险于2015年推出国内首款轮胎意外保障服务,轮胎因意外造成爆胎和鼓包都能更换。在此之前,国内轮胎意外保险尚属空白领域。轮胎属于易损物品,意外保障的风险在传统保险模式下存在成本高于收益的“经济不可行”。在传统保险模式下,一般的车险规定:如果是车胎和车身一起遭受意外,可按照车损险进行赔付;如果是轮胎单独破损,则不属于保险责任范围。而众安保险凭借大数据保险定价模型以及互联网保险的成本集约特点,有效拓展了市场上保险产品可保风险的范围,实现了保险品种的创新。

四、大数据保险精算模式革新的影响及与传统定价模式比较分析

保险定价通常分为两部分,根据对风险的评估进行费率厘定和根据对市场供需及行业竞争情况进行产品定价。一般商品的成本在出售之前可以通过成本会计的结转核算予以确定,但保险产品的定价却存在较大的不确定性,其成本是在产品销售之后根据实际的赔付频率和赔付金额确定。因此,保险定价的准确性显得至关重要。若保险成本估算过高,则保险产品的定价会超出正常合理值,意味着市场的出让甚至可能不被监管机构认可;而保险成本估算过低,则保险公司面临潜在巨额的赔付风险将会增大,加剧保险机构甚至整个保险体系的偿付危机。此外,保险定价及涉及后续核保和理赔的成本也十分重要。若无法进行快速和合理及多样化的定价,可保风险的范围会出现实质性的缩小,即便是推出相关保险产品,其运营成本同样会以附加费的形式计算在保险成本定价中。从这个意义上来说,保险精算评估可保风险的范围,测度风险发生的可能性与损失规模,是保险公司设计保险产品、开展保险业务的核心基础,它体现在保险产品线与业务流程的各个方面,如保险产品的设计与开发、保险产品定价、对投保客户和单据的核保以及保险公司准备金的计提等。因此,保险精算定价的准确性和成本考核对于保险公司的市场营销与运营,以及保险利益相关各方都十分重要。

传统保险精算模型的特征是,在有限的样本数据获取条件下,精算师进行数据分布与特征分析,通过泊松分布等历史概率推算,或对风险数据的频次与规模进行模拟和卷积,从而形成风险定价的核心依据。大数据保险精算模式则通过获取全量数据,并通过人工智能进行数据挖掘,找寻多维数据间的关联,并且降低了后续核保和理赔的操作难度,从而可以开发和拓展更多的保险需求及相关产品。根据人工智能等保险科技发展的趋势,在相同的数据获取与分析成本条件下,大数据保险精算的准确度会更高。而在大数据共享机制逐渐形成,外溢效应开始显现的背景下,在相同的估算精度要求下,大数据保险精算的成本会更低。

当然,两种模型并不是天然对立的。从现实情况来看,大数据保险精算模式刚刚起步,无论是数据获取与处理的硬件设施开发,还是基于大数据的智能估算模型及业务流程的设计,仍处于概念探讨和初步应用阶段。即便是大数据保险估算体系能够发展至成熟阶段,并不意味着传统的保险精算定价模型被淘汰, 相反精算模型和大数据分析模型将相互结合,以大数据、云计算和机器学习等保险科技赋能传统保险业务模式,改进和完善保险定价模型才是未来保险定价模式发展的主流。大数据保险定价模型将会建立更多数据维度场景下的风险估算,从平台化的数据采集到场景化的数据挖掘,到服务化的数据更新,再到个性化的数据应用,大数据分析将全面渗透至保险行业各个业务环节。同时,传统保险精算可以对大数据精算模式进行比对和检验,进一步防范模型风险。

最终,融合两种模式的保险精算体系可以根据业务需求和监管要求,进行风险精算模式的优化匹配。如对低频高损的风险估算更加精准,以满足监管对赔付准备金及增强保险机构风险防控的要求,而对高频低损的风险估算降低成本,简化风险赔付流程,以满足长尾客户多样化、个性化的场景式保险需求,扩大风险产品开发范围,减少保险产品免赔额,简化赔付流程和理赔时限,防范系统性金融风险,回归保险本质,真正提高全社会的总体效用和福利。

猜你喜欢
定价损失模型
30万元的MPV搅局者来了!传祺M8宗师系列为什么定价贵?
适用于BDS-3 PPP的随机模型
胖胖损失了多少元
重要模型『一线三等角』
玉米抽穗前倒伏怎么办?怎么减少损失?
利用Fabozzi定价模型对房地产金融衍生品定价的实证分析
模型小览(二)
基于分层Copula的CDS定价研究
离散型随机变量分布列的两法则和三模型
菜烧好了应该尽量马上吃