杨拯 鞠芳 中国人寿保险股份有限公司
大数据建模技术在人身保险反欺诈领域的应用路径探析
杨拯 鞠芳 中国人寿保险股份有限公司
近年来,随着互联网在社会生活各行各业中的快速渗透和大数据技术的迅猛发展,我国保险业运营和管理的质态发生了巨大的变化,传统的保险运营风险管控模式面临巨大的挑战,已难以满足新形势下保险公司的管理诉求。在这种业态下,国内具有创新意识的保险公司都在积极寻求通过技术革新来实现风控模式的升维,打造细分领域的核心竞争力以占据更为有利的市场位置。
随着大数据技术的蓬勃发展,尤其是“Alpha Go”战胜李世石后,又以“Master”的身份横扫围棋界,使基于机器学习的大数据建模成为了最新的技术热点。通过模型训练让机器智能化,代替人工,降低成本,提高效率和准确率,其众多的优势和巨大的商业价值吸引了各行各业的商业巨头纷纷开始打造属于自己的人工智能体系,尤以腾讯、阿里、百度等拥有明显大数据资源优势的互联网企业为代表。目前,人脸识别、语义识别、无人驾驶、智能风险识别、精准预测模型等基于大数据的新技术在商业上的应用已经日趋成熟,并通过“互联网+”迅速辐射到金融领域,开始重塑甚至颠覆传统的商业及运营管理模式。这种变革带来的竞争压力迫使银行、保险等金融机构必须快速转型升级,积极寻求自身业务与大数据和新技术之间的契合点。而通过大数据构建精准风险预测模型提升风险识别的精准度和效率,对于经营风险的保险公司来说,便成了一个极具吸引力和价值的切入点。
纵观国内保险行业,目前对于大数据建模技术的应用还处在探索和尝试阶段。整体来看,财产险领域在精准风险识别模型的应用上要略为先行一步:一方面是行业信息的整合共享更加到位,2016年底,“全国车险反欺诈信息系统”正式上线,面向各市场主体提供保险欺诈线索识别和风险预警功能,初步实现了行业车险欺诈信息的交互共享;另一方面,由于车辆保险的数据标准化程度较高,进行大数据建模的基础良好,因此国内部分财产险公司在车辆保险后续稽核方面通过构建大数据风险识别模型辅助稽核,取得了一定的成效。而人身保险以人的寿命和健康作为对象,其经营的风险更加复杂多样,加之我国公民信息管理较为碎片化,数据标准化程度低,因此大数据在我国人身保险风险管控领域的应用还较为滞后,仅有数家保险公司进行了创新尝试。
本文以大数据建模技术在人身保险反欺诈领域的应用为例,从业务场景选择、风险特征筛选、数据清洗与整理、建模工具与算法选择、模型准确性的验证等方面,详细解构了基于Spark计算引擎、采用随机森林算法构建重大疾病保险核保欺诈风险评估模型的路径,以期对大数据建模技术在保险风险管控领域的应用提供一定的参考。
(一)基础数据条件
从1980年我国保险业恢复经营以来,经过30多年的快速发展,到2016年我国保险业原保险保费收入已达3.10万亿元。三十年来,人身保险经营领域稳步拓展,险种类型不断丰富,客户群体持续扩充,国内主要人身保险公司已经积累起了海量的内部数据。尽管保险运营数据数字化的历史仅二十年左右,规范的高质量数据积累时间大约只有十余年,但主要人身保险公司的内部数据已经足够丰富。此外,金融行业的多元融合、金融机构集团化发展、大数据交易市场的兴起,为人身保险公司提供了外部重要风险数据接入的渠道和机会。虽然大部分重要数据都还碎片化地散落在不同领域,但从基本面上看,已经具备进行反欺诈大数据建模的数据基础。
(二)建模技术条件
基于机器学习的数据建模工作,2010年以前已经在某些特定领域发挥了巨大作用,如图像识别、自然语言处理等等。2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为,大数据是机器学习应用的最佳场景。
另一方面,技术发展促使硬件资源的成本不断降低,模型构建可用资源不断扩展,也为算法本身的完善提供了有利条件。2012年6月,《纽约时报》报道了Google Brain项目,这个项目是由Andrew Ng和Map-Reduce发明人Jeff Dean共同主导,用16000个CPU Core的并行计算平台训练一种称为“深层神经网络”的机器学习模型,深度学习的概念由此提出。通过大量模拟人脑行为的计算,深度学习为人类解决很多复杂的问题打开了一扇无限的大门。
此外,在建模的工具和语言上,近几年也有了井喷式的发展。除去老牌的SPSS和SAS这样的企业在向大数据、分布式转型,R和Python语言的发展和应用也简化了数据分析和建模的难度,各大互联网企业也纷纷推出自己的机器学习平台,像Google的Tensor Flow、IBM的Watson等等,都已经有了很多成熟的应用。
各方技术条件的成熟,为大数据建模技术在人身保险反欺诈工作中的应用做了充分的铺垫。该应用的探讨和落地,可以有效辅助风险管控的人工作业,提高欺诈案件的识别效率和识别精准度。
(三)国内建模技术人才状况
在大数据建模工作中,具体模型搭建这个环节的主要承担者是“数据科学家”。“数据科学家”的概念在2009年由Natahn Yau首次提出,其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。一个优秀的数据科学家需要具备业务知识、数理统计和数据分析能力、计算机相关知识及机器学习等多维度的知识体系,是业务、技术与数据三者结合的高端型人才。对此类人才高标准的要求和目前各行各业对这些人才的强大需求,造成了相关人才的紧缺,目前国内此类人才供需状况非常紧张,处于严重的供不应求状态。据2016年数据科学家报告统计,大约三分之二的数据科学家从业时间小于5年,有83%的企业和组织表示没有足够的数据科学家来解决问题。而随着“互联网+大数据”商业模式的巨大成功,越来越多的企业和组织对数据进行投资,这一趋势可能继续。
但需求催生供给,国内巨大的数据科学家人才供给缺口引致了此类人力资源价格的高企,吸引了人才资源流入国内。2016年国内数据人才短缺的状况已较2015年有所改善,其中大部分属于引进国外专家或留学归国人员;国内高校、科研机构和各类企业也加快了对此类人才的培养。
综合来看,目前国内人身保险行业构建精准反欺诈风险识别模型的数据条件、技术条件和人才条件均已具备,可以也应当融合数据技术重构传统的反欺诈管理模式,以提升人身保险经营死差益。
(一)业务场景选择
模型的建设和应用必须基于具体的业务场景,它决定了模型的数据原料范围、风险特征筛选、作业经验导入和模型建成后的具体应用方式,因此在进行模型建设之前需要选定目标业务场景。下面从一个角度分析大数据模型在人身保险反欺诈实践中适合的业务场景:
1.选择业务类型。以契约形式来划分,保险业务可以分为个人业务和团体业务两种类型。人身保险公司在团体业务中能够获取的数据信息普遍不足,而且在团体业务中议价能力较弱,对团体业务中单一被保险人开展反欺诈工作存在一定的障碍和难度。因此,个人业务应该是人身保险公司反欺诈工作关注的重点。
2.选择险种类型。从险种类型角度考量,高现金价值的储蓄型险种,由于射幸性不强,故作为欺诈的标的险种可能性不大,保险公司花费大量的投入进行建模的产出很低;费用补偿型短期健康险虽然存在欺诈,但多以软性欺诈为主,且涉及到第三方(医疗机构),构建反欺诈控费模型需要庞大的医疗知识库和海量的数据,难度大、耗时长,一般保险公司难以具备相应能力。综合考虑业务价值、代表性、实施可行性和数据质量等多种因素,重大疾病保险是一个较为理想的切入点。
3.选择作业环节。从保险公司业务风险管控作业链条和保险合同的整个生命周期考虑,核保、理赔两个环节,一个把控入口关、一个把控出口关,是保险公司风险管控链条中最核心的两个环节,都是构建和应用反欺诈风险识别模型比较理想的业务环节。
基于以上几点的考虑,本文以个人业务重大疾病保险核保阶段的大数据反欺诈模型构建作为后续探讨的基础。
(二)风险特征选择
大数据预测模型是与对应业务强绑定的。对保险公司来说,大数据反欺诈模型性能的好坏,相关业务的风险特征的选择是最基础也是最重要的工作。它需要依靠保险运营风险管理业务专家对实际业务的精深了解,协同数据科学家进行精细筛选。只有将与欺诈结论密切相关的业务风险特征字段放入预先选择的范围内,才能为后续建模过程所用;如果在最初阶段就遗漏某些关键业务信息,则将严重影响模型的效果。
以重大疾病保险核保阶段的风险管控业务场景为例,大数据反欺诈模型建设中“本次投保信息、客户历史信息、销售人员/渠道信息、外部重要风险信息”应是主要考虑到的四个维度,基于以上维度又可以进一步筛选风险特征。现简单举例如下:
除了从保险公司内外部可以直接获取的风险数据特征外,数据科学家往往会基于数据的相关性等因素构建一些衍生特征,目的在于用更低维度、相关性更强的特征替代原有特征,简化模型,提升效率。这在保险公司的建模实操中也是一个非常重要的步骤。
(三)数据清洗和整理
基于预选的数据特征,需要进行数据的基础分析和数据清洗整理。
通过数据基础的分析,可以使数据科学家对于数据质量有一个全局的把控,也能够获取到各特征之间的相关性、和标签值(Label,是否为欺诈)之间的相关性,为上文提到的衍生特征加工作基础。数据清洗和整理,能够保证模型训练数据的数据质量,结合模型算法的选择,作一些适当的数据格式转换,可以提升模型的效率,具体有以下几种方式:缺失值填补、量纲统一、离散连续值转换、信息冗余值处理等。
(四)建模工具选择
如上文所述,大数据建模技术的兴起,为业内提供了多样化的建模工具与语言的选择。在数据量不大的基础上可以考虑在R语言或Python语言单机开发环境上进行模型建立;对于已经熟练使用SAS等传统工具的企业,可以在原有基础上进行大数据方面的扩展和延伸;但目前基于大数据比较主流的建模工具是由UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的通用并行框架——Spark。
Spark ML是Spark的机器学习库,支持回归、分类、协同过滤、聚类等多种算法,部分算法支持流式训练,而且在spark2.0上提供了模型文件保存和调用的接口,为模型落地实施提供了基础。数据量较大的保险公司进行重大疾病保险核保欺诈风险大数据建模时,Spark ML是比较合适的工具选择。
▶表1 重疾险核保反欺诈风险预测模型风险特征示例
(五)建模算法选择
本文选择的业务场景——个人业务重大疾病保险核保阶段的欺诈风险评估,可以视为一个数据的二分类问题,将欺诈案件标签值识别为1,非欺诈案件识别为0。目前比较主流的二分类算法有:支持向量机(SVM)、决策树、梯度下降树、随机森林等等。
相比于其他的算法,随机森林拥有以下优点:
1.实现比较简单;
2.有很好的抗噪声能力,以及较低的拟合风险;
3.高维度数据处理能力强,能同时处理离散和连续型数据;
4.训练速度快,能较快得到变量重要性排序;
5.训练过程中能够实时检测到变量间的相互影响;
6.适用于并行化计算。
保险公司在选择算法的时候,应当综合业务场景、数据规模和项目推进时间要求来整体考量。总体看来,随机森林比较适合作为大型保险公司重大疾病保险核保阶段的欺诈风险评估模型的建模算法。
(六)构建模型
大数据欺诈风险精准评估模型的构建是一个反复迭代的过程,其中主要分为两个阶段——训练阶段和测试阶段。其中训练阶段主要是通过训练集数据根据不同的算法以及选取的参数进行模型的初步拟合,而测试阶段是通过测试集数据和评估指标从数据上验证模型,并根据验证结果选择调整模型参数重新训练或是输出最终结果。
其中参数的选取,是模型构建过程中的一个关键步骤,本文使用Spark ML提供的超参数网格和交叉验证来实现参数自动化选取;模型的验证标准选取二分类评估中的Auc值,该值为一个0到1的小数,取值越大认为模型效果越优。
考虑到本文选取随机森林算法作为示例,所以最终的模型结果是一个N棵决策树的组合。每棵树中特征为特征池中随机选择出的M个变量。在随机森林中种植决策数的具体数量,需要数据科学家和保险业务专家综合模型的数据基础和业务目标来确定。整个模型以每棵决策树评分的平均值作为最终案件欺诈风险的评估值,命名为F(Fraud)值(可理解为欺诈概率值)。该值为0到1之间的小数,越接近1,认为欺诈风险越大。
(七)模型性能的验证
基于大数据基础构建的个人业务重大疾病保险核保阶段欺诈风险评估模型能否投入生产环境进入实际应用,需要经过详尽周密的性能评估。目前业内对于模型评估的两种主要的评估度量是查准率/准确率(Precision)和召回率/查全率(Recall)。
要理解这两个度量值,首先要理解以下数据分类矩阵,又称混淆矩阵——数据依照实际和预测的不同结果可以分为四类:
▶表2 准确率和召回率评估度量数据混淆矩阵示意
其中:
▷True Positives(TP):角色是反面人物,模型预测为反面人物
▷False Positives(FP):角色是正面人物,模型预测为反面人物
▷True Negatives(TN):角色是正面人物,模型预测为正面人物
▷False Negatives(FN):角色是反面人物,模型预测为正面人物
▶图1 重大疾病保险核保欺诈风险评估模型构建流程示意
▶图2 随机森林算法模型运算过程示意
Precision查准率/准确率计算公式为:在所有被预测为反面人物中,模型正确预测的比例,即TP/(TP+FP);Recall召回率/查全率计算公式为:在所有原本就是反面人物中,模型正确预测的比例,即TP/(TP+FN)。
可以看出,通常在选择高准确率和高召回率之间总有一种权衡,这种权衡通过对F值判定欺诈的阈值大小调整来实现。而阈值的取值要取决于构建模型的最终目的,对于某些情况而言,高准确率的选择可能会优于高召回率。然而,对于欺诈预测模型,通常要偏向于高召回率,即使会牺牲掉一些准确率。
(一)模型的反欺诈业务场景嵌入
大数据精准风险评估预测模型的价值实现是与具体业务强绑定的,脱离业务场景的模型无法创造价值。本文以重大疾病保险核保欺诈风险评估模型具体应用为例,简要说明一下模型具体如何应用。
1.将模型固化为可以即插即用的系统功能模块,能够快速高效地在保险公司的数据仓库中抓取风险特征数据;
2.将模型嵌入保险公司的自动核保作业系统,对所有待核保重大疾病投保申请进行全业务风险扫描,并输出模型计算的欺诈风险评估结果——F值;
3.保险公司运营风险管理专家根据核保作业经验制定F值的应用规则,对F值较低的投保申请自动核保通过,F值较高的则进入人工核保作业池并标识风险提示;
4.核保作业人员参考F值及对应的风险提示,对进入人工核保作业池的投保申请进行审核,必要时可采用体检、契约调查等更进一步的风险控制手段;
5.持续观察模型应用效果,当模型的准确率和召回率达到较为理想的状态时,可以考虑按比例或者全部替代人工作业,从而进一步降低保险公司运营成本。
此外,对于不需要嵌入作业流程或对作业时效要求不高的业务场景,也可以考虑以流程外批处理的方式应用模型,来辅助业务的开展。
(二)模型的迭代完善
模型的后续迭代和完善是一个长期的过程,在以下几种情况下应当考虑对模型进行迭代:
1.出现新的重要风险特征或模型原有风险特征被新的特征替代:在有外部数据补充或者业务角度分析出大量更优的特征变量,可以对模型进行迭代。
2.出现重大的业务规则变更:当业务规则发生变化,为了适应新的业务场景,模型将会需要进行完全迭代,甚至可以理解为重建。
3.周期的迭代:模型是依赖于数据的,随着数据的积累,模型应该进行周期性的迭代来保证其性能,可以考虑以数据增量百分比或者时间周期为标准来进行迭代。
不论因为何种原因对模型进行了迭代,都需要基于准确率和召回率重新评估模型的性能,必要的时候需要新旧模型同时在线,对比一段时间之后,再做模型的切换。
保险欺诈是保险业自诞生以来从未彻底治愈的一个顽疾,严重威胁保险公司健康发展,而信息不对称带来的博弈地位巨大差异和保险本身的强射幸性是保险欺诈难以禁绝的重要原因。由于射幸性是保险的天然属性难以改变,因此,尽可能地消除保险公司与投/被保人之间的信息不对称便成为了防范与控制保险欺诈的主要途径。通过商业调查的方式来消除信息不对称虽然效果较好,但投入大、耗时长、成本高,不宜作为一种普遍方式应用于每一单业务,故而保险公司需要探索一条高效低廉的方式进行全业务风险扫描,筛选出高风险业务加以重点防控。近年来,随着“互联网+大数据”形成的现实生产力逐步渗透到保险行业,大数据建模技术有了越来越多的应用,虽然现在还不甚成熟,但其所指明的前进方向已确定无疑。将大数据建模技术应用到人身保险反欺诈领域,是一项保险业务与先进技术之间的创新结合。
本文探讨了人身保险公司开展大数据建模在数据、技术、人才三方面的条件。进一步地,以大数据建模技术在人身保险反欺诈领域的应用为例,较为详细地解构了基于Spark计算引擎、采用随机森林算法构建重大疾病保险核保欺诈风险评估模型的路径,并给出了模型在实际业务中的嵌入方式以及相应的迭代和完善方法。当然,由于笔者能力有限以及一些客观条件的限制,本文的研究还存在一些不足的地方,例如模型风险特征的具体探讨,各个算法之间模型性能的比较,模型落地和迭代的具体实施方案等,这些都有赖于实践的进一步深化以丰富完善。
展望未来,大数据建模技术与人身保险领域的合作将会更加深化,随着技术能力的不断提升,信息技术将在更高的层次上辅助保险业解决各种业务难题,在保证精准度的同时,降低作业成本,助力保险业打造出一片更加健康美好的明天。