保险反欺诈识别模型研究

2020-12-07 06:04吴景泰张育儒
全国流通经济 2020年26期
关键词:决策树风险分析

吴景泰 张育儒

摘要:本文从反欺诈角度出发,对意外险风险进行了研究。首先,分析了意外险保险欺诈的现状、成因和分类。其次,运用Logistic回归与k-means聚类分析从种类特征和个体特征两个方面进行理赔风险识别,查找欺诈因子。再次,根据风险识别的因素确定研究所需的自变量,然后根据自变量建立决策树分类处理模型。最后,运用实例进行验证。

关键词:意外伤害险;风险分析;保险欺诈;Logistic回归;决策树

中图分类号:F062.9 文献识别码:A文章编号:2096-3157(2020)26-0152-03

保险欺诈是指仅投保人、被保险人、保险受益人违反保险最大诚信原则,隐瞒保险标的的真实情况,利用双方信息不对称来骗取巨额保险金的行为。意外险保险欺诈不仅给保险企业造成重大经济损失,增加诚信投保人的投保成本,扰乱市场经济秩序,而且欺诈行为的出现会导致人员伤亡,保险欺诈日益成为危害社会公共安全和经济稳定的因素。意外险经营状况直接影响着寿险保险公司的稳定性,是保险欺诈的严打区,为了索赔,故意制造事故,不仅影响着诚实投保人的利益,给保险公司带来巨大的经济损失,而且危害公共安全。精准分析理赔风险、识别欺诈因子,具有极为重要的意义。

一、意外伤害事故特征指标

经研究,事故的特征指标分为事故总类特征指标和个体特征指标。

1.事故总类特征指标

(1)承保信息提取指標:投保人和被保人姓名、投保人性别、投保人年龄、投保渠道、投保人近期投保次数、保单总批改次数、已有索赔次数、保费、保险金额、被保人年龄、被保人性别、被保人工作性质、被保人与投保人关系、家庭收入债务情况、被保人身体状况,依次分别用xi(i=1,2,…,15)表示。

(2)出险信息提取:被保人伤亡情况、报警时间、警察开具的事故现场勘查报告和事故性质认定书、报案时间、是否第一现场报案、保单与事故的时间间隔、出险时间、事故现场方位概貌情况、事故的形式类型、事故现场痕迹,依次分别用xi(i=16,17,…,25)表示。

(3)理赔信息提取:是否闪赔、是否自动核赔、索赔类型、索赔金额、是否集中一次赔付、是否多家索赔、是否急于索赔,依次分别用xi(i=26,27,…,32)表示。

2.事故个体特征指标

(1)交通事故:制动拖印长度、刹车时间、整体分离痕迹、事故发生的第一接触点、附着物、车辆与人的状态、姿势、抛出物距离。

(2)高坠事故:高坠起点高度、血迹面积、物品或工具的散落范围、着地点与起点的水平距离、承痕客体擦划痕迹。

(3)煤气中毒:HbCO%饱和度、尸斑颜色、安定含量、煤气管道是否泄漏、现场通风情况。

(4)溺水事故:现场足迹数量、肺中积水量、口鼻部有无泡沫、落水点有无跌倒滑蹬痕迹、手中是否抓有异物。

(5)火灾爆炸事故:起火点个数、起火源、起火物、口腔内有无烟灰炭末、炸点形状、爆炸残留物种类、抛出物距离。

(6)触电事故:触电方式、电流斑个数、有无皮肤电击纹、绝缘物体有无破损漏电痕迹、用电导电设备有无分离痕迹。

二、意外伤害险反欺诈识别模型

1.欺诈案件总体指标相关性分析模型

本文釆用的是二元Logistic回归分析方法,模型为:

2.反欺诈识别模型构建

3. 个体特征指标相关分析

个体特征指标相关分析采用的是k-means聚类分析。数据点x和y间的欧氏距离是两个点的k个变量值之差的平方和的平方根,数学公式为:

选择k个观测量作为初始的聚类中心点,根据距离最小的原则将各个实测量分配到这k个类中。在所有类的实测量中计算变量均值并形成新的k个聚类中心点。依此不断迭代,直到收敛或达到分析者的要求为止。

4.意外伤害险反欺诈判断模型

决策树模型是基于数据挖掘算法的机器学习推理模型,提供一系列确定什么条件下得什么值的规则并对数据进行分类的过程。决策树分类器就像判断模块和终止块组成的流程图,通过询问方式区分是否属于某些组的一系列问题的结果来进行预测。意外险欺诈因子数据输入变量为分类、数值混合变量且为多叉树,输出变量为“是否欺诈”二分类变量,因此,本文选择C 5.0决策树算法。

三、实证分析

本文选用30个样本进行分析。将样本数据代入式(1)进行Logistic回归分析,得出各欺诈因子变量与保险欺诈之间的相关显著性大小,剔除掉显著性为0的无效指标,再将样本数据代入式(1)进行回归分析,得出结果(见表1)。

由此,列出欺诈因子变量(见表2)。

以交通事故为例进行k-means聚类分析,其最终聚类中心表如表3所示。

案例A:有一投保人李某出险,性别女,年龄21岁,傍晚6点20分在市区购物后步行回家,被机动车撞成轻度身残。经检验,现场机动车刹车时间1.6秒,制动拖印长度15米,事故现场与事故类型相符。案例B:有一投保人王某出险,性别男,年龄49岁,夜晚10点30分在郊区乡道步行回家,被机动车撞成身亡。经检验,现场机动车刹车时间1.1秒,制动拖印长度5米,事故现场与事故类型不符。将2个案例的识别指标代入决策树模型,计算欺诈可能性等级。

四、结语

通过实证运用,本文的结论是意外险反欺诈识别模型的整体识别效果好,整体预测准确率为97.82%,但应尽可能地增大分析样本,这样才能推广使用。本文的识别指标应进一步完善,特征也应更突出,算法也应进一步优化,这样才能不断完善我国意外险反欺诈识别体系的构建。

参考文献:

[1]崔松,栾菩菩.关于保险欺诈的研究综述[J].经济研究导刊,2013,(06):112~113.

[2]周建涛,秦炳山,迪丽,等.健康、意外保险惜赔识别[J].新疆社会科学,2013,(03):47~52.

[3]Cowell R G, Verrall R J,Yoon Y K.Modeling Operational Risk With Bayesian Networks[J].The Journal of Risk and Insurance,16 November 2007.

[4]张伟伟.基于Tobit回归的健康保险欺诈识别研究[D].青岛:青岛大学,2016.

[5]贾兰.我国机动车保险欺诈及识别问题研究[D].石家庄:河北经贸大学,2019.

[6]刘轶.保险欺诈风险与分类监管对策[J].征信,2018,36(02):68~74.

[7]Warren D  E,Schweitzer M  E.When weak sanctioning systems work:Evidence from auto insurance industry fraud investigations[J].Organizational Behavior and Human Decision Processes,2019.

[8]Müge Demir,Zeynep nder.Financial connectivity and excessive liquidity:Benefit or risk?[J].Journal of International Financial Markets,Institutions & Money,2019.

[9]Chun Yan,Meixuan Li,Wei Liu,Man Qi.Improved adaptive genetic algorithm for the vehicle Insurance Fraud Identification Model based on a BP Neural Network[J].Theoretical Computer Science,2019.

[10]Michal Reid,Humberto K.Choi,Xiaozhen Han,Xiaofeng Wang,Sanjay Mukhopadhyay,Lei Kou,Usman Ahmad,Xiaoqiong Wang,Peter J.Mazzone.Development of a Risk Prediction Model to Estimate the Probability of Malignancy in Pulmonary Nodules Being Considered for Biopsy[J].Chest,2019,156(2).

作者簡介:

1.吴景泰,沈阳航空航天大学教授,博士;硕士生导师;研究方向:安全经济学。

2.张育儒,沈阳航空航天大学硕士研究生;研究方向:系统安全及保险。

猜你喜欢
决策树风险分析
简述一种基于C4.5的随机决策树集成分类算法设计
决策树学习的剪枝方法
探析企业会计电算化的风险及防范
P2P网络借贷平台的现状分析及发展展望
企业资金集中管理税收风险的探析
决策树在施工项目管理中的应用