基于大数据的保险公司理赔数据画像研究

2021-03-25 04:34徐高凯杨杉
商业文化 2021年1期
关键词:赔款险种均值

徐高凯 杨杉

当前,大数据的普遍应用引起了社会经济的变革,同时也给保险业带来了深远的影响。在客户信息拥有量巨大的金融行业,将庞杂的数据进行深度挖掘和对未来数据进行预测以供精确营销,在企业的长期发展中有不可忽视的作用。在保险行业中,理赔这项工作,既是风险的晴雨表,也是反映保险行业的经营状况的重要依据。

目前在人寿保险的保险数据当中,理赔数据、退保数据的比例较高,该保险公司面临着企业理赔风险较大、个别险种设置不合理导致用户粘性有所下降的情况,这非常不利于企业长期可循环发展,因此对理赔用户特征进行分析与选择,可以使公司在用户发展上更有方向性。

研究思路

以四川人寿保险的理赔数据为研究对象,对该保险理赔数据用户进行行为画像。采用excel数据分析、SPSS statistics中均值过程、描述统计、频率分析和数据可视化的方法,对理赔信息中的险种、赔款金额、费用类型以及每一类费用类型与客户信息之间的关系展开分析,希望较为全面地完成关于理赔用户的数据画像。

数据说明

数据来源

通过在人寿保险公司数据库中观察,为了数据的完整性,对新投保、续保、理赔、退保四个方面的数据进行获取后进行筛选,其中理赔数据包含了机构险种、赔偿金额、费用类型、总保费、保额、理赔用户的基本信息等16列21万条数据。

数据清洗

表中年龄、险种都是单个年龄或单独险种,还有费用类型需要经过数据的清洗过后才能够进行主题分析。由此把excel表中的年龄以18为一个分界标准,共分5个年龄段,分别是小于18岁、18-36岁、36-54岁、54-72岁以及72岁以上,把险种分为S、L、B、Y、4、6这6大类险种,进行完数据清洗过后的表格更加的能够准确的得出研究主题的结论与意义。

数据分析

研究险种的赔款风险以及各险种赔款金额的均值差异

数据中共有6类险种,其中Y险种的平均赔款金额最高,且其赔款风险最高,赔款金额变化大,稳定性较差。观察这六类险种的方差、标准差得到其中Y险种两个数据都远大于其余险种。而B险种的赔款额方差、标准差值明显小于其他险种,因此B险种的赔款金额的数据变化小,较稳定。险种的平均赔付金额范围在630-4500、19000-24000这两个区间内,说明理赔数据的均值区间是差别较大的,数据分散性较大,与数据的机构、险种变化相关。

研究每一类费用类型的主要年龄段分布情况

数据中可得到非意外类型的年龄平均值是在46岁左右,峰度小于0,数据呈现扁平状态,偏度大于0,数据右偏,右偏数据分布密度稀疏,年龄大的用户分布稀疏,则非意外类型的人大部分集中在均值附近或者是均值左偏的部分,所以非意外类型的人更多的集中在46岁以下;疾病类型的年龄平均值在47岁左右,峰度小于0,呈现扁平分布,偏度大于0,说明数据往右偏,右偏数据分布密度稀疏,则疾病类型的人大多集中在均值47岁左右以及47岁以下范围,而意外类型的平均值为45岁左右,峰度小于0,呈现扁平分布,偏度大于0往右偏,所以意外类型的年龄分布也和非意外和疾病一样,分布在均值附近以及均值以下,也就是在45岁周围及以下。

从研究的箱型图中得到非意外类型:由于箱体短胡须短的一端是位于下方,说明非意外类型的用户年龄处于偏低的水平更为集中,异常值集中在上方,说明数据分布右偏,在疾病的箱型图中可以看到,数据更加集中在年龄偏低的水平,年龄大的用户的分布稀疏。在意外的箱型图中可以看到数据也是更加的集中在年龄偏低的水平处的。

研究各费用类型中哪些保险机构更易产生赔付金额

1.疾病费用类

根据疾病费用统计指标得:在疾病费用类型中,510781是产生赔付最多的机构,这一机构对准疾病的赔付保险受众多,而513999的机构在疾病费用类几乎没有赔偿。总体数据偏度大于0,呈现右偏,峰度小于0,其为扁平分布。

2.意外费用类

根据意外费用统计指标得:在意外费用类型中,510120是产生赔付最多的机构,可见510120这一机构对准意外的赔付保险受众较多,而513999的机构在意外费用类几乎没有赔偿。偏度大于0,呈现右偏,峰度小于0,可见其为扁平分布。

3.非意外费用类

根據非意外费用统计指标得,在非意外费用类型中,511024是产生赔付最多的机构,可见511024这一机构对准非意外的赔付保险受众较多,而513999的机构在非意外费用类出现了赔偿,可见513999机构的保险的客户理赔对准性、靶向性是非常高的。偏度大于0,因此为右偏,而峰度小于0,可见其为扁平分布。

结论及建议

结 论

个人信息依法交易、流通、共享是大数据时代的必然现象。在传统的保险业中,存在着如何获取新用户、如何进行风险控制、如何留住客户以及如何触发客户的消费等众多问题,大数据的分析运用使这些问题迎刃而解,以现存的保险理赔数据资源作为依托,进行数据整合并加以利用,对传统的保险分析模式进行适应时代的改造,从而提高企业的经济效益。大数据运用于保险业,理赔用户的数据得到分析后有利于了解用户行为,改善优化保险内部问题。因为个人信息在金融行业,特别是在保险业,具有多样性、敏感性的特点。当今经济增速放缓,我们需要加大对价值较高的数据的挖掘力度,因此需要通过大数据分析、数据可视化来将数据显化和动态化。这也使得保险理赔营销行动目标明确、可追踪、可衡量、可优化,从而形成以数据为核心的保险营销闭环,使理赔营销行动得到良性循环。

经过数据分析后用户总体特征主要呈现:年龄均值范围在45-47之间,婚姻状况主要为已婚人群,性别结构呈现的是女多男少。

在理赔数据中,主要进行六类险种的赔付金额的方差等数据比较分析,通过对方差、标准差值、均值的大小比较后发现Y险种对保险公司的赔款风险较高。而B险种较稳定,风险较低。另外6类险种赔款金额的数据都呈现右偏、尖端分布的情况。情况变动不大。其中,F险种的右尖端分布情况更加明显。

从数据表格可得意外和非意外以及疾病这三种类型理赔数据的均值为45-47之间,并且三种类型的数据都在年龄均值左右分布,再由箱型图也进一步辅助说明,在三种类型中用户更加集中分布在均值和均值(47岁)以下,分布的密度较为平均。

对于理赔数据总体主要多数集中在小于编号为512000的机构前,512000机构后总体赔付少,对意外的理赔也较少。在疾病费用类型中,510781是赔付最多的机构;在意外费用类型中,510120是赔付最多的机构;在非意外费用类型中,511024是赔付最多的机构。而经过研究后发现511399这一保险机构的保险类型靶向性较高,只对准非意外中其他和其他疾病这两类承担着较少且指向性强的保险理赔。

建 议

在大数据时代,面对复杂的重要参数进行仔细的研究形成用户画像,本文主要是将险种等重要参数进行分析,虽不能直接地反映出体系的用户行为,但是也可以呈现许多可供选择和改善的地方。

通过对各类险种的赔款金额均值进行研究,发现赔款风险最高的是Y险种,最低的是B险种。因此在公司推销业务时有侧重的推荐用户购买B类险种,而改善Y险种的业务销售,降低保险公司的理赔风险,保证用户的保险权益最大化。

利用大数据实行“隐私差别化”管理,不断从一般信息中挖掘管理价值与经济价值,是信息保护与利用博弈的必然选择。在理赔数据表中理赔费用类型的年龄都偏向于47岁以下,说明47岁以下是一个理赔高风险的年龄段,因此保险公司在推销业务和用户管理时多关注这一年龄段的人群,可考虑为此年龄段的人群提供适合的保险套餐,根据不同理赔用户的群特征量身定制出差别化,多样化的理赔险种。

理赔机构同时应加强靶向性的保险分布,专注于意外理赔、疾病理赔或者是非意外理赔中的一个方面。随着社会发展,一些理赔机构和险种覆盖种类太多,虽然满足了综合性保险的现实需求,提供了便捷的一条龙服务,但因为各个方面都需兼顾,理赔数额太大,企业运转风险性加大,并不有利于企业的可持续性发展。

[本文系四川大学锦城学院青年教师科协资助]

(四川大学锦城学院计算机与软件学院)

猜你喜欢
赔款险种均值
新形势下财产保险公司险种结构优化调整思考
新时代保险销售中存在的问题与解决方案
创新农业保险 助力乡村振兴
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
纵观晚清赔款史
均值不等式的小应用
探讨农民工参加社会保险出现的问题及解决对策
应用均值定理“四”注意
如何使“等号”成立