徐殿坤 杨杉
摘要:以四川人寿保险的客户数据作为研究对象,该公司的数据分为四张表分别为新投保、续保、退保、理赔。对这些表采用SPSS、Excle,对数据进行一个数据预处理,然后对数据表的部分数据进行分组筛选然后运用频率分析、单因素方差分析、探索分析、相关性系数分析、等数据分析方法对该项目的四个数据表进行大數据分析。直观地得出该保险公司的市场价值,潜力和存在风险,进而针对性提出问题和建议。
关键词:大数据;保险;金融
中图分类号: TP311.13 文献标识码:A
文章编号:1009-3044(2021)25-0041-03
Abstract: Taking the customer data of Sichuan life insurance as the research object, the company's data is divided into four tables, namely new insurance, renewal, surrender and claim settlement. SPSS and Excel are used to preprocess the data, and then some of the data in the data table are grouped and screened. Then the data analysis methods of frequency analysis, one-way ANOVA, exploratory analysis, correlation coefficient analysis and correlation bivariate analysis are used to analyze the big data of the four data tables of the project. Intuitively get the market value, potential and risk of the insurance company, and then put forward more targeted problems and suggestions.
Keywords: Big data; Insurance; Finance
1 引言
在互联网、大数据等信息技术的驱动下保险业的经营模式、服务方式、产业格局正在发生着巨大的变革正在形成的总体发展趋势是:通过技术与业务全方位的融合为用户提供高品质的服务,依靠技术创新驱动经营转型和管理变革,不断打造技术引领的新产品扩大技术引领的新优势,逐步实现理念、战路、价值链和行动的统一。[1]
现在的保险远远不止于财产的保护,跟我们生活上的健康,减轻生活的负担都息息相关。对于保险公司来说,需要给客户提供更高质量的服务,合理的保险价格,还得给公司带来商业价值以及减少公司承担的风险。根据波士顿咨询的研究,最重要的“改良效应”发生在五个环节,即风险评估与定价、交叉销售、客户流失管理、理赔欺诈检测、理赔预防与缓解。[2]就需要庞大的数据和相对较高的数据质量,以及数据的完整性等,然后再对数据进行处理,筛选分析,以上述的五个环节为方向,我们进行对应的数据特征分析,直观的得出该保险公司存在的市场价值,所需减少的风险。
2 研究思路
以2016年四川人寿保险提供的客户数据作为研究对象,对这些数据进行开始的预处理。采用SPSS、Excel,对不同数据表其中个别有分析价值的特征列,客户年龄与赔款金额和赔款类型进行探索分析、退保原因和退保金额进行均值和单因素方差分析等来进行客户流失管理,对理赔原因和年龄进行频率统计,再对频率统计结果进行处理做探索分析以得出赔款支出占比。对客户三年年均收入与职业进行探索分析来挖掘和开发新的销售市场。
3 数据说明
3.1 数据来源
数据来源是2016年四川人寿保险的客户数据,包括了2016.1.1-2016.7.1这个时间段的新投保数据,续保数据,退保数据和理赔数据。数据包括了险种、平均三年收入、年龄、职业、婚姻状况、赔偿类型、赔偿金额、保费、保额等29个特征列,共140万条数据,120M。
3.2 数据清洗
在数据收集、整理、利用的过程中,保护用户隐私是保险公司应负担的责任[3]。所以时间和姓名等敏感字段就自动清洗。绘制图表时把过高的年收入给清洗掉避免异常值,还有个别案例无普遍性和说服性忽略不计。但还是由于数据特征以及数据个数庞大且无用重复数据较多,因此先用Excel来对此数据表进行数据清洗[4]筛选出我们所需要的特征列,其主要使用了客户年龄,过去三年平均年收入,职业,年龄等特征列的数据进行相应的数据分析和对比。
4 数据表分析
4.1风险评估
此表存在16列特征,其中先对赔款类型(费用类型)和客户年龄进行数据统计,接着对统计后的赔款类型进行0,1分类再拿出客户年龄,赔款金额,赔款类型来进行偏相关分析。
4.1.1数据可视化展示
根据图1可知:客户年龄大体是呈现正态分布,35-45,50-60这两个年龄段出现意外的人数频率较多,由于此区间内客户频数较大,把此区间年龄段划分为高风险年龄段,赔款类型频率图显示基于疾病和意外的情况占比最多,将这两类赔款类型划分为0,其他所有的赔款类型划分为1来更深层的观察。
由图2可知: 0标签下,处理的个案数为182760例,1标签下处理的个案数为29422例。标签为0的费用类型,赔款金额均值为2100元,而标签为1的情况下,赔偿金额均值为6200元,其标签为0和标签1的最小值均为0即说明都存在保险公司不予通过赔偿申请的情况。最大值因远远高于平均值所以不予参考价值。偏度与峰度都均为正值,均呈尖峰右偏状态,大多数人的赔偿金额在均值附近。