大数据分析保险业的用户及发展研究

2021-12-03 20:44曾巧杨杉四川大学锦城学院计算机与软件学院
营销界 2021年21期
关键词:险种保额投保

曾巧 杨杉(四川大学锦城学院计算机与软件学院)

■ 引言

在大数据迅速发展过程中,保险行业也紧跟着大数据发展在行业中发挥着大数据的作用。日前,保险行业仍然持续着增长的走向,拥有大量原始数据的保险行业对大数据分析的到来有着一个迫切的需求[1],大数据的准确分析和充分性[2]对保险行业研究保险用户的画像特征、开展新型的发现模式[3]有着重要的意义。保险天然就具有大数据的特征,保险经营的每个过程都和大数据密不可分[1],通过对保险行业的用户信息进行大数据分析,能够对保险行业的未来用户选择及发展提供很好的一个方向,并且通过充分利用大数据技术能促进我国保险业的发展。SPSS工具能够很好地展现出保险公司当前用户的基本特征画像;将获取到的新投保用户的相关信息利用线性回归方法和均值过程以及频率分析方法分别进行数据分析,得到的结果能够让保险公司对保险用户基本信息、缴费期限、保额与总保费之间的线性关系做出回应、各险种之间存在的均值差异进行研究、看出险种保额特征下的用户年龄集中范围,从而进行更有效的结论以及建议的提出。

■ 研究思路

选取某保险公司的新投保用户为研究对象,利用SPSS分析工具中的线性回归方法、均值过程、频率分析方法对相关信息进行数据分析,对总保费与用户年龄阶段之间分布是否有特征、存在关系进行研究,对客户的一些信息如年龄、缴费期限、近三年平均年收入与所缴纳的保费是否有关系进行了探索性研究,最后针对不同的险种之间保额均值存在差异进行分析。

■ 数据说明

(一)数据来源

数据来源于某保险公司的数据库中的新投保用户的数据,新投保数据表格含有机构、险种、投保时间、缴费期限、缴费方式、保额、总保费、年龄、过去三年平均年收入、教育程度、家庭人口等16个字段共90万条数据。

(二)数据清洗

获取到的数据中有空行,删除表格中存在的空行;浏览表格发现当中存在没有意义的字段教育程度和家庭人口,这两列的数据的值为无和0,由此删除教育程度和家庭人口列;通过后面数据的探究发现保额集中在500000以下,所以对数据进行筛选筛选出保额为500000以下的数据;然后对保额、总保费以及年龄等字段的分布情况进行数据分析与探索,表格中险种的个数有很多,在进行有效的分析的时候对险种分为4险种、6险种、S险种、Y险种、B01险种、B02险种、L01险种一共7个险种。分类的规则是以数字或者字母开头为一类险种以及险种数很少的没有进行分类就是为单独的险种。对表格中表格数据显示不正确的值进行正确显示如投保时间和客户号。

■ 数据分析

(一)探究年龄、保额、缴费期限与总保费的线性关系

通过数据呈现的结果看出年龄、保额、缴费期限与总保费之间的sig值都是小于显著性水平0.01的,所以拒绝原假设(原假设为年龄、保额、缴费期限与总保费之间无相关性)。而总保费的皮尔逊相关性一行的数据显示,缴费期限与总保费的数据是-0.255**,年龄与总保费的数据是0.091**,保额与总保费的数据是0.74**,而从注释中**是相关性显著,所以缴费期限、年龄、保额与总保费的相关性是显著的并且分别是负相关性、正相关性以及正相关性,由此可以利用缴费期限、年龄以及保额与总保费的相关性建立线性回归模型。由于年龄、缴费期限、保额与总保费具有相关性,由此建立线性回归模型,利用步进方法得出了3个模型,通过探究几个变量与总保费之间的关系,在R方拟合度上其数值是0.681接近于0.8,说明他们之间的拟合效果中等偏上,拟合效果好在这个关系中能够较为准确的表达出线性关系。然后在SPSS中的回归方法几个变量之间是进行了一个方差分析的,所以直接从数据结果中显示出数值是小于显著性水平0.01的,故拒绝原假设,由此可以通过线性关系式去判断和计算相关数值,从上述表中得出缴费期限、年龄、保额的系数分别是-921.77、99.589、0.613,设总保费为y,缴费期限为x,年龄为z,保额为m,则相关的线性回归方程是y=-921.77x+99.589z+0.613m+403.325。

因此可以得出结论:总保费与年龄、缴费期限、保额、总保额之间存在显著的相关性,并且R方的拟合度较好,可以得到较为准确的线性关系,由此线性关系式为y=-921.77x+99.589z+0.613m+403.325,所以保险公司人员可以利用存在的线性关系来计算某个用户特征的相关信息得到的总保费是多少,然后利用总保费来进行预测用户可以接受的总保费的数值为多少,然后进行相关的决策。

(二)探究年龄与总保费分布的散点图与频率分析

新投保数据中年龄均值在41岁,总保费的均值在8376元,其中总保费的众数10000元,说明大家对总保费10000元的保险购买率较高。数据分布的偏度大于0,说明无论是总保费还是年龄都为右偏,所以年龄与总保费的较大数据在右边分布稀疏,由此两者数据分布集中在均值附近。数据分布的峰度,总保费为尖峰分布(正值且数据值大),年龄为扁平分布(数据为负值),说明总保费在均值附近的数据密度是较大的,数据分布更加集中在均值附近;而年龄则相反,并没有在均值附近的数据密度大而是在均值附近分布集中程度小。仅仅利用频率分布并不能详细地反映出总保费和年龄的关联关系,因此利用散点图进行数据可视化,反映出的新投保数据显示总保费的金额主要集中在100000元以下且年龄段主要是30~60岁段的投保数据及特征。

因此可以得出结论:新投保用户投保的年龄均值是在41岁且大多集中在均值附近,总保费的均值是8376也是大多集中在均值附近的,而新投保用户投保缴纳的总保费集中在100000元以下的用户年龄阶段是在30~60岁之间。

(三)探究不同险种保额之间的均值差异

从得到的结果可以看出一共有7类险种,大部分险种的最高保额均值范围在13000~18000这个区间内。而在7种险种当中保额平均值最大的是L02险种,最小的是6险种,但是L02险种是特殊的险种,在新投保数据中只有一个用户进行了L02险种的投保,所以不具有参考价值,那么除去L02险种最大的值为B02这个险种。在这7个险种当中方差最大的是S险种,说明S险种的保额均值变化较大,方差最小的是6险种说明数据最稳定。在这7个险种当中偏度峰度都为正,即这7类险种保额的数据都呈现右偏、尖端分布的情况,保额主要集中分布在均值附近,其中,4险种的峰度值和偏度值较其余险种的差值甚远,因此它的数据分布情况右尖端分布情况更明显。

因此可以得出结论:在这7个险种当中S险种数据波动变化最大,6险种数据波动最小,所以在新投保用户当中在S险种当中存在多种情况的保额,即在S险种中用户的特征类型是最多的,选择S险种进行投保的人数最多,在新投保6险种的用户特征少比较的单一;并且要对L02险种进行观察,为什么只有一个用户选择L02险种。

■ 总结与建议

新投保用户的画像特征:用户主要的年龄阶段是处于青中年化阶段,以30~60岁集中,并且更加的偏向于缴纳的总保费是处于100000元以下的,然后更为集中的是在均值为8376元附近。而在7种险种当中新投保用户更加的偏向于S险种,选择的用户达到552885名用户,没有偏向于选择L02险种,因此保险公司应当对险种L02和用户进行研究为什么只有一个用户选择这个险种。而在发展新投保用户对保险的选择时,在新投保数据中存在总保费=-921.77*缴费期限+99.589*年龄+0.613*保额+403.325的线性关系,并且缴费期限和总保费存在负相关关系、年龄和总保费存在正相关关系、保额与总保费存在正相关关系。

因此可以提出建议:新投保的用户中,可以将年龄段在30~60岁的人群作为重点的投保对象并且在计算总保费的时候可以利用保额、缴费期限等内容来规划用户具体的投保内容;预估主要客户大致的信息时推断出所需要缴纳的总保费是在什么范围之内,进一步让公司策划出保险的价格。而在保险公司未来发展和选择上可以进行推出S险种的相关险种作为重点发展;对投保用户进行投保的时候要考虑到缴费期限对总保费的影响,考虑到长期的时限保险是比较危害企业对保费的收取的,但是可以让年龄较大的用户推荐较长年限来增加客户的粘性。分析出用户不选择L02险种的原因,并且对其进行改正。

猜你喜欢
险种保额投保
新形势下财产保险公司险种结构优化调整思考
新时代保险销售中存在的问题与解决方案
创新农业保险 助力乡村振兴
惠民保
五款防癌险终极PK
合理选择重疾险保额
互联网财险投保者
探讨农民工参加社会保险出现的问题及解决对策
女性重大疾病咋保障