基于关联规则的养老满意度分析

2014-06-30 10:21李圣瑜
经济研究导刊 2014年10期
关键词:关联规则

李圣瑜

摘 要:基于河北省农村老年人养老满意度进行问卷调查和实地调研,利用关联规则挖掘技术分析河北省农村养老满意度的影响因素及它们的影响程度,为进一步提高河北省农村老年人养老满意度提供参考。在关联规则挖掘中发现,参加农村合作医疗,有村集体补贴,职业为务农的老年人的养老满意度较高;与子女同住老年人的养老满意度较高;未参加农村合作医疗,职业为非务农的老年人养老满意度较低。

关键词:养老满意度;GRI算法;关联规则

中图分类号:F840 文献标志码:A 文章编号:1673-291X(2014)10-0049-03

引言

1999年以来,中国正式步入老龄化国家的行列,人口老龄化问题是中国经济社会发展面临的重大现实问题之一。人口基数大、发展迅速、“未富先老”等是中国老龄化的特点。养老问题是关系国计民生的大事,关系到人民的切身利益,特别是在中国经济发展相对落后的农村,社会养老保障制度不完善、农民收入水平低下,大量劳动力外流,使得在对老年人生活照料、精神慰藉和疾病护理等方面得不到保障,因此,探讨农村老年人养老满意度的影响因素,进而提高农村老年人的养老满意度尤其重要。本文在研究大量资料、参考论文相关实践成果的基础上,以“中国老龄事业发展‘十二五规划”为指导,在调查研究的基础上,对调查数据进行预处理和统计分析,通过关联规则技术分析河北省农村老年人养老满意度的影响因素。

一、关联规则的基本思想

关联分析的目的是找出数据库中隐藏的关联网,寻找事物之间的联系规律和结构特征,挖掘它们之间的关联关系。数据挖掘中,关联分析的主要技术是关联规则,最早由Agrawal、Imielinski和Swami提出。关联规则挖掘是为了寻找同一事件中不同项之间的相关性。简单关联规则是数据挖掘的主要工具之一,属于无监督学习方法,能够揭示数据中隐含的关联特征。

Clementine提供了Apriori、Carma和GRI等经典算法。本文用的是GRI算法,算法是由Smyth和Goodman于1992年提出的,是在ITRule算法的基础上拓展形成的,可用于简单的关联分析。GRI算法的主要特点是:不但能够处理分类型变量,而且前项还可以为数值型变量;数据只能按事实表方式存储;采用深度优先搜索策略实现算法。

二、养老满意度中关联规则的应用

(一)数据准备

从调查数据的频数分析中,我们发现部分变量的在取某值的频数很低,甚至有的变量取值的频数为0,为了后续更好的分析,利用Clementine对变量进行筛选。软件操作实现过程。其中设定的条件为:变量中缺失值所占比例大于70%;分类变量中类别值所占比例大于90%;分类变量的类别个数占总样本的比例大于95%的应视为不重要变量。指定总体满意度为输出变量,其他变量为输入变量。1-概率p值越高,说明输入变量与输出变量的相关性越强,输入变量越重要。

(二)变量前后项设定

在建立关联规则模型之前,首先设定模型的变量前后项,职业、经济来源、居住状况、娱乐活动、社会活动、村集体补贴和农村合作医疗等变量均为有限个值,且各值之间无序,因此定义成标称类型;年龄、月平均收入、文化水平、低保制度和总体满意度各变量值之间具有一个隐含的序,因此定义成连续型数值类型;同时指定总体满意度为关联规则的后件,其余为关联规则的前件。

(三)基于GRI算法的关联规则建模

根据上述的数据预处理的方法对调查数据进行整理,预处理后的数据和筛选出来的变量建立GRI模型实现挖掘过程。

1.设定阀值

规则的支持度和置信度大于用户设置的最小支持度和置信度的阈值时才是一条有效规则。所以在关联规则挖掘中需要合理、自行设置最小支持度和置信度的阈值。因为这些阀值的大小直接决定关联规则挖掘结果中规则的数量。如果支持度阀值太小,会生成大量的规则,并且会失去代表性,挖掘出的规则毫无意义。而如果支持度阀值设置太大,则可能无法找到阀值要求的规则。但是在软件操作过程中并没有明确的依据确定如何设置模型的最小支持度阈值和置信度阈值,所以本文在实际操作中,采用设置不同最小支持度阈值的方式进行反复挖掘,即进行若干次探索性的挖掘。我们在反复挖掘中最终选择分析在最小支持度阈值为7%,最小置信度阈值为55%的情况下进行关联规则挖掘。

2.关联规则结果分析

因为只有在提升度大于1的时候才有意义,所以本文从提升度大于1的关联规则中按照最小支持度进行排序,支持度大于7%的条件下,选取部分置信度大于55%的排名靠前且有代表性的规则,规则进行论述,选出的规则。

后项{总体满意度=1}的关联规则。规则1说明职业是务农且参见农村合作医疗的老年人,养老满意度较高,其概率为55.6%;规则2说明和子女同住,且参加农村合作医疗的农村老年人,养老满意度较高;规则3说明70岁以上务农的农村老年人,养老满意度较高,概率为59.05%;综合来看,职业为务农,参加农村合作医疗,居住状况为和子女同住的农村老年人,养老满意度普遍偏高。

后项{总体满意度=2}的关联规则。规则6说明和子女同住,职业为非务农,没有娱乐活动的老年人对养老状况不满意,其概率为55.19%;规则7说明年龄在70岁以上,职业为非务农,所在地没有社会活动的农村老年人对养老状态不满意,其概率为57.35%;综合来看,职业为非务农,未参加农村合作医疗,没有村集体补贴,居住状况为独居或和配偶居住农村老年人养老满意度较低。从结果中我们还可以看出,是否参与社会活动和娱乐活动,也与老年人养老满意度的高低有很大关联。

从基于GRI算法的关联规则结果中可以看出,职业、年龄、收入水平、居住状况、农村合作医疗、集体补贴、娱乐活动、社会活动、经济来源等9个因素均对农村老年人的养老满意度有影响。一般来说,参加农村合作医疗,有村集体补贴,职业为务农的老年人的养老满意度较高;与子女同住老年人的养老满意度较高;未参加农村合作医疗,职业为非务农的老年人养老满意度较低,参加农合的老年人养老满意度较高。虽然目前农村居民参保农村合作医疗制度和农村医疗保险制度的比重在不断提升,但是还不能覆盖全部农村居民,应进一步加大农村合作医疗制度的宣传,尤其是在农村老年人中的宣传,加强和完善农村医疗保障制度的建设,逐步提高农村老年人的养老满意度。

参考文献:

[1] 李放.农村老年人养老状况及其满意度的实证研究[J].开发研究,2010,(1):58-61.

[2] 彭旋子.基于农村居民意愿的养老模式选择研究[D].杭州:浙江农业大学,2010:1-28.

[3] 张巍.黑龙江农村社区养老模式研究[D].西安:陕西师范大学,2012:1-8.

[4] 肖云,刘培森.新型农村社会养老保险满意度影响因素分析[J].经济体制改革,2011,(5):66-70.

[5] 崔萍.大连农村养老模式研究[D].大连:大连理工大学,2010:4-36.

[6] 欧阳彬.基于因子分析的新农合农户满意度研究[J].农业经济,2012,(11):143-146.

[责任编辑 陈丽敏]endprint

摘 要:基于河北省农村老年人养老满意度进行问卷调查和实地调研,利用关联规则挖掘技术分析河北省农村养老满意度的影响因素及它们的影响程度,为进一步提高河北省农村老年人养老满意度提供参考。在关联规则挖掘中发现,参加农村合作医疗,有村集体补贴,职业为务农的老年人的养老满意度较高;与子女同住老年人的养老满意度较高;未参加农村合作医疗,职业为非务农的老年人养老满意度较低。

关键词:养老满意度;GRI算法;关联规则

中图分类号:F840 文献标志码:A 文章编号:1673-291X(2014)10-0049-03

引言

1999年以来,中国正式步入老龄化国家的行列,人口老龄化问题是中国经济社会发展面临的重大现实问题之一。人口基数大、发展迅速、“未富先老”等是中国老龄化的特点。养老问题是关系国计民生的大事,关系到人民的切身利益,特别是在中国经济发展相对落后的农村,社会养老保障制度不完善、农民收入水平低下,大量劳动力外流,使得在对老年人生活照料、精神慰藉和疾病护理等方面得不到保障,因此,探讨农村老年人养老满意度的影响因素,进而提高农村老年人的养老满意度尤其重要。本文在研究大量资料、参考论文相关实践成果的基础上,以“中国老龄事业发展‘十二五规划”为指导,在调查研究的基础上,对调查数据进行预处理和统计分析,通过关联规则技术分析河北省农村老年人养老满意度的影响因素。

一、关联规则的基本思想

关联分析的目的是找出数据库中隐藏的关联网,寻找事物之间的联系规律和结构特征,挖掘它们之间的关联关系。数据挖掘中,关联分析的主要技术是关联规则,最早由Agrawal、Imielinski和Swami提出。关联规则挖掘是为了寻找同一事件中不同项之间的相关性。简单关联规则是数据挖掘的主要工具之一,属于无监督学习方法,能够揭示数据中隐含的关联特征。

Clementine提供了Apriori、Carma和GRI等经典算法。本文用的是GRI算法,算法是由Smyth和Goodman于1992年提出的,是在ITRule算法的基础上拓展形成的,可用于简单的关联分析。GRI算法的主要特点是:不但能够处理分类型变量,而且前项还可以为数值型变量;数据只能按事实表方式存储;采用深度优先搜索策略实现算法。

二、养老满意度中关联规则的应用

(一)数据准备

从调查数据的频数分析中,我们发现部分变量的在取某值的频数很低,甚至有的变量取值的频数为0,为了后续更好的分析,利用Clementine对变量进行筛选。软件操作实现过程。其中设定的条件为:变量中缺失值所占比例大于70%;分类变量中类别值所占比例大于90%;分类变量的类别个数占总样本的比例大于95%的应视为不重要变量。指定总体满意度为输出变量,其他变量为输入变量。1-概率p值越高,说明输入变量与输出变量的相关性越强,输入变量越重要。

(二)变量前后项设定

在建立关联规则模型之前,首先设定模型的变量前后项,职业、经济来源、居住状况、娱乐活动、社会活动、村集体补贴和农村合作医疗等变量均为有限个值,且各值之间无序,因此定义成标称类型;年龄、月平均收入、文化水平、低保制度和总体满意度各变量值之间具有一个隐含的序,因此定义成连续型数值类型;同时指定总体满意度为关联规则的后件,其余为关联规则的前件。

(三)基于GRI算法的关联规则建模

根据上述的数据预处理的方法对调查数据进行整理,预处理后的数据和筛选出来的变量建立GRI模型实现挖掘过程。

1.设定阀值

规则的支持度和置信度大于用户设置的最小支持度和置信度的阈值时才是一条有效规则。所以在关联规则挖掘中需要合理、自行设置最小支持度和置信度的阈值。因为这些阀值的大小直接决定关联规则挖掘结果中规则的数量。如果支持度阀值太小,会生成大量的规则,并且会失去代表性,挖掘出的规则毫无意义。而如果支持度阀值设置太大,则可能无法找到阀值要求的规则。但是在软件操作过程中并没有明确的依据确定如何设置模型的最小支持度阈值和置信度阈值,所以本文在实际操作中,采用设置不同最小支持度阈值的方式进行反复挖掘,即进行若干次探索性的挖掘。我们在反复挖掘中最终选择分析在最小支持度阈值为7%,最小置信度阈值为55%的情况下进行关联规则挖掘。

2.关联规则结果分析

因为只有在提升度大于1的时候才有意义,所以本文从提升度大于1的关联规则中按照最小支持度进行排序,支持度大于7%的条件下,选取部分置信度大于55%的排名靠前且有代表性的规则,规则进行论述,选出的规则。

后项{总体满意度=1}的关联规则。规则1说明职业是务农且参见农村合作医疗的老年人,养老满意度较高,其概率为55.6%;规则2说明和子女同住,且参加农村合作医疗的农村老年人,养老满意度较高;规则3说明70岁以上务农的农村老年人,养老满意度较高,概率为59.05%;综合来看,职业为务农,参加农村合作医疗,居住状况为和子女同住的农村老年人,养老满意度普遍偏高。

后项{总体满意度=2}的关联规则。规则6说明和子女同住,职业为非务农,没有娱乐活动的老年人对养老状况不满意,其概率为55.19%;规则7说明年龄在70岁以上,职业为非务农,所在地没有社会活动的农村老年人对养老状态不满意,其概率为57.35%;综合来看,职业为非务农,未参加农村合作医疗,没有村集体补贴,居住状况为独居或和配偶居住农村老年人养老满意度较低。从结果中我们还可以看出,是否参与社会活动和娱乐活动,也与老年人养老满意度的高低有很大关联。

从基于GRI算法的关联规则结果中可以看出,职业、年龄、收入水平、居住状况、农村合作医疗、集体补贴、娱乐活动、社会活动、经济来源等9个因素均对农村老年人的养老满意度有影响。一般来说,参加农村合作医疗,有村集体补贴,职业为务农的老年人的养老满意度较高;与子女同住老年人的养老满意度较高;未参加农村合作医疗,职业为非务农的老年人养老满意度较低,参加农合的老年人养老满意度较高。虽然目前农村居民参保农村合作医疗制度和农村医疗保险制度的比重在不断提升,但是还不能覆盖全部农村居民,应进一步加大农村合作医疗制度的宣传,尤其是在农村老年人中的宣传,加强和完善农村医疗保障制度的建设,逐步提高农村老年人的养老满意度。

参考文献:

[1] 李放.农村老年人养老状况及其满意度的实证研究[J].开发研究,2010,(1):58-61.

[2] 彭旋子.基于农村居民意愿的养老模式选择研究[D].杭州:浙江农业大学,2010:1-28.

[3] 张巍.黑龙江农村社区养老模式研究[D].西安:陕西师范大学,2012:1-8.

[4] 肖云,刘培森.新型农村社会养老保险满意度影响因素分析[J].经济体制改革,2011,(5):66-70.

[5] 崔萍.大连农村养老模式研究[D].大连:大连理工大学,2010:4-36.

[6] 欧阳彬.基于因子分析的新农合农户满意度研究[J].农业经济,2012,(11):143-146.

[责任编辑 陈丽敏]endprint

摘 要:基于河北省农村老年人养老满意度进行问卷调查和实地调研,利用关联规则挖掘技术分析河北省农村养老满意度的影响因素及它们的影响程度,为进一步提高河北省农村老年人养老满意度提供参考。在关联规则挖掘中发现,参加农村合作医疗,有村集体补贴,职业为务农的老年人的养老满意度较高;与子女同住老年人的养老满意度较高;未参加农村合作医疗,职业为非务农的老年人养老满意度较低。

关键词:养老满意度;GRI算法;关联规则

中图分类号:F840 文献标志码:A 文章编号:1673-291X(2014)10-0049-03

引言

1999年以来,中国正式步入老龄化国家的行列,人口老龄化问题是中国经济社会发展面临的重大现实问题之一。人口基数大、发展迅速、“未富先老”等是中国老龄化的特点。养老问题是关系国计民生的大事,关系到人民的切身利益,特别是在中国经济发展相对落后的农村,社会养老保障制度不完善、农民收入水平低下,大量劳动力外流,使得在对老年人生活照料、精神慰藉和疾病护理等方面得不到保障,因此,探讨农村老年人养老满意度的影响因素,进而提高农村老年人的养老满意度尤其重要。本文在研究大量资料、参考论文相关实践成果的基础上,以“中国老龄事业发展‘十二五规划”为指导,在调查研究的基础上,对调查数据进行预处理和统计分析,通过关联规则技术分析河北省农村老年人养老满意度的影响因素。

一、关联规则的基本思想

关联分析的目的是找出数据库中隐藏的关联网,寻找事物之间的联系规律和结构特征,挖掘它们之间的关联关系。数据挖掘中,关联分析的主要技术是关联规则,最早由Agrawal、Imielinski和Swami提出。关联规则挖掘是为了寻找同一事件中不同项之间的相关性。简单关联规则是数据挖掘的主要工具之一,属于无监督学习方法,能够揭示数据中隐含的关联特征。

Clementine提供了Apriori、Carma和GRI等经典算法。本文用的是GRI算法,算法是由Smyth和Goodman于1992年提出的,是在ITRule算法的基础上拓展形成的,可用于简单的关联分析。GRI算法的主要特点是:不但能够处理分类型变量,而且前项还可以为数值型变量;数据只能按事实表方式存储;采用深度优先搜索策略实现算法。

二、养老满意度中关联规则的应用

(一)数据准备

从调查数据的频数分析中,我们发现部分变量的在取某值的频数很低,甚至有的变量取值的频数为0,为了后续更好的分析,利用Clementine对变量进行筛选。软件操作实现过程。其中设定的条件为:变量中缺失值所占比例大于70%;分类变量中类别值所占比例大于90%;分类变量的类别个数占总样本的比例大于95%的应视为不重要变量。指定总体满意度为输出变量,其他变量为输入变量。1-概率p值越高,说明输入变量与输出变量的相关性越强,输入变量越重要。

(二)变量前后项设定

在建立关联规则模型之前,首先设定模型的变量前后项,职业、经济来源、居住状况、娱乐活动、社会活动、村集体补贴和农村合作医疗等变量均为有限个值,且各值之间无序,因此定义成标称类型;年龄、月平均收入、文化水平、低保制度和总体满意度各变量值之间具有一个隐含的序,因此定义成连续型数值类型;同时指定总体满意度为关联规则的后件,其余为关联规则的前件。

(三)基于GRI算法的关联规则建模

根据上述的数据预处理的方法对调查数据进行整理,预处理后的数据和筛选出来的变量建立GRI模型实现挖掘过程。

1.设定阀值

规则的支持度和置信度大于用户设置的最小支持度和置信度的阈值时才是一条有效规则。所以在关联规则挖掘中需要合理、自行设置最小支持度和置信度的阈值。因为这些阀值的大小直接决定关联规则挖掘结果中规则的数量。如果支持度阀值太小,会生成大量的规则,并且会失去代表性,挖掘出的规则毫无意义。而如果支持度阀值设置太大,则可能无法找到阀值要求的规则。但是在软件操作过程中并没有明确的依据确定如何设置模型的最小支持度阈值和置信度阈值,所以本文在实际操作中,采用设置不同最小支持度阈值的方式进行反复挖掘,即进行若干次探索性的挖掘。我们在反复挖掘中最终选择分析在最小支持度阈值为7%,最小置信度阈值为55%的情况下进行关联规则挖掘。

2.关联规则结果分析

因为只有在提升度大于1的时候才有意义,所以本文从提升度大于1的关联规则中按照最小支持度进行排序,支持度大于7%的条件下,选取部分置信度大于55%的排名靠前且有代表性的规则,规则进行论述,选出的规则。

后项{总体满意度=1}的关联规则。规则1说明职业是务农且参见农村合作医疗的老年人,养老满意度较高,其概率为55.6%;规则2说明和子女同住,且参加农村合作医疗的农村老年人,养老满意度较高;规则3说明70岁以上务农的农村老年人,养老满意度较高,概率为59.05%;综合来看,职业为务农,参加农村合作医疗,居住状况为和子女同住的农村老年人,养老满意度普遍偏高。

后项{总体满意度=2}的关联规则。规则6说明和子女同住,职业为非务农,没有娱乐活动的老年人对养老状况不满意,其概率为55.19%;规则7说明年龄在70岁以上,职业为非务农,所在地没有社会活动的农村老年人对养老状态不满意,其概率为57.35%;综合来看,职业为非务农,未参加农村合作医疗,没有村集体补贴,居住状况为独居或和配偶居住农村老年人养老满意度较低。从结果中我们还可以看出,是否参与社会活动和娱乐活动,也与老年人养老满意度的高低有很大关联。

从基于GRI算法的关联规则结果中可以看出,职业、年龄、收入水平、居住状况、农村合作医疗、集体补贴、娱乐活动、社会活动、经济来源等9个因素均对农村老年人的养老满意度有影响。一般来说,参加农村合作医疗,有村集体补贴,职业为务农的老年人的养老满意度较高;与子女同住老年人的养老满意度较高;未参加农村合作医疗,职业为非务农的老年人养老满意度较低,参加农合的老年人养老满意度较高。虽然目前农村居民参保农村合作医疗制度和农村医疗保险制度的比重在不断提升,但是还不能覆盖全部农村居民,应进一步加大农村合作医疗制度的宣传,尤其是在农村老年人中的宣传,加强和完善农村医疗保障制度的建设,逐步提高农村老年人的养老满意度。

参考文献:

[1] 李放.农村老年人养老状况及其满意度的实证研究[J].开发研究,2010,(1):58-61.

[2] 彭旋子.基于农村居民意愿的养老模式选择研究[D].杭州:浙江农业大学,2010:1-28.

[3] 张巍.黑龙江农村社区养老模式研究[D].西安:陕西师范大学,2012:1-8.

[4] 肖云,刘培森.新型农村社会养老保险满意度影响因素分析[J].经济体制改革,2011,(5):66-70.

[5] 崔萍.大连农村养老模式研究[D].大连:大连理工大学,2010:4-36.

[6] 欧阳彬.基于因子分析的新农合农户满意度研究[J].农业经济,2012,(11):143-146.

[责任编辑 陈丽敏]endprint

猜你喜欢
关联规则
数据挖掘技术在电站设备故障分析中的应用
基于关联规则的数据挖掘技术的研究与应用
面向用户需求的自适应学习系统个性化学习路径推荐研究
工业大数据挖掘分析及应用前景研究
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
关联规则,数据分析的一把利器
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于关联规则的中医肺癌数据挖掘应用研究