西安市城镇居民体育消费结构及其特征研究——基于数据挖掘的视角

2013-10-18 10:10李伟平权德庆
体育科学 2013年9期
关键词:置信度消费水平决策树

李伟平,权德庆,蔡 军,魏 华,雷 文

1 前言

近年来,城镇居民人均可支配收入不断提高,消费结构进一步升级,生存型消费支出在消费总支出中所占比重逐步下降,为体育消费发展创造了良好的社会条件。中央明确要求,构建群众性体育服务体系,积极引导群众体育消费[11]。体育事业发展“十二五”规划着重提出,要引导和扩大体育消费需求,适应人民群众生活水平提高、消费结构变化的新形势[7]。实现引导和扩大城镇居民体育消费的目标,非常有必要对城镇居民体育消费结构及其特征进行调查和追踪调查。据文献资料显示,国内众多学者已开展了系列的调查研究,并取得了一些重要的调研成果[2,6,9],但是,由于调查数据分析技术的局限,以往对数据的处理主要采用描述统计分析,然而,数据库、数据仓库等信息技术的迅速发展和关联规则、神经网络和决策树等数据挖掘技术的普及应用,为探索调研数据背后隐藏的深层次知识与数量规律性提供了新的技术和手段,也为研究城镇居民体育消费结构及其特征拓展了新的视角。因此,选择适当的数据挖掘技术研究和探讨城镇居民体育消费结构特点,识别城镇居民不同体育消费水平的特征,探寻城镇居民体育消费项目的内在关联性,对研究城镇居民体育消费的统计规律性具有重要启发意义。

2 数据来源和数据挖掘流程

2.1 数据来源

本研究运用文献资料调研的方式对现有研究成果进行梳理,并结合开放式问卷、专家走访及调查对象访谈等方法形成了初测问卷,随后经过3轮专家调查确定其信度和效度。调查问卷内部一致性信度为0.86,重测信度为0.84,其结构效度的检验运用因子分析确定城镇居民体育消费调查内容的结构维度及各所包含的题项,并用主成分分析的方法来验证其构想效度,结果显示较为理想,有100%的调查项目的共同度达到了0.50以上(共同度是否达到0.5以上是项目检查统计学上的要求)。

数据收集采用分层抽样和简单随机抽样为主的抽样方法,对西安市八区五县的城镇居民进行抽样。在样本量的选定上,学者Tinsley(1987)[5]建议,问卷项目总数与被测样本量比例最好大于10∶1,由于本研究所采用的调查项目为45项,因此,样本数目至少要450份以上。本研究选择样本量为1350个,符合社会学研究的样本需求,共发放问卷1350份,回收问卷1197份,回收率为88.67%,有效问卷973份,有效率为72.07%。

2.2 数据挖掘流程

数据挖掘就是从大量的实际应用数据中,提取隐含在其中、不易察觉的又可能有用的信息和知识的过程。数据挖掘(Data Mining)又称为数据库中的知识发现,是基于机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能帮人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者做出正确的决策。它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。数据挖掘的主要目的是提高决策能力,检测异常模式,在过去的经验基础上预言未来趋势等。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别在于,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,数据挖掘所得到的信息应具有先前未知、有效和可解释三个特征。常用的数据挖掘方法包括人工神经网路、决策树、逻辑回归、支持向量机以及朴素贝叶斯等[10,12,15]。

本研究中数据挖掘的流程按照CRISP-DM(Cross-Industry Standard Process for Data Mining)的标准实施,主要分为以下6个步骤:定义问题、数据理解、数据准备、模型建立、结果评估和模型发布[12]。第一步是定义问题:本研究中数据挖掘的主要目的是获取体育消费结构特征信息,识别不同消费水平城镇居民的特征,研究城镇居民体育消费的规律性,探寻城镇居民体育消费项目倾向。第二步是数据理解:收集到的问卷调查数据全部为分类数据,不同的数据对应于所需研究的具体问题。第三步是数据准备:原始数据库有1197个样本,经过筛选排除无回答、缺失值或回答不符合本研究需要的样本,剩下973个样本。数据分割的比例配比为训练集(40%),测试集(30%),验证集(30%)。分割方法为简单随机抽样,利用Clementine 12.0的Partition节点完成。分割后的三个数据集用新增变量Partition的取值标识,但仍合并在同一个数据文件里。对变量进行归类,将其归为用以划分数据集的筛选变量和分析变量;第四步是建立合适的模型:利用数据挖掘中的KMeans快速聚类法、序列关联规则、决策树、贝叶斯网络、C&R决策树、CHAD决策树、支持向量机(SVM)、神经网络和QUEST决策树等分别构建模型。第五是模型的评估:选用提升图、分类矩阵等方法进行技术上的评估,依据各模型的效果选择合适的模型,分别对城镇居民体育消费构成、项目以及不同体育消费水平城镇居民特征进行进一步分析,在应用时也需结合实际情况加以调整。第六步是结果发布。

3 研究结果与分析

3.1 西安市城镇居民体育消费支出构成特征分析

3.1.1 西安市城镇居民体育消费支出构成基本情况

在西安市城镇居民的日常消费支出中(表1),衣、食、住、行是目前西安市城镇居民最主要的支出,占被调查者总数的97.71%。医疗保健和教育分别占被调查者总数的65.98%和61.87%,居第二位和第三位,有39.98%的被调查者日常消费支出中涉及体育消费支出内容。西安市城镇居民日常消费支出第一选择中排前三位的依次为衣、食、住、行,教育,医疗保健;在第二选择和第三选择中,教育和医疗保健分别排名第一位、第二位;体育在第一选择、第二选择和第三选择中分别排名倒数第二、倒数第二和倒数第四,这表明衣、食、住、行等基本消费支出是西安市城镇居民日常消费支出首要考虑的问题,体育消费在西安市城镇居民的日常消费支出中所占比例仍然处于较低水平。

表1 本研究西安市城镇居民日常消费支出构成情况一览表Table 1 Composition of Urban Residents in the Daily Consumption Expenditure of Xi’an City

3.1.2 西安市城镇居民体育消费支出构成关联性特征

在西安市城镇居民体育消费调查分析中,通过传统的描述统计分析,能够发现城镇居民日常消费支出的基本构成情况,反映出城镇居民日常消费的基本特征和体育消费支出在日常消费支出中的比重。但是,当被调查者第一选择的消费支出是衣食住行时,后续选择中出现体育消费支出的可能性;或者是当第一选择和第二选择等前项选择是衣食住行、教育等消费支出时,后续选择中出现体育消费支出的可能性等问题很难通过运用描述统计方法予以解决。在上述问题中,被调查者的选择行为彼此有先后的关系,从第一选择到第五选择代表一定的前后顺序,第一选择在前,第五选择在后,并呈现出一定的关联性特征。因此,从所收集到的大量序列数据中,挖掘城镇居民日常消费支出选择的前后关联性特征,进而推断其后续的发生可能,对于研究城镇居民体育消费支出构成特征具有更为重要的意义。

本研究通过运用spss-Clementine 12.0数据挖掘平台,建立序列关联规则模型,对“西安市城镇居民体育消费调查”数据库中西安市城镇居民体育消费支出构成调查数据进行数据挖掘,给定最小支持度和最小置信度的阈值均为30%(序列关联规则的支持度定义为包含某序列规则的事务数占总事务的比例;序列关联规则的置信度定义为同时包含前项和后项的事务数与仅包含前项的事务数的比,也是规则支持度与前项支持度的比[12],得到涉及体育消费支出的关联规则(表2)。

表2 本研究西安市城镇居民体育消费支出构成关联规则一览表Table 2 Urban Residents’Sports Consumption Expenditure of Xi’an City Association Rules

从序列关联规则可知,规则1表示日常消费支出中选择衣食住行和储蓄的城镇居民,还将会有体育消费支出的置信度为37.15%。规则2和规则8显示,日常消费支出中选择储蓄的城镇居民,还将会有体育消费支出的置信度为37.02%;日常消费支出中选择储蓄的城镇居民,还将会有医疗保健支出的置信度为31.31%。这表明,城镇居民在选择储蓄支出以后,将选择体育消费支出的可能性大于用于医疗保健支出的可能性。规则4和规则9显示,日常消费支出中选择教育>储蓄的城镇居民还将会有体育消费支出的置信度为33.70%;日常消费支出中选择教育>储蓄的城镇居民,还将会有旅游支出的置信度为31.31%。这表明,城镇居民在选择教育>储蓄支出以后,将选择体育消费支出的可能性大于用于旅游支出的可能性。规则3和规则10显示,日常消费支出中选择衣食住行>教育>储蓄的城镇居民,还将会有体育消费支出的置信度为35.26%;日常消费支出中选择衣食住行>教育>储蓄的城镇居民,还将会有文化娱乐支出的置信度为31.00%。这表明,城镇居民在选择衣食住行>教育>储蓄支出以后,将选择体育消费支出的可能性大于用于文化娱乐支出的可能性。

3.2 西安市城镇居民体育消费的项目特征分析

3.2.1 西安市城镇居民体育消费项目的基本情况

表3显示,西安市城镇居民体育消费中前五位的项目分别为购买体育服装、鞋、帽(28.18%),观看电视、网络、手机上的体育比赛(19.02%),到收费的健身娱乐场所参加锻炼(10.90%),健身、健康咨询(7.41%)和购买体育健身器材(6.44%)。由此判断购买体育服装、鞋、帽,观看体育比赛(电视、网络、手机)和到收费的健身娱乐场所参加锻炼是城镇居民主要的体育消费项目。

表3 本研究西安市城镇居民的体育消费项目情况一览表Table 3 Urban Residents’Sports Consumption of Xi’an City Project

从体育消费的发展态势上看,满足基本体育锻炼需求的体育服装、鞋、帽已不再是体育消费的全部,城镇居民的体育消费内容呈现出多元化特征,体育消费内容开始逐步延伸到健身、健康咨询、体育旅游和订阅体育书刊、体育杂志等享受体育精神文化和享受体育生活质量方面,但是,当前城镇居民的体育消费整体上仍处于由实物型体育消费向参与型体育消费和观赏型体育消费过渡的阶段。调查中还发现,在购买体育服装、鞋、帽,订阅体育书刊、体育杂志,购买体育邮票、纪念品、球迷产品等体育消费支出方面,女性体育消费者多于男性体育消费者;在到收费的健身娱乐场所参加锻炼,接受专业的健身指导、体育旅游和观看体育比赛等方面,男性体育消费者多于女性。女性体育消费者更倾向于实物型体育消费,而男性体育消费者更倾向于参与型体育消费和观赏型体育消费。

3.2.2 西安市城镇居民体育消费项目的关联性特征

本研究通过运用SPSS-Clementine12.0数据挖掘平台,建立序列关联规则模型,对“西安市城镇居民体育消费调查”数据库中西安市城镇居民体育消费项目调查数据进行数据挖掘,给定最小支持度和最小置信度的阈值均为30%,得到涉及体育消费支出的关联规则(表4)。

表4 本研究西安市城镇居民体育消费项目的关联规则一览表Table 4 Association Rules of Urban Residents’Sports Consumption Project of Xi'an City

从序列关联规则(表4)可知,规则1表示,体育消费项目中选择购买体育服装、鞋、帽和购买体育健身器材的城镇居民,还将会选择接受专业的健身指导的置信度为42.90%。规则2表示,体育消费项目中选择到收费的健身娱乐场所参加锻炼和体育康复医疗的城镇居民,还将会选择健身、健康咨询的置信度为42.05%。规则3和规则4显示,体育消费项目中选择购买体育服装、鞋、帽的城镇居民,还将会选择接受专业的健身指导的置信度为39.61%;体育消费项目中选择购买体育服装、鞋、帽的城镇居民,还将会选择观看电视、网络、手机上的体育比赛的置信度为30.78%。这表明,城镇居民在选择购买体育服装、鞋、帽以后,将选择接受专业的健身指导的可能性大于用于观看电视、网络、手机上的体育比赛的可能性。规则5和规则6显示,体育消费项目中选择到收费的健身娱乐场所参加锻炼的城镇居民,还将会选择订阅体育书刊、体育杂志的置信度为35.82%;体育消费项目中选择到收费的健身娱乐场所参加锻炼的城镇居民,还将会选择购买体育服装、鞋、帽的置信度为55.71%。这表明,城镇居民在选择到收费的健身娱乐场所参加锻炼以后,将选择购买体育服装、鞋、帽的可能性大于用于订阅体育书刊、体育杂志的可能性。

3.2.3 西安市城镇居民预期体育消费的项目情况

调查结果显示,有28.6%的受访者首选的预期体育消费项目是到收费的健身娱乐场所参加锻炼。从受访者的文化程度看,小学及以下文化程度受访者,其预期体育消费项目是购买体育服装、鞋、帽,比重为18.9%;硕士及以上学位的受访者的预期体育消费项目是体育旅游,比重是9.82%;而受访者是初中、高中、中专、大专及本科文化程度的,其首选预期体育项目均是到收费的健身娱乐场所参加锻炼,其比重分别是 22.7%、24.2%、25%、26.5% 和27.8%。

对不同收入受访者分析,月收入在6000元以上的受访者其首选预期体育消费项目都是接受专业的健身指导,月收入在2000元以下的受访者,其预期体育消费项目是购买体育服装、鞋、帽,其他收入水平的受访者都是到收费的健身娱乐场所参加锻炼。

按受访者的不同职业分,只有离、退休人员及自由职业者的首选预期体育消费项目,是观看电视、网络、手机上的体育比赛,其他职业者的首选预期体育消费项目,都是到收费的健身娱乐场所参加锻炼。

有24.4%的受访者第二个预期体育消费项目,是观看电视、网络、手机上的体育比赛。有22.1%的受访者第三个储蓄目的是购买体育服装、鞋、帽。

综上所述,城镇居民有较强参与体育消费的预期,从预期体育消费项目来看,以参与型体育消费项目为主,实物型体育消费项目在预期体育消费项目中的比重下降,这可能与城镇居民在体育消费过程中,逐步重视体育的健身、文化等功能有关。

3.3 西安市不同体育消费水平的城镇居民特征分析

3.3.1 西安市城镇居民体育消费水平基本情况

城镇居民体育消费水平,是指一定时期内城镇居民在体育产品和服务的消费过程中,对满足城镇居民体育需要方面所达到的程度,并通过消费的体育产品和服务的数量和质量反映出来,可用价值(货币)单位来表示。

调查结果(图1)显示,有42.7%的被调查者没有参与体育活动支出,参与型体育消费支出在300元以下,300~700元,700~1500元,1500~2000元,2000元以上的,其比重分别为 26.6%,16.9%,7.7%,2.7%,3.5%。有35.10%的被调查者没有体育服装、鞋、帽支出,体育服装、鞋、帽支出在300元以下,300~700元,700~1500元,1500~2000元,2000元以上的,其比重分别为15.58%,23.06%,15.98%,7.30%,2.98%。有76.26%的被调查者没有大型体育器材支出,大型体育器材支出在300元以下,300~700元,700~1500元,1500~2000元,2000元 以 上 的,其 比 重 分 别 为 17.57%,3.08%,1.14%,1.02%,0.93% 。

图1 本研究西安市城镇居民体育服装、鞋帽、大型体育器材和参与体育活动消费情况示意图Figure 1.Xi’an City Urban Residents’Sports Clothing,Shoes and Hats,Large Sports Equipment and Participating in the Consumption of Sports

图2显示,有46.97%的被调查者没有小型体育器材支出,小型体育器材支出在100元以下,101~200元,201~300元,301~500元,500元以上的,其比重分别为25.28%,13.26%,7.50%,4.32%,2.67%。有 38.34%的被调查者没有体育图书、报刊、音像制品支出,体育图书、报刊、音像制品支出在100元以下,101~200元,201~300元,301~500元,500元以上的,其比重分别为43.68%,5.96%,6.47%,3.49%,2.06%。有49.56%的被调查者没有观看体育比赛支出,没有观看体育比赛支出在100元以下,101~200元,201~300元,301~500元,500元以上的,其比重分别为27.09%,12.78%,4.85%,3.74%,1.98%。

图2 本研究西安市城镇居民小型体育器材、观看体育比赛和体育信息消费情况示意图Figure 2.Small Sports Equipment,Urban Residents in Xi’an City Watching Sports Competitions and Sports Information Consumption

3.3.2 西安市基于K-Means聚类的城镇居民体育消费水平阶层划分

本研究通过运用SPSS-Clementine 12.0数据挖掘平台,建立K-Means聚类模型,对“西安市城镇居民体育消费调查”数据库中西安市城镇居民体育消费水平调查数据进行数据挖掘。

在采用K-Means聚类时,聚为三类、四类和五类时,聚为三类、四类组间差异较大,聚为五类时组间差异都不明显。从方差分析上看,聚为四类的结果好于聚为三类、五类的。采用K-Means方法聚为四类时,第一类有318个样本,主要特征为没有体育消费;第二类有287个样本,主要特征为体育消费支出处于较低水平;第三类为170个样本,主要特征为体育消费支出处于中等水平;第四类为139个样本,主要特征为体育消费支出处于较高水平,该分类对体育消费者市场的区分度较为理想。综上所述,本研究采用根据体育消费内容变量进行K-Means聚类分析获得的结果对数据的解释性较好,最佳的类数是四类。根据聚类的结果,将西安市城镇居民按照不同的体育消费特征分为四类体育消费人群(表5)。

3.3.3 西安市城镇居民不同体育消费水平的特征

为了进一步了解不同类型的体育消费者的人口特征、心理趋向性和体育生活方式,本研究在聚类结果的基础上,采用建立CART决策树、C5.0决策树、CHAID决策树、人工神经网络、支持向量机(SVM)和贝叶斯网路模型(图3)来探索西安市城镇居民不同体育消费水平的特征,得到分类矩阵(图3)。

表5 本研究西安市城镇居民体育消费水平聚类结果一览表Table 5 The Level of Sports Consumption of Urban Residents in the City of Xi’an Clustering Results

图3 本研究西安市城镇居民不同体育消费水平特征数据挖掘模型指标性能图Figure 3.Model Performance Map Data of different Sports level of Consumption of Urban Residents in Xi’an City Mining

从图3可知,C5.0决策树模型、贝叶斯网络模型、C&R决策树模型、CHAD决策树模型、SVM模型、神经网络模型、QUEST决策树模型的总体精确性分别为84.9%、66.5%、72.2%、67.2%、60.4%、61.2%、60.6%。通 过几个模型评估效果的比对,发现C5.0在训练组、测试组以及验证组中的预测准确率相对于其他数据挖掘方法都较高。因此,最终采用解释性强、正确率较高的C5.0决策树模型。

从C5.0决策树模型的依赖关系网络可以看出,对城镇居民体育消费水平影响从大到小的指标依次为:文化程度>每天参加体育锻炼的时间>是否喜欢体育锻炼>月收入>每天自由支配的余暇时间>职业>年龄>身边是否有免费健身场所>性别。由此得出,城镇居民体育消费水平的高低与其文化程度特征有最强的关联性。

此外,将C5.0决策树模型中的决策规则进行对比分析,得到不同体育消费水平的西安市城镇居民在人口特征、心理趋向性和体育生活方式等变量中呈现出来的典型特征,最终形成城镇居民体育消费特征模型(表6)。

4 小结

1.在西安市城镇居民的日常消费支出中,衣、食、住、行等生存型消费支出仍然是他们目前最主要的支出,作为发展与享受型的体育消费支出,在西安市城镇居民的日常消费支出中所占比例仍然处于较低水平。在西安市城镇居民日常消费支出构成数据的挖掘中发现,衣食住行,教育,储蓄等消费支出与体育消费支出之间存在关联性特征。西安市城镇居民在选择储蓄支出以后,将选择体育消费支出的可能性大于用于医疗保健支出的可能性;城镇居民在选择教育 > 储蓄支出以后,将选择体育消费支出的可能性大于用于旅游支出的可能性;西安市城镇居民在选择衣食住行 > 教育 > 储蓄支出以后,将选择体育消费支出的可能性大于用于文化娱乐支出的可能性。

表6 本研究西安市城镇居民不同体育消费水平的特征模型一览表Table 6 Feature Model of Xi’an City Urban Residents’Sports Consumption Level

2.西安市城镇居民的体育消费项目呈现出多元化特征,但还处于由实物型体育消费向参与型体育消费和观赏型体育消费过渡的阶段。在西安市城镇居民体育消费项目数据的挖掘中发现,购买体育服装、鞋、帽,购买体育健身器材和接受专业的健身指导之间存在关联性特征。到收费的健身娱乐场所参加锻炼、体育康复医疗和健身、健康咨询之间存在关联性特征。西安市城镇居民在选择购买体育服装、鞋、帽以后,将选择接受专业的健身指导的可能性大于用于观看电视、网络、手机上的体育比赛的可能性;西安市城镇居民在选择到收费的健身娱乐场所参加锻炼以后,将选择购买体育服装、鞋、帽的可能性大于用于订阅体育书刊、体育杂志的可能性。

3.对西安市城镇居民体育消费水平影响从大到小的指标依次为:文化程度>每天参加体育锻炼的时间>是否喜欢体育锻炼>月收入 >每天自由支配的余暇时间>职业>年龄>身边是否有免费健身场所>性别。高体育消费水平型,中等体育消费水平型,低体育消费水平型和无体育消费型的西安市城镇居民在人口特征、体育心理趋向性和体育生活方式等变量中表现出不同典型特征。

此项研究成果的不足之处在于调查的范围存在一定局限性,应在全国范围内抽样调查后进一步进行深入研究,特别是大数据集中数据挖掘算法的筛选和城镇居民体育消费水平综合评价的后续研究。

[1]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004,(3):10-15.

[2]骆秉全,孙文.北京市不同家庭类型体育消费特征研究[J].体育科学,2008,28(11):22-29.

[3]钱晓东.数据挖掘中分类方法综述[J].图书情报工作,2007,(3):68-71.

[4]魏华,权德庆,雷福民,等.中国群众体育场地发展变化及驱动力研究[J].体育科学,2012,32,(7):3-8.

[5]文静.城市居民健身消费力及其影响因素研究[D].福建师范大学,2008.

[6]吴江萍.长株潭三市居民休闲体育消费研究[J].消费经济,2009,(2):63-66.

[7]体育事业“十二五”规划[Z].北京:国家体育总局,2012.

[8]袁冰,朱东华,任智军.基于数据挖掘技术的专利情报分析方法及实证研究[J].情报杂志,2006,(12):99-101.

[9]詹建国,孙立平,黄俊亚.我国城市居民现阶段体育用品消费特征研究——以北京、西安、无锡3城市调研为例[J].体育科学,2000,(4):6-9.

[10]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000,(6):41-44.

[11]中共中央、国务院关于进一步加强和改进新时期体育工作的意见[Z].2002.

[12]朱建平.数据挖掘的统计方法及实践[M].北京:中国统计出版社,2005.

[13]Computer control on multimeter measurement instrument based on RS232in LabVIEW[A].Proceed Second Int Symposium Test Automation Instrumentation[C].2008.

[14]MARAGATHAM G,LAKSHMI M.Study on classifiers using genetic algorithm and class based rules generation[A].Proceed 2012Int Conference Software Computer Appl(ICSCA 2012)[C].2012.

[15]The popularity of movies predict system based on data mining technology for CDN[A].Proceed 20103rd IEEE Int Conference Computer Science Inform Technol[C].2010.

猜你喜欢
置信度消费水平决策树
基于数据置信度衰减的多传感器区间估计融合方法
预计到2050年中国城乡消费水平将无明显差距
一种基于定位置信度预测的二阶段目标检测方法
中国人均消费世界排名与增长预测研究
——基于指数增长模型
简述一种基于C4.5的随机决策树集成分类算法设计
决策树学习的剪枝方法
校核、验证与确认在红外辐射特性测量中的应用
我国31省城镇居民消费水平(2007)
我国经济增长与国民消费的演进
决策树在施工项目管理中的应用