王 莉,胡精超
(1.河南理工大学 测绘与国土信息工程学院,河南 焦作 454003;2.河南理工大学 体育学院,河南 焦作 454003)
2016年,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出“促进群众体育与竞技体育全面协调发展”的战略规划。2016年,中共中央、国务院印发《“健康中国2030”规划纲要》,健康中国建设上升为国家战略,健康中国建设成为全面建成小康社会的重要保障。党的十九大报告指出,人民健康是民族昌盛和国家富强的重要标志。体质健康区域差异及对策研究将有助于分析体质下降的原因,对改善人民的健康状况具有重要的意义。
研究国民体质健康的指标方面,齐良书等(2011)用自评健康作为健康评价指标,通过计算不同社会经济地位群体的健康集中指数,发现经济收入比教育水平对健康水平的影响更大;李立清等(2015)采用平均期望寿命和死亡率来体现我国不同地区健康水平的差异,结果表明,在不同的社会经济发展阶段,影响居民健康水平的经济因素在变化;解垩(2011)以身体质量指数(body mass index,BMI)和自评健康作为评价指标,研究发现,我国各个地区的年龄分布、教育程度、个人收入和医疗资源等对居民的健康差异有显著影响。
导致体质差异性的影响因素较多,包括自然环境(卢福玲,2014;张天成,2010)、城乡差异(Singn et al.,2014)、社会经济地位(Ngo et al.,2013)、医疗卫生支出(李华等,2013)、行为和心理因素等。体质健康除了与先天遗传有直接关系,也受生活质量(包括环境、营养、工作性质等)的影响(胡鹏辉等,2019;李纪江等,2010)。后天的体育锻炼对体质健康具有重要作用,体育锻炼行为与人们接受体育教育程度、城乡差异、收入水平、社会地位等密切相关,而这些又都与社会经济的发展有着直接或间接的关系(胡利军等,2005)。目前,许多研究者分别从不同人群的体质变化、不同区域居民体质比较和影响因素分析等方面进行探讨(顾丽娟等,2017;罗旭等,2010;张彦峰等,2012)。随着经济的发展,城市建成环境对国民体质、肥胖、疾病等的影响逐渐体现出来(阎宏等,2016)。近年来,关于身体活动、城市建成环境和健康的关系研究越来越多,特别是在高度城市化的国家。
影响体质健康的因素是由多个系统交互作用的,除了个体因素、组织和机构外,社区和政策等也起到关键作用。孙菊(2011)通过计量模型研究发现,卫生财政投入对经济欠发达的内陆省份居民的健康改善作用更大,对沿海地区居民的健康改善作用较小。王新军等(2012)认为,经济增长、卫生财政投入及人民健康水平三者间相互影响,卫生财政投入和健康水平短期内互为因果,经济增长对卫生财政投入存在短期促进作用。程明梅等(2015)研究发现,城镇化对我国居民健康状况的影响存在显著的地域差异,应增加对西部农村公共卫生资源的投入,以改善西部地区居民的健康状况。
鉴于此,本文以国民体质综合指数作为衡量体质健康的指标,基于粗集方法和遗传算法,构建包括经济、社会和自然环境等指标为影响因素的数据挖掘模型,对我国31个省(自治区、直辖市)2015年的国民体质健康状况进行分析(本研究未包括我国港、澳、台地区数据)。
以中国31个省(自治区、直辖市)为基本空间分析单元,分析《2015年国民体质监测公报》中我国各省国民体质综合指数。本文选取的经济指标、社会指标和自然环境指标共23项(表1),来自《中国统计年鉴—2015》。其中社会指标除了包含反映社会发展的人口自然增长率、电力消费量等指标(王健,2017),还包含反映各省竞技体育发展水平的等级运动员人数和等级教练员人数。
表1 影响我国国民体质健康的指标体系Table1 Index System Affecting the National Physical Health in China
1.2.1 探索性数据分析
探索性数据分析(exploratory data analysis,EDA)是识别数据中不常见的或感兴趣的特征,从数据集中把非本质的特征从重要特征中区别出来。EDA技术对从中获取数据的样本总体不做假设,假设检验经常被排除。从对原始数据进行定量概括意义上,经常使用的方法包括图表、曲线图、箱线图、散点图等。通过各影响因素与国民体质综合指数的散点图发现它们之间的规律,以便进行下一步分析(李德仁等,2013)。
1.2.2 粗集分析
粗集理论能有效地分析不精确、不一致、不完整等各种不完备的信息(PAWLAK ,1982;PAWLAK et al.,1995)。由于影响国民体质的因素众多,采用粗集算法与遗传算法等机器学习方法相结合方式,进行属性约简,消除影响因素中重复、冗余的属性和属性值,挖掘隐含在影响因素表中的分类决策规则,进而实现知识的提炼和压缩。
对于信息系统S=(U,A),假设B⊆A而且X⊆U,可以通过属性集B构造X的上、下近似来对X进行近似描述:下近似是根据属性集B,所有确定属于X的元素所构成的集合,而上近似是根据属性集B,那些可能属于X的元素所构成的集合(李玉龙,2014)。
粗集的5个定义如下:
定义1 信息系统的四元组S=(U,A,V,f)是一个决策表,其中,A=C∪D,C∩D=∅,U表示论域(所有属性的集合),C表示影响国民体质健康的条件属性集,D表示决策属性集,即国民体质综合指数。Va表示属性a的值域,f是一个信息函数。
定义 2 R是属性的非空有限集合,r∈R,若 Ind(R)=Ind(R-{r})则称r为R中不必要的;否则称r为R中必要的。如果每一个r∈R都为R中必要的,则称R为独立的。设Q⊆R,若Q是独立的,且Ind(Q)=Ind(R),则称Q为R的一个约简。
定义3 决策属性d关于条件属性c的正域:
定义4 决策属性d对条件属性c的依赖度为:
定义5 core(c)=∪red(c),red(c)为C中不可省略的原始属性,称为C的核,core(c)为核属性集,即R的所有简约的集合。
1.2.3 遗传算法
遗传算法是由Holland(1975)提出的仿效生物进化过程解释自然界中的最优化问题的方法。遗传算法应用适应函数决定搜寻的方向,首先对求解的问题进行编码,构造染色体并产生初始群体,然后计算个体的适应度,再进行染色体的复制、交叉和变异等操作,产生新个体。经过若干代遗传,得到满足要求的后代(问题的解)。利用遗传算法和粗集方法相结合,对国民体质健康影响因素的决策表进行简约,得到影响国民体质的关键因素。利用遗传算法和粗集方法进行国民体质健康属性简约的具体步骤为:1)根据国民体质综合指数和指标数据建立决策信息系统[有决策信息的属性D,即S=(U,A∪D)];2)对条件属性进行简约,利用遗传算法,逐一去掉一个指标c,计算c的核值,判断这个指标是否保留;3)得到简约后的决策表;4)使用决策规则对未知现象进行预测(孙玲芳等,2014)。
1)从原始决策表中较难发现国民体质综合指数和各条件属性之间的规律。为了研究国民体质综合指数和影响因素的关系,把各类影响因素作为条件属性,把国民体质综合指数作为决策属性构成决策表。利用Excel制作国民体质综合指数和各条件属性的散点图,初步探究其中规律。
2)对决策表进行属性泛化,根据空间地理位置将我国31个省(自治区、直辖市)归纳为7大地理区域:东北地区(黑龙江、吉林、辽宁)、华东地区(山东、江苏、安徽、上海、浙江、福建、江西)、华北地区(北京、天津、内蒙古、山西、河北)、华中地区(河南、湖北、湖南)、华南地区(广西、广东、海南)、西南地区(西藏、四川、贵州、重庆、云南)和西北地区(新疆、青海、甘肃、宁夏、陕西)。我国台湾、香港和澳门地区数据不在本研究分析范围内。
粗集方法适合处理离散值属性,通常需要对连续值属性进行离散化处理。统计各个变量的直方图,用自然断点法等分别将23个属性分为4个级别,例如,将人均生产总值分为:低(0.00~37 451.93)、中(37 451.94~63 587.03)、较高(63 587.04~81 824.90)、高(81 824.91~107 960.00);国民体质综合指数按照几何分割法分为:低(0.00~97.90)、中(97.91~102.78)、较 高(102.79~103.03)、高(103.04~107.91)等。
3)并不是每个决策信息系统中的条件属性都和决策属性密切相关,因此需要对条件属性进行属性提取。应用MATLAB软件编程实现基于遗传算法的国民体质影响因素决策表属性约简,得到影响国民体质健康的核心条件属性。检查各条件属性值去掉后是否会改变决策结果,若不改变,则该属性值是多余的,可以删去。经属性简约后产生的知识规则也保留了针对国民体质综合指数的有效知识规则。
4)运用SPSS软件中的回归分析方法,分析关键影响因素对国民体质综合指数的影响程度,定义P<0.05为差异具有显著性。
应用探索性数据分析方法,绘制散点图,分析人均生产总值、公交车数量、年平均湿度、全年日照时数等影响因素与国民体质综合指数之间的关系(图1为部分散点图)。从原始决策表和散点图中,只能发现各影响因素与国民体质之间的总体趋势。人均生产总值、公交车数量、年平均湿度等指标与国民体质综合指数均呈现正相关关系,并且跨度比较大;全年日照时数与国民体质综合指数的关系不明显;其他指标的散点图也很难观察出它们与国民体质综合指数之间的相关关系。传统的统计方法很难描述其中的规律,需应用粗集方法使决策表约简后再进一步分析。
图1 部分条件属性和国民体质综合指数的散点图Figure 1.Scatter Chart of Some Condition Attributes and National Physical Comprehensive Index
应用MATLAB软件编程实现基于粗集方法的属性简约,计算结果可知,由于正区域的基数(元素个数)均小于论域的基数31,γ=-6.515 0,即不存在依赖度γ值为1的依赖关系,因此决策表是不一致的。选取遗传算法的交叉概率Pc=0.7,变异概率Pm=0.01,得到最优解为r=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1]即C=[c2 c15 c18 c21 c23],指标代码如表1所示,得到简约后的决策规则(表2)。结果发现,在23个指标中,影响国民体质水平的主要因素是人均生产总值、等级教练员人数、公交车数量、年平均湿度和全年日照时数。
表2 泛化的全国经济自然数据属性表Table 2 Generalized National Economic Natural Data Properties
再根据定义5计算条件属性核值:C={c2 c15 c18 c21 c23},得到core(人均生产总值)={10,19},core(等级教练员人数)={3,7,16,31},core(年末公交车数量)={1,2,6,15,16,27},core(年平均湿度)={3,14,17,20},core(全年日照时数)={7,8,27}(数字为表2中各省的编号),使决策表精练,保留用于决策的关键行。例如,甘肃、青海、宁夏、新疆等省份,去掉全年日照时数和人均生产总值,都不影响将国民体质综合指数决策为“低”,因此将这几个地区的两个属性值都去掉。去掉所有多余属性值并将相同记录合并,得到最终简化决策表(表3)。
结果发现,我国国民体质呈现东高西低分布态势,华南地区国民体质水平高,华东地区国民体质水平较高(表3简约后,华南和华东均合并为一条记录),尤其是上海、广东、浙江等沿海省市;华北和东北地区国民体质水平较为多样化(简约后保留多条记录),北京和辽宁的国民体质水平较高,公交车数量对这两个地区影响更大,吉林、天津、山西等地的国民体质水平中等,河北、黑龙江的国民体质水平较低;华中地区国民体质水平基本为中等,年平均湿度对华中地区国民体质水平影响较大;西北地区整体国民体质水平较差。
表3 最终简化的决策表Table 3 Finally Simplified Decision
分别以人均生产总值、年平均湿度、公交车数量、全年日照时数、等级教练员人数等5个变量为自变量,以国民体质综合指数为因变量进行回归分析(表4),并对回归系数做了t检验,5个变量均通过了5%的显著性检验,人均生产总值的标准化系数(0.515)>年平均湿度(0.450)>公交车数量(0.227)>全年日照时数(0.203)>等级教练员人数(0.162)。结果表明,现阶段区域经济是影响一个地区国民体质的重要因素。全年日照时数、年平均湿度等自然因素是影响国民体质的重要自然环境因素,日照时间较长的地区居民体质水平较高。年平均湿度对国民体质的影响略小于经济因素,年平均湿度较高的地区人民体质水平较高。西北地区居民体质水平较差,这一现象可能是由多种因素造成的,包括自然环境因素、经济因素和社会发展因素等。
表4 回归系数估计值表Table 4 Table of Regression Coefficient Estimates
我国地域辽阔,各个省份的自然、经济、社会条件差异显著,形成了区域发展不均衡现象。国民体质健康状况也同样存在区域不均衡现象。本研究使用探索性数据分析方法、粗集方法和遗传算法系统地研究经济、自然环境等因素与国民体质健康之间的关系。主要解决两个问题:1)揭示地理空间对国民体质健康的影响;2)分析影响国民体质健康的主要经济和自然环境因素。
现阶段,区域经济是影响一个地区国民体质的重要因素,人均生产总值高或较高的华东和华南地区国民体质综合水平较高。相关研究也有类似发现,经济发展水平、公共卫生支出等是影响中国居民健康水平时空分布的关键因素(齐良书,2008;杜本峰 等,2013;赵雪雁 等,2017)。经济水平影响了生活环境、教育程度、摄入营养、体育锻炼、消费观念等因素,这些都与一个地区的人均收入状况相关。在不同的经济发展时期,社会经济对国民体质的影响是不同的,经过多年的经济高速增长,我国经济已经发生了翻天覆地的变化,经济发展到一定高度后对体质的影响作用逐渐减小(胡利军等,2005)。2014年国民体质综合指数比2010年增长了0.15,全国有12个省(自治区、直辖市)的国民体质水平有所提高,国民体质提高说明该地区居民的生活态度发生了变化,也可以反过来促进一个地区社会经济的发展(齐良书,2008;王新军等,2012)。
社会发展指标与国民体质综合指数存在一定关系。本文应用粗集方法和遗传算法分析发现,影响区域国民体质健康的社会发展因素主要包括公交车数量和等级教练员人数。公交车数量反映了区域人口密度和交通条件等城镇化发展水平,以及区域提供公共服务的发展水平。城镇化率高,意味着经济社会较发达,人们有意识、有时间进行体育锻炼,居民体质健康水平也就越高,即城市化率越高,居民体质就越强(Van de Poel et al,2012;程明梅等,2015)。本研究所得出的社会因素对国民体质的影响与他人研究结果一致(胡利军等,2005;尹小俭等,2008;卢福玲,2014)。杨振等(2018)研究发现,健康基础、社会发展、医疗资源3个指标对区域健康水平的影响作用相对较强。公共服务发展水平高的区域,医疗卫生服务提供相对充足,人们更有机会享受到医疗卫生服务,体质健康水平也就相对较高。等级运动员、等级教练员数量反映了一个地区的可持续体育发展水平。21世纪以来,我国国家级和高级教练员人数比例增加,表明我国教练员队伍正逐步由高速度发展向高质量发展转变(国家体育总局人事司,2019)。从研究结果看,等级教练员数量是影响一个地区国民体质健康的重要因素。这说明一个地区的竞技体育发展水平与国民体质健康水平存在相关性,竞技体育的快速发展能够带动全民健身的热情,提高全民身体素质。
体质健康与自然环境有着密不可分的关系。随着社会发展,自然环境在不断改变着人类的生产方式和行为方式,平衡人与环境的物质与能量交换。本研究发现,在众多自然环境因素中,影响体质健康的两个重要因素是年平均湿度和全年日照时数,研究结果同已有研究一致(卢福玲,2014)。年平均湿度在合理范围内越高,对应的国民体质健康水平就越高,例如,年平均湿度较高的华中、华南地区人民体质水平较高。但湿度超过一定范围,对应的国民体质健康水平则呈现相反的趋势,比如平均湿度大于70%的西南部地区,其国民体质水平较一般。湿度影响人体形态,在湿度较大的地区,人体不易排汗,且热量散发慢,需要增加单位面积能量散失,降低体表面积,因此人的体型较小;反之,湿度较小地区的居民一般体型高大。湿度也影响身体素质,60%的湿度可以使人体能量消耗增大,有利于保持运动的灵敏性和爆发力。但是,当湿度低于30%或高于70%,相关身体指标明显下降,人们更容易烦躁,易导致运动损伤,也更容易放弃运动锻炼。全年日照时数与国民体质健康也密切相关,本研究表明,日照时数高的区域对应的国民体质健康水平相对较高。日照通过皮肤和视觉器官影响高级神经系统,可以使体温、内分泌等生理机能节律性发生改变,并且可以通过日照时数、纬度来推测身高和体重。
本研究表明,西北地区国民体质健康水平偏低。在决策表不断简约过程中,去除西北地区全年日照时数和人均生产总值等属性,国民体质状况依然为“低”,表明西北地区国民体质健康状况偏低不是由某一项指标决定的,而与经济社会发展水平、自然环境等多种因素都有一定相关性。
西北地区位于我国平均海拔最高的区域,地理环境和气候条件与东部和中部地区有着巨大差别。高海拔地区低温低氧、气候干旱、降水量少、空气湿度低等特点明显,不利于运动锻炼。虽然改革开放以来,西北地区经济得到了很大发展,人民生活水平显著提高,但是经济增长仍然缓慢,发展相对滞后。西北地区公共服务不足,可能无法提供充足的体育公共服务以满足人们的体育锻炼需求,人们只能进行具有地域和民族特点的体育项目。随着西北地区的经济发展,环境破坏问题也暴露出来。这些因素共同导致西北地区国民体质健康水平的偏低,因此,改善西北地区居民体质状况应该从多方面入手,包括改善生态环境、加大公共服务投入、加快经济发展、发展教育事业、加快城镇化进程等。
综上所述,现阶段我国地理空间、经济、社会和自然因素对国民体质水平都有一定影响。限于数据可获得性,本文仅选取国民体质综合指数表征居民的健康水平,但居民健康水平具有多维度,未来需进一步探索反映居民健康水平的指标,包括传染病发病率、围产儿死亡率等(赵雪雁等,2017),今后还应该增加其他环境因素对国民体质的影响研究,如海拔高度、森林覆盖率、空气质量等(李纪江等,2010;王鲁峰,2016)。后续研究还需进一步丰富相关数据,用科学的方法研究影响国民体质水平的因素,这对于研究我国国民体质健康水平地域分布特征有着重要的意义。
1)我国国民体质呈现东高西低区域分布特征,其中辽宁、上海、浙江、广东等地国民体质提升幅度最大。2)区域经济是影响一个地区国民体质健康的重要因素,人均生产总值高的华东地区和较高的华南地区国民体质综合水平较高。3)区域社会因素中,公交车数量和等级教练员人数对区域国民体质健康有一定影响,如东北和华北地区,公交车数量对国民体质影响较大。4)区域自然环境因素,如全年日照时数、年平均湿度等指标是影响国民体质健康的重要因素。5)西北地区国民体质健康状况偏低可能是由多种因素造成的,包括自然环境因素、经济因素和社会发展等,改善西北地区人们体质状况应该从这些方面入手。