林 瑜
(福建体育职业技术学院 福建福州 350002)
随着经济的高速发展与生活水平的提高,来自工作、生活等方面的压力与日俱增,使得人们更加关注自身心理健康[1]。心理健康是个人积极工作、健康生活的重要前提[2]。2017年《中国城镇居民心理健康白皮书》显示,73.6%的城镇居民处于心理亚健康状态,心理健康的居民仅有10.3%。体育锻炼作为一种健康投资行为,对心理健康的促进作用被众多学者得到验证并认可[3-5]。值得注意的是,随着因果推断成为“新的学科前沿”,有学者指出相较于经济学、管理学等其他学科,当前关于体育锻炼与健康的研究多处于统计相关性的描述阶段以及传统的回归分析,基于因果推断的解释能力不足,忽略了体育锻炼与健康水平之间可能存在的遗漏变量偏差、联动性偏差和样本选择性偏差等内生性问题以及武断假设因果关系的单一路径等问题[6-7],从而导致研究结果可能存在偏误。
鉴于现有文献忽略了体育锻炼与心理健康可能存在的双向因果关系等内生性问题,以及研究对象多为老年人、大学生等特定群体,不具有全国代表性[8],本文借助2018年中国家庭追踪调查数据(CFPS2018),利用全国性的样本数据,首先采用传统OLS回归模型探究体育锻炼对心理健康所产生影响的基础上,进一步运用工具变量法和倾向得分匹配法消除联动性偏差和样本选择偏差问题对传统统计估计结果的影响,探究体育锻炼对心理健康的因果关系。旨在更加准确、客观地验证体育锻炼对心理健康的影响,使研究结果更具真实性和推广意义,进一步发挥体育锻炼的潜能,为满足人民日益增长的美好生活需求贡献力量。
本研究使用数据来自2018年中国家庭追踪调查(CFPS),CFPS是由北京大学中国社会科学调查中心进行的一项全国性、大规模的涉及经济、教育、家庭关系、健康等的家庭进户跟踪调查项目。其分层多阶段的抽样设计,使样本几乎可以代表95%左右的中国人口,该调查具有很好的可信度和真实性,已被学者广泛用于众多领域的相关研究[9]。在剔除本研究所涉及变量缺失值、不确定回答的样本后,共获得27034个有效样本。
被解释变量:心理健康(Mental Health)。为了更加客观、全面地评价个体的心理健康状况,参考陈梓森[10]的心理健康指数的测算方法,在CFPS调查中选取“我感到情绪很低落的频率”“我觉得做任何事都很费劲的频率”“我感到孤独的频率”“我感到悲伤难过的频率”“我觉得生活无法继续的频率”5个变量,其中各选项赋值为:几乎没有(<1 d)=1、有些时候(1~2 d)=2、经常有(3~4 d)=3、大多数时候有(5~7 d)=4。通过测算5个变量标准分的均等加权总和,得出最终的心理健康指数,具体公式如下:
(1)
公式(1)中,MentalHealthi表示个体的心理健康指数,xij为每个变量的个体数据,μj和σj分别为该变量整体的平均值和标准差。由此测算出的心理健康指数为-3.6243~17.6323,当心理健康指数越高,则表示个体心理健康状况越差,反之,则越好。
解释变量:体育锻炼频率(Freq)、体育锻炼时间(Time)、是否经常体育锻炼(PA)。考虑到在CFPS问卷中,关于体育锻炼的情况的调查包括锻炼频率、锻炼时间两个方面,措辞分别是“过去一周,锻炼了几次?”和“过去一周,总共锻炼了多长时间?”因此,在进行OLS模型探究体育锻炼对心理健康水平的影响时,选取体育锻炼频率(Freq)、体育锻炼时间(Time)、是否经常体育锻炼(PA)作为解释变量。在工具变量法和倾向得分匹配法的分析时,选取是否经常体育锻炼(PA)为解释变量。参考王富百慧[11]对是否经常参加体育锻炼的划分,将一周锻炼不少于3次,每次锻炼时间不少于30 min的人群确定为经常参加体育锻炼组,反之,则为不经常参加体育锻炼组。
控制变量:为了更好地解决因为遗漏变量导致的选择性偏误问题,本研究尽可能多地选择既影响个体体育锻炼又影响心理健康的控制变量。主要包括性别(Sex)、年龄(Age)、户籍(Hukou)、受教育水平(Edu)、婚姻状况(Mar)、医疗保险(Bx)、吸烟(Smo)、饮酒(Dri)、收入(LnIncome)等变量。
工具变量:家庭体育锻炼氛围。适宜的工具变量需要满足与内生解释变量强相关且与扰动项不相关,即所选取的工具变量需要对个体参与体育锻炼具有直接的影响关系,但是对个体的心理健康水平又不具有直接的影响。鉴于此,参考程郑权[7]关于体育锻炼对收入水平影响研究中工具变量的选取,确定家庭体育锻炼氛围为本研究工具变量。在CFPS问卷中,通过计算家庭中除研究个体外的调查成员中经常参加体育锻炼的比例作为家庭体育锻炼氛围的衡量指标。
表1为主要变量的描述性统计,从数据可以看出,所选样本中平均每周锻炼次数为2.5888次,每周锻炼时长为4.1695 h,经常参加体育锻炼的人群占比37.7%,家庭中除研究个体外的调查成员经常参加体育锻炼的比例为19.52%,其中经常锻炼组中的家庭体育锻炼氛围比不经常锻炼组高出近10个百分点,且由两阶段估计模型中的第一阶段回归结果可知,家庭体育锻炼氛围与个体是否经常锻炼之间具有较强的相关性,即家庭体育锻炼氛围对个体经常参加体育锻炼会产生显著影响作用。
表1 主要变量测量方法及描述性统计
为了检验体育锻炼频率、体育锻炼时间对心理健康的影响及可能存在的非线性关系,建立如下模型:
(2)
(3)
在公式(2)和(3)中,MentalHealth表示心理健康,Time为体育锻炼时间,Time2为体育锻炼时间的平方项,Freq为体育锻炼频率,Freq2为体育锻炼频率的平方项,Control为一系列控制变量,ε为残差项。
由于上述模型在探究体育锻炼对心理健康的影响作用结果中可能仅是相关关系而非因果关系,忽略了内生性、反向因果等问题对研究结果造成的偏误。因此,在上述模型的基础上,本研究采用工具变量法和倾向得分匹配法进一步考察体育锻炼对个体心理健康的影响。
工具变量法是通过寻找工具变量,采用两阶段估计获得无偏的参数估计,进而获得内生变量对被解释变量影响的一致估计。具体模型如下:
(4)
(5)
在公式(4)中,PA是因变量,ExercsieRate是PA的工具变量,即家庭体育锻炼氛围。公式(5)中PA’是第一阶段中PA的预测值,Control为控制变量,ε为残差项。
考虑到将研究样本分为经常体育锻炼组和不经常体育锻炼组进行分析时,两组样本间的可观测值可能存在较大差异,会产生选择偏差问题。因此,采用倾向匹配得分法进行分析,旨在尽可能的使两组样本的可观测值相似(匹配),减小估计结果偏误,具体可以分为三个步骤。首先,采用Logit模型估计倾向得分,进行倾向得分匹配。其次,根据倾向匹配得分进行平衡性检验。最后,依据匹配后的样本数据再次进行回归分析。
表2分别报告了体育锻炼对心理健康影响的OLS回归和工具变量回归结果。其中,模型1的解释变量为体育锻炼时间,模型3的解释变量为体育锻炼频率,模型2、模型4是在模型1、模型3的基础上分别加入体育锻炼时间的平方项、体育锻炼频率的平方项,进一步探究体育锻炼时间、体育锻炼频率与心理健康之间是否存在非线性关系。从表2中可以看出,体育锻炼时间、体育锻炼频率对心理健康影响的回归系数均为负数,且通过1%统计水平检验,说明体育锻炼时间、体育锻炼频率均能显著改善心理健康水平;从模型2、模型4中体育锻炼时间、体育锻炼频率的平方项回归系数可知,体育锻炼时间、体育锻炼频率与心理健康水平间均存在非线性关系,表现为“U”型曲线关系,即适宜的体育锻炼时间、频率对心理健康具有促进作用,当体育锻炼时间、频率达到一定量后,则对心理健康具有抑制作用。研究表明,在体育锻炼过程中适宜的运动强度,会让人身心放松,消除疲惫,产生愉悦的感觉;相反,当运动强度过大,则会造成肌肉酸痛、精神疲惫等,产生“不舒服”的感觉[12]。由此可见,只有适宜的运动量,才能对心理健康产生促进作用。
模型5的解释变量为是否经常体育锻炼,其对心理健康的回归系数为负数,且通过1%统计水平检验,说明经常参加体育锻炼对心理健康同样具有显著的促进作用。同时,从回归系数可以发现,经常体育锻炼能够使心理健康指数得分减少0.3953,且经常参加体育锻炼对心理健康的影响效应要明显优于仅分析体育锻炼时间或是体育锻炼频率对心理健康的影响效应。
模型6是采用工具变量回归克服内生性问题的分析结果,在第一阶段的回归结果中,工具变量对核心解释变量表现为显著的正向影响作用,说明工具变量和内生变量之间具有强相关性(本研究仅给出第二阶段的回归结果),第一阶段回归结果的F值为253.47,大于10,说明二阶段模型不存在弱工具变量现象,家庭体育锻炼氛围是一个好的工具变量;其次对内生性进行豪斯曼检验,豪斯曼结果通过1%统计水平检验,说明是否经常体育锻炼作为内生解释变量存在内生性问题,需要使用工具变量进行无偏估计,进行二阶段回归可以得到有效估计。从模型6结果可知,在使用工具变量调整估计偏误后,经常体育锻炼对心理健康的影响仍表现为负向显著,回归系数高达-1.9021。对比模型5和模型6的结果可知,工具变量法的估计结果是OLS估计结果的3倍以上,说明OLS估计存在较大的偏误。
由此可以得出结论,虽然使用传统统计分析方法和工具变量法探究体育锻炼对心理健康的影响时,均表现为体育锻炼对心理健康具有促进作用,但由于传统统计分析方法忽略了可能存在的内生性问题,因此弱化了体育锻炼对心理健康的促进效应,而工具变量法能够较准确、真实地反映出体育锻炼对心理健康的促进效应。
为了消除可能存在的样本选取偏差问题,进一步采用倾向得分匹配法估计是否经常体育锻炼对心理健康的影响。首先,运用Logit模型计算倾向得分值,其中被解释变量为是否经常体育锻炼,解释变量为本研究所选取的一系列控制变量。从表3中可知,各变量对是否经常体育锻炼表现为显著的影响作用,说明各控制变量在经常锻炼和不经常锻炼样本之间存在明显差异,有必要对样本进行倾向得分匹配。
表3 Logit回归结果
表4是经常锻炼组和不经常锻炼组匹配前和匹配后的平衡性检验结果。由表4可知,在匹配后两组间各控制变量的值均发生了一定程度的变化,除收入水平的偏误率为11.6%,其余变量的偏误率均在5%的范围内,整体来看,倾向得分匹配的结果有效。
表4 倾向得分匹配平衡性检验
在表5中,模型7、模型8是在倾向匹配后,分别采用OLS模型和工具变量法探究是否经常参加体育锻炼对心理健康的影响作用。从结果可知,在消除了由于经常锻炼组和不经常锻炼组可观测值差异而产生的选择性偏差后,经常体育锻炼对心理健康依然表现为具有显著的促进作用,且在工具变量法的模型估计中,同样验证了家庭锻炼氛围是一个好的工具变量,且有必要采用工具变量进行无偏估计。研究结果也表明,在经常体育锻炼对心理健康促进效应的分析中,相较传统统计分析方法,使用工具变量法能够更加准确地反映体育锻炼对心理健康的促进效应。
表5 倾向匹配法下体育锻炼对心理健康的影响
本文利用2018年CFPS数据,运用普通最小二乘法、工具变量法和倾向匹配得分法,探究体育锻炼对心理健康水平的影响,主要结论如下:(1)所选样本中,经常体育锻炼人群的占比为37.7%,说明经常体育锻炼的人群占比尚存在较大的提升空间;(2)体育锻炼时间、体育锻炼频率均可对心理健康产生促进作用,且表现为“U”型非线性关系,即体育锻炼时间、体育锻炼频率对心理健康表现为先促进后抑制的作用关系;(3)经常参加体育锻炼对心理健康水平的促进作用明显优于仅关注锻炼时间或锻炼频率所产生的作用;(4)在使用工具变量法和倾向匹配得分法解决可能存在的遗漏变量问题、体育锻炼与心理健康的反向因果以及样本选择偏差等问题后,体育锻炼对心理健康的促进作用明显提高。