葛福婷,张秀,王家豪,朱家明
(1.安徽财经大学 统计与应用数学学院,安徽 蚌埠 233030;2.安徽财经大学 金融学院,安徽 蚌埠 233030)
基于层次分析法的吸烟者戒烟影响因素研究
葛福婷1,张秀1,王家豪2,朱家明1
(1.安徽财经大学 统计与应用数学学院,安徽 蚌埠 233030;2.安徽财经大学 金融学院,安徽 蚌埠 233030)
针对吸烟者戒烟成功的影响因素研究,运用MATLAB、SPSS、STATA等软件编程,分别构建频率分布、独立性检验和层次分析模型,得到吸烟者的戒烟意愿,各因素影响下再吸烟者的累加发病率分布状况,CO浓度、距离抽最后一只烟的分钟数、每日抽烟只数为影响戒烟成功的主要因素等结论,从而对吸烟者采取有针对性的措施促进戒烟.
戒烟;独立性检验;层次分析法;White异方差检验;RESET检验;MATLAB; STATA; SPSS
众所周知,吸烟不仅危害自身健康,而且由此引起的被动吸烟更是危害公众身心健康的主要原因.为此,如何帮助相关人士摆脱烟瘾的困扰也就成为一个重要的研究课题.探讨影响吸烟的危险因素以及吸烟者戒烟意愿的影响因素,从而为发展戒烟的策略和方法提供理论依据[1],具有重要的理论和现实意义.
数据源于2015年安徽财经大学数学建模暑期第一次模拟B题中234位参与调查的烟民1年间的相关统计数据[2].为便于解决问题,提出如下假设:(1)研究期间各因素对戒烟成功者毫无影响;(2)戒烟天数除研究给出的6个因素外,不受其它因素的影响;(3)所给的数据真实、可靠;(4) 原烟民戒烟的可信度是很低的(即再犯者),戒烟天数是从0到他(她)退出戒烟或研究截止时间(1 年)的天数;(5) 参与戒烟研究的烟民中途均未退出;(6)存在人为修改的数据,修改幅度较小.
2.1 研究思路
我们研究的是234名吸烟患者中再次吸烟的累加发病率分布情况.通过直观判断,我们发现存在数据的部分缺失,为了保证研究数据的完整性和可靠性,运用SPSS软件弥补缺失值.首先,用戒烟失败人数(即少于一年戒烟天数的人数)与总调查人数的比值来表示累加发病率,得到总体再抽烟的累加发病率状况,侧面反映戒烟意愿[3];然后,对研究的6大影响因素分阶段分析各影响因素下的累加发病率分布状况;最后,综合上述分析,整体上直观全面地得到各因素下吸烟患者再吸烟的累加发病率分布状况、戒烟意愿,得到初步规律,为下文定量研究影响戒烟成功的主要因素提供理论基础.
2.2 研究方法
(1)可能影响戒烟的影响因素
根据已有研究数据,确定对戒烟可能存在影响的6种因素:性别、年龄、每日抽烟数、CO浓度、距离抽最后一支烟的分钟数和调整后CO浓度.出于研究方便,下文仅研究这6种因素.
(2)弥补缺失值
将研究数据全部导入SPSS软件,编辑易知所给数据缺失率为0.0446,缺失率较小,故SPSS软件就可以满足数据的可靠填充,可使用“线性趋势法”进行补充[4].鉴于数据过多,这里不再赘述.
(3)累加发病率分布
(1)
根据公式(1),并用数理统计的方法统计总体戒烟的累计发病率,见表1.
表1 总体再抽烟的累加发病率状况
由表1易知,总体再抽烟的累加发病率为85.90%,即绝大多数戒烟人士人很难坚持365d,但具体何种因素如何具体来影响累加发病率,仍需要进一步研究.结合频率分布模型,下面通过不同性别、年龄、每日抽烟数、CO浓度、距离抽最后一支烟的分钟数和调整后CO浓度情况下对累加发病率进行比较和分析.
①性别
根据不同性别对吸烟者再抽烟的累加发病率影响进行统计,结果见表2.
表2 不同性别影响下累加发病率分布表
由表2可知,不同性别对再次吸烟的累加发病率的影响差别不是很大.男性的累加发病率为84.40%,而女性的累加发病率87.10%,总体来说女性的发病率略高于男性2.7%.
②年龄
通过对数据分析,易知调查对象的年龄跨度为21-76岁,结合相关实际及理论研究,我们将调查对象的年龄划分为3个阶段:青年人(20-44岁),中年人(45-59岁),老年人(60-80岁),统计可得不同年龄阶段再次发病时的累加发病率分布状况,见表3.
表3 不同年龄影响下累加发病率分布表
由表3知,45-59岁的中年人的发病率最高,高达88.89%;其次是20-44岁的青年人,发病率达到86.43%;最低的是年龄段60-80岁的老年人,虽然最低但也高达72.73%.总的而言,抽烟的发病率都偏高,中年人戒烟难度最大,这与自身的约束力及累计烟龄大小应有很大的关系.
③每日抽烟数
通过对数据分析,易知每日抽烟数的数量跨度为2-90支,人为地将每日抽烟数划分为5个阶段:0-20,21-40,41-60,61-80,81-100,分别求出各阶段下的累加发病率,结果见表4.
表4 不同每日抽烟数影响下累加发病率分布表
由表4知,每日抽烟数为41-60的调查人群再抽烟的累加发病率最高,高达93.33%;其次是每日抽烟数为0-20及21-40的调查人群,再抽烟的累加发病率达到87.04%、85.32%;每次抽烟人数为61-80及81-100的调查人群再抽烟的累加发病率最低,近似为0.综合而言,每日抽烟数在60支以上的人在少数具有偶然性,在分析时可适当忽略,剔除这种状况,每日抽烟数与累加发病率成正比.
④CO浓度
通过对数据的分析,并结合EXCEL作出CO浓度与戒烟天数的散点图分析,CO的浓度跨度为40-990,将CO浓度划分为5个阶段:0-200,201-400,401-600,601-800,801-1000.再计算出各阶段CO浓度下的累计发病率,见表5.
表5 不同CO浓度影响下累加发病率分布表
由表5易知,调查人群中再抽烟的累加发病率是随着CO浓度(即吸烟多年累计的CO浓度,反应为吸烟患者的烟龄和吸烟总量)的增加而递增的,总体呈现较高的累加发病率,当CO浓度达到600以上时吸烟者必然会再次吸烟.
⑤距离抽最后一支烟的分钟数
根据已有相关数据,作出距离抽最后一支烟的分钟数与戒烟天数的散点图,如图1所示.可知距离抽最后一支烟的分钟数对累加发病率的影响并没有很强趋势的关系,即它对调查对象再抽烟的累加发病率分布没有形象化的规律.
图1 距离抽最后一支烟的分钟数与戒烟天数散点图 图2 调整的CO浓度与戒烟天数散点图
⑥调整的CO浓度因素的影响
作出调整的CO浓度与戒烟天数的散点图,如图2所示.可知不同的CO浓度下戒烟天数分布的相对有一定的规律,人为将调整的CO浓度分为6个阶段:0-1150,1151-1300,1301-1450,1451-1600,1601-1750,1751-2000.计算出不同阶段调整的CO浓度下再吸烟者的累加发病率,见表6.
表6 不同调整CO浓度影响下累加发病率分布表
由图、表易知,总体而言,再抽烟的累加发病率随着调整后的CO浓度的升高而增加,且累加发病率是偏高的.
2.3 结果分析
综上分析,易知总体上吸烟患者再吸烟的累加发病率是偏高的,高达85.90%,也即被调查者中85.90%的吸烟患者戒烟是不成功的.概括其它6种影响因素下的累加发病率分布:吸烟患者再吸烟的概率偏高,达80%以上,女性患者较男性发病率略偏高;45-59岁的中年人的发病率最高,高达88.89%;剔除每日抽烟数在60支以上的少数患者,每日抽烟数与累加发病率成正比;一定范围内,累加发病率同CO浓度和调整后的CO浓度成正比;此外,累加发病率同距离抽最后一支烟的分钟数并无明显的规律性关系.
3.1 研究思路
我们要研究的是判断年龄、性别、每日抽烟支数及调整的CO浓度等因素对戒烟时间长短的影响,并对可能影响戒烟时间长短的因素进行定量分析.首先,我们对可能影响再抽烟的累加发病率的因素进行编号,并用MATLAB对各因素对累加发病率的显著性作初始化的数据处理,得出各因素对戒烟时间有无显著性影响的初始结论;其次,依据上述结果,就影响戒烟时间长短的各因素作进一步的数据分析,拟合出趋势图并量化表示戒烟时间与各影响因素间的关系.最后,归纳总结影响戒烟时间长短的各因素与戒烟时间的关系,以给出定量化的表达.
3.2 研究方法
(1)数据初始化处理
对可能影响戒烟时间长短的因素编号:年龄X1、性别X2、每日抽烟支数X3、CO浓度X4、距离抽最后一支烟分钟数X5及调整的CO浓度X6,戒烟天数为Y.运用MATLAB编程[5],对各因素与戒烟时间的相关性与显著性进行检验,结果整理后见表7.
表7 各因素与戒烟时间的相关性及显著性检验
通过表7,我们可直观地看出:在5%的显著性水平下,年龄及每日抽烟只数与戒烟时间无关,性别及调整CO浓度对戒烟时间关系不太显著,而CO浓度以及距离抽最后一支烟分钟数对戒烟时间显著相关.但在多变量数据的相关性和回归性分析的情况下,仅由计算出来的P<0.05来判断结果无效而被拒绝接受的水平的选择具有武断性.故为了更真实地反映戒烟时间是否与各因素存在关系,对各因素作进一步的分析判断.
(2)戒烟时间与可能的影响因素定量分析
通过简单的判断,我们知道戒烟时间为365 d的调查对象即戒烟成功[6],对相应的各因素不存在影响,故我们剔除掉戒烟时间为365 d对应的极端数据,进一步做定量分析.
①年龄因素的影响
首先用EXCEL做出戒烟天数与年龄Y-X1的回归曲线,如图3所示,并拟合趋势线的回归函数:
R2>0.9,可决系数较高,即Y-X1间的回归函数是可靠的.
图3 戒烟天数与年龄关系图 图4 戒烟天数与性别关系图
②性别因素的影响
同理作出戒烟天数与性别的散点图(其中1表示男性,2表示女性),如图4所示,显而易见,女性戒烟天数普遍比男性偏高.
③每日抽烟支数因素的影响
作出戒烟天数与每日抽烟支数的散点图,如图5所示.显然每日抽烟支数与戒烟天数关系不明显,通过Excel趋势得出的拟合曲线的可决系数R2太低,所以每日抽烟支数与戒烟天数不相关.
图5 戒烟天数与每日抽烟只数关系图 图6 戒烟天数与CO浓度关系图
④CO浓度因素的影响作出戒烟天数与CO浓度关系的散点图并拟合曲线,如图6所示.从散点图走势和拟合曲线看出CO浓度越高,戒烟天数越低,存在相关性.
y=-30.388lnx4+197.59R2=0.9966
为使拟合结果更有说服力,运用STATA软件,结合独立性检验的方法证明模型的合理性.
i)White异方差检验
原理[7]:假设回归模型为
Yi=β0+β1X1i+β2X2i+ui
(2)
(3)
可以证明,在同方差性假设下,从该辅助回归得到的可决系数和R2与样本容量n的乘积,逐渐地服从自由度为辅助回归得到的解释变量个数的χ2分布:nR2~χ2.则在大样本(n>30,本文n=234)下,对统计量nR2进行相应的χ2检验.
辅助回归是为了检验与解释变量可能的组合的显著性,因此,辅助回归方程还可引入解释变量的更高次方.通过比较p值与给定的显著性水平的关系来判断是否与解释变量的某种组合有显著的相关性,当然,为了证明原定量模型的可靠性结果是不存在异方差的.
运用STATA软件编程,原始模型中戒烟时间y与CO浓度x的普通最小二乘法回归结果:
原始模型进行普通最小二乘回归得到的残差平方项的辅助回归结果:
最后的p值输出结果:Chi2= 3.3576903Prob=0.18658934
在1%的显著性水平下,P>0.01,无法拒绝原假设:模型的误差项存在异方差.说明残差平方和与解释变量不存在显著的相关性,同时证明了原模型变量的设置是可靠的.
ii)RESET检验
基于上述White异方差检验不存在异方差的理论基础,进一步地检验在给定的显著性水平下,模型是否存在设定误差[8].运用STATA编程,运行结果如下:
RamseyRESETtestusingpowersofthefittedvaluesofy
Ho:modelhasnoomittedvariablesF(3, 229) = 0.42Prob>F= 0.7356
在1%的显著性水平下,P=0.7356>0.01,无法拒绝原假设:模型存在设定误差,即在给定的显著性水平下,模型不存在设定误差.
综合White异方差检验和RESET检验的结论,很好地证明了原模型建立的可靠性.
⑤距离抽最后一支烟的分钟数因素的影响
作出戒烟天数与距离抽最后一支烟的分钟数的散点图,如图7所示.
图7 戒烟天数与距离最后一支烟的分钟数关系图 图8 戒烟天数与调整CO浓度关系图
针对图7,我们通过拟合曲线看出大部分数据都聚集在0-200之间,并且趋势也较直观,随着距离抽最后一支烟的分钟数的延长戒烟天数在增加,拟合函数如下:
y=10.729lnx5-13.858R2=0.8499
易知函数拟合结果存在较强的相关性.同理,通过White异方差检验和RESET检验,可进一步证明模型的建立是可靠合理的,这里不再赘述.
⑥调整的CO浓度因素的影响
作出戒烟天数与调整CO浓度的散点图,如图8所示.函数拟合曲线如下:
拟合结果较佳,调整CO浓度越高戒烟天数越低,但是从拟合的曲线可知他们的关系较弱.
由此,我们宏观上了解到戒烟时间与各可能的影响因素间的关系,得到初步的结论,为更明确了解各因素影响大小,我们引入层次分析法[9]着重分析影响戒烟成功与否的主要因素.
(3)影响戒烟成功的主要影响因素分析
i)确定比较判断矩阵
根据上述的层次关系,若计算出方案层对目标层的权重关系首先必须明确准则的比较判断矩阵.
通过查阅资料,得到专家认定影响戒烟成功与否的内、外在因素的比较判断矩阵如下:
即内外在因素之比为0.1∶0.9,内在因素指年龄、性别,外在因素指每日抽烟支数、CO浓度、距离抽最后一支烟分钟数及调整的CO浓度.
ii)确定各因素权重
用变异系数法分别求得内、外在因素各因素权重,具体求法如下:
(4)
其中i=1,2, …,6,分别表示年龄、性别、每日抽烟支数、CO浓度、距离抽最后一支烟分钟数及调整的CO浓度6大因素,j=1,2,…,234分别表示各因素下的234个样本数据.
(5)
(6)
(7)
Step5 运用MATLAB软件编程,得各指标数值分布表,见表8.
表8 变异系数法下内、外在因素各指标数值
iii)确定各因素综合影响权重
建立六行两列的内外在因素权重矩阵,求解方案层相对于目标层的总排序向量:
3.3 结果分析
由上述权重的大小的比较可以得到各指标对戒烟天数的影响有强到弱依次为:距离抽最后一支烟的分钟数,CO浓度,每日抽烟支数,性别,年龄,调整CO浓度,结合85%的主成分权重原则[10](即依据权重从高到低累计,直至累计权重恰好大于85%所确定的因素,即为影响方案层的主成分分数),确定影响戒烟成功的主要因素为:距离抽最后一支烟的分钟数,CO浓度,每日抽烟支数(53.04%+16.77%+15.75%=85.56%>85%),前两个因素客观的反应为烟龄长短和累计抽烟数量.
本文试图从目前研究较少的戒烟影响因素创新,探究影响戒烟的危险因素及吸烟者的戒烟意愿,从而为发展戒烟的策略和方法提供理论依据.基于234名吸烟者参与为期1年的戒烟调查数据,使用SPSS、STATA、MATLAB等软件对数据分析,结果检验采用t检验、White异方差检验和RESET检验,以层次分析法综合多因素分析,筛选得到影响吸烟和有戒烟意愿的吸烟者的主要因素,并探究作用的大小.
基于研究的结果,提出如下建议:在高达85.90%的戒烟率(即累加发病率)下,加强吸烟者的管理,特别针对每日吸烟数多、烟龄长的中年人群,有针对性地采取措施,努力促进更多的吸烟者戒烟.同时,如果对社会经济地位较低人群早期干预,在工作场所严格限烟、禁烟可以降低吸烟率;加强控烟工作包括医务人员的戒烟知识培训、社会媒体、社会和学校的健康教育,加强烟草危害的宣传,会促进吸烟者的戒烟意愿,从而促进戒烟.
[1]林沛茹,何雩霏,张颖,等.吸烟者戒烟的影响因素分析[J].实用医学杂志,2013,29(9):1467-1470.
[2]2015年安徽财经大学暑期数学建模模拟题1.http://zhujm1973.blog.163.com/blog/static/31551355201581832245781/[EB/OL].
[3]刘文燕.吸烟与戒烟意愿及其影响因素的研究[D].湖南:中南大学,2011:11-16.
[4]杨桂元,朱家明.数学建模竞赛优秀论文评析[M].合肥:中国科学技术大学出版社,2013:136-165.
[5]李柏年,吴礼斌.MATLAB数据分析方法[M].北京:机械工程出版社,2014:123-124, 127.
[6]褚成静,张岚,杨彦春.成年男性戒烟失败影响因素分析[J].中国公共卫生,2012,28(1):7-9.
[7]刘明.异方差White检验应用的几个问题[J].统计与信息论坛,2012,27(6):45-48.
[8]韩本三,曹征,黎实.二元选择面板模型的设定检验[J].统计研究,2012,29(7):82-85.
[9]钱军程,饶克勤,高军,等.戒烟与复吸影响因素及戒烟者健康状况分析[J].中国卫生统计,2009,26(2):150-153.
[10]杨桂元.数学建模[M].上海:上海财经大学出版社,2015:157-169.
[责任编辑:王 军]
Research on the influencing factors for smokers to quit smoking from the perspective of analytic hierarchy process
GE Futing1,ZHANG Xiu1,WANG Jiahao2,ZHU Jiaming1
(1.School of Statistics and Applied Mathematics, Anhui University of Finance and Economics, Bengbu 233030, China; 2.School of Finance, Anhui University of Finance and Economics, Bengbu 233030, China)
Since there exists the influence factors of success to quit smoking, this paper, by applying the method of frequency distribution, independence test and analytic hierarchy process, comprehensively analyses the quitting smoking will to smokers, the accumulative incidence distribution to smokers again, and main influence the successfully quit smoking factors including carbon monoxide concentration, distance number of minutes of the last cigarette, and number of daily smoking through the software of MATLAB, STATA and SPSS.
quit smoking; independence test; analytic hierarchy process; white heteroscedasticity testing; RESET inspection; MATLAB; STATA; SPSS
2016-04-16
国家自然科学基金资助项目(11301001);安徽省创新创业项目(AH201410378258)
葛福婷(1995—),女,安徽舒城人,安徽财经大学在读本科生,主要从事经济统计的研究.
朱家明(1973—),男,安徽泗县人,安徽财经大学副教授,硕士,主要从事应用数学与数学建模的研究.
O242.29
A
1672-3600(2017)06-0005-08