广州市灰霾致肺癌的因果性分析

2016-12-13 05:11刘晓雪胡三清
关键词:灰霾阶数格兰杰

刘晓雪,胡三清

(杭州电子科技大学计算机学院,浙江 杭州 310018)



广州市灰霾致肺癌的因果性分析

刘晓雪,胡三清

(杭州电子科技大学计算机学院,浙江 杭州 310018)

以广州市为例,研究了灰霾与肺癌的因果性问题,并进一步确定了肺癌的死亡率与灰霾的滞后关系.首先,构建灰霾与肺癌死亡率的线性回归模型;然后,通过计算两个变量之间的格兰杰因果关系值以及新型因果关系值确定两变量是否存在因果关系,再对所求得的因果关系值进行显著性检验;最后,计算不同滞后项的值大小,通过比较不同滞后项所占的比例大小来确定肺癌与灰霾之间的滞后关系.该回归模型的建立与因果关系分析方法的应用证实了灰霾是导致肺癌的死亡率上升的一个重要原因,平均而言肺癌死亡率与灰霾存在8年的因果滞后关系.

新型因果关系;格兰杰因果关系;肺癌;灰霾;大气污染

0 引 言

随着经济的快速发展,中国以及世界各国都遭受着严重的环境污染,比如霾污染.肺癌作为全球发病率最高的恶性肿瘤之一,其发病率呈现持续上升的趋势.目前,对于灰霾和肺癌的研究仅仅停留在两者的相关性上.格兰杰因果关系法[1]是目前最普遍的一种计算因果关系的方法.文献[2]指出了格兰杰因果关系的不足并且提出了新型因果关系的概念.文献[3-4]用大量的实例证实了新型因果关系法比经典的格兰杰因果关系法更能准确地揭示真实的因果关系.本文根据广州市气溶胶光学消光系数(Aerosol Optical Extinction Coefficients,AEC)的历年变化趋势以及广州市的肺癌死亡率变化趋势[5],建立了气溶胶光学消光系数与肺癌死亡率的线性回归模型,运用因果关系的方法,得出灰霾严重程度是导致肺癌的一个重要外部因果原因.

1 数据分析方法与结果

1.1 实验数据

文献[5]对广州市历年的气溶胶光学消光系数和肺癌死亡率进行了长期的统计.气溶胶光学消光系数是通过在广州市的大气能见度的常规观测中得到的,由于肺癌的发生需要长时间暴露在细小颗粒物上,气溶胶的快速变化水平对疾病没有显著的影响,所以对气溶胶进行10年滑动平均的处理.根据文献[5]的研究成果,本文运用Getdata graph Digitizer软件[6],提取得到广州市历年的气溶胶光学消光系数AEC的变化趋势图以及历年肺癌的死亡率变化趋势图,如图1所示.

从图1可以看出,肺癌的死亡率与气溶胶光学消光系数存在一个明显的滞后期.所以肺癌的死亡率与气溶胶光学消光系数之间存在一定的滞后关系.

图1 历年AEC变化趋势与肺癌死亡率变化趋势的关系图

1.2 格兰杰因果关系与新型因果关系

格兰杰因果关系可以简要地概括为:考虑2个时间序列X1,t,X2,t,当X2,t之前的值提高了预测X1,t序列当前值的准确性,那么X2,t对X1,t就有因果关系.自回归模型表示为:

(1)

其中,a11,j,a22,j表示自回归模型的系数,m表示模型的阶数,t的取值为1~N,N为样本的容量,ε1,t,ε2,t为误差项,Σ1,Γ1表示误差项的方差.此时误差项大小取决于X1,t和X2,t的自身过去值.联合回归模型表示为:

(2)

其中,a11,j,a12,j,a21,j,a22,j表示联合回归模型的系数,m表示模型的阶数,t的取值为1到N,N为样本容量,η1,t,η2,t是预测误差,Σ2,Γ2表示误差项的方差.格兰杰因果关系表示为:

(3)

(4)

如果Σ2<Σ1,那么X2对X1就有因果关系,也就是说X2的加入使得对X1的预测更加的准确;如果Σ2=Σ1,那么就说明X2对X1不存在因果关系.同理可得X1对X2是否存在因果关系.从格兰杰因果关系定义的式子中可以看出,格兰杰因果关系只与误差项有关,而与联合回归模型的系数(部分系数无关,比如a11,j,更详细的解析参见文献[2-3]).

(5)

同理可得X1对X2的新型因果关系:

(6)

1.3 线性回归模型的阶数选择

常用回归模型的阶数选择准则很多,本文主要应用赤池信息准则(Akaike Information Criterion,AIC)[7].具体函数表示为:

(7)

其中,N表示时间序列的全部样本点数,m是模型的滞后阶数,n是构成回归模型的变量的个数,Σ则表示协方差矩阵.AIC(m)是一个关于阶数m的离散函数,最优阶数应该使得函数值最小.阶数m的选取采取Schwart推荐的方法[8],m的最大值是12(T/100)0.25(T表示样本的容量),计算得m的最大取值为9,然后分别计算1~9的AIC的值,根据式(7)计算可得AIC值在m取为9的时候最小,所以构建模型的最佳阶数为9.

1.4 因果关系值

1.3节中确定了构建肺癌死亡率与气溶胶光学消光系数的因果关系模型的最佳滞后阶数为9阶.根据格兰杰因果关系和新型因果关系的计算公式,进一步得到了新型因果关系和格兰杰因果关系的值分别为0.051 5和0.934 6.

1.5 显著性检验

为了证明上述因果关系值的有效性,对这2个值进行显著性检验.

显著性检验描述为:当计算X2对X1的因果关系值的时候,首先打乱X2序列的顺序,然后计算打乱顺序的X2序列对X1的因果关系值.重复这个过程100次,就得到了100个因果关系的值,然后把得到的100个因果关系值从小到大排序,如果真实的因果关系值比排好序后得到的第95个因果关系值要大,就说明得到的因果关系值是有效的,具有显著性.

根据计算,打乱顺序后的气溶胶光学消光系数与肺癌死亡率序列所计算的新型因果关系值都比真实的值小,两者计算的格兰杰因果关系值只有94次比真实值小,因此运用格兰杰因果关系计算的因果关系值不具有显著性,而新型因果关系计算的因果关系值具有显著性.所以新型因果关系值具有显著性从而得出灰霾对肺癌有因果影响,而格兰杰因果关系值不具有显著性从而不能得出灰霾对肺癌有因果影响的结论.

1.6 因果滞后关系的确定

(8)

滞后j年项在总的滞后项中所占的比例如下:

(9)

通过式(9)的计算得到,在阶数为9时,每1项所占的比例分别为:2%,1%,<1%,7%,22%,7%,<1%,31%,29%,其中第8项所占的比例最大,可见在广州市吸烟率常年来没有显著变化的情况下,广州市的肺癌的死亡率与气溶胶光学消光系数也就是灰霾有8年的因果滞后关系.

2 结束语

由于无法对其它省或城市获取相应数据,本文只对广州市的灰霾与肺癌死亡率的情况进行了分析.新型因果关系法的运用证实了在广州市吸烟率多年来没有显著变化的情况下,肺癌的死亡率与灰霾存在8年的因果滞后关系.该结论与文献[5]得出的结果是一致的.中国经济的高速发展伴随着自然环境的严重破坏,人们的健康正在遭受着来自恶化的大自然的威胁.本文的结论无疑告诫人们治理日趋恶化的灰霾环境的必要性和紧迫性.

[1]GRANGER C W J. Investigating causal relations by econometric models andcross-spectral methods[J]. Econometrica, 1969, 37(37):424-38.

[2]HU S Q, DAI G G, WORRELL G A, et al. Causality analysis of neural connectivity: critical examination of existing methods and advances of new methods[J]. Neural Networks, IEEE Transactions on, 2011, 22(6):829-844.

[3]HU S Q, WANG H, ZHANG J H, et al. Comparison Analysis: Granger Causality and New Causality and Their Applications to Motor Imagery[J]. Neural Networks & Learning Systems, IEEE Transactions on, 2015, 27(7):1429-1444.

[4]HU S Q, JIA X X, ZHANG J H, et al. Shortcomings/Limitations of Blockwise Granger Causality and Advances of Blockwise New Causality[J]. Neural Networks & Learning Systems, IEEE Transactions on, 2015:1-14.

[5]TIE X X, WU D, BRASSEUR G. Lung cancer mortality and exposure to atmospheric aerosol particles in Guangzhou, China[J]. Atmospheric Environment, 2009, 43(14):2375-2377.

[6]ZEIN H, TRAN L H, AZMY A, et al. How to Extract Data from Graphs using Plot Digitizer or Getdata Graph Digitizer[J].Technical Report, 2015(6):1-13.

[7]AKAIKE H. A new look at the statistical model identification[J]. Automatic Control, IEEE Transactions on, 1974, 19(6):716-723.

[8]白雪梅,赵松山.协整及误差修正模型[J].数量经济技术经济研究,1998(8):39-42.

Causality Analysis from Grey Haze to Lung Cancer in Guangzhou

LIU Xiaoxue, HU Sanqing

(SchoolofComputer,HangzhouDianziUniversity,HangzhouZhejiang310018,China)

This paper studies causal relationship from grey haze to lung cancer and further identifies the lag relationship between two variables in Guangzhou city. Firstly, establishing a linear regression model of grey haze and lung cancer mortality; secondly calculating Granger causality value and new causality value between two variables to confirm whether there is causality between them. Thirdly, taking significance test for the two causality values to further verify the causality values are of significance. Finally, calculating different lag part values and comparing the proportion of different lag part takes to confirm the lag relationship between lung cancer mortality and grey haze. With the constructing of linear regression model and the application of causality analysis methods, we can draw a conclusion that grey haze is a causal cause of the rising trend of lung cancer mortality and on average lung cancer mortality and aerosol particles has 8 years lag relationship.

new causality; Granger causality; lung cancer; grey haze; air pollution

10.13954/j.cnki.hdu.2016.06.005

2016-07-20

国家自然基金资助项目(61473110);浙江省自然科学基金重点资助项目(LZ13F030002)

刘晓雪(1992-),女,浙江温州人,硕士研究生,认知计算与应用.通信作者:胡三清教授,E-mail: sqhu@hdu.edu.cn.

X-4

A

1001-9146(2016)06-0021-04

猜你喜欢
灰霾阶数格兰杰
确定有限级数解的阶数上界的一种n阶展开方法
一个含有五项的分数阶混沌系统的动力学分析
复变函数中孤立奇点的判别
广州市从化区灰霾天气的气候特征及成因分析
合肥市灰霾时间特征分析及其对农业生产的影响
秸秆露天燃烧对北方灰霾天气的影响分析
国内外铜期货市场的格兰杰因果检验分析
重庆市区灰霾天气变化及特征分析
临终的医生与关怀的本意
格兰杰因果关系在复杂网络中的应用*