于 蓉,席 新,王 华,李 波
癌症是全球发病和死亡的主要原因,2016年全球约有1 720万新发癌症病例和890万死亡病例,2006年至2016年新增癌症病例增加了28%,增幅最大的是最不发达国家[1]。21世纪以来,随着我国经济的高速发展和城镇化率的不断攀升,我国城镇居民因癌症而发生死亡的情况不可避免地会发生各种各样的变化。预防是治愈疾病最佳的良药,尤其对于癌症来说,如果能对癌症进行提前预测并进行干预,无疑能达到最好的效果。
在癌症的流行病学调查中,经常收集有关研究参与者的大量数据,其中包括很多分类变量,如性别、年龄、癌症类型等。对应分析是对大型列联表进行分类数据分析的一种特别有用的方法。尽管已有大量关于此方法的研究,但大多未能充分发挥其潜力,仅关注图形解释[2]。鉴于此,本研究收集我国2014年至2018年癌症死亡数据,运用对应分析法对我国城镇居民性别、年龄与癌症死亡类型进行偏好分析,以突出特定人群日益增加的癌症死亡危险,并为相关部门制定干预措施提供支持。
1.1 材料本研究数据资料来自2015年至2017年中国卫生和计划生育统计年鉴、2018年至2019年中国卫生健康统计年鉴[3-7]。
1.2 方法采用IBM SPSS Statistics 26软件对采集数据进行对应分析。
1.2.1 变量设计选取癌症中的鼻咽癌,食管癌,胃癌,结肠、直肠和肛门癌,肝癌,胆囊癌,胰腺癌,肺癌,乳腺癌,宫颈癌,卵巢癌,前列腺癌,膀胱癌,脑及神经系统恶性肿瘤和白血病设为类型变量(Type),并分别用C01~C15代表;选取1~4岁、5~9岁、10~14岁、15~19岁、20~24岁、25~29岁、30~34岁、35~39岁、40~44岁、45~49岁、50~54岁、55~59岁、60~64岁、65~69岁、70~74岁、75~79岁、80~84岁、≥85岁设为年龄组变量,将城镇男性和城镇女性设为性别变量,将年龄组和性别合并为性别-年龄组变量(Sex-age)(M代表城镇男性,F代表城镇女性,1~85分别取自各年龄组的起始年龄);计算出2014年至2018年各年龄组癌症的平均死亡率,得出基础数据。见表1。
表1 我国城镇居民癌症性别、年龄类型死亡率基础数据
1.2.2 对应分析性别-年龄组变量和类型变量共同构成了对应分析的列和行。对应分析是一种R型和Q型因子分析相结合的多元统计分析方法,其本质是一种在低维空间中用图形方法表示关联的技术,其最大的特点是能把众多的样品和变量同时表现在一张二维图上。将表1的数据录入IBM SPSS Statistics 26软件进行对应分析。
2.1 卡方检验在对应分析过程中进行卡方检验,结果表明,卡方值为3 183.470,显著性值为0.000,卡方检验结果显著,表明性别、年龄组与癌症类型之间具有显著的相关性,使用对应分析是有效的。第一维和第二维的累积惯量比例为0.771,表明使用前两个维度可以解释总信息量的77.1%,即经过降维后,二维对应分析图仍能较好地描述两变量间的关系。
2.2 偏好的定性分析图1是用SPSS 26得出的对应分析图,解读的方法是:从坐标原点出发,如果代表列变量(性别、年龄组)的某个点与代表行变量(癌症类型)的某个点在同一方位上距离较近,则表明二者有较强的关联性;如果距离较远或不在同一方位,则表明两者关联性较弱[8]。具体到本研究,若某个性别、年龄组与某种癌症类型在同一方位上且距离较近,则意味着该性别、年龄组偏好该癌症类型。
蓝色“〇”代表性别、年龄组,红色“〇”代表癌症类型,X轴线和Y轴线在坐标原点(0,0)交叉。
就同一变量而言,在癌症类型中,乳腺癌、卵巢癌和宫颈癌所处同一方位且距离较近,表明它们的发生具有较强的相似性和可替代性,发生这3种癌症的条件极为相似;在性别、年龄组中,F40、F45和F50所处同一方位且距离较近,表明她们罹患癌症风险的概率几乎相同。同样的,F1~F10和M1~M10罹患癌症风险的概率几乎相同,且由于远离中心点,罹患癌症死亡的风险更高。就不同变量而言,可以将性别、年龄组和癌症类型大致分为3类,第一类包括M40~M85,前列腺癌,膀胱癌,食管癌,肺癌,胃癌,肝癌,结肠、直肠和肛门癌,表明40~89岁男性偏好前列腺癌,膀胱癌,食管癌,肺癌,胃癌,肝癌,结肠、直肠和肛门癌,主要集中在左象限;第二类包括F40~F85、胰腺癌、胆囊癌、乳腺癌、卵巢癌和宫颈癌,表明40~89岁女性偏好胰腺癌、胆囊癌、乳腺癌、卵巢癌和宫颈癌,主要集中在右上象限。第三类包括M1~M35、F1~F35、鼻咽癌、脑及神经系统恶性肿瘤和白血病,表明1~39岁男性和女性偏好鼻咽癌、脑及神经系统恶性肿瘤和白血病,主要集中在右下象限。
表2 我国城镇居民各性别、年龄组的癌症类型偏好值
2.3.1 性别、年龄分析在区分性别的情况下,城镇女性居民(偏好值=-19.80)的全年龄段总体癌症死亡风险高于城镇男性居民(偏好值=-47.87)。在区分年龄的情况下,城镇男性随着年龄的增长,癌症偏好值不断上升,于85岁及以上达到最高;城镇女性随着年龄的增长,癌症偏好值呈现先升后降的趋势,于40~44岁达高峰,而后不断下降。在1~14岁年龄段,城镇男性的癌症偏好值高于女性,15岁及以上的年龄段,城镇女性的癌症偏好值高于男性。见图2。
图2 城镇居民不同年龄段的癌症死亡偏好值
2.3.2 癌症类型分析城镇男性全年龄段的癌症类型偏好值(从高到低,且偏好值>0)排序依次为:鼻咽癌、白血病、肝癌、脑及神经系统恶性肿瘤。城镇女性全年龄段的癌症类型偏好值(从高到低,且偏好值>0)排序依次为:脑及神经系统恶性肿瘤、白血病、鼻咽癌、肝癌、卵巢癌、宫颈癌、乳腺癌。见图3。
图3 城镇居民全年龄段癌症类型的偏好值
2.3.3 综合分析在城镇男性居民中,1~64岁偏好癌症类型依次为(偏好值从高到低):鼻咽癌(偏好值=56.01)、白血病(偏好值=55.83)、肝癌(偏好值=55.20)和脑及神经系统恶性肿瘤(偏好值=54.23),且年龄越小偏好关系越强;65岁及以上偏好癌症类型依次为(偏好值从高到低):食管癌(偏好值=1.72),前列腺癌(偏好值=1.72),肺癌(偏好值=1.58),膀胱癌(偏好值=1.55),胃癌(偏好值=1.42),结肠、直肠和肛门癌(偏好值=-0.07,其中80岁及以上年龄的偏好值=0.19),且年龄越大偏好关系越强。见图4。在城镇女性中,1~29岁偏好癌症类型依次为(偏好值从高到低):白血病(偏好值=47.17)、鼻咽癌(偏好值=47.14)、脑及神经系统恶性肿瘤(偏好值=46.52)和肝癌(偏好值=45.47),且年龄越小偏好关系越强;30岁及以上偏好癌症类型依次为(偏好值从高到低):卵巢癌(偏好值=20.28),宫颈癌(偏好值=20.23),乳腺癌(偏好值=20.12),胆囊癌(偏好值=17.20),胰腺癌(偏好值=16.56)和结肠、直肠和肛门癌(偏好值=0.69,其中40岁及以上年龄的偏好值=1.92)。见图5。
图4 城镇男性居民不同年龄段不同癌症类型的偏好值
图5 城镇女性居民不同年龄段不同癌症类型的偏好值
癌症已成为重要的公共卫生问题,是全球第二大死亡原因[9]。对于中低收入国家的卫生系统来说,了解癌症的流行病学是一个相对较新的挑战,因为直到20世纪下半叶,主要的病理特征都是急性和传染性疾病,因此癌症没有得到足够的重视[10]。目前,发病率、死亡率、存活率和患病率已成为评估公共卫生政策和估计人群癌症治疗需求的关键指标[11],但这些指标在评估多种分类变量之间内在联系方面缺少相应的效能。
对应分析又称关联分析,也称R-Q分析,是在R型因子分析(研究变量之间的相关关系)和Q型因子分析(研究样本之间的相关关系)的基础上发展起来的一种多元统计分析方法,它主要分析定性变量构成的列联表来揭示变量之间的关系,并被广泛应用于公共安全和卫生健康等领域[12-14]。本研究应用“维得分”和计算公式,在定性可视化分类变量关系的基础上,进一步达到了定量变量之间关系的目的。这里偏好值代表某个性别、年龄组和某种癌症类型的关联程度,偏好值越高代表两者的关联特征越明显,反之,偏好值越低代表两者的关联特征越弱。即在相同的环境条件下,偏好值高的人群比其他人群更容易发生某种癌症死亡。当然也存在死亡率很高但偏好值低的癌症,不是说这样的癌症不重要,而只是说明这样的癌症在选择人群方面的偏好特征不明显,不具有统计学意义。
性别和年龄是影响癌症死亡的重要因素。癌症的性别差异可能是由于环境、遗传和表观遗传因素的结合,以及基因调控和表达的差异所致[15]。而癌症的年龄差异与免疫功能缺陷、老年人健康下降高度相关[16]。分析不同性别、年龄与癌症类型的偏好关系,就可以有针对性地采取预防措施,具有非常重要的研究价值。本研究发现在15种癌症类型和36个性别、年龄组构成的540对对应关系中,存在偏好关系的有230对(偏好值>0)。总体而言,城镇女性居民全年龄段罹患癌症死亡风险高于城镇男性居民;城镇女性于40~44岁与癌症的偏好关系最强,城镇男性年龄越大与癌症的偏好关系越强;城镇男性全年龄段偏好鼻咽癌、白血病、肝癌、脑及神经系统恶性肿瘤,城镇女性全年龄段偏好脑及神经系统恶性肿瘤、白血病、鼻咽癌、肝癌、卵巢癌、宫颈癌和乳腺癌。具体而言,在城镇男性居民中,1~64岁偏好鼻咽癌、白血病、肝癌和脑及神经系统恶性肿瘤,且年龄越小偏好关系越强;65岁及以上偏好食管癌,前列腺癌,肺癌,膀胱癌,胃癌,结肠、直肠和肛门癌(80岁及以上年龄存在偏好关系),且年龄越大偏好关系越强。在城镇女性中,1~29岁偏好白血病、鼻咽癌、脑及神经系统恶性肿瘤和肝癌,且年龄越小偏好关系越强;30岁及以上偏好卵巢癌,宫颈癌,乳腺癌,胆囊癌,胰腺癌,结肠、直肠和肛门癌(40岁及以上年龄存在偏好关系),且卵巢癌、宫颈癌、乳腺癌、胆囊癌和胰腺癌于40~44岁偏好关系最强,结肠、直肠和肛门癌于50~54岁偏好关系最强。
综上,癌症主要有3种类型:第一类偏好年轻人群,包括鼻咽癌、白血病、肝癌和脑及神经系统恶性肿瘤;第二类偏好老年男性,包括食管癌,前列腺癌,肺癌,膀胱癌,胃癌,结肠、直肠和肛门癌;第三类偏好中年女性,包括卵巢癌,宫颈癌,乳腺癌,胆囊癌,胰腺癌,结肠、直肠和肛门癌。由此得出,鼻咽癌、白血病、肝癌、脑及神经系统恶性肿瘤、食管癌、前列腺癌、肺癌、膀胱癌和胃癌是与年龄高度相关的癌症类型;卵巢癌,宫颈癌,乳腺癌,胆囊癌,胰腺癌,结肠、直肠和肛门癌是与年龄和性别均高度相关的癌症类型。以往研究总是侧重于一种癌症类型在人群中的发病率和死亡率,往往仅仅依据死亡率随着年龄或者性别的变化就得出结论,认为癌症仅与性别、年龄增长有关[17-22]。本研究运用对应分析法挖掘多种癌症类型与城市居民性别、年龄的内在联系,发现多种癌症风险偏好不仅与性别有关,而且不同的癌症类型在年龄偏好上也不尽相同,表明对应分析更有利于筛选出不同癌症类型的风险人群。
总之,通过性别和年龄可以大致了解癌症死亡发生的性别和年龄偏好特征,后续的研究应进一步挖掘可能导致癌症死亡发生的条件和原因,制定更加详细的癌症死亡偏好模型,以达到从源头上预防癌症和降低其死亡率的目的。