孙文桥 石 磊* 何 健
脑卒中又称“中风”、“脑血管意外”,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起的脑组织损伤,包括缺血性和出血性卒中,且患者年龄多在40岁以上,男性多于女性,严重者可引起死亡,是当今威胁人民生命健康的主要疾病之一。高血压是脑卒中诸多危险因素中最重要的因素,糖尿病、吸烟、血脂异常等因素也被许多研究证实与卒中发生具有直接关联[1-2]。脑卒中病死率与致残率均相当高,已经成为我国第一位病死原因,也是我国成年人残疾的首要原因。目前,对于脑卒中由于一直缺乏有效的治疗手段,因此对脑卒中的预防和预测尤为重要[3]。为此,本研究通过大规模脑卒中初筛数据分析,对脑卒中发病的危险因素规则模式进行研究。
研究数据来源于国家脑卒中筛查与防控数据中心(China Stroke Screening and Prevention Databank Rev:2012.03),数据采集于北京、河南、山东等11个省份,共取得862 244份脑卒中风险初筛社区评估表。该评估表为卫生部脑卒中防治委员会制定的卒中危险因素初筛表,针对>40岁的人群,依据危险因素进行卒中风险评估。
筛选的脑卒中危险因素共9个,其中包括:①既往有短暂性脑缺血发作(transient ischemic attack,TIA);②高血压病(血压≥140/90 mmHg或正在服用降压药);③房颤或瓣膜性心脏病;④吸烟;⑤血脂异常;⑥糖尿病;⑦体育锻炼很少或轻体力劳动者;⑧明显超重(BMI≥26 kg/m2);⑨脑卒中家族史。根据每个受调查者所具有的危险因素,评估工具将调查者分为高危人群、中危人群和低危人群[4-5]。
危险因素初筛表数据来源于北京、河南、山东、山西、四川、陕西等11个省份的86万份数据。其中,男性397 765人,占总人数的46.1%;女性464 479人,占总人数的53.9%。所有初筛表中,有477 972项来源于城市人群,占55.4%;384 272项来源于农村人群,占44.6%。所有受调查者中,脑卒中患者为16 862人,占总人数的2.0%。
(1)通过对86万份数据的分析,统计出各危险因素在人群中所占的比例。同时,使用Pearson相关系数检验各危险因素与脑卒中发病的关联,结果发现,TIA和高血压与脑卒中发病的相关系数分别为0.198和0.163,均>0.1,属于弱相关;脑卒中家族史的相关系数为0.098,可近似认为与脑卒中发病弱相关。其余各危险因素均不直接相关,见表1,如图1所示。
表1 脑卒中危险因素数据在人群中的分布(条)
图1 危险因素在人群中分布情况统计图
(2)每个人所具有的危险因素数量从0项到9项,随着个人所具备的危险因素增加,脑卒中患病率有显著增长,见表2。
表2 具有不同数量危险因素人员脑卒中发病情况
2.2.1 单一规则分析
(1)关联规则挖掘算法用于发现数据背后事物之间可能存在的关联或联系,该算法属于无监督学习,用以学习一个事物中,各事件同时出现的规律和知识模式[6]。在分析脑卒中各危险因素与脑卒中发病的规律和模式的问题中,9个危险因素和脑卒中发病共10个事件被视为“项目集合(项集)”,即项集I={TIA,高血压,房颤或瓣膜性心脏病,吸烟,血脂异常,糖尿病,体育锻炼很少,明显超重,脑卒中家族史,脑卒中发病}。本研究针对9个危险因素和脑卒中发病的10个事件,分析与脑卒中发病共同出现的危险因素,其规则是形如X->Y的蕴含表达式,其中X和Y是不相交的项集。X是前9项危险因素的任意组合,也可称为规则先导;Y={脑卒中发病},也可称之为后继。如患有TIA且脑卒中发病的规则可表示为{TIA}->{脑卒中发病}。
(2)本研究通过关联规则挖掘中3个重要的参数来判断规则的有效性。针对规则X->Y,支持度(Support)定义为Support(X->Y)=P(X∪Y),置信度(Confidence)定义为Confidence(X->Y)=P(Y|X),提升度(Lift)定义为Lift(X->Y)=P(Y|X)/P(Y)。支持度(Support)描述该规则的重要程度,可信度(Confidence)描述规则的准确程度,提升度(Lift)是一种相关性度量,反映该危险因素出现对脑卒中发病发生了多大的变化。提升度等于1(Lift=1)时,表示该危险因素与脑卒中发生是独立且不相关;提升度>1(Lift>1)时,表示该危险因素与脑卒中发病正相关。在数据挖掘中,当提升度>3时才认为挖掘出的关联规则有价值。
(3)分析单个危险因素对脑卒中发病的支持度,置信度,提升度,其结果见表3。
表3 单个危险因素与脑卒中发病的关联规则
表3显示,TIA、高血压、糖尿病和脑卒中家族史提升度>3,与脑卒中发病明显相关,所有危险因素提升度均>1,也即与脑卒中发病有一定程度的相关性。
(4)年龄在某种意义上也属于脑卒中发病的危险因素[7]。随着年龄增长,机体的功能和活力都有不同程度的下降与损伤,同时,年龄增长也会伴随着以上探讨的数个危险因素的出现。本研究统计不同年龄段人群的脑卒中发病情况,同时也使用关联规则算法计算了年龄对脑卒中发病的支持度与置信度,其结果见表4。
表4显示,发病率情况与置信度相同。从提升度数据可知,60岁以上对脑卒中发病有影响,结合重要性(支持度)和准确性(置信度)数据发现,年龄作为脑卒中发病的危险因素,影响力大于吸烟、血脂异常、体育锻炼很少或轻体力劳动以及明显超重这4个传统危险因素。
2.2.2 多规则分析
(1)本研究使用Apriori算法分析脑卒中发病的多因素关联规则挖掘,由于9个危险因素的所有组合数量候选集数量较大,Apriori算法可以使用频繁项集的先验知识,逐层搜索迭代,最终在所有频繁集中找出强规则。算法的阈值选择中,由于所有受调查者中脑卒中发病率为2%,因此最小支持度必须<2%。本研究选择最小支持度为0.1%,最小置信度为10%,其结果见表5。
表5 脑卒中发病模式规则
(2)对于计算出的规则模式,以最后一条规则(高血压,明显超重,脑卒中家族史)为例,如果受调查者同时具有以上3条危险因素,其患有脑卒中的概率为12.52%,这条规则与脑卒中发病关联性较强。从发现的脑卒中发病规则模式中,本研究发现高血压和TIA出现在了所有有价值的规则当中。9个初筛危险因素中,吸烟和房颤或瓣膜性心脏病这2个因素分别只出现了1次和2次,其重要性低于脑卒中家族史、血脂异常、明显超重等因素。在所有挖掘出的脑卒中发病规则中,越接近右上角、颜色越深圆圈大小越大的规则越重要(如图2所示)。
表4 不同年龄段脑卒中发病的情况
图2 脑卒中发病危险因素规则图
脑卒中发病与多个危险因素相关,除了危险因素初筛表中所列举的9个因素以外,血液病[8]、感染、同型半胱氨酸、颈动脉病变等因素都与脑卒中发病相关[9-12]。同时,本研究发现,当年龄>60岁时年龄成为影响脑卒中发病的重要危险因素。根据关联规则挖掘算法分析,TIA、高血压、糖尿病和脑卒中家族史和年龄是影响脑卒中发病的最主要的危险因素,各危险因素对脑卒中发病的影响为TIA>房颤或瓣膜性心脏病>脑卒中家族史>高血压>糖尿病>年龄60岁以上>明显超重>血脂异常>体育锻炼很少或轻体力劳动者>吸烟。
本研究发现,21个与脑卒中发病有较强关联的发病规则模式,传统的高位规则中,吸烟和房颤或瓣膜性心脏病这2个因素在发现的21个规则中重要性不高,而脑卒中家族史、血脂异常、明显超重等因素在发现的规则中频繁出现。但另一方面,各危险因素与脑卒中关联并未完全清楚,各危险因素之间的相互关联也需要进一步研究。根据本研究发现的新规则,加强对具有相关危险因素人员的筛查与监测,能够一定程度降低脑卒中的发病率,并且能够早发现早治疗,提升脑卒中高危人群的生活质量与治疗效果。
[1]Mosley WJ,Greenland P,Garside DB,et al.Predictive utility of pulse pressure and other blood pressure measures for cardiovascular outcomes[J].Hypertension,2007,49(6):1256-1264.
[2]Zhang XF.Prevalence and Magnitude of Classical Risk Factors for Stroke in a Cohort of 5092 Chinese Steelworkers Over 13.5 Years of Follow-up[J].Stroke,2004,35(5):1052-1056.
[3]Zhao D,Liu J,WANG W,et al.Epidemiological Transition of Stroke in China:twenty-oneyear observational study from the Sino-MONICA-Beijing Project[J].Stroke,2008,39(6):1668-1674.
[4]Go AS,Mozaffarian D,Roger VL,et al.Executive summary:Heart Disease and Stroke Statistics-2014 Update:a report from the American Heart Association[J].Circulation,2014,129(3):399-410.
[5]Wolf PA,D'Agostino RB,Belanger AJ,et al.Probability of stroke:a risk profile from the Framingham Study[J].Stroke,1999,22(3):312-318.
[6]Agrawal R,Imielinski T,Swami A,et al.Mining association rules between sets of items in large databases[J].Int Conf Manag Data,1993,22(2):207-216.
[7]Lewington S,Clarke R,Qizilbash N,et al.Agespecific relevance of usual blood pressure to vascular mortality:a meta-analysis of individual data for one million adults in 61 prospective studies[J].Lancet,2002,360(9349):1903-1913.
[8]王维治,矫毓娟.血液病与缺血性卒中[J].中国神经免疫学和神经病学杂志,2001,8(1):40-43.
[9]孟昭远.脑卒中危险因素研究进展[J].中国慢性病预防与控制,2008,16(5):549-551.
[10]Wiberg B,Sundstrom J,Arnlov J,et al.Metabolic Risk Factors for Stroke and Transient Ischemic Attacks in Middle-Aged Men A Community-Based Study With Long-Term Follow-Up[J].Stroke,2006,37(12):2898-2903.
[11]李丹波.脑卒中患者危险因素的相关性分析[J].中国医药导报,2010,7(1):162-163.
[12]Jenkins AJ,Rowley KG,Lyons TJ,et al.Lipoproteins and diabetic microvascular complications[J].Curr Pharm Des,2004,10(27):3395-3418.