王洪涛 余文华 盛燕
(1天津医科大学肿瘤医院医务处 国家肿瘤临床医学研究中心 天津市肿瘤防治重点实验室,天津 300000;2 School of Public Health & Preventive Medicine, Monash University;3天津医科大学总医院妇产科)
临床上已经试图通过心电图(ECG)的 ST-T 异常改变,静息时最大心率及血压、总胆固醇、心绞痛类型等危险因素进行综合冠心病(CHD)诊断,在提高疾病诊断效率的同时为病人减少花费,减轻痛苦〔1〕。ECG 出现持续性或动态 ST-T 改变一直被认为是慢性冠状动脉供血不足的重要诊断依据,并作为以往诊断 CHD 的常用依据,但临床实际应用中以 ECG的ST-T改变为依据诊断CHD的假阴性率及假阳性率都相对较高,近年有学者对此提出质疑〔2,3〕。众多前瞻性流行病学研究证实静息心率与CHD的发病率和死亡率相关〔4~7〕。本文通过探讨静息心电图 ST-T 改变及静息时心率与CHD严重程度的关系,并采用数据挖掘技术中的决策树方法与传统Logistic回归方法做比较,寻找影响冠状动脉疾病严重程度的相关因素为医院开展相关卫生技术评估提供理论依据。
1.1研究对象 2007年1月至2014年6月在①Cleveland Clinic Foundation(Cleveland.data),②Hungarian Institute of Cardiology, Budapest (Hungarian.data),③V.A. Medical Center, Long Beach, CA (long-beach-va.data),④University Hospital, Zurich, Switzerland (Switzerland.data)医院心内科住院疑似诊断为CHD并初次进行CAG诊断患者,男725例〔年龄(53.79±9.40)岁〕,女193例〔年龄(52.50±9.52)岁〕;CAG阳性508例(CHD组),阴性410例(非CHD组),见表1。
1.2诊断标准 高血压的诊断采用最新的《中国高血压指南》,把血压值分为正常、高血压1级、2级和3级。同时检测患者总胆固醇(TC)、餐后8 h空腹血糖及疼痛发作时的临床表现。心电图检测:心电图仪器为美国GE公司所产出的15导联心电图机,患者在静息状态之下采取平卧姿势,记录患者ST段下移及抬高幅度及最高、最低导联,T波异常状况,Q 波时间和幅度及最宽最深的导联,V1 及 V5 导联的电压变化幅度,心律、心率、电轴传导阻滞类型及有无左室肥厚等情况。冠状动脉造影:由心内科专业医师操作完成,入路途径为常规经股动脉或桡动脉途径。左冠状动脉至少投照4个体位,右冠状动脉至少投照2个体位,必要时加其他体位至冠状动脉各段能够充分显示。冠状动脉狭窄直径≥50%病变累及主要冠状动脉支数为病变支数,分为0、1、2、3支病变,累及左主干时以同时累及左前降支和左回旋支计算。诊断标准以≥50%狭窄病变累及主要冠状动脉即诊断为CHD。
1.3统计方法 利用SPSS17.0软件进行t检验或方差分析,运用SAS 9.2企业数据挖掘模块对数据进行预处理,随机选取样本量的67%作为训练集,分别构建多因素Logistic回归(逐步法)分析及CHAID决策树,其他选项均选择为默认设置,其余样本作为验证集验证模型的优劣。并通过绘制受试者工作特征(ROC)曲线,比较不同模型ROC曲线下面积(AUC),探讨影响CHD的因素并比较2种分类模型的预测效果。
表1 CHD与非CHD组临床资料比较(n)
1)数据例数有缺失
2.1静息心电图ST-T改变与CHD严重程度的关系 静息心电图ST-T改变诊断CHD的敏感性为65.4%,特异性为44.5%,阳性预测值为 48.7%,阴性预测值为61.4%,一致性检验Kappa值为0.093(P<0.05)。心电图ST-T改变与CAG(44.66%)诊断的阳性率差异有统计学意义(P<0.000 1)。通过病变血管数量进行分层衡量CHD严重程度,探讨静息心电图ST-T改变与CHD严重程度的关系,如表2所示,不同CHD严重程度在静息心电图ST-T改变率上有统计学差异(P=0.028),血管病变数量越多,出现静息心电图ST-T改变的可能性越大。
表2 静息心电图状态与CHD严重程度关系(n)
2.2静息时最大心率与CHD严重程度的关系 由表1可以看出,静息时最大心率与有无患CHD疾病的差异有统计学意义(P<0.05)。0、1、2、3支病变血管CHD患者静息时最大心率分别为(140.250 0±22.349 73)、(136.717 4±24.537 19)、(142.151 5±22.803 67)、(130.882 4±16.799 86)次/min,可以看出最大心率在不同CHD血管病变严重程度之间,尚不能发现差异有统计学意义(P=0.205)。
2.3CHD多因素Logistic回归分析 把所有患者纳入分析,以是否患CHD为因变量,以年龄、性别、心绞痛类型、休息时血压、总胆固醇等为自变量构建Logistic回归模型,采用逐步回归法,并对方程式作假设检验,似然比检验χ2=361.092,P<0.001,回归方程成立。表3可见年龄、性别、心绞痛类型、心电图ST-T改变、最大心率、运动型心绞痛、ST斜率和病变血管数量为患CHD的影响因素(P<0.05)。
2.4CHD影响因素决策树分析 本研究把所有自变量纳入后选出对CHD诊断有意义的变量,并按照变量的重要性(Importance)大小排序。结果发现决策树叶子数为3时训练集和验证集的错分率迅速下降,当叶子数为8时,训练集错分率达到最低。决策树分析显示,CHD影响因素主要为心绞痛类型(Importance值=1),ST段斜率(Importance值=0.412 7),病变血管数量(Importance值),运动型心绞痛(Importance值=0.309 6)和最大心率(Iwfhg=0.161 6)。
2.5两种判别模型的比较 在通过两种模型探索CHD影响因素的基础上,对Logistic回归模型与CHAID决策树两种模型的模拟结果做比较。如表4和表5所示,两模型均较好地拟合了数据模型,其中以决策树和回归模型的错分率分别为:0.209 8和0.245 5。比较模型受试者工作特征(ROC)曲线,回归模型的ROC曲线下面积(AUC)为0.78,决策树的AUC为0.82,二者差异有统计学意义(t=5.695,P<0.05),说明决策树模型判别效果比Logistic回归模型要优。
表3 多因素非条件Logistic回归模型结果
表4 模型拟合结果比较
表5 两种判别模型对训练集和验证集的分类结果
冠心病发生多决定于两个或两上以上的危险因素的协同作用。郑凌飞等〔8〕认为,CHD的危险因素主要包括:性别﹑年龄、高血压、糖尿病、吸烟史及血清、三酰甘油(TG)、总胆固醇(TC)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)等。本研究Logistic回归显示,年龄、性别、心绞痛类型、静息心电图ST-T改变、静息时最大心率、运动型心绞痛、ST斜率和病变血管数量为是否患CHD的主要影响因素;决策树分析也显示,CHD影响因素主要为心绞痛类型,ST段斜率、病变血管数量、运动型心绞痛和静息时最大心率。
近年来通过静息心电图 ST-T 的改变为依据诊断CHD一直存在较大的争议。林继华等〔9〕认为在老年CHD的诊断中,如果用常规静息心电图 ST-T 的改变作为诊断标准,其诊断可能会出现较大偏差。王晓雅等〔10〕发现对于临床有典型心绞痛症状的患者心电图持续性ST-T改变的诊断价值较高;而当患者不具有典型心绞痛的症状时,心电图持续性 ST-T改变的诊断价值非常低。本研究也显示心电图ST-T的改变与冠状动脉造影在CHD中的诊断阳性率差异显著,心电图诊断的敏感性为65.4%,特异性为44.5%,阳性预测值为 48.7%,阴性预测值为61.4%。这可能与心电图记录的是患者瞬间心电变化情况,获得的心电信息较少,诊断冠心病敏感性及特异性均较低有关〔11〕。但本研究也发现不同CHD严重程度在心电图ST-T改变率上有统计学差异,说明血管病变数量越多,出现心电图ST-T改变的可能性越大。因此心电图在一定程度上是排除CHD诊断的手段,虽然假阳性率比较高,但可以起到一定的指示作用,确诊CHD还需要结合其他检测结果和临床特征进行综合分析。
静息心率加快不仅与CHD相关,而且还与糖尿病、心力衰竭及高血压等心血管疾病有关,既是心血管疾病的原因,又是心血管疾病的结果,但其影响仍然在被临床医生忽视。我们通过分析静息时最大心率与CHD严重程度的关系,认为在有无患CHD疾病组间,静息时最大心率差异有统计学意义,但静息时最大心率在不同CHD血管病变严重程度之间,尚不能发现有统计学差异。通过Logistic回归分析及决策树分析也显示静息时最大心率是CHD的主要危险因素之一,这与BRH、Framingham、NHANES及CASS等研究〔5~7〕认为心率增快是CHD及心力衰竭的独立危险因素的结论相吻合。
决策树是一种经典的数据挖掘方法之一,对原始数据类型要求较低,可以同时处理分类和连续变量,且其模型的分类结果灵敏度、特异度较高,越来越得到临床分析的认可和应用。在分类判别分析中,与传统Logistic回归相比,决策树模型的生成过程是通过对大量数据进行特征抽取处理,对训练集反复训练分组,据其规律建立初始树,进行适当的剪枝使之成为分类预测新的参数的最佳模型〔12〕。本文结果认为多因素Logistic回归分析及决策树方法分析影响冠状动脉疾病严重程度的因素,均较好地拟合了数据模型,其中决策树方法与Logistic回归方法相比,各项评价指标均优于Logistic回归分析,与相关报道一致〔13〕,体现了数据挖掘方法相对传统回归分析方法的优势。