分类树模型在重症手足口病风险预测中的应用*

2015-12-04 07:28隋美丽申远方黄学勇杨海燕马晓梅冯慧芬段广才

郑州大学学报（医学版） 2015年1期

隋美丽，申远方，黄学勇，杨海燕，马晓梅，李懿，冯慧芬，段广才#

1)郑州大学公共卫生学院流行病学教研室郑州450001 2)郑州市儿童医院感染科郑州450053 3)河南省疾病预防控制中心传染病所郑州450016 4)郑州大学第五附属医院感染科郑州450052

手足口病(hand－foot－mouth disease，HFMD)是由小RNA 肠道病毒引起的儿童常见传染病，该病发病急、传染性强。近年来，HFMD 在东南亚及我国大陆较为流行，报告病例、重症病例和死亡病例均增多，其中HFMD 的重症病例病死率较高，危害严重［1］。因此，对HFMD 重症化预警指标的掌握有助于该病的防治。在对疾病危险因素进行分析及对癌症进行辅助诊断时，分类树模型已有应用［2－4］，该模型可将因素间的交互作用和层次关系进行有效处理和展现，并可提示具有哪些特征的患者有较高的发病风险或更易重症化，实现早期预警并对具有该特征的人群实施及时的干预。该研究分析2013年4月至6月在郑州市某医院感染科住院的HFMD 患儿的一般临床资料和常规的实验室检查资料，使用分类树模型探讨重症HFMD 的危险因素，构建风险模型，并对模型的应用价值进行评价。

1 对象与方法

1．1 对象所有患儿均来源于2013年4月至6月郑州市某医院感染科，纳入该研究的重症病例和轻症病例均符合《手足口病诊疗指南(2010年版)》［5］。纳入标准:①临床确诊的HFMD 患儿。②月龄≤36个月。③发病时间≤72 h。排除标准:①患有先天性疾病者。②患有急性或慢性肝炎者。③排除其他疾病引起的心脏损害者。④同时合并其他肠道疾病者。共221例，其中重症组147例(男89例，女58例)，月龄(18．18±7．20)个月，发病时间(1．40 ±0．50)d;轻症组74例(男46例，女28例)，月龄(16．41 ±8．02)个月，发病时间(1．32 ±0．47)d。2组患儿的性别构成、年龄及发病时间比较，差异均无统计学意义(P均＞0．05)。该研究经郑州市儿童医院和郑州大学第五附属医院伦理委员会批准。

1．2 资料收集以《手足口病预防控制指南(2009版)》附件3《手足口病重症或死亡病例个案调查表》为基础［6］，经过多次预调查及专家论证后，制定统一的调查问卷。对该院221例住院患儿展开个案调查，主要收集患儿及家庭的一般人口学特征、疾病史、临床症状及体征以及生化检查的相关资料。调查表由经统一规范化培训的专业人员现场分别对病例组和对照组的家长进行访谈，并结合患儿实际情况填写。同一调查员填写同一调查问卷并在3 d 内完成所有项目。从调查问卷中选取其中26个因素进行危险因素分析，分别为:发热、热程≥3 d、热峰≥39℃、心率≥140 min－1、呼吸≥30 min－1、血糖升高、精神差、烦躁不安、颈强直、抽搐、易惊、意识障碍、手足抖动、肢体无力、呼吸节律不齐、肺部啰音、皮肤颜色、四肢发凉、呕吐、胸部X 线片改变、心电图异常、白细胞、中性粒细胞比率、淋巴细胞比率、C反应蛋白、降钙素原。

1．3 分类树分类变量的分级与数量化的方法在资料的统计学处理中，对HFMD 患儿的临床诊断类型及上述26个因素进行了定义及量化编码，见表1。

表1 主要变量定义及量化编码

1．4 统计分析

1．4．1 运算法则分类树模型对目标变量进行分类和预测时是根据解释变量来实现的，较著名的分类树方法包括CHAID 和分类回归树(CART)，预测和分类是该类方法的主要用途。其中，最常用的方法是CHAID，但该法对目标变量的要求很严格:即独立变量(目标变量)只能为分类变量，即离散型变量，而CART 则可以直接对数值型变量进行处理。基本原理:以目标变量自我分层的树状结构为基础，根结点代表因变量，预测变量父结点和子结点的不断生成是以卡方检验显著性程度为依据的，即卡方值越大，越先成为预测根结点的变量，程序自动归并以实现变量的不同类的预测，使之成为卡方显著性，程序根据预先设定的水平数停止［7－8］。当预测变量的数量较多且变量类型均为分类变量时，最适宜的分类方法即为CHAID。此外，CART 法的原理是内部同质性，而CHAID 法是以列联表卡方计算为基础的运算法则，两者的原理不同。与CART 法相比，CHAID 更易被医务工作者理解。

1．4．2 模型的评价索引图、错分概率Risk 统计量均可对模型的分类结果进行评价，同时受试者工作特征曲线(ROC 曲线)下面积亦可对模型效果进行评价。

1．4．3 模型参数拆分及合并的检验水准α =0．05，最大生长深度5 层，为实现重症HFMD 潜在影响因素的充分挖掘，父结点和子结点中最小样本含量设为10 和5。

1．4．4 数据分析采用SPSS 13．0 进行重症HFMD 发生风险的分类树模型构建。

2 结果

2．1 重症HFMD 分类树发生风险模型的建立根据上述生长和修剪规则，所建立分类树模型共包括3 层，共9个结点。其中终末结点5个，共筛选出4个解释变量:精神差、易惊、热峰≥39℃、手足抖动，见图1。分类树模型图结果显示，树型结构的第一层是按照精神进行拆分的，所以，在该研究中，重症HFMD 发生风险最大的影响因素为精神，其中，精神差的个体重症HFMD 发生概率为90．7%，高于精神正常的人员(3．1%)，成为重症HFMD 的高危人群。在精神差的人群中，筛选出的主要影响因素为易惊，在这组人员中，如果同时合并易惊，则重症HFMD的发生概率为97．1%，高于未合并易惊的人群(61．1%);对于精神差同时合并易惊的人群，若同时合并热峰≥39℃，则重症HFMD 的发生概率为99．1%，高于未合并热峰≥39℃的人群(89．7%);而对精神差未合并易惊的人群研究发现，若同时合并手足抖动，则重症HFMD 的发生概率为100．0%，高于未合并手足抖动的人群(36．4%)。

图1 重症HFMD 发生风险分类树模型图

2．2 模型的结点增益分析见表2。结点表的增益展示了模型中端点的汇总信息。其中，N 为每个端点的总个案数，每个结点的总个案数除以根结点的总个案数即为结点百分数。增益中的N 表示每个端点在目标分类中所标记的个案数，其百分比是目标分类的个案数除以该类在总分类的个案数。该研究以重症为所要研究的分类，因此，重症的个案数与百分数即为增益，如结点6 重症的个案数为108，而根结点重症的总个案数为147，所以，结点6 的百分数108/147 =73．5%。目标分类中个案的百分数即为响应百分比;目标分类的响应百分比与总样本中该类的响应百分比的比值即为索引，由上所述可知，结点6 的响应百分比为99．1%，根结点响应的百分比为66．5%(147/221)，所以结点6 的索引为99．1% /66．5% = 149．0%。由上可知，如果索引值＞100%则表示各端点的重症组的百分比大于根结点的重症组的百分比。

表2 分类树模型的结点增益表

2．3 分类树模型的评价

2．3．1 索引图见图2。

图2 发生风险分类树模型索引图

2．3．2 树型模型的错分矩阵和Risk 统计量见表3。Risk 统计量为0．045，表示该模型在对重症HFMD 发病风险进行预测时其预测正确率达95．50%，提示该模型具有较好的拟合效果。

表3 分类树模型错分矩阵

2．3．3 ROC 曲线的绘制根据此模型所得到的预测概率进行ROC 曲线的绘制，所得到的ROC 曲线下面积为0．953(95%CI:0．917～0．988)，标准误为0．018，与0．5 相比，差异有统计学意义(P＜0．05)，因此，分类树模型在对重症HFMD 发生风险进行预测时，价值较高。见图3。

图3 预测概率的ROC 曲线

3 讨论

分类树的最具显著性的切分是通过结点纯度的计算来实现的。CHAID 具有前向修剪和多向分叉的特征。该算法的基础是卡方或似然卡方检验，对众多自变量进行比较筛选时，最佳分类变量和最佳分类结果经由P 值来实现，因此，当变量属性为分类变量时，该算法更为合适。对连续型的变量而言，如要进行决策树分析，需首先对输入变量进行相应的离散化处理。当预测变量均为分类变量且数量较多时，此时应用CHAID 分类法更为合适［3，9］。CART算法的基本思路是采用杂质缩减最大化，对CART而言，只能二部分叉，后向修剪，基尼系数是其分割标准。树分为分类树和回归树，前者是指应变量为分类属性时，后者是指应变量为连续变量时［10－11］。

以往的研究［12－14］结果表明:36个月以内的儿童为重症HFMD 的高发人群，且HFMD 的流行呈现出一定的季节性，鉴于我国幅员辽阔，HFMD 在我国大陆的流行时间因地而异［15］，河南省HFMD 的流行高峰一般为每年的3～6月［7－8，16］。由于HFMD 的高发性及重症患儿潜在的重症化风险性，疾病的早期预警显得尤为重要。重症HFMD 的影响因素较多，因素间存在着复杂的关系，以往对于多因子疾病危险因素的分析常采用多元统计分析方法进行，如logistic 回归、Cox 回归等，但这些方法在处理变量之间的共线性时显示出局限性，因而在一定程度上降低了统计分析的效能，甚至对有些结果无法进行合理的解释。最好的解决方案是选用非参数回归模型来处理，其中包括分类树与回归树，该方法近年来在国内外逐步推广使用［17－19］。该方法最重要的一个特点是不要求预测变量的数据分布类型，即任意分布资料均可。分类树分析有着相当复杂的中间过程，其过程大致包括种树和剪枝，即以一棵完整的树的建立为起点，然后运用交叉印证法从末梢开始剪枝，剪枝后的模型明显变差为终点。在模型建立的过程中，每一种可能的组合在模型建立之初就已被详细地考查，结果显示出的模型是优化后的模型，且分类树分析以树型图的方式将其分析过程以及多水平变量间复杂的相互作用关系得以展现，而传统的分析方法如logistic 回归等则很难实现这一点。

该研究应用分类树模型对重症HFMD 患儿的门诊指标和一般临床资料进行综合汇总，从而进行风险模型的构建，结果显示:共从26个候选变量中筛选出4个重要解释变量:精神差、易惊、热峰≥39℃、手足抖动，说明该4个变量可以影响重症HFMD的发病风险，同以往的logistic 回归结果基本相同［20］，并且还提供了更多有意义的信息。此外，采用CHAID 法构建的分类树模型对于离散化的连续性变量和具有2种以上分类的指标，会将没有统计学意义的分层类别重组为具有统计学意义的新的类别，相比于人为分层设计，该法更为科学和合理［9］。在流行病学研究中，应用分类树所确定的指标分界基础是显著的统计学意义而不是借助于个人经验或临床观察，因此，根据重组后的分界点可以将变量重新分割并作进一步分析［4］，该研究并未将该特点显现，可能与对原始数据进行录入时已对定量资料进行定性处理有关。

任何一种模型都有一定的局限性，分类树模型亦如此。当解释变量数目和自身分类都较多时，最初有可能生成规模较庞大的树，此时对树型模型的适当修剪必不可少，但修剪之后的树如何实现兼具精简和信息完整是目前尚需解决的问题之一。此外，鉴于该研究样本量有限，尚需扩大样本量以验证该模型，同时如何实现分类树模型和传统的统计学分析方法的有机结合，以期两者能够互相补充，从而实现重症HFMD 影响因素的全面挖掘是需要进一步探讨的内容。

［1］Li W，Teng GJ，Tong HF，et al．Study on risk factors for severe hand，foot and mouth disease in China［J］．PLoS One，2014，9(1):e87603

［2］Muñoz－Moreno JA，Pérez－Álvarez N，Muñoz－Murillo A，et al．classification models for neurocognitive impairment in HIV infection based on demographic and clinical variables［J］．PLoS One，2014，9(9):e107625

［3］何其栋，魏小玲，张红巧，等．基于“优选肿瘤标志群”建立的决策树模型对肺癌辅助诊断的价值［J］．郑州大学学报:医学版，2014，49(1):37

［4］刘建平，程锦泉，张仁利，等．应用分类树模型构建缺血性脑卒中发病风险的预测模型［J］．中国慢性病预防与控制，2012，20(3):254

［5］俞蕙．儿童手足口病重症病例的临床早期识别［J］．中华儿科杂志，2012，50(4):284

［6］手足口病预防控制指南:2009 版［J］．全科医学临床与教育，2010，10(2):125

［7］Goto Y，Maeda T，Nakatsu－Goto Y．Decision tree model for predicting long－term outcomes in children with out－of－hospital cardiac arrest:a nationwide，population－based observational study［J］．Crit Care，2014，18(3):R133

［8］Tobiasz－Adamczyk B，Galaá A，Zawisza K．Socio－demographic differences in the prevalence of cardiovascular diseases among women and men in Poland:results from the Courage in Europe Project［J］．Przegl Lek，2014，71(3):122

［9］Gietzelt M，Feldwieser F，Gövercin M，et al．A prospective field study for sensor－based identification of fall risk in older people with dementia［J］．Inform Health Soc Care，2014，39(3/4):249

［10］Chao CM，Yu YW，Cheng BW，et al．Construction the model on the breast cancer survival analysis use support vector machine，logistic regression and decision tree［J］．J Med Syst，2014，38(10):106

［11］Malehi AS．Diagnostic classification scheme in Iranian breast cancer patients using a decision tree［J］．Asian Pac J Cancer Prev，2014，15(14):5593

［12］聂轶飞，王海峰，李孟磊，等．应用集中度和圆形分布法探讨河南省2010年手足口病流行规律［J］．中国卫生统计，2013，30(3):410

［13］孙建伟，王彦霞，许汴利，等．河南省2009～2010年手足口病发病的时间分布特征［J］．中国卫生统计，2012，29(3):365

［14］Liu N，Xie J，Qiu XL，et al．An atypical winter outbreak of hand，foot，and mouth disease associated with human enterovirus 71，2010［J］．BMC Infect Dis，2014，14:123

［15］隋美丽，马晓梅，段广才，等．重症手足口病患儿实验室指标的判别分析［J］．西安交通大学学报:医学版，2014，35(4):504

［16］Feng H，Duan G，Zhang R，et al．Time series analysis of hand－foot－mouth disease hospitalization in Zhengzhou:establishment of forecasting models using climate variables as predictors［J］．PLoS One，2014，9(1):e87916

［17］Lee MY，Yang CS．Entropy－based feature extraction and decision tree induction for breast cancer diagnosis with standardized thermograph images［J］．Comput Methods Programs Biomed，2010，100(3):269

［18］赵文波，李明，唐骅，等．应用分类树模型构建糖尿病肾病蛋白尿进展的风险预测模型［J］．第三军医大学学报，2013，35(11):1144

［19］马瑾，孙颖，刘尚辉．决策树模型在住院2 型糖尿病患者死因预测中的应用［J］．中国卫生统计，2013，30(3):422

［20］可秋萍，娄莹，刘传振，等．危重症手足口病患儿的早期预警指标［J］．实用儿科临床杂志，2011，26(10):804