BP神经网络和决策树分析在重症手足口病临床早期预警指标中的应用*

2019-07-10 07:02河南中医药大学基础医学院公共卫生与预防学科教研室450046
中国卫生统计 2019年3期
关键词:轻症训练样本正确率

河南中医药大学基础医学院公共卫生与预防学科教研室(450046)

马晓梅 徐学琴 闫国立△ 刘 颖 孙春阳 王瑾瑾 全善爱 赵倩倩

【提 要】 目的 探讨BP神经网络(back propagation neural network,BPNN)模型和穷举卡方自动交互诊断器(Exhaustive CHI-squared Automatic Interaction Detector,Exhaustive CHAID)算法模型在重症手足口病(hand-foot-mouth disease,HFMD)临床早期预警指标分析中的应用价值。方法 收集2017年4-7月河南郑州某医院收治的469例HFMD患儿流行病学资料,采用SPSS Modeler 18.0软件进行单因素logistic回归分析筛选出有统计学意义的变量,构建BPNN模型、Exhaustive CHAID算法模型与logistic回归模型,比较三种方法的差异。结果 在训练样本和测试样本中,BPNN模型预测正确率(95.28%,93.33%)、灵敏度(0.971,0.905)、约登指数(0.907,0.863)与受试者工作特征曲线下面积(receiver operating characteristic,ROC)(0.992、0.967)均高于Exhaustive CHAID算法模型和logistic回归模型。重症HFMD临床早期预警指标重要性依次为:易惊(0.18)、手足抖动(0.13)、呕吐(0.12)、精神差(0.07)、心率≥140次/min(0.05)、呼吸≥30次/min(0.05)、中性粒细胞比率升高(0.05)、血糖升高(0.05)、四肢发凉(0.04)、热峰≥39℃(0.04)。结论 BPNN模型预测能力优于Exhaustive CHAID算法模型和logistic回归模型。

手足口病(hand-foot-mouth disease,HEMD)是一种常见于5岁以下儿童的急性传染性疾病[1-3]。多数病例症状较轻,预后较好,部分重症会约在10h内进展为急性迟缓性麻痹、脑干脑炎和神经源性肺水肿等并发症,救治难度大,病死率高,存活病例亦留有严重后遗症[1-3]。尽管我国HFMD疫苗已于2016年上市,限于“自愿、自费”的原则和担心疫苗疗效等问题,接种率低下,HFMD仍然是我国重要的公共卫生问题。目前尚无有效的抗病毒治疗方案,所以对重症HFMD患者临床早期预测与干预是非常重要的,而其关键是明确导致HFMD重症化的临床早期预警指标。已有越来越多的学者采用机器学习技术用于疾病病因筛选和辅助诊断等,预测效果较好[4-9]。本研究拟运用流行病学个案调查的方法,在河南郑州某医院收集HFMD患儿的早期临床信息,分别采用BPNN和Exhaustive CHAID算法分别建立模型,并与logistic回归模型比较,确定临床早期预警指标,以期为重症HFMD早期识别提供一定依据。

对象与方法

1.对象 以2017年4-7月河南郑州某医院收治的HFMD患儿作为研究对象,月龄≤60月,从家长发现症状到入院时间≤72h。诊断标准依据《手足口病诊疗指南(2010年版)》。轻症病例诊断标准:手、足、口、臀部皮疹,伴或不伴发热;当出现下列情况之一者即可诊断为重症病例:①出现神经系统受累表现;②腱反射减弱或消失;③脑膜刺激征;④呼吸困难、肺部啰音等。

2.研究方法 在多次预调查的基础上,结合临床诊断自行制定《手足口病重症病例个案调查表》。由经统一培训的调查员采用面访患儿监护人的方式在入院当天收集患儿资料。本研究共纳入469例,轻症组227例,重症组242例。研究变量如下:病例分类、月龄、性别、热峰≥39℃、热程≥3d、心率≥140次/min、呼吸≥30次/min、血糖升高、精神差、烦躁不安、颈强直、易惊、意识障碍、手足抖动、呼吸节律改变、四肢发凉、呕吐、胸片X线改变、心电图异常、白细胞计数≥12×109/L、中性细胞比率升高、淋巴细胞比率升高、C反应蛋白升高、降钙素原升高。编码如下:病例分类(0=轻症组/1=重症组),性别(男/女),其余变量(0=是/1=否)。

3.Exhaustive CHAID CHAID法是一种基于χ2和F分布的P值的决策树算法,即从统计显著性检验角度确定最佳分组变量和分割点。相对于logistic回归建模而言,该法擅于处理非线性和高度相关数据,但易受自由度影响[10]。为控制决策树充分生长,CHAID算法需要对输入变量进行预处理以减少其取值个数,体现在统计检验上就是自由度不同。因此,在无法保证输入变量分组数目完全相同的情况下,该法存在不足。Exhaustive CHAID算法是CHAID的改进算法,它的改进主要集中在如何避免自由度影响上。Exhaustive CHAID算法选择最佳分组变量时,仍然保留预处理结果,但在计算P值时,继续合并输入变量的分组形成两个“超类”,确保所有输入变量的自由度都相同。在比较P值时,选择最小的输入变量为当前最佳分组变量。Exhaustive CHAID算法较CHAID算法利于选择分组变量。

4.统计分析 采用Epidata 3.0软件建立数据库,双人录入。应用SPSS Modeler 18.0软件进行χ2检验、t检验、单因素和多因素logistic回归分析,并用单因素logistic回归分析筛选出有统计学意义的变量分别建立BPNN模型和Exhaustive CHAID算法模型,α=0.05。通过分区将样本随机分割,训练分区与测试分区采用9:1的形式,即训练样本424例,测试样本45例。① BPNN模型:采用多层感知器。隐含层设置为自动计算,最大训练时间为15min,最大训练周期数量为250,最低准确性为90%。② Exhaustive CHAID算法模型:采用ChiMerge分箱法预处理输入变量,最大树深度为5。使用Bonferroni方法调整重要值,检验统计量采用Pearsonχ2,收敛最大迭代次数为100,中止规则为父分支最小记录数低于2%时不再分组,分组后产生的子节点最小记录数低于1%时不再分组。BPNN模型和Exhaustive CHAID算法模型均在模型评估中均选择计算预测变量重要性。

结 果

1.一般情况

469例HFMD患儿中,重症组242例,男148例(占61.2%),女94例(占38.8%),平均年龄(24.50±16.39)月;轻症组227例,男135例(占59.5%),女92例(占40.5%),平均年龄(23.70±16.15)月;两组在年龄和性别方面差异均无统计学意义(P>0.05)。

2.logistic多因素分析

结果显示,手足抖动、易惊、呕吐、心率≥140次/min、白细胞计数≥12×109/L、呼吸≥30次/min等6个因素可能是重症HFMD临床早期预警指标。预测方程为:P=1/(1+(5.171-6.234×手足抖动-5.840×易惊-3.947×呕吐-2.193×心率≥140次/min-1.480×白细胞计数≥12×109/L +1.225×呼吸≥30次/min))。本次训练训练样本集包含424个样本,其中393个实际值与预测值吻合,正确率为92.69%,31个错误,错误率为7.31%;45个测试样本中,预测正确率为88.89%,错误率为11.11%(表1)。在检验样本中,输出变量实际值为轻症预测也为轻症的19个样本,实际值为重症预测也为重症的21个样本(表2)。

3.Exhaustive CHAID算法模型分析

决策树第一个最佳分组变量是易惊,以此形成二叉树,患儿如果出现易惊并发呕吐,则是重症HFMD的高危人群;如果无易惊症状,仅出现手足抖动合并四肢发凉,亦是重症HFMD的高危人群;当出现易惊合并呕吐合并血糖升高时,不管是否存在热峰≥39℃,均是重症HFMD的高危人群;手足抖动合并四肢发凉是重症HFMD的高危人群;呕吐合并白细胞≥12×109/L是重症HFMD的高危人群等。在入选的8个自变量中,重症HFMD临床早期预警指标重要性依次为:易惊(0.45)、呕吐(0.13)、手足抖动(0.12)、精神差(0.09)、烦躁不安(0.08)、血糖升高(0.04)、热峰≥39℃(0.04)、白细胞≥12×109/L(0.04)、四肢发凉(0.01)。424个训练样本中,393个实际值与预测值吻合,正确率为92.69%,31个错误,错误率为7.31%;45个测试样本中,预测正确率为88.89%,错误率为11.11%(表1)。在检验样本中,输出层实际值为轻症预测也为轻症的26个样本,实际值为重症预测也为重症的14个样本(表2)。

表1 重症HFMD病例分类三种模型在训练样本集和检验样本集的整体正确率和错误率(n,%)

表2 重症HFMD病例分类三种模型训练样本集和检验样本集的混淆矩阵(行为实际值)

4.BPNN模型分析

BPNN模型最优网络结构为17→7→1。重症HFMD临床早期预警指标重要性依次为:易惊(0.18)、手足抖动(0.13)、呕吐(0.12)、精神差(0.07)、心率≥140次/min(0.05)、呼吸≥30次/min(0.05)、中性粒细胞比率升高(0.05)、血糖升高(0.05)、四肢发凉(0.04)、热峰≥39℃(0.04)。424个训练样本中,404个实际值与预测值吻合,正确率为95.28%,20个错误,错误率为4.72%;45个测试样本中,预测正确率为93.33%,错误率为6.67%(表1)。在检验样本集中,输出层实际值为轻症预测也为轻症的23个样本,实际值为重症预测也为重症的19个样本(表2)。

5.三种预测模型预测能力比较

表1显示,在训练样本中和测试样本中,BPNN模型的正确率(95.28%,93.33%)均高于Exhaustive CHAID算法模型(92.69%,88.89%)和logistic回归模型(92.69%,88.89%)。表3显示,在训练样本中,BPNN模型的灵敏度(0.971)、特异度(0.936)、约登指数(0.907)与ROC曲线下面积(0.992)均高于Exhaustive CHAID算法模型(0.923,0.930,0.853,0.980)和logistic回归模型(0.955,0.901,0.856,0.971);测试样本中,BPNN模型的灵敏度(0.905)、约登指数(0.863)与ROC曲线下面积(0.967)均高于Exhaustive CHAID算法模型(0.778,0.741,0.960)和logistic回归模型(0.875,0.780,0.964)。Exhaustive CHAID算法模型的特异度(0.963)高于BPNN模型(0.958)和logistic回归模型(0.905)。综合而言,BPNN模型预测能力优于Exhaustive CHAID算法模型和logistic回归模型,Exhaustive CHAID算法模型和logistic回归模型预测能力基本相当。

表3 重症HFMD三种预测模型评价指标体系比较

讨 论

HFMD是一种复杂多因子传染病,目前国内外研究多以数据挖掘的方式探讨[11]。统计学通常采用logistic回归分析,以体现变量的主效应为主,能较好地体现自变量与因变量的依存关系,但前提条件严格。相对而言,BPNN和决策树算法则属于“非参数统计”,不依赖于总体分布类型也无需对参数进行推断,以通过向现有数据不断学习的方式建立模型,算法成熟,结果易懂,已成为使用最为广泛的分类预测算法[11]。有研究表明[4-10],logistic回归分析与BPNN模型和Exhaustive CHAID算法模型相结合,可提高模型分类准确度。

研究提示BPNN模型的预测性能高于Exhaustive CHAID算法模型和logistic回归模型,这可能与BPNN模型具有更强的处理复杂因子相互关系的能力有关[9-10]。三种模型筛选的重症HFMD临床早期预警指标基本一致[9,12],均与中枢神经系统、呼吸系统与循环系统症状有关,符合《手足口病诊疗指南(2010年版)》。与logistic回归模型相比,决策树具有独特的优点。首先,预测变量重要性并进行排序;其次,较好处理非共线性问题;再次,分类精确度高;最后,结果直观易懂。但同时,也存在结果不稳定的缺点。本研究结果显示Exhaustive CHAID算法模型略优于logistic回归模型,但差异不是很大(表3),提示两种模型预测能力基本相当[6-7]。

本研究旨在为重症HFMD临床早期预警指标分析提供一种风险分类预测方法。神经网络模型和决策树模型在预测个体风险上效果较好,但logistic回归模型对结果容易解释。实际应用中应结合各自的优点,可更好的发挥应用优势,服务于临床实践。

猜你喜欢
轻症训练样本正确率
加味葛根汤联合磷酸奥司他韦治疗轻症乙型流感(风寒束表证)的疗效观察
个性化护理干预对提高住院患者留取痰标本正确率的影响
中国重大疾病保险制度建设研究
门诊分诊服务态度与正确率对护患关系的影响
人工智能
新癀片治疗轻症亚急性甲状腺炎的疗效观察
轻症小儿肺炎门诊雾化吸入疗效分析
基于小波神经网络的网络流量预测研究
生意
宽带光谱成像系统最优训练样本选择方法研究