基于SVGD分类预测的梯度提升机与随机森林的性能比较*

2019-11-12 12:24巩晓文凤思苑李长平刘媛媛

中国卫生统计 2019年5期

巩晓文凤思苑崔壮△ 高静李长平刘媛媛刘寅马骏

【提要】目的采用梯度提升机与随机森林法对在天津市胸科医院行CABG手术后出现复发缺血性症状的患者是否会发生SVGD进行预测，并评价两种模型的分类性能。方法将606例研究对象按7：3比例随机分为训练集和测试集进行模型训练和测试。用NRI和IDI评价两种集成算法对CART基分类器的提升程度，并采用诊断试验评价指标对模型的分类性能进行评价。结果以CART基分类器为参照，梯度提升机的NRI和IDI分别为0.31和0.15，而随机森林NRI和IDI分别为0.08和0.08。在测试集上GBM的AUC和ACC分别为0.89和0.83高于RF 0.80和0.73。二者筛选出的最重要的5个临床指标相同，依次为桥龄、左室舒张期径长、VLDL、隐静脉桥支数和心脏病类型。结论梯度提升机和随机森林法均能提升基分类器的分类性能，且前者优于后者。梯度提升机比随机森林有更好的泛化能力，更适合对外部数据的分类预测。

隐静脉移植血管(saphenous vein graft，SVG)解剖部位表浅，且有足够的长度，因此常被用作冠脉动脉旁路移植术(coronary artery bypass grafting，CABG)的搭桥血管，据文献报道[1]，SVG被广泛应用到约70%的CABG中。然而，隐静脉移植血管疾病(saphenous vein graft disease，SVGD)是临床上面临的一大难题。CABG术后1个月约10%的SVG发生闭塞性病变；术后1年约20%的SVG发生慢性阻塞性病变；术后5～10年内约25%～50%的SVG发生狭窄或者闭塞性病变；而10年后约50%的SVG发生闭塞病变，未闭塞的SVG也发生严重的弥漫性狭窄病变。行CABG手术患者往往因为复发缺血性症状而再入院进行冠状动脉造影(coronary arteriography，CAG)等相关检查，由此造成了较大的经济负担。

随着计算机性能的提升，boosting和bagging等集成算法相继出现，其中boosting算法的典型代表是Adaboost和梯度提升机(gradient boosting machine，GBM)，bagging算法的典型代表是随机森林(random forest，RF)[2]。本文选取了RF和GBM两种模型对CABG术后患者是否发生静脉移植血管病变进行分类预测，以期帮助临床医生对病人进行早期风险管理。同时比较二者对CART基分类器性能的提升程度，并用一系列诊断试验指标来评价两种模型的分类预测性能。

对象与方法

1.研究对象

本研究收集了在2015年3月至2017年12月期间，在天津市胸科医院行CABG手术，由于出现复发性缺血性症状而再入院的863名患者的数据。SVGD的诊断标准：经CAG检查患者至少有1个SVG出现显著的狭窄(狭窄程度≥50%)。纳入标准：CABG术后出现复发性缺血性症状而再入院检查的患者。排除标准：严重瓣膜病、急性代偿失调性心衰、恶性肿瘤、肾或肝功能缺陷、急性或慢性感染和/或炎症、贫血、血液疾病或慢性阻塞性肺病。最终有606例患者符合纳入排除标准。本研究收集的数据包括患者的人口学信息、并发症、家族史、CABG前血管造影/PCI资料、以及再入院时的临床、实验室数据。

2.研究方法

(1)基本原理

梯度提升机基本原理：Friedman[3]在1999年提出梯度提升模型，它的基本思想是每一次新的迭代都是为了减少上一次迭代的残差，使模型沿着残差减小最快的方向进行，由此产生一系列弱分类器，每个弱分类器都是一棵二叉树，最终将这些弱分类器组合形成能使损失函数达到极小的模型。为了避免模型学习太快出现过拟合(over-fitting)，因此模型引入收缩性参数(shrinkage)，该参数越小，模型学习越“充分”，但同时会带来模型的时间复杂度增加的问题[4]。在梯度提升机中，每棵树之间的关系是垂直且相关的。

随机森林基本原理：随机森林是基于大量决策树集成的分类或回归算法，所谓“随机”包含两层含义：一是样本的随机，通过Bootstrap抽样随机抽取样本，二是变量的随机，即每个节点只选取部分特征进行分裂[5]。在分类问题时，所有拟合的树通过“投票”决定该观测所属的类别。在随机森林中，每棵树之间的关系是独立且平行的。

(2)模型评价方法

表1简要描述了本研究用于模型分类性能评价的8个指标的意义及计算公式[6]。其中，TP、FP、TN和FN分别代表混淆矩阵中的真阳性、假阳性、真阴性和假阴性例数。准确率、灵敏度、特异度、阳性预测值和阴性预测值是评价模型分类效果的单一指标，而ROC曲线下面积(AUC)、几何均值和F1得分为模型评价分类效果的综合指标。此外，本研究使用重分类改善指数(net reclassification improvement，NRI)和综合判别改善指数(integrated discrimination improvement，IDI)来比较梯度提升机和随机森林作为集成算法对单分类器(以CART为参照)性能的改善程度[7-8]。

表1 分类模型常用的评价指标

(3)统计学方法

本研究定性资料用频数(构成比)描述，定量资料用M(Q1，Q3)表示。对定性和定量资料分别采用卡方检验、秩和检验进行单因素分析，检验水准为α=0.05。采用有统计学意义或临床意义的指标构建模型。分别使用R 3.4.4中的rpart，gbm和randomForest软件包实现CART，GBM随机森林三种模型。

结果

1.一般情况及单因素分析

将研究对象按7∶3比例随机分成训练集合测试集，分别对收集的临床指标进行单因素分析。表2仅展示了单因素分析有意义或认为有临床意义的指标，即：桥龄、左室舒张期径长、VLDL、LP(a)、左室射血分数、心脏病类型、原位病变血管支数和隐静脉桥支数，这些指标将用于模型构建。

2.CART决策树模型

通过10折交叉验证进行确定最优复杂度参数(CP=0.02)，并进行剪枝。最终模型纳入四个指标，分别为左室舒张期径长、桥龄、左室射血分数和VLDL，出现如下三种情况可判定为SVGD：①左室舒张期径长≥52.50mm。②左室舒张期径长<52.50mm，桥龄≥5.5年，VLDL≥0.38mmol/L。③左室舒张期径长<52.50mm，桥龄<5.5年，左室射血分数<57.50%。其余情况判定为非SVGD。详见表3。

3.梯度提升机模型

表2 建模指标在非SVGD和SVGD人群中的分布

*：定量资料用M(Q1，Q3)表示，定性资料用n(%)表示。

表3 CART决策树结果

*：CART决策树的预测结果

图1 GBM和RF中各指标的相对重要性

4.随机森林模型

根据是否为SVGD这一变量进行分层bootstrap有放回抽样，每次分裂时候选变量的个数(mtry)为总变量目的开方。结合袋外误差调整模型参数，最终选择叶节点的例数(nodesize)为15，树的数目(ntree)为500。与梯度提升机类似，用Gini不纯性的平均下降值衡量变量的相对重要排序。结果如图1所示。

5.模型分类效果对比

NRI和IDI两个指标定量的给出GBM和RF对CART基分类器的提升程度。通过bootstrap法得到表1中各指标的点估计值及95%CI。为了方便比较将CART基分类器的结果也展示在内。就训练集而言，RF模型的ACC、SE、SP、PPV、NPV、AUC、G-mean和F1-score稍高于GBM。但在训练集上，GBM分类效果优于CART和RF。结果详见表4。

讨论

上述模型结果表明，桥龄、左室舒张期径长、VLDL、隐静脉桥支数和心脏病类型这五个指标对于预测判断患者是否为SVGD重要的临床意义。且桥龄越大、左室舒张期径长越长、VLDL越高、隐静脉桥支数越多越有可能发生SVGD，且心脏病类型为ACS的患者更容易发生SVGD。国内李丽[11]等一项关于2010-2015年92例CABG术后症状复发而再入院检查研究结果表明，SVGD与冠心病传统危险因素无明显关联，这一结论与本研究的结果基本一致。国外有研究表明桥龄是SVGD发生的危险因素，与本研究结果一致[12]。此外，有研究初步发现了许多潜在的SVGD的生物标志物如淋巴单核细胞比、维生素D、血小板比积、IL-6、CRP等[13]，本研究尚未发现此结果，这些危险因素及生物标志物能够用于中国人群SVGD仍需要进一步研究。

表4 CART，GBM与RF分类效果对比

*：NRI和IDI均以CART基分类器为参照计算，大于0表示正提升，小于0表示负提升。

CART决策树作为一种基学习器，其学习能力比较弱，为此一系列集成算法如随机森林和梯度提升机相继出现。Sotiris K一项关于集成算法性能的研究纳入了34个不同数据集，当以决策树作为基分类器时，boosting算法在19个数据集上准确率高于bagging算法[14]。刘玉尧利用梯度提升算法建立了早期肿瘤发生的预测模型，并发现其预测性能优于随机森林[15]。这提示两种算法性能可能与具体应用场景有关。在本研究中，RF和GBM均可改善CART的分类性能，且在测试集上GBM优于RF。GBM在测试集上的表现与训练集相差无几，表明GBM有更好的泛化能力，这可能与GBM算法内部设置学习率来避免模型过拟合有关。而RF虽然在训练集上表现略好于GBM，但在更具有推广意义的测试集上逊色于GBM。SVGD是临床上面临的一大难题，本文旨在通过机器学习算法对曾行CABG的患者是否会发生SVGD进行分类预测，从而协助临床医生进行早期干预。通过研究发现GBM的分类性能优于RF。本研究的局限在于样本例数相对较少，且纳入的研究对象是出现复发缺血性症状如胸痛进而到医院进一步检查的患者。今后仍需更大的样本来验证结果的外推性。总之，GBM为SVGD的分类预测开拓了新的思路，其优良的预测性能可为临床决策提供有价值的信息。

基于SVGD分类预测的梯度提升机与随机森林的性能比较*

对象与方法

结 果

讨 论

结果

讨论