朴素贝叶斯分类器在化疗所致恶心呕吐风险预测模型上的应用

2021-05-07 02:40:24曹众平熊习安
南方医科大学学报 2021年4期
关键词:贝叶斯恶心分类器

曹众平,熊习安,杨 群

1中南大学湘雅二医院临床护理教研室,湖南 长沙 410011;2中南大学湘雅二医院肿瘤中心,湖南 长沙 410011;3中国科学院高能物理研究所实验物理中心,北京100043

全球肿瘤统计数据显示近年来肿瘤已成为人类主要的疾病致死原因之一,并严重影响人类的健康和生活质量[1-3]。化疗作为治疗肿瘤的主要手段之一,在获得不错疗效的同时,也带来了一定程度的副作用。其中化疗所致恶心呕吐(CINV)是对患者影响最大的副作用之一。尽管目前在预防和治疗CINV的止呕剂上取得了很大的进展[4-5],多个国家和地区对如何预防CINV发布了对应的指导手册[6-9],但是仍然有高达30%的肿瘤患者未实现对恶心呕吐症状的完全缓解。

加拿大渥太华George团队首次将患者个人因素纳入到CINV风险评估当中,建立了急性CINV和延迟性CINV 的风险预测工具,具备一定的预测能力[10-14]。2013年英国Molassiotis团队使用Logistic回归模型构建了CINV 风险预测模型,灵敏度为79%,特异度为50%[15]。2014年,基于中国肿瘤患者,中山大学肿瘤医院的张力团队构建了第一周期化疗CINV列线图预测模型。该预测模型的一致性指数为0.67(95%CI:0.62~0.72),拟合优度一般[16]。因国内外患者地域、个人因素、治疗条件和治疗方案等差异,国外的风险预测模型不能直接应用在中国患者CINV风险预测上。同时,上述模型的预测准确度还有很大的提升空间。而国内对CINV风险预测模型的研究相对较少,还停留在CINV影响因素的探讨。

对CINV的精准预测和完全预防对患者有着重要意义,也是研究人员和临床工作者的重要目标,不仅可以改善患者的生存质量,提高治疗效果,而且可以指导医生合理用药,减少医疗资源的浪费。本文基于中南大学湘雅二医院肿瘤中心收集的300例化疗患者样本,研究朴素贝叶斯分类器在CINV风险预测模型中的应用,构建适用于中国患者的CINV风险预测模型。

1 资料和方法

1.1 临床资料

本文收集了2020年7~9月于中南大学湘雅二医院肿瘤中心接受化疗的患者300例。所有的患者都有明确的肿瘤诊断并且接受了住院化疗治疗。患者年龄分布在40~60岁之间的比例为52.5%,60岁以上的比例为35.2%,样本中的男女比例为1.67。患者所患肿瘤分布为胸部肿瘤24.6%,妇科肿瘤14.3%,胃肠道肿瘤18.6%,头颈部肿瘤17.9%。76.5%的患者处于肿瘤Ⅲ期或Ⅳ期,20.9%患者有妊娠恶心的症状史,48.2%有长期饮酒史,41.5%患者预期在化疗期间会发生CINV,详细数据分布见表1。患者治疗方案中76.4%的患者使用铂类药物,详细治疗方案分布见表2。急性CINV发生占比为43.7%,延迟性CINV发生占比为69.0%。

1.2 数据记录及随访

记录患者住院期间和化疗结束后连续5 d的相关信息。数据收集参考CINV相关研究[10-18],包括患者的基本信息、个人因素相关信息和治疗相关信息。

• 基本信息:性别;年龄;肿瘤类型;肿瘤分期;第几次化疗和化疗前晚睡眠时间。

• 恶心呕吐史:如非首次化疗的患者,上一周期化疗是否发生恶心呕吐;女性患者是否有过妊娠呕吐反应。我们使用是/否来记录该变量,在男性的妊娠呕吐反应选项置为负数,方便后期数据处理。

• 是否习惯性饮酒。

• 是否存在并发症如心血管疾病、糖尿病、胃肠道疾病、甲状腺相关等慢性疾病。

• 化疗前是否有以下症状:恶心、呕吐、疼痛、食欲减退。

• 化疗前是否会预期恶心呕吐。

• 焦虑状态:我们使用SAS[18]来评估患者的焦虑状态。

• 使用高致吐化疗药物的化疗方案:铂类药物,蒽环类药物,氮芥类药物,氮烯咪胺。

表1 患者基本信息分布Tab.1 Basic information of the patients

表2 患者治疗方案特征分布Tab.2 Characteristics of the patient treatment plans

• 止吐方案:止吐方案分为化疗前止吐方案和化疗后止吐方案,用药有糖皮质激素、5-羟色胺(5-HT3)受体拮抗剂、NK-1 受体拮抗剂、奥氮平、其它或者上述几种药物联合使用。

• 恶心呕吐:患者每次化疗后一天收集恶心呕吐等级作为急性CINV的结果,化疗结束后持续记录5 d作为延迟性CINV的结果,其中恶心呕吐等级使用NCICTCAE标准[20]来记录。最后,使用五点李克特量表计算综合恶心呕吐等级[21]。在此研究中,恶心呕吐等级大于等于2作为结局指标。

1.3 模型与方法

机器学习是一门人工智能科学,可以通过数据或以往的经验自动改进计算机算法的研究。机器学习分为监督学习、无监督学习、半监督学习和强化学习,广泛用在分类、回归、聚类、优化等问题上。机器学习有很多算法,比如决策树、支持向量机、神经网络、贝叶斯等[22]。相比于传统量表的方法,机器学习可以处理更加复杂的患者指标和CINV结果之间的关系,机器学习算法会根据现有的数据学习到数据中的规律,并且在测试样本上得到很好的预测效果。

1.3.1 统计学方法和工具 本文中所有数据均使用python进行处理[23-24],使用pandas进行数据预处理[25],使用机器学习库scikit-learn 进行模型构建[26],使用matplotlib进行图形绘制[27],使用SciPy进行置信区间估计[28]。数据结果都以均数±标准差表示,同时给出95%CI下的置信区间。检验水准α=0.05。

1.3.2 模型选择 本研究中的CINV风险预测是一个典型的监督学习问题,从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集和验证集需要包括特征和目标。在本研究中,数据集的特征包括患者的个体基本信息和治疗方案(表1、2)。目标即患者发生CINV的情况。在机器学习算法的选择上,考虑到本研究样本规模较小,在样本特征空间中可能存在缺失值,同时朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(变量的均值和方差)[29]。由于变量独立假设,只需要估计各个变量的方差,而不需要确定整个协方差矩阵[19]。所以我们使用朴素贝叶斯分类器建立CINV风险预测模型。从数据的分布可以得知,大多数的特征的取值可以量化为0和1,我们使用适用于离散特征的伯努利朴素贝叶斯分类器。

1.3.3 模型训练和评估 本文使用机器学习库scikit-learn中的朴素贝叶斯分类器作为化疗所致恶心呕吐风险预测模型。在收集的300例样本中,70%的样本作为训练样本用来训练机器学习模型,30%的样本作为测试集用来衡量模型的表现。

在特征选择上,朴素贝叶斯要求各个特征之间需要相互独立。为此分析了各个特征之间的相关性,并去掉了相关性大于0.8 的特征变量,保证最后进入模型训练的特征满足弱相互独立。我们分析了关联性大于0.8的特征组合A,B(表3)。在分别去掉特征A和特征B后,计算与未去掉特征A 和特征B 之前的ROC值的差值。其中正数代表去除该特征之后ROC值变大,负数代表去除改特征之后ROC值变小。特征去除规则是特征去除之后,模型ROC有正向收益或者有相对较大的收益。我们去除Gender,Use of nonprescribed antiemetics at home,NK-1 receptor antagonist used as post-chemotherapy anti-emetics三个特征量。从分析结果来看,去掉以上三个特征对分类结果都有一定程度的提升。我们使用10折分层随机分割交叉验证[26,30]来确定模型的最终结果。

表3 CINV风险预测模型特征关联性分析Tab.3 Correlation analysis of characteristics of the risk prediction model for chemotherapy-induced nausea and vomiting(CINV)

在模型的评价指标上,使用在机器学习领域和医学领域广泛使用的受试者特征曲线(ROC),曲线下面积(AUC)来评估模型在测试集上的表现[31]。同时使用了在医学领域常用的敏感度和特异度作为衡量模型的指标。

2 结果

2.1 基于朴素贝叶斯分类器的模型特征

在本分析中,基于中国肿瘤患者的数据,得到了基于朴素贝叶斯分类器的CINV风险预测模型。最终进入急性和延迟性CINV预测模型的患者特征包括:年龄、女性患者是否有过妊娠呕吐反应、是否习惯性饮酒、是否存在基础疾病、肿瘤类型、肿瘤分期、第几周期化疗、非首次化疗患者,上一周期化疗发生恶心呕吐、化疗前是否预期会发生恶心呕吐、化疗前症状、焦虑等级、化疗方案是否使用高致吐药物、化疗前晚睡眠时间、化疗前是否使用糖皮质激素、化疗前是否使用5-羟色胺(5-HT3)受体拮抗剂、化疗前是否使用NK-1 受体拮抗剂、化疗后是否使用糖皮质激素、化疗后是否使用5-羟色胺(5-HT3)受体拮抗剂。

2.2 模型评估结果

急性化疗所致恶心呕吐风险预测灵敏度为0.83±0.04(95%CI:0.80~0.86),特异度为0.45±0.03(95%CI:0.42~0.47),曲面下面积为0.72±0.04(95%CI:0.69~0.75)(图1)。延迟性化疗所致恶心呕吐风险预测灵敏度为0.84±0.01(95%CI:0.83~0.86),特异度为0.48±0.03(95%CI:0.45~0.52),曲面下面积为0.74±0.02(95%CI:0.72~0.77)(图2)。

图1 急性CINV预测模型ROC曲线图Fig.1 ROC curve for acute CINV prediction model.Red dotted line indicates the result of random guesses(the closer the curve is to the upper left corner,the better the performance of the model).

图2 延迟性CINV预测模型ROC 曲线图Fig.2 ROC curve for delayed CINV prediction model.Red dotted line indicates the result of random guesses(the closer the curve is to the upper left corner,the better the performance of the model).

相比于其他团队的模型结果,基于朴素贝叶斯分类器的风险预测模型在AUC上具有更好的表现,具有更高的预测准确度。在灵敏度和特异度上也有不错的表现。模型在测试集上的表现见表4。

3 讨论

CINV 是化疗带来的严重副作用之一,严重影响患者的生存质量和治疗信心。延迟性呕吐更多发生在患者出院之后,相对于急性CINV,医生更难提供帮助。没有得到良好控制的CINV可导致治疗延误、剂量减少、止吐抢救治疗、医疗资源使用增加,甚至过早停止化疗[32]。本研究的样本中,急性CINV 发生比例高达43.7%,延迟性CINV 发生比例高达69.0%。因此,对CINV进行准确的预测并且进行有效的控制对患者有着至关重要的作用。

本研究首次将朴素贝叶斯分类器应用在中国患者CINV风险预测中,模型纳入个人风险因素,同时考虑化疗方案,从而识别高危患者。凭借着机器学习其高度的灵活性,处理复杂特征与结果之间关系的优秀能力,本研究中急性CINV风险预测模型曲面下面积为0.72±0.04(95%CI:0.69~0.75),延迟性CINV风险预测模型曲面下面积为0.74±0.02(95%CI:0.72~0.77),高于加拿大渥太华George 团队的0.69(95%CI:0.59~0.79)和0.70(95%CI:0.60~0.80)[13],本研究中的模型具有更高的预测准确度。

在本研究中,我们选取了比较高的敏感度(准确鉴别出CINV患者的衡量指标),相对较低的特异度(准确鉴别出非CINV患者的衡量指标)。虽然较低的特异度会造成该模型将部分非CINV患者归类为CINV阳性,但模型会很好的鉴别出CINV患者,给与临床医生根据患者的呕吐风险进行治疗、合理化使用昂贵止吐药的机会,减少患者CINV发生的几率。本研究中急性和延迟性CINV预测模型在敏感度指标上都优于加拿大渥太华George团队的0.69和0.70,也高于Molassiotis团队的0.79。在特异度指标上略低于加拿大渥太华George团队的0.52,0.50和Molassiotis团队的0.50[10-16]。

表4 基于朴素贝叶斯分类器方法的CINV风险预测模型与其他研究结果对比Tab.4 Comparison of CINV prediction model based on machine learning method with other research models

中国在CINV风险预测模型上的研究还比较滞后,尚未形成基于中国患者的CINV风险预测模型。基于朴素贝叶斯分类器的风险预测模型在测试集上表现出了很好的预测效果,为CINV风险预测模型提供新的研究方向和思路。可以预期,基于朴素贝叶斯分类器的CINV预测模型能够帮助医生提前做好止呕药物治疗或预防,预防急性、延迟性CINV的发生。

综上所述,基于朴素贝叶斯分类器的CINV风险预测模型具有很好预测效果,该方法在测试集上是有效的且优于国外量表结果。我们今后将进行更大样本量的模型优化、外部验证和对比实验。

猜你喜欢
贝叶斯恶心分类器
The selection rules of acupoints and meridians of traditional acupuncture for postoperative nausea and vomiting: a data mining-based literature study
题出的太恶心
BP-GA光照分类器在车道线识别中的应用
电子测试(2018年1期)2018-04-18 11:52:35
贝叶斯公式及其应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法
电子器件(2015年5期)2015-12-29 08:43:15
恶心的好东西
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别