应用数据挖掘技术研究康艾注射液不良反应发生特点

2021-04-27 00:44田波李志优胡建新
药品评价 2021年4期
关键词:过敏史贝叶斯决策树

田波,李志优,胡建新

江西省人民医院,江西 南昌 330006

康艾注射液主要成分为黄芪、人参、苦参素,具有益气扶正,增强机体免疫功能,可用于原发性肝癌、肺癌、直肠癌、恶性淋巴瘤、妇科恶性肿瘤。在我省临床应用非常广泛,使用量居于2018 年度省直医疗机构中成药用量排名第2 位。鉴于此,笔者认为其临床使用安全性问题值得重点研究。

1 资料与方法

1.1 资料来源

检索中国知网、万方医学网、维普等数据库,检索时限为2015 年1 月至2019 年12 月。以“康艾”and“不良反应”or“ADR”or“过敏”or“副作用”or“副反应”为检索词进行主题词检索和自由词检索,收集康艾注射液ADR 病例。

纳入标准:排除患者性别、患者年龄、用药剂量、原发疾病四项信息中两项以上(含两项)记载不详的病历。

收集国家ADR 监测系统某两家医院近5 年康艾注射液ADR 报告案例。纳入标准:报告资料包括患者基本信息、用药信息、不良反应发生具体情况等,且不良反应的关联性评价为肯定、很有可能、可能,排除资料不齐全的报告。

1.2 方法

1.2.1 数据库建立确定数据库字段,包括患者信息(性别、年龄、过敏史、原患疾病、诊断信息等)、用药信息(用药剂量、用法、给药途径、滴速、用药疗程等)、不良反应信息(临床表现、发生程度、发生时间、结局)等主要信息。在Excel 中录入完成,共计128 例,作为数据源。

1.2.2 数据预处理对原始数据进行预处理,如对原患疾病“右肺癌Ⅳ期、非小细胞肺癌”统一为“肺癌”,对“有青霉素过敏史”“有参麦注射液过敏史”统一为“有过敏史”,对临床表现“皮疹、瘙痒”“注射部位红肿伴瘙痒”累及器官统一为“皮肤及附件损害”等。

利用IBM SPSS Modeler 软件,读取数据源,对数据进行清洗。使用“过滤器”节点,对意义不大的字段进行过滤删除(如因收集的案例给药途径,均为静脉滴注,而滴速、用药疗程等字段缺失值太多,均删除)。使用“类型”节点,对数据进行实例化。使用“数据审核”节点,对数据质量进行检查,对缺失值进行处理。对字符型空值予以丢弃(如过敏史为空,该条记录则剔除),对数值型空值使用缺失值插补的方法进行填充(如对“年龄”变量,选择“固定”方法,使用“中程数值”进行插补)。

使用“分级化”节点,对连续型数据进行离散化处理。离散化是指把连续型数据切分成若干“段”,也称bin,是数据分析中常用手段。在数据挖掘中,离散化实用性很强,可提升性能,克服数据中隐藏的缺陷,使模型结果更加稳定[1]。因此,本研究对“年龄”进行分级化处理,分级宽度为10,分级结果见图1。

图1 对年龄进行离散化处理

1.2.3 数据挖掘对数据进行清理、集成、转换后,利用IBM SPSS Modeler 软件,采用决策树(CHAID)算法、贝叶斯网络、关联规则 Apriori 算法建模,对ADR 发生特点、相关因素关联性开展数据挖掘研究。

2 结果

2.1 决策树分析

以“ADR 累及器官”为目标变量,其他项为输入变量,构建CHAID,结果见图2 至图4。解读决策树模型可知,决定决策树分类最重要的相关因素是用药剂量,其次是年龄、性别、溶媒类型、过敏史,见图2。

108 个有效案例中,有52 例患者用药剂量为40 mL 和50 mL,占比最高(48.148%),其中累及器官为全身性损害的案例最多,有17 例(构成比32.692%),其次为皮肤及附件损害有15 例(构成比28.846%),见图3。

用药剂量为30 mL 和60 mL 的,年龄大于40岁小于60 岁的患者发生ADR 例数最高,为20例(占比18.519%),其次为年龄60 岁以上患者,有18 例(占比16.667%)。该两类患者发生全身性损害例数最高,构成比分别为45%、38.889%,见图3。

对用药剂量为40 mL 和50 mL,且无过敏史患者发生ADR 有39 例,占比高于有过敏史者(13 例),这可能与收集的案例大部分是无过敏史患者有关,其中,男性22 例,女性17 例,但女性发生皮肤及附件损害比例高于男性。有过敏史患者中,溶媒类型为0.9%氯化钠的有10 例,9 例发生全身性损害,溶媒类型为5%葡萄糖有3 例,全部发生皮肤及附件损害。见图4。

图2 基于CHAID算法预测变量重要性

图3 基于CHAID算法的决策树局部图1

图4 基于CHAID算法的决策树局部图2

2.2 贝叶斯网络分析

以“ADR 累及器官”为目标变量,其他项为输入变量,选取TAN 模型,参数学习方法选择“针对小单元格计数的贝叶斯调整”,进行贝叶斯网络挖掘,结果见图5、表1。由图5 和表1 可见,用药剂量是最重要的预测因子(概率为42.77%),其次为性别、年龄、溶媒用量、溶媒类型等。

表1 不同节点的重要性(%)

图5 基于贝叶斯网络分析图

2.3 关联规则分析

应用关联规则Apriori 算法,以“ADR 累及器官”为后项,其他项为前项。因关联规则需同时满足最低支持度阈值和最小置信度阈值时才是有效规则[1],阈值设置过高可能会遗漏有价值的信息,而阈值设置过低又会导致结果混入无意义的规则[2],因此,本研究经反复测试,设置最低条件支持度为10%、最小规则置信度为75%,得到12 条规则,见表2。

解读置信度大于80%的前两条规则如下:无过敏史的女性患者在连续用药后,发生ADR 案例为11 例,占全部案例10.19%,其中90.91%的案例表现为皮肤及附件损害。有过敏史且用药剂量为40 mL 的患者发生ADR 案例为11 例,占全部案例10.19%,其中81.82%的案例表现为全身性损害。

3 讨论

数据挖掘又称数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、规律性的、人们事先未知的、但又是潜在有用的信息和知识的非平凡过程[3]。数据挖掘技术已成为国际药品不良反应事件分析与评价的主流方法[4]。本研究综合应用数据挖掘常用技术,如决策树、贝叶斯网络、关联规则,对康艾注射液ADR 发生特点、相关因素关联性开展数据挖掘研究。

表2 基于Apriori 算法挖掘的关联规则

决策树具有分类精度高、提取的规则可以量化、易理解、对噪声数据有较好的稳健性等优点。常用的决策树算法有ID3、C5.0、CHAID、QUEST、CART[5]等,其中CHAID 算法是一种基于χ2和F分布的P值的决策树算法,即从统计显著性检验角度确定最佳分组变量和分割点[6]。本研究选用CHAID算法,对康艾注射液ADR 影响因素进行深入挖掘分析,结果表明,ADR 累及器官可能与用药剂量、患者年龄、性别、溶媒类型、过敏史具有相关性。用药剂量为30 mL 和60 mL 的,且年龄为40 岁以上中老年患者易发生全身性损害,应引起临床重点关注。

贝叶斯网络是一种由贝叶斯概率方法和有向无环图的网络拓扑结构结合表示的数学模型[7],可发现变量间因果关系,并用概率定量表示因果关系的强度[8]。本研究运用贝叶斯网络分析结果表明,用药剂量是最重要的预测因子,其次为性别、年龄、溶媒用量、溶媒类型等,与决策树挖掘结果基本吻合。

Apriori 算法是关联规则分析的核心算法,架构简单、易于解读,可结合规则支持度、置信度的判读,定量测量变量间的相关关系[9]。支持度和置信度是关联规则的基础评价性指标,对于关联规则X →Y,支持度为前项X 和后项Y 的事务数量在数据集中事务总数量的概率,通常用于反映规则的普遍程度。置信度是给定前项X 的前提下后项Y 的条件概率,通常用于反映规则的可靠性[1,10]。而增益,是关联规则的实用性指标,当增益>1 时,认为前项对后项有正向影响,一般增益越大,认为正向影响程度越高[1]。本研究选用Apriori 算法,探讨康艾注射液ADR 累及器官与各因素之间的关联强度,得到12 条规则,增益均在1 以上,关联分析具有意义。从置信度为80%以上的规则可知,患者性别、过敏史、用药剂量、ADR 发生时间、溶媒类型、溶媒用量对ADR 累及器官有正向影响,与前两种挖掘方法结果基本一致。

本研究运用3 种挖掘技术,比较全面客观,数据来源基于文献报道及国家ADR 监测系统医院上报案例,数据来源真实可靠,研究结果可视化,较直观,可读性强,易于理解。但本研究存在以下不足,部分数据信息不完整,如“滴速”一项大多遗漏,致使分析时所纳入的变量有限。数据缺失、数据样本量有限,且由于临床用药情况的复杂性,可能导致分析结果出现偏倚,如ADR 累及器官与用药剂量相关性较强,可能也与样本数据大多选用了说明书的用法40~60 mL 有关。以上因素导致结果不能全面反映康艾注射液ADR 发生规律,尚需更大样本量的数据来进一步分析验证。另外,支持度和置信度阈值设定高低会导致挖掘结果的质量,本研究主要依靠多次重复测算来设置,如何合理设置阈值得深入探讨。

综上所述,建立预测模型,挖掘康艾注射液ADR 发生特点、影响因素关联性,有助于科学客观地解读中药注射剂ADR发生规律,为临床合理使用、安全使用中药注射剂提供参考,为药品上市后再评价提供数据支持。

猜你喜欢
过敏史贝叶斯决策树
沉默
简述一种基于C4.5的随机决策树集成分类算法设计
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯网络概述
贝叶斯公式的应用和推广
决策树学习的剪枝方法
决策树在施工项目管理中的应用
98例咳嗽变异性哮喘的临床分析
为子女建立健康档案