基于数据挖掘技术分析艾迪注射液的不良反应

2021-06-03 02:50李志优田波姚闽
药品评价 2021年7期
关键词:过敏史艾迪贝叶斯

李志优,田波,姚闽

1.江西省人民医院药学部,江西 南昌 330006;2.江西省药品检验检测研究院,国家药品监督管理局中成药质量评价重点实验室,江西省药品与医疗器械质量工程技术研究中心,江西 南昌 330029

中药注射剂具有生物利用度高、起效快的特点,广泛应用于临床,在特定疾病治疗中发挥重要作用,尤其在肿瘤疾病的治疗方面有着独特的治疗优势[1]。近年来,中药注射剂不良反应(ADR)报道数量急剧增多,其安全性引起国内医药界的广泛关注。艾迪注射液成分为斑蝥、人参、黄芪、刺五加,能清热解毒,消瘀散结,可用于原发性肝癌,肺癌,直肠癌,恶性淋巴瘤,妇科恶性肿瘤等,在我省临床应用非常广泛,使用量居于省直医疗机构近年中成药用量排名前列。本研究利用IBM SPSS Modeler软件,综合应用决策树(C5.0)算法、贝叶斯网络、神经网络和关联规则Apriori 算法,对艾迪注射液ADR 案例信息进行深入挖掘,探索艾迪注射液ADR 发生特点及发生规律,为临床合理、安全使用中药注射剂提供借鉴。

1 资料与方法

1.1 资料来源[2-12]

(1)检索中国知网、万方医学网、维普等数据库,检索时限为2015 年1 月至2019 年6 月。以“艾迪”and“不良反应”or“ADR”or“过敏”or“副作用”or“副反应”为主题词检索,收集艾迪注射液ADR 案例。(2)收集国家ADR 监测系统某两家医院近5 年艾迪注射液ADR 报告案例。

1.2 纳入与排除标准

纳入标准:报告资料应包括患者基本信息、用药信息、不良反应发生具体情况等,且不良反应的关联性评价为肯定、很有可能、可能,排除资料不齐全的报告。排除标准:排除患者性别、年龄、用药剂量、原发疾病四项信息中两项以上记载不详的案例。

1.3 方法

1.3.1数据预处理在Excel 中录入ADR 案例信息,包括患者性别、年龄、过敏史、原患疾病、用药剂量、溶媒类型、溶媒用量、临床表现、累及器官、发生时间等字段,共计185例。

进行数据转换预处理,如对过敏史“青霉素过敏”“解热镇痛药过敏”“酒精过敏”统一为“有过敏史”,对原患疾病“卵巢恶性肿瘤”“宫颈恶性肿瘤”统一为“妇科恶性肿瘤”,对临床表现“胸闷、心悸”“心慌不适”累及器官统一为“心血管系统损害”等。

利用IBM SPSS Modeler 软件,对意义不大的字段进行过滤删除(如给药途径均为静脉滴注),对数值型空值进行缺失值插补(如对“年龄”变量,选择“固定”方法,使用“中程数值”进行插补),对字符型空值选取“缺失值筛选”节点,选择丢弃(如对过敏史、原患疾病等信息不详的案例),得到176 条有效记录。

1.3.2数据挖掘对数据进行清理、集成、转换等预处理后,利用IBM SPSS Modeler 软件,应用决策树(C5.0)算法、贝叶斯网络、神经网络、关联规则Apriori 算法建模,对艾迪注射液ADR 发生特点、发生规律开展数据挖掘研究。

2 结果

2.1 决策树分析

以“ADR 累及器官”为目标变量,其他项为输入变量,输出类型选择“使用boosting”,构建C5.0算法的决策树,结果见图1 至图2、表1。

从图1、表1 可见,ADR 累及器官受用药剂量影响最大(重要性57.44%),其次是过敏史、溶媒用量、性别。

表1 基于决策树C5.0算法预测变量重要性值

图1 基于决策树C5.0算法预测变量重要性

从图2 可知,树模型深度为3,共产生16 个节点,终结点12 个。用药剂量为100、80 mL 的患者,易发生全身性损害(构成比分别为30.233%、26.829%),其次为皮肤及附件损害(构成比分别为20.930%、21.951%)。无过敏史的患者发生ADR比例高于有过敏史患者,但有过敏史的患者更易发生过敏性休克。

图2 基于C5.0算法的决策树图

用药剂量为60 mL 的男性患者发生ADR例数高于女性患者,且以皮肤及附件损害为主(构成比42.857%),女性患者则更易发生全身性损害(构成比46.667%)。

用药剂量为120、20、40、50 mL 的患者发生ADR 总例数最多(57例,占全部案例31.844%),其中,发生皮肤及附件损害例数最高(构成比31.579%),其次为消化系统损害(构成比17.544%)。

2.2 贝叶斯网络分析

以“ADR 累及器官”为目标变量,其他项为输入变量,选取TAN 模型,参数学习方法选择“针对小单元格计数的贝叶斯调整”,进行贝叶斯网络挖掘,结果见图3、表2。结果表明,原患疾病是最重要的预测因子(重要性为29.84%),其次为用药剂量、年龄、性别、溶媒用量、过敏史等。

图3 基于贝叶斯网络分析图

表2 基于贝叶斯网络预测变量重要性值

2.3 神经网络分析

以“ADR 累及器官”为目标变量,其他项为输入变量,构建多层感知器(mLP)神经网络模型,见图4、表3。结果显示,隐藏层含有1 个神经元,原患疾病是最重要的影响因素(重要性为25.31%),其次为年龄、用药剂量、溶媒用量、ADR 发生时间等。

图4 基于神经网络分析图

表3 基于神经网络分析变量重要性值

2.4 关联规则分析

应用关联规则Apriori 算法,以“ADR 累及器官”为后项,其他项为前项。设置最低条件支持度为10%、最小规则置信度为45%,得到6 条规则,见表4。解读置信度最高的前两条规则如下:对无过敏史的男性患者,以250 mL 的5%葡萄糖为溶媒滴注艾迪注射液,发生ADR 的例数为24例,占比13.41%,其中54.17%的案例表现为皮肤及附件损害。患直结肠癌的男性,使用溶媒用量为250 mL 滴注艾迪注射液,发生ADR 的例数为19例,占比10.61%,其中52.63%的案例表现为皮肤及附件损害。

表4 基于Apriori算法挖掘的关联规则

3 讨论

数据挖掘又称数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、规律性的、人们事先未知的、但又是潜在有用的信息和知识的非平凡过程[13]。数据挖掘技术在研究药品不良反应的发生规律中具有很好的应用前景[14]。本研究综合应用数据挖掘常用技术,如决策树、贝叶斯网络、神经网络、关联规则,对艾迪注射液ADR 发生特点、发生规律开展数据挖掘研究。

决策树是机器学习中的预测模型,主要建立决策树节点,且根据字段的不同值来建立分支,生成的规则可视化,便于理解[15]。常用的决策树算法有ID3、C5.0、CHAID、QUEST、CART[5]等。C5.0是C4.5 进一步的商业版本,C5.0 改善了生成规则和算法精度,实现更准确的生成规则,更快的速度和更低的错误率[15]。本研究选用C5.0 算法挖掘分析,利用了Boosting 方法来提高决策树的分类效率和准确率[16]。结果表明,ADR 累及器官与用药剂量最为相关(重要性57.44%),其次是过敏史、溶媒用量、性别。用药剂量为100 mL 或80 mL,且无过敏史的患者发生ADR 比例高于有过敏史患者,可能由于样本数据大多为无过敏史患者导致,但有过敏史的患者更易发生过敏性休克(构成比分别为18.182%、33.333%),应引起临床重点关注。值得注意的是,用药剂量为80 mL,溶媒用量为250 mL 的无过敏史患者发生ADR例数占比较高,溶媒用量太少,与说明书“成人一次50~100 mL,加入0.9%氯化钠注射液或5%~10%葡萄糖注射液400~450 mL 中”不符。临床应规范溶媒用量,避免药物浓度太高,导致ADR 发生。

贝叶斯网络是用于描述变量之间相互依赖联系的概率网络图模型,是概率论与图论相结合的产物,借助有向无环图来表达变量之间的因果关系,用条件概率表达因果关系的强度[17-18]。本研究运用贝叶斯网络分析结果表明,原患疾病是最重要的预测因子(重要性为29.84%),其次为用药剂量、年龄、性别、溶媒用量、过敏史等。

人工神经网络是通过模拟人类大脑神经网络结构和功能而建立的一种信息处理系统,通过模仿具有神经网络的生物行为特征,分布式并行信息处理的数学模型。通常可分为三层:输入层、隐藏层和输出层。输入层接收输入信号,通过一个或多个隐藏层对输入信息主动学习和调整,在不断地训练过程中寻找变量间复杂的非线性关系,最后经输出层输出学习预测后的结果[19]。根据网络拓扑结构和激活函数的不同有多种神经网络,其中mLP 采用多层感知器构建神经网络模型,具有预测能力较好的优点[16]。本研究构建多层感知器(mLP)神经网络模型,结果表示原患疾病是最重要的影响因素(重要性为25.31%),其次为年龄、用药剂量、溶媒用量、ADR 发生时间等,与贝叶斯网络结果基本吻合。

关联规则分析是指变量间存在关联,其中一个变量(后项)可通过其他变量(前项)来预测。关联分析的准确度由支持度、置信度、提升度3 个指标决定[19]。支持度是指前后项同时发生的概率,描述规则的频度,是对关联规则重要性的度量。置信度是指由前项推测后项发生的条件概率,描述规则的强度,是对关联规则准确性、可靠性的度量[20]。而提升度>1 时,认为前项对后项有正向影响,一般提升度越大,认为正向影响程度越高[21]。本研究选用关联分析的经典算法Apriori,探讨艾迪注射液ADR 累及器官与各因素之间的关联强度,得到6 条规则,提升度均在1 以上,关联分析具有意义。支持度较好,均在10%以上,但置信度均低于60%,条件概率偏低。

本研究综合运用4 种挖掘技术,全面挖掘分析了艾迪注射液ADR 发生特点及发生规律,为临床安全用药提供客观依据。但尚存在以下不足:一是样本量太小。因数据来源有限,且检索的文献及上报的案例缺失项太多,导致最终提取有效的样本量太小;二是挖掘结果准确率偏低。利用IBM SPSS Modeler 软件,比较各算法准确度,发现贝叶斯网络正确率最高,为62.57%,决策树(C5.0)算法正确率为39.66%,神经网络“ADR 累及器官分类总体正确率”为32.4%,关联规则Apriori 算法得到的规则置信度均低于60%。挖掘结果欠佳,可能与样本量有限,且临床用药复杂性有关,拟收集足够大的样本数据,探讨改进数据挖掘算法,以期利用最优算法,挖掘分析大样本数据,进一步验证和提升本研究的整体结果。

猜你喜欢
过敏史艾迪贝叶斯
不语似无愁
沉默
生命的药方
基于贝叶斯网络的海盗袭击事件影响因素
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯公式的应用和推广
艾迪的困惑
98例咳嗽变异性哮喘的临床分析
惊情假面人