刘世雄 熊旺平
摘 要:为降低药物不良事件的发生率,保障中成药临床合理用药水平。文章基于机器阅读理解和预训练模型的命名实体识别方法提取处方关键信息,采用双向LSTM和注意力机制的关系抽取模型建立知识图谱规则库,在此基础上形成中成药用药监测系统。所构建的实体识别和关系抽取模型在各自数据集上,F1值分别达到88.89%和77.96%,相较于关系型数据库,知识图谱系统的监测准确率提升12%。评估结果表明,该系统能够快速响应,有效提高处方监测效率,对保证患者用药安全具有重要意义。
关键词:中成药;安全用药;知识图谱;监测系统;关系抽取
中图分类号:TP39 文献标识码:A 文章编号:2096-4706(2023)13-0145-05
Design and Implementation of Drug Monitoring System for Chinese Patent Medicine Based on Knowledge Graph
LIU Shixiong, XIONG Wangping
(School of Computer, Jiangxi University of Chinese Medicine, Nanchang 330004, China)
Abstract: To reduce the incidence of adverse drug events and promote the rational clinical use of Chinese Patent Medicines. In this research, the key information in the prescription is extracted by the named entity recognition method based on machine reading comprehension and pre-training model, and the relationship extraction model of the two-way LSTM and attention mechanism is used to establish a knowledge graph rule library, and on the basis of the above, a e drug monitoring system for Chinese patent medicine is formed. The entity identification and relational extraction models constructed in this study achieve 88.89% and 77.96% F1 values, respectively, on their respective datasets, and the knowledge graph system improves the monitoring accuracy by 12% compared to relational databases. The evaluation results show that the system built in this study can respond quickly and effectively improve the efficiency of prescription monitoring, which is of great significance to ensure the safety of patients' medication.
Keywords: Chinese patent medicine; safe medication; knowledge graph; monitoring system; relationship extraction
0 引 言
药品安全事关人民群众身体健康和生命安全。我国人口基数大,不合理现象不容忽视。中成药因性质稳定、疗效确切、毒副作用相对较小、服用方便等特点,有着深厚的基层群众基础[1,2],但临床开药存有不少問题:开药行为不规范,或在患者分科、分院就诊时存在重复用药现象;开中成药时忽视中医的辨证施治,即未考虑特殊人群(包括老人、儿童、妊娠期和哺乳期妇女等)的身体特征,或未考虑中成药药量对患者肝肾功能的损害[3];忽视中成药禁忌、药物之间的相互作用。为此研发安全用药监测系统,以保障患者合理用药[4]。本文通过知识图谱将疾病实体、病症实体以及中成药药物实体等关联起来,形成中成药给药基础数据规则库;将上传的处方组提炼症、病和中成药给药关键信息,与医疗知识图谱中的现有症状进行匹配,对处方中所涉中成药的联合用药、重复用药、药与病、药量以及辨证施治五个方面进行监测,以期为预防药物不良事件发生,提高安全用药水平提供一种新的技术思路。
1 国内外药品安全系统研究现状
欧美发达国家率先将安全用药系统嵌入电子处方系统,进行实时的监管控制,欧洲各国纷纷建立欧洲微生物耐药监测系统和欧洲抗菌药物使用量检测网。美国波士顿医院将临床路径的经验和成果引入合理用药系统。First DataBank公司作为全球最大的药物信息数据库开发中心,为PASS系统提供全面的技术支持和基础数据源[5,6]。目前国内应用的合理用药系统主要有四川美康医药研究开发有限公司的PASS合理用药监测系统和上海大通医药信息技术有限公司的药物咨询及用药安全监测系统,在用药剂量、药品禁忌症、相互作用等可能会对患者造成身体伤害的方面,进行实时的监控提醒,避免医疗事故的发生[7-9]。尽管传统中医药学历经几千年的发展,但是缺乏统一描述,知识体系完备性不够,给信息利用以及共享造成很大难度,而对中成药不良反应监测又存在涉及的药物品种多、应用范围广、成分复杂、认识不统一、量效关系不明确、命名不规范等特点[10,11],对中成药进行有效监测的难度可想而知。目前监测框架使用的基础规则库主要面向西药[12,13],缺少中成药联合用药禁忌、辨证施治等系统的标准化数据规则库,因此现有中成药监测体系不能很好地满足具体需求。
2 系统设计
用药监测系统以用药规则库为基础实现对处方的审核,由于传统关系型规则库难以适应中成药体系的复杂性,本文通过关系抽取模型抽取知识,再形成能整合多尺度信息的知识图谱用药规则库,同时以命名实体识别方法提取处方中的关键信息,在此基础上形成中成药用药监测系统。本系统的主要框架包括模型构建、知识图谱构建、系统应用三大模块,如图1所示。
2.1 模型构建
2.1.1 关系抽取模型
关系抽取对于知识图谱的构建具有重要的意义,是自动化获取关系三元组的必要手段。本研究利用双向长短期记忆网络(Long Short-term Memory Networks, LSTM)[14]和注意力机制构建端到端的关系抽取模型,再基于预定义的抽取规则进行关系三元组抽取。根据标注整理好的中成药关系抽取语料库,模型的输入嵌入层利用Word2Vec训练得到字向量,双向LSTM神经网络进行特征提取,注意力机制计算字符之间的权重,获取文本信息中的重要信息以及条件随机场(Conditional Random Field, CRF)[15]序列输出,最后基于抽取规则达到三元组抽取,如图2所示。
2.1.2 命名实体识别模型
命名实体识别主要是针对给定的预处理处方,识别出其中可能存在的实体词,进而与知识图谱相匹配,是实现系统的技术基础之一。本研究主要利用预训练BERT[16]模型实现模型的构建,模型编码层将句子中的每个字映射为向量表示,再由Transformers得到句子信息的隐层表示,最后由模型分类层得到实体识别的输出,完成句子中有特殊意义的实体识别。
2.2 模型结果
2.2.1 关系抽取结果
为自动抽取三元组,使用整理后的中成药关系抽取语料库,语料库的来源包含书籍《国家基本药物(中成药)临床指南》《常用中药配伍与禁忌》等。关系类别分为5类,如联合用药禁忌等,评价标准采用F1值。通过双向LSTM的强大特征提取能力和注意力机制的强化关键信息关联,在关系抽取数据集上训练达到了77.96%的F1值,最后得到三元组关系文件。
通常,完备的知识图谱经过关系抽取后还要历经知识融合、知识加工等流程,而本研究知识图谱只利用关系抽取得到三元组,最后辅以人工校正三元组,录入Neo4j图形数据库。
2.2.2 命名实体识别结果
对于用药系统而言,能否准确分词,识别处方语句中与中成药相关的实体,从而进行知识图谱的匹配查询才是系统的关键所在。本研究的命名实体识别标注语料来自《国家基本药物临床应用指南》以及部分临床电子病历,将原始数据整理成BIO标注格式,实体类别主要分为三类:疾病、症状、中成药,评价标准采用综合评价指标F1值。通过实体识别模型,引入有关实体信息的先验知识,最后在标注数据集上达到88.89%的综合F1值,可以满足实际需求。训练得到的模型会自动保存,新的处方文件会直接调用模型进行预测,得到有关中成药的中文字段。
3 知识图谱构建
通过关系抽取得到的三元组文件,辅以人工校正、录入,构建合理用药、重复用药、依症施治等图谱,各知识图谱组合成中成药合理用药规则库。图谱的实体为中成药药名、症状、药量、证等本体概念,本体概念之间具有关系,实体与关系以三元组形式(E1,R,E2)存于Neo4j图形数据库中。例如(附子理中丸,禁忌,牛黄解毒片),附子理中丸和牛黄解毒片为两个实体,而两实体之间存在禁忌关系,在Neo4j图形数据库中,节点表示实体,而节点相连的边表示实体之间的关系。
中成药用药知识图谱将中成药、病、症、特殊人群等信息关联起来,将这些关联信息结构化,实现多尺度知识的关联与融合,为基于知识图谱的中成药用药监测系统形成数据基础。部分中成药合理用药知识图谱如图3所示。
4 中成药用药监测系统的实现
本文基于知识图谱的用药规则库,搭建中成药合理用药监测系统。选用C#三层架构、Client/Server結构进行系统的开发。系统主要包括合理用药知识库、合理用药审查、用药动态监测和专家处方点评等功能模块以及相关数据统计分析和用户权限分配等辅助功能模块。系统采取“事先限制、事中干预、事后监管”的模式,多维度发现和制止不合理用药的情况,达到监测目标。
4.1 模块设计
4.1.1 合理用药知识库
模块主要包括药品说明书、标准处方模板、国家药典。说明书针对已收录的中成药,可以查看中成药详细信息,标准处方模板收录一些标准的模板,给用户提供参考。合理用药知识库主要是满足医药工作人员或患者对基础医学知识的查询需求,是系统设定的最基础模块。页面展示如图4所示。
4.1.2 用药审查
该模块实现药物相互作用的审查,用户自行添加两种以上待监测的药物,在规则库中进行匹配检索,查找是否存在用药禁忌关系,并反馈结果到前端界面,避免医生开具不合理用药处方,达到合理用药事前预警的目的。
4.1.3 用药动态监测
用药动态监测模块是系统的核心模块。监测管理员将医生开具的处方文件导入到系统中,系统自动监测处方数据,通过参数调用训练好的命名实体识别模型提取其中的实体,对五个方面进行监测:联合用药监测、对症给药监测、重复用药监测、辨证施治监测、药量控制监测。合理用药监测完毕将此次监测结果更新到数据库,在首页进行展示,供相关人员统计之用。功能展示如图5所示。
4.1.4 专家点评
专家处方点评模块是本研究框架的第二个核心模块。该模块的功能是专家人员点评医生开具的处方,并根据系统提供的处方点评标准,对每个处方中的不合理项目进行计分标注,监测员可以通过系统查看处方的得分信息,找到相应的问题所在,在不合理用药的最后一个阶段实施监测。
4.2 系统评估效果
为验证系统的准确率及相应速度,对收集到的200份包含中成药的电子病历集进行监测,以系统响应时间、模块监测等平均准确率为评价标准,与传统关系型规则库的监测系统进行对比。结果两种以上联合用药可能存在风险的监测准确率明显高于传统关系型数据库,提升了12%,此外基于知识图谱的系统结果响应时间提升至0.8 s。得益于知识图谱关系表达能力强的优点及其查询简单、快速的特点,在提高准确率的同时,又能快速反馈,大大提升了用户的使用体验。
5 结 论
中成药用药监测系统根据临床安全用中成药工作的基本特点和要求,基于知识图谱数据库组织原理和技术,成功实现了合理用药监测、专家处方点评及相关统计分析。根据上传的电子病历对医生的处方进行基本审查,对不符合合理用药规范的处方信息给出警示信息。该系统有助于提升医疗质量,保障患者用药安全。
此外,该系统有待深入研究的地方在于:现阶段的关系抽取还是基于有监督学习,人工标注语料的代价巨大。下一步尝试半监督学习,将未标注的数据和部分标注的数据同时训练,从而降低图谱构建代价。进一步完善合理用药知识库(包括全品种药物相互作用规则库、药物食物相互作用规则库、禁忌症及老年人、儿童、妊娠期、哺乳期等特殊人群合理用药规则库等),从而使该系统更贴近实际场景。同时在此应用监测的基础上,综合考虑患者的病情、给药方式和用药时间,实现更为全面的监测。
参考文献:
[1] 马志会.我院2015年—2017年中成药不良反应分析报告 [J].基层医学论坛,2019,23(16):114-116.
[2] 王少波,左铮云.江西省乡镇卫生院中医药发展现状及对策分析 [J].江西中医药大学学报,2013,25(4):82-83.
[3] 林相如.基于Hadoop的合理用药系统设计与实现 [D].哈尔滨:哈尔滨工业大学,2014.
[4] 苏洽玉.合理用药监测系统对临床不合理用药监测情况分析 [J].中国医院用药评价与分析,2018,18(11):1551-1554.
[5]ANGRAAL S,KRUMHOLZ H M,SCHULZ W L. Blockchain technology:Applications in health care [J].Circulation:Cardiovascular Quality and Qutcomes,2017,10(9):91-94.
[6] DAGHER G G,MOHLER J,MILOJKOVIC M,et al. Ancile:Privacy-preserviong framework for access controland interoperability of electronic health records using blockchain technology [J].Sustainable Cities and Society,2018,39(4):283-297.
[7] 薛騰飞,傅群超,王枞,等.基于区块链的医疗数据共享模型研究 [J].自动化学报,2017,43(9):1555-1562.
[8] 程冬梅,李志.基于雾计算的医院信息服务系统 [J].计算机科学,2015(7):170-173.
[9] WU X H,XIE G Y,CAI C M,et al.Discussion on Effects of PASS on Monitoring the Rationality of Clinical Medication in Xiamen Haicang Hospital [J].Evaluation and Analysis of Drug-Use in Hospitals of China,2018,18(6):856-857+861.
[10] 包文虎,陶有青,王璐,等.中医药国际标准化进展、问题和对策刍议 [J].世界中医药,2015,10(4):613-618.
[11] 王传池,杨燕,胡镜清,等.中医药标准化调研分析的现状、问题与相关政策解读[J].中华中医药杂志,2018,33(9):3776-3780.
[12] TANG M Q. Design and Implementation of Health Management System Based on Mobile Application [J].Computer ence and Application,2018,8(12):1843-1849.
[13] 胡欣燕,李璐瑒,国琦,等.中医医院用药咨询数据库模式分析与探讨 [J].中国药师,2019,22(4):682-685.
[14] MIWA M,BANSAL M. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures [EB/OL].[2022-11-26].https://arxiv.org/pdf/1601.00770.pdf.
[15] LAFFERTY J,MCCALLUM A,PEREIRA F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [EB/OL].[2022-11-25].https://www.researchgate.net/publication/2529190_Conditional_Random_Fields_Probabilistic_Models_for_Segmenting_and_Labeling_Sequence_Data.
[16] DEVLIN J,CHANG M W,LEE K,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [EB/OL].[2022-11-21].https://arxiv.org/pdf/1810.04805.pdf.
作者简介:刘世雄(1997—),男,汉族,山西运城人,硕士研究生在读,研究方向:自然语言处理;通讯作者:熊旺平(1982—),男,汉族,江西丰城人,副教授,博士,研究方向:数据挖掘、自然语言处理。
收稿日期:2022-12-28
基金项目:国家自然科学基金资助项目(82160955)