基于OMOP通用数据模型的FAERS数据库标准化与数据挖掘

2019-06-28 05:54张正宇于跃周虎赵文龙
关键词:数据模型数据挖掘标准化

张正宇,于跃,周虎,赵文龙*



基于OMOP通用数据模型的FAERS数据库标准化与数据挖掘

张正宇1,于跃2,周虎1,赵文龙1*

1. 重庆医科大学医学信息学院, 重庆 400016 2. 美国梅奥医院数字医学科学系, 明尼苏达州 55901

应用OMOP通用数据模型,对FAERS数据库进行标准化转化,通过标准化前后数据质量与数据采集速度的对比分析,展示OMOP CDM在FAERS数据标准化程中的重要意义。然后,标准化的基础上,对5-羟色胺再摄取抑制剂(Selective Serotonin Reuptake Inhibitor,SSRIs)药物不良反应信号进行了挖掘,展示了基于“真实世界数据”的SSRIs上市后的安全信号的综合挖掘结果,为后续用药研究提供参考。

OMOP通用数据模型; 数据标准化; 数据挖掘; 药品不良反应

美国食品药品监督局的不良反应上报系统数据库(FDA Adverse Event Reporting System, FAERS)是世界范围内药物监管部门和学术界最常用的药物不良反应检测数据来源之一。但由于FAERS中的不良事件数据来源于自发上报,因此其存在一定程度的数据质量问题。随着电子健康档案(Electronic Health Records, EHR)数据库的发展,使得应用EHR的“真实世界数据”进行药物不良反应检测与验证成为了可能[1]。而EHR与FAERS数据的异质性,给药物不良反应挖掘分析带来了困难。因此,为了提高药物不良反应信号挖掘的准确性,对并且为未来FAERS与EHR相结合进行数据挖掘提供统一的标准化数据,亟需对FAERS进行数据标准化。

健康观测数据科学和信息学组织(Observational Health Data Sciences and Informatics,OHDSI)开发的观察医疗结果合作项目通用数据模型(Observational Medical Outcomes Partnership Common Data Model, OMOP CDM)为FAERS数据库的标准化和整合提供了框架[2]。OMOP CDM是一个为医学数据标准化而设计的数据模型,其基本思想是通过统一的数据模型与医学概念词汇表示,使得不同来源的医学数据以统一的标准进行整合。

本课题组的于跃等[3]开发了数据库转化工具ADEpedia-on-OHDSI,该工具具有较高的数据转化率,可以将FAERS数据库较为完整的转化为OMOP CDM格式。本文在基于OMOP CDM对FAERS 数据库进行标准化的基础上,对5-羟色胺再摄取抑制剂(Selective Serotonin Reuptake Inhibitor,SSRIs)药物不良反应信号进行了挖掘。通过标准化前后数据质量的对比分析,展示OMOP CDM在FAERS数据标准化与挖掘过程中的重要意义。

1 FAERS数据标准化与挖掘方法

1.1 数据来源

数据来源于美国食品与药品监督管理局(Food and Drug Administration,FDA)建立的药品不良事件(Adverse Drug Event,ADE)上报系统(FDA Adverse Event Reporting System, FAERS)数据库[4]。

在不良反应挖掘研究对象的选择上,选取临床广泛使用的SSRIs类抗抑郁药物。选择目前常用的五种SSRIs类药物:共五种:氟西汀(Fluoxetine)、帕罗西汀(Paroxetine)、舍曲林(Sertraline)、氟伏沙明(Fluvoxamine)以及西酞普兰(Citalopram)作为不良反应挖掘的实验对象,并纳入了2013年1月1日-2017年12月31日的药品不良反应(Adverse drug reaction,ADR)信号进行检测。

1.2 基于OMOP CDM的FAERS数据标准化与数据挖掘框架

设计基于OMOP CDM的FAERS数据标准化与数据挖掘框架。整个框架主要分为三部分,FAERS数据标准化、标准化药物不良反应数据查询与提取,基于标准化数据的药物不良反应挖掘。

1.3 数据标准化

采用OHDSI组织开发的OMOP通用数据模型完成FAERS数据库的标准化工作。OMOP CDM的最大特点是除了提供完备统一的标准化数据库结构外,还提供了用于医学概念的标准化医学词汇表。OMOP CDM的基本结构如图1所示目前,OMOP CDM中共收录了116种不同的医学词汇表/本体,并且通过同义词表,为每一个医学数据设定一个标准的概念映射,使不同数据库之间医学概念描述的差异化问题得到了解决。

图 1 OMOP CDM结构示意图

图 2 表级别FAERS-OMOP CDM数据结构匹配

在FAERS数据库的标准化方面,采用ADEpedia-on-OHDSI工具[3]将FAERS转化成为了OMOP CDM格式。其基本转化流程分为四步。1)数据预处理。应用斯坦福大学Banda等人开发的AEOLUS工具[5],完成对FAERS原数据中进行数据去重与药物名称标准化等预处理工作。经AEOLUS工具处理后FAERS数据库中的药物名称被映射到RxNorm药物标准化本体[6],完成药物名称的标准化工作。2)数据结构匹配。将FAERS原始的数据结构与OMOP CDM的数据框架在逻辑上进行了匹配,用以指导进一步的数据转换工作。主要包括表级别的匹配和字段级别的匹配。表级别的匹配结果如图2所示。3)数据提取、转化与加载。在逻辑匹配的基础上,根据OMOP CDM的具体要求,对FAERS原数据进行了数据的具体转化工作。数据提取、转化与加载内容具体包括:数据类型的转换、医学概念数据的标准化、数据计算、遗失数据插补、数据加载等流程。4)标准化结果评价,为了对数据标准化的结果进行评估,还对数据的转化率、医学概念匹配的正确率、数据计算插补的准确率等进行了评估。以反应整个FAERS数据库转换的效果。

1.4 标准化数据查询与提取

应用OMOP CDM进行数据标准化与整合的一个重要目的,就是为了实现标准化的数据查询与提取。由于OMOP CDM中所有的医学数据均会匹配到标准词汇表中的概念上,因此只要根据标准词汇制定标准化的查询语句,就可以实现不同数据库、甚至不同机构之间的标注化数据查询与提取,既实现了异构数据的标准化查询,又节省了编写查询语句的人力与时间。

数据提取采用根据OMOP CDM首选用于标注药物概念的RxNorm药物标本体获取SSRIs的各具体药物规范名称与概念唯一标识符(RxCUI)与相对应的OMOP概念标识符。进而根据编写标准化的SQL查询语句完成标准化数据的提取。数据提取完成后还要转置成为“药物-不良反应”矩阵格式,以备接下来的数据挖掘研究使用。

1.5 药物不良反应挖掘方法

基于药品不良反应的数据挖掘方法主要包括比例失衡法(Disproportionality Analysis,DPA)、信息成分法(Information component,IC)、MGPS相对比值比法(Multi-item gamma passion shrinker,MGPS)、和聚类分析法(clustering or database segmentation)等。其中比例失衡算法包括报告比值比法(Reporting odd radio,ROR)、比例报告比值比法(Proportional reporting radio,PRR)、和贝叶斯置信传播神经网络算法(Bayesian Confidence Propagation Neural Network,BCPNN)等。ROR法具有较高灵敏度,早期发现ADR信号的能力较好,故采用该方法。警戒信号检测标准为:(1)a≥3;(2)ROR 95%CI下限>1提示生成1个可疑药物不良反应信号。

MedDRA不仅用于对药品不良事件的规范化处理和编码,还提供药品不良事件的分类信息。将挖掘出的ADR信号按照MedDRA的系统器官分类(System organ class,SOC)进行统计整理。MedDRA所有术语都被赋予唯一的编码,并将其分为系统器官分类、高位组语(High Level Group Term,HLGT)、高位语(High Level Term,HLT)、首选语(PT)和低位语(Lowest Level Term,LLT)5个层级。基本单元是PT,用于对医疗事件进行划分和检索。采用MedDRA19.0版本对药品不良事件记录在26个SOC分类上的分布情况进行统计。并应用双聚类算法,绘制不良反应信号的热图,以实现挖掘结果的可视化展示。

2 实验结果及分析

2.1 FAERS标准化结果

从FAERS官网上下载2013年1月1日-2017年12月31日的数据进行试验。FAERS原始数据中共有病人数据11 904 580条,经过去重复后,病人数据为9,956,310条。进一步对去重复后的数据进行标准化并将其存入OMOP CDM数据库中。两个数据库主要表格间的转化结果如表1所示。从表1可以看出,FAERS数据库中患者基本数据,临床用药数据,用药适应症数据均全部加载到了OMOP CDM相对应的表中。而FAERS中的不良反应数据和临床结果数据也被全部转加载到OMOP CDM的OBSERVATION中(OBSERVATION表中数据总数等于FAERS数据库中REAC和OUTC两个表数据总数之和)。

另外,本研究同样调查了数据库中医学概念数据标准化的准确率。其中,药物名称匹配成功率约为94%,仅有6%左右的药物名称无法被匹配到OMOP CDM规定的RxNorm标准药物概念上。而不良反应概念与适应症概念由于FAERS中已经应用MedDRA词表对其进行标注。因此其可以全部转化到OMOP CDM的标准概念上。另外,患者的性别、国籍、服药方式、服药剂量等等相关概念的匹配成功率均在94%以上。说明转化过程中的信息损失较小,不会对后续分析结果造成较大影响。

表 1 FAERS与OMOP CDM数据库标准化前后主要表格数据比较

2.2 药物不良反应挖掘结果

经ROR法计算得到的五种SSRIs类药物不良反应信号数量如图3所示。其中共有ADR信号187例。

进一步对不良反应信号MedDRA术语集进行SOC分类,共涉及到26个SOC。绘制热点图(HeatMap)对挖掘出的不良反应信号在人类系统器官级别分类层次进行可视化展示。由图4可见,药物不良反应累积的器官/系统主要集中在各类精神类疾病、神经系统疾病、各类检查、胃肠道系统以及血管及淋巴管等系统。

图 3 SSRIs类药物不良反应信号数量

Fig.3 Number of adverse reaction signals of SSRIs

图 4 SSRIs-SOC分类层次不良反应信号热点图

图4展示了药品不良反应信号的分布状况。横轴代表SSRIs药物的类别,纵轴代表不良事件的SOC分类,行与列的交叉处的每个小格代表曲坦类药物和SOC分类的组合。每个小格的颜色代表着不良反应信号的频数值,颜色越深,频数越大。白色代表着该“药品-SOC分类组合”没有探测到药品不良反应信号。

该热点图从SSRIs类别和不良事件SOC两个维度对不良反应信号进行了聚类分析。首先,从图左侧的聚类树可以看出,主要可以分成两个大类:1)氟西汀、帕罗西汀、舍曲林及西酞普兰涵盖了所有不同层次的不良反应事件,因此将其聚类在相同的类团下;2)氟伏沙明挖掘出的不良反应信号较少,被单独聚到一个类团。相比较氟西汀和帕罗西汀,舍曲林和西酞普兰挖掘出的不良反应信号相对较少,因此该四种药品种又进一步进行划分。从图上侧的聚类树可以看出,5种SSRIs类药物所探测的药物不良反应信号多集中在“各类神经系统疾病”至“各类精神疾病”、“各类检查”至“各种先天性、家族性及遗传性疾病”、“血管及淋巴管类疾病”至“胃肠系统疾病”的6个SOC分类上,其中氟西汀检测到的危险信号高达1583个,氟伏沙明危险信号最少,仅有429个。

3 结论

目前,应用FAERS及其它EHR进行信号挖掘成为目前药品上市后安全性再评价的研究热点。而数据库中的数据质量问题和不同数据库之间数据异构化的问题是未来药物不良反应检测索要面对的主要困难之一。通过OMOP CDM对FAERS数据库进行了标准化转化,转化前后的信息损失仅6%左右,不会对后续的挖掘分析造成重大影响。基于OMOP CDM的FAERS数据库标准化优势在于其提高了数据的质量,可以制定可重复使用的标准化查询,提高了数据采集的速度,为未来更多数据库的整合提供了可能。综上所述,本研究为基于“真实世界数据”药物警戒监测工作奠定了基础。

[1] Zhou X, Murugesan S, Bhullar H,. An evaluation of the THIN database in the OMOP common data model for active drug safety surveillance[J]. Drug safety, 2013,36(2):119-134

[2] Hripcsak G, Duke JD, Shah NH,. Observational health data sciences and informatics (OHDSI): opportunities for observational researchers[J]. Studies in health technology and informatics, 2015,216:574-578

[3] Yu Y, Ruddy KJ, Hong N,. ADE pedia-on-OHDSI: a next generation pharmacovigilance signal detection platform using the OHDSI common data model[J]. Journal of biomedical informatics, 2019,91:103119

[4] FDA. Questions and answers on FDA's adverse event reporting system (FAERS)[EB/OL]. https://www.fda.gov/ drugs/surveillance/fda-adverse-event-reporting-system-faers.html, 2018-01-06/2018-02-06

[5] Banda JM, Evans L, Vanguri RS,. A curated and standardized adverse drug event resource to accelerate drug safety research[J]. Scientific data, 2016,3:160026

[6] Rothman KJ, Lanes S, Sacks ST. The reporting odds ratio and its advantages over the proportional reporting ratio[J]. Pharmacoepidemiology & drug safety, 2004,13(8):519-523

Standardization and Data Mining of FAERS Database Based on OMOP Common Data Model

ZHANG Zheng-yu1, YU Yue2, ZHOU Hu1, ZHAO Wen-long1*

1.400016,2.55901,

In this study, we utilize OMOM Common Data Model to standardize FAERS data set. And then we evaluate the transformation results to validate the significance of the FAERS standardization. Then, we implement a data mining research about 5 Selective Serotonin Reuptake Inhibitor (SSRIs) drugs base on the standardized FAERS database. The study based on ADR signals in the real world is helpful to evaluate the post-marking safety drugs and provide references for safety in clinical medication.

OMOP universal data model; data standardization; data mining; adverse drug reactions

TP274

A

1000-2324(2019)03-0434-04

10.3969/j.issn.1000-2324.2019.03.016

2018-03-05

2018-05-06

基于临床大数据的医疗行为分析系统研究与开发(cstc2015shmszx10004)

张正宇(1994-),女,硕士研究生,主要研究方向为数据挖掘和医学信息. E-mail:389136875@qq.com

Author for correspondence. E-mail:cqzhaowl@163.com

猜你喜欢
数据模型数据挖掘标准化
标准化简述
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
面板数据模型截面相关检验方法综述
标准化是综合交通运输的保障——解读《交通运输标准化体系》
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
论汽车维修诊断标准化(上)
交通运输标准化
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议