基于FAERS数据库以奥拉帕利为例探讨不同时段对数据挖掘结果的影响*

2022-08-15 08:33何绪成刘艳鑫吴攀舒亚民王双梅陈力
医药导报 2022年7期
关键词:奥拉奥美拉唑数据挖掘

何绪成,刘艳鑫,吴攀,舒亚民,王双梅,陈力

(1.四川大学华西第二医院药学部/循证药学中心,成都 610041;2.出生缺陷与相关妇儿疾病教育部重点实验室,成都 610041;3.四川省彭州市第二人民医院药剂科,彭州 611934;4.四川省彭州市人民医院药学部,彭州 611930;5.四川省邛崃市妇幼保健计划生育服务中心,邛崃 611530;6.华中科技大学同济医学院附属同济医院药学部,武汉 430030;7.成都市金牛区人民医院药剂科,成都 610036)

根据世界卫生组织国际癌症研究机构2018年发布的数据,卵巢癌已成为致死率全球排名第二的妇科肿瘤。虽然当代医疗水平不断提高,治疗手段不断更新,不少癌症病死率不同程度下降,但卵巢癌病死率仍未发生明显改变,5年生存率仅47.4%[1]。因此如何降低卵巢癌患者病死率,提高其生存质量已成为妇科肿瘤领域的研究热点[2]。聚腺苷酸二磷酸核糖转移酶[poly (ADP-ribose) polymerase,PARP]抑制剂以其能抑制受损DNA修复能力而被重视和开发[3]。2014年,美国食品药品管理局(FDA)批准奥拉帕利在美国上市,2018年我国批准奥拉帕利在中国上市,2019年该药进入我国医保目录,PARP抑制剂已成为卵巢癌患者的新选择。目前已有的研究结果显示,PARP抑制剂疗效显著。奥拉帕利作为第一个上市的PARP抑制剂[4],疗效确切,但国内外对其不良事件(ADE)的研究笔者甚少见到。

数据挖掘是通过分析大量数据并从中找寻有价值的信息。基于FDAADE报告系统(FDA adverse events reporting system,FAERS)数据库的数据挖掘方法主要包括比例报告比值法(proportional reporting ratio,PRR)、报告比值比法(reporting odds ratio,ROR)、贝叶斯置信度递进神经网络法(Bayesian confidence propagation neural network,BCPNN)和伽马泊松分布缩减法(multi-item gamma Poisson shrink,MGPS)等[5],目前最常用信号挖掘方法是频数法(ROR 法、PRR 法),该法有公式简单、计算方便且容易理解的优点。挖掘方法相同时不同时间段对挖掘结果的影响尚未达成共识。笔者在本文通过分析FAERS数据库,以奥拉帕利为例,比较2015年第一季度至2021年第二季度奥拉帕利不同时间段挖掘出的ADE信号差异,利用ROR法和PRR法对报告进行数据挖掘,将不同时间段挖掘到的奥拉帕利ADE信号数进行比对,找出信号变化趋势,以期科学有效地探索ADE信号挖掘时机。

1 资料与方法

1.1数据来源与收集 FAERS数据库是一个旨在支持FDA对药品和治疗性生物制品上市后监测计划的数据库,该数据库包括FDA收集的所有ADE信息和用药错误信息,自2004年建库以来已收录报告13 653 387份。奥拉帕利于2014年12月在美国上市,因此本研究所用数据为FAERS数据库2015年第一季度—2021年第二季度收录数据,共26个季度。方法为从FDA官方网站下载数据并导入关系型数据库管理系统(monty structured query language,MySQL)数据库,对人员信息(demographic,DEMO)表进行删除重复值,根据FDA建议选用最新版本报告并删除错误报告。最终得到报告8 844 008份,其中2015年1 222 193份,2016年1 142 251份,2017年1 203 121份,2018年1 414 650份,2019年1 438 320份,2020年1 514 171份,2021年前二季度909 302份。然后根据奥拉帕利通用名(OLAPARIB)与商品名(LYNPARZA)查询到报告5917份。并根据不同时间段进行分组挖掘,例如2015—2017年数据为2015年1月1日—2017年12月31日内所有奥拉帕利报告。由于在撰写本文时FDA仅公布至2021年第二季度数据,因此2021年数据均截至2021年6月30日,即2016—2021年数据为2016年1月1日—2021年6月30日所有奥拉帕利ADE报告。

1.2数据处理

1.2.1信号生成条件与挖掘方法 笔者采用基于四格表的比例失衡法进行信号挖掘,四格表见表1,比例失衡法通过比较FAERS数据库中目标药物的目标ADE与其他药物的目标ADE比例,找寻目标药物与ADE的统计学联系,以检测潜在ADE信号。如果目标药物与ADE之间频次和信号强度均大于阈值,则称为失衡(disproportionality),此时提示生成1个信号[6],计算方法见表2。

表1 比例失衡法所用四格表

表2 ROR法与PRR法公式及阈值

1.2.2数据筛选与计算 在人用药物注册技术要求国际协调理事会(International Council for Harmonization,ICH)主办下编制了一个内容丰富详细的多语种国际医学术语集——ICH 国际医学用语词典(medical dictionary for drug regulatory activities,MedDRA),此术语集能供大多数用户使用母语操作。其按等级结构将ADE划分为5个等级,分别为低位语(lowest level term,LLT)、首选语(preferred terms,PT)、高位语(high level term,HLT)、高位组语(high level group term,HLGT)、系统器官分类(system organ class,SOC)。由于FAERS数据库中有少量ADE报告等级为LLT,本文在Microsoft Excel 2019版上采用MedDRA(24.0版)对FAERS数据库中ADE名称统一规范至PT层次,并分别对不同PT进行两种方法计算,筛选同时满足N≥3、PRR≥2、χ2≥4、ROR值95%CI下限>1的ADE报告[7]。

2 结果

2.1ADE报告病例基本特征 2015年第一季度至2021年第二季度共收到奥拉帕利ADE报告5917份。其中2015年278份,2016年450份,2017年503份,2018年633份,2019年1165份,2020年1907份,2021年前二季度981份(表3)。

表3 2015—2021年奥拉帕利相关ADE报告基本信息

2.2奥拉帕利ADE上报情况 排除非药物ADE,统计各年奥拉帕利排序前20位的ADE报告数,结果见图1。

图1 2015—2021年奥拉帕利排名前20位ADE统计结果

2.3顺序模拟奥拉帕利ADE报告及信号检测情况 2015年检测到信号50个,2015—2016年检测到信号86个,2015—2017年检测到信号89个,2015—2018年检测到信号123个,2015—2019年检测到信号136个,2015—2020年检测到信号149个,2015—2021年第二季度检测到信号162个。新增信号比例最高的是2015—2016年(86.00%),最低的是2015—2021年(18.12%);减少信号数比例最高的是2015—2019年(19.51%),最低的是2015—2021年(9.40%)。共有信号数百分比最高的是2015—2021年(90.60%),最低的是2015—2019年(80.49%)(表4,图2)。

图2 顺序挖掘奥拉帕利ADE结果

2.4倒序模拟奥拉帕利ADE报告及信号检测情况 2021年前2个季度数据检测到信号60个,2020—2021年第二季度检测到信号78个,2019—2021年第二季度检测到信号117个,2018—2021年第二季度检测到信号140个,2017—2021年第二季度检测到信号150个,2016—2021年第二季度检测到信号156个,2015—2021年第二季度检测到信号162个。新增信号数比例最高的是2019—2021年(52.56%),最低的是2015—2021年(5.77%);减少信号数比例最高的是2020—2021年(21.67%),最低的是2018—2021年(0.85%)。共有信号数比例最低的是2020—2021年(78.33%),最高的是2018—2021年(99.15%)(表5,图3)。

图3 倒序挖掘奥拉帕利ADE结果

3 讨论

奥拉帕利最初获批的适应证是卵巢癌[8],后纳入输卵管癌,2020年5月20日获批用于治疗同源重组修复(homologous recombination repair,HRR)基因突变的转移性去势抵抗性前列腺癌(metastatic castration-resistant prostate cancer,mCRPC)[9],因此奥拉帕利ADE报告中女性患者远多于男性,2020起男性患者比例增加,与实际情况吻合。奥拉帕利最早在美国上市,2018年在我国上市,北美洲报告ADE最多,2018年后亚洲地区上报ADE数迅速增加。由图1可知,上报的ADE中死亡和恶性肿瘤进展最多,这与奥拉帕利用于治疗卵巢癌、输卵管癌和前列腺癌等癌症疾病不无关系。其次是贫血、恶心、呕吐、疲乏等,这与奥拉帕利说明书中标明的不良事件一致。表明本研究所采用的FAERS数据库内容与真实世界一致性好。

从表4中新增信号变化可以看出,随着时段扩大,奥拉帕利ADE样本数量增加,新增信号数量呈逐步减少趋势,说明药品在上市后一定时间才能挖掘出较为完整的信号。从减少信号可以看出,减少信号数量呈现先增加后减少的趋势,说明在上市前几年若对奥拉帕利进行信号挖掘,由于上市时间短,上报数据混乱,会出现大量假阳性信号。因此,在对奥拉帕利进行药品ADE信号挖掘时应在上市一定年限、数据积累一定数量后才可进行,相关学者进行托珠单抗ADE挖掘也得出类似结论。朱正怡等[10]进行的2014年7月—2019年3月数据挖掘,王丽等[11]进行了的2017年第3季度—2019年第4季度数据挖掘,罗林等[12]进行的2015年第一季度—2020年第2季度数据挖掘,各研究涉及时段不同,采取的挖掘方式也有差别,最终挖掘出说明书未收录ADE分别为肺纤维化、间质性肺疾病、胰腺毒性、脱髓鞘病变等[10],间质性肺疾病、肺纤维化、下呼吸道充血等[11],以及血氧饱和度、体温、心率、凝血异常等[12]。从上述结果可以看出,各研究结果存在差异。

表4 不同统计时间顺序挖掘奥拉帕利ADE结果

从表5新增信号和减少信号可以看出,随着累积时间增加,新增信号数与减少信号数均呈逐步减少趋势,2017—2021年挖掘信号数约为2015—2021年信号数的90%,新增信号数与减少信号数变化值基本在个位数,说明进行信号挖掘时选取一定时间就能挖掘出较完整的信号。相关研究表明,随着报告数增加,MRHA法灵敏度呈下降趋势[13]。相关研究挖掘质子泵抑制剂ADE时也得出类似结论。张秋珍等[14]进行的2004年第一季度—2020年第四季度质子泵抑制剂数据挖掘,得到奥美拉唑信号1814个,艾司奥美拉唑信号1212个,兰索拉唑信号1106个,泮托拉唑信号1452个;白雪霏等[15]进行的2015年第一季度—2020年第四季度质子泵抑制剂数据挖掘,得到奥美拉唑信号540个,艾司奥美拉唑信号239个,兰索拉唑信号298个,泮托拉唑信号340个。虽然各研究得到的信号数不同,但张秋珍等[14]研究显示,奥美拉唑、兰索拉唑、泮托拉唑、雷贝拉唑ADE均以导致肾脏及泌尿系统疾病为主,其次为胃肠系统疾病;白雪霏等[15]研究结果显示,奥美拉唑、艾司奥美拉唑、泮托拉唑、兰索拉唑ADE均主要集中于肾脏及泌尿系统疾病,包括间质性肾炎、慢性肾脏疾病、肾衰竭等。由于上述两个研究的研究对象是同一类药物,进行SOC层级比较,并没有对PT层级展开详细分析,但通过对托珠单抗挖掘结果可以看出,在截止时间相同的情况下,朱正怡等[10]与王丽等[11]挖掘出的说明书未中收录ADE较相似。

表5 倒序挖掘奥拉帕利ADE结果

笔者在本研究中分别对奥拉帕利数据进行顺序和倒序信号挖掘,顺序挖掘能研究随着奥拉帕利上市时间的增加,有信号的ADE数变化趋势,讨论其信号数何时能达到相对稳定。倒序挖掘从2021年第二季度开始倒推,为了讨论是否需要对上市后或建库以来全部数据进行信号挖掘。若近几年的数据信号数趋于稳定,考虑到生产厂家制药工艺进步、临床不良反应监测体系健全等,过去10年或者20年的数据可能不能代表现在的实际情况,因此建议选择近几年数据。这样挖掘出的信号既稳定又能体现时效性。

本研究存在一定局限性。由于FAERS数据库为自主上报系统,数据挖掘结果受上报人群是否积极的因素影响。虽然完整分析奥拉帕利2015—2021年不同时段挖掘结果,得到需待奥拉帕利上市一段时间后再做信号挖掘才能得到较为完整且假阳性信号较少的结果,但无法得出需要的具体时间,需要更多研究来探索。所采用的ROR法和PRR法也会随着报告数增加而产生假阳性信号[16]。如何获取较完整的信号数且假阳性信号数量少,仍需进一步研究。总之,笔者在本研究中分别对奥拉帕利ADE信号进行顺序和逆序挖掘,得到两个结论:①对奥拉帕利进行ADE信号挖掘时,需等该药上市一定年限才能得到信号全面且假阳性信号少的挖掘结果;②在进行ADE信号挖掘时,截止日期相同,随着时间段增加,挖掘结果变化减小。以奥拉帕利为例,相对于2015—2021年信号数,2017—2021年信号数占比能达到90%,且每年新增信号或减少信号数变化均很小。受药品制剂工艺改进、药品ADE预处理等诸多因素影响[17],同一种药物ADE发生率会在不同时段发生一定变化,因此近几年真实世界数据能更好地预警药品与ADE的关联性,在挖掘ADE信号时可以选取最近几年数据,这样既可以保证信号挖掘的完整性,又能保证挖掘结果时效性。

猜你喜欢
奥拉奥美拉唑数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
奥美拉唑、血凝酶联合生长抑素治疗上消化道出血的效果
奥曲肽联合奥美拉唑治疗肝硬化合并上消化道出血的效果观察
奥美拉唑联合生长抑素治疗急性上消化道出血的效果及对止血成功率的影响
奥美拉唑联合奥曲肽治疗肝硬化上消化道出血的应用研究
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
维克多·奥拉迪波进步最快球员
软件工程领域中的异常数据挖掘算法
VICTOR OLADIPO转折维克托·奥拉迪波