杨 羽,王胜锋,詹思延△
(1.北京大学健康医疗大数据国家研究院,2.北京大学公共卫生学院流行病学与卫生统计学系,北京 100191)
药品上市后安全性监测体现为对药品在上市后的安全性风险的及时发现,是药物警戒的关键核心[1]。自发报告作为药物警戒的重要工具之一,是目前最重要的尽早发现药品不良反应(adverse drug reactions,ADR)的方法[2]。自发报告的来源包括医务人员和药品使用者。药品使用者自发报告,是指药品使用者在不经过医务人员的解释和说明下,主动就其自身经历的某一可疑的药品不良反应向药物警戒部门等做出的报告。药品使用者自发报告可增加药品不良反应报告的数量,与医务人员自发报告互为补充,可以提供药品不良反应的直接信息甚至影响药品不良反应“耐受性”的界定[3-4],但会受到对自发报告和报告系统了解不足和不完善的报告体验的影响。社交媒体平台上由个人发布的药品及其不良反应相关内容近些年正逐渐被视为类似于药品使用者自发报告的新的数据来源,使用社交媒体数据开展药品上市后安全性监测的研究呈逐年上升趋势,因而本文就相关研究现状与面临的挑战进行综述。
社交媒体作为一类在线互动平台(如网络论坛、Twitter和Facebook)为人们提供了便捷分享和交换意见的方式,与传统的新闻媒体(如报纸、电台、杂志等)和门户平台(如新浪网、人民网、百度、谷歌等)专注“公共传播”不同,社交媒体的核心属性是“社交”[5]。社交媒体是通过人际交流和互动形成社交网络的新型互联网新媒体,社交媒体用户基于文本、声音、图像或视频等类型的信息,在虚拟社区和网络中创建、共享或交换他们的经验和想法[6]。WEB2.0出现以来,社交媒体的使用人群不断扩大。We Are Social和Hootsuite在2020年7月共同发布的Digital 2020报告数据显示[7],全球活跃的社交媒体用户已经超过39亿,约占全球总人口的一半以上,其中中国社交媒体用户超过10.4亿,占全球社交媒体用户的近三分之一,仅2019年,中国就增加了1 500万社交媒体用户。类似Twitter的网站新浪微博(Sina Weibo)、短视频应用——快手(Kuaishou)及抖音(Douyin)是中国最受欢迎的社交网络服务之一。社交媒体已经深入人们的日常生活并在影响人们的生活行为和习惯,Digital 2020报告数据显示社交媒体用户现在平均每天在社交媒体上花费的时间超过2 h[7]。数以亿计的人从每天早晨起来就开始在社交网络上发布自己的各种经历和想法,讨论与健康相关的问题和经验,其中就包括患者对药品的使用及其产生的(有益的或有害的)效果[8],这些充满“噪音”的社交媒体数据被看作“埋藏着钻石的巨大煤堆”。
社交媒体数据为研究人员和监管机构提供了从药品使用者的角度而非医疗专业人员的角度监测药品安全的新机会,并且在理论上提供了比传统方式更早地发现药品安全问题的可能性[9],作为药品上市后安全性监测的一项新的数据来源用于信号检测和信号验证均具有自身独特的优势[10-11]。孕期/哺乳期女性、儿童、老年人、罕见病患者等人群通常不会被纳入临床安全性研究,有关这些人群发生药品不良事件(adverse drug event,ADE)/ADR的信息在社交媒体数据中很可能被发现。替代药物或者膳食补充剂的使用,以及与药物的联合使用,也存在产生不良反应的可能,但传统的监测系统中很难获取这方面的数据,有望通过社交媒体数据的分析进行补充[12]。使用社交媒体数据还可以比现有监测方式更早地发现ADR信号[13]。社交媒体数据中产生ADR信息的主体不是医疗机构、医生或企业而是患者,因其对于不同种类ADE/ADR的重视程度不同,社交媒体中报告的ADR信息与自发报告系统和电子病历中采集到的信息分布会有所区别,基于社交媒体数据的分析还可以部分弥补现有安全性监测中漏报的问题,甚至可能发现新的非预期ADR信号[14-16]。
使用社交媒体数据开展药品上市后安全性监测研究已有近十年的时间,2010年,Leaman等[17]首次使用文本挖掘等技术,基于医学互助论坛中的6 890条网络贴文,自动从中抽取药品与不良反应之间的关系,以期实现药品安全性信号的早发现。目前,基于社交媒体数据进行药品上市后安全性监测已经逐渐成为药品上市后监督领域内的重要研究方向之一。
社交媒体数据的类型非常丰富,包括文本数据、图像数据、影像数据以及音频数据等,但目前被用于药品上市后安全性监测研究的仍然以文本数据为主,语言种类主要为英语。这类文本类型的社交媒体数据主要来源于网络社区(如MedHelp、PatientLikeMe等)和个人博客平台(如Twitter、Facebook、Instagram等)。目前,发表的相关研究主要来自于美国和欧洲,中国的相关研究较少见。已发表的大多数研究以ADE的检测和验证为主要研究内容,使用不同的自然语言处理(natural language processing,NLP)技术,从社交媒体文本数据中识别ADE;另有研究将社交媒体数据与自发报告数据为主的传统监测数据进行了比较,以研究捕获的ADE数量、类别和时间的差异等[18];还有研究者针对是否可以用社交媒体数据比现有传统方法更早地发现ADR信号进行了研究,如Powell等[19]利用2014年10月—2021年10月Facebook和Twitter的公开英文文本数据,基于《监管活动医学词典(medical dictionary for regulatory activities,MedDRA)》对药品名称和症状表述进行标准化处理,删除重复和噪音数据,并对个体可识别信息进行隐匿化处理后,分别建立分析数据集,计算药物-事件对比例报告比(proportional reporting ratio,PRR),结果在Twitter数据集共发现6 441 679个药物相关事件(对应702个的MedDRA的优选术语),在Facebook数据集共发现15 650 108个药物相关事件(对应946个的MedDRA的优选术语),研究者选择沙丁胺醇作为目标药物进行比例报告比计算,可以发现一系列不良事件,包括震颤、慢性阻塞性肺病、喘息、支气管炎和苍白等,这些不良事件均为沙丁胺醇已知的ADR,该研究结果表明,社交媒体数据可以作为加强药品上市后安全性监测的重要工具[19]。
目前,已经有监管机构或企业逐步建立基于社交媒体数据的药品上市后监测系统,如MedWatcher Social[20]、AETracker、Treato[21]和Web-Recognizing Adverse Drug Reactions (Web-RADR)[6]。以美国食品药品监督管理局(Food and Drug Administration,FDA)的MedWatch Social为例,作为MedWatcher系统的一部分,其主要使用社交媒体(Twitter、Facebook、与健康相关的网络博客)上的公开数据,从中提取医疗健康相关信息,并映射到药品和不良事件的标准术语集中,从而监测是否出现ADR信号。
社交媒体数据作为一种新的数据源,数据量大、更新速度快、覆盖范围广,对于提升药品上市后安全性监测效果有明显的优势,但社交媒体数据开展安全性监测的实际应用并未能广泛实现,目前学术界对于社交媒体数据是否可以作为可靠的数据源被用于日常药品上市后安全性监测仍存在争议。虽然Kurzinger等[16]发现使用社交媒体数据,可以比传统自发报告数据更早、更快地检测到与患者主观症状(压力、饥饿等)相关的ADR信号,Pierce等[10]和Karapetiantz等[15]也证实了同样的观点,Duval等[22]尝试建立了基于Twitter数据的药品不良反应自动化监测系统,除检测出已有的标准信号外,还发现了新的ADR信号,但是同时也有学者认为[23-25],社交媒体数据无法作为独立的新型数据源来完成对于药品安全性的监测,仅可以作为现有数据的补充数据,弥补现有数据无法覆盖或发现的信号。2018年,Convertino等[23]的系统综述发现,利用社交媒体数据实现比现有不良反应监测方式更早的发现药品安全性信号的证据仍然非常有限,且由于社交媒体数据的碎片化和低质量,无法满足药品安全性监测中实行因果关系判定的数据需求。Lardon等[24]基于Twitter数据的研究结果也认为社交媒体数据仅可作为药品安全性监测信息的补充来源,并且社交媒体数据作为补充来源能在多大程度上提高药品上市后安全性监测的效果仍需要更多证据的支持。最新的研究发现,将社交媒体数据与传统的自发报告系统相结合,并没有比单独使用自发报告系统取得更好的效果[25]。
基于社交媒体数据开展的药品上市后安全性相关研究数量在近十年一直呈不断增长的趋势,一些研究也从不同角度分别为社交媒体数据是否是一个有价值的数据来源提供了证据支持,但仍然存在很多需要解决的问题[26]。
2.1.1真实性 社交媒体数据的真实度和可信度均无法与医学数据相比,需要建立特定的算法或开发相应技术对社交媒体数据的真实性进行判别[27]。
2.1.2重复性 社交媒体数据会出现大量的数据重复,需要使用适当的方法进行数据抽取。
2.1.3不完整性 社交媒体数据的碎片化和低质量,造成研究者无法完整获得进行安全性监测需要的数据,影响因果关系的判定[28-29]。
2.1.4不平衡性 与自发报告数据不同,社交媒体数据中仅有很小部分的数据包含潜在的ADR信息,信息分布非常不平衡。
2.1.5表达多样性 (1)描述多样性:除了用通用名描述药品,还会使用商品名、有效成分和口语化表述等,而不良事件除了使用标准的医学表述外,可能会使用方言、口语化甚至是自创的描述性词语等[28,30];(2)语法问题:存在错词错字、语法错误和使用不明确缩略语等;(3)语言多样性:现有研究基本都集中在英语环境的社交媒体数据分析,包括中文在内的其他语种表达尚未被涉及,以上这些表达多样性的存在会提高命名实体识别和标准化的实现难度[31]。
2.2.1数据处理方法 如何准确和高效地进行文本数据的命名实体识别和标准化是社交媒体数据的首要问题。目前主要使用机器学习的方法,包括无监督学习、监督学习和半监督学习,其中无监督学习受社交媒体数据不平衡性的影响较大,而标注数据的稀缺对监督学习的发展造成了阻碍,半监督学习同时使用无标记数据和标记数据进行模式识别,正成为相关领域热门的研究方向,自监督学习作为监督学习和无监督学习的另一种结合方式,可以使用无标记数据自动生成数据标签实现学习过程,在社交媒体文本数据处理方面很有潜力[32]。
2.2.2偏倚 (1)渠道偏倚:社交平台本身用户存在人群偏好,低龄儿童、老年人群、智力障碍人群或贫困人群(没有智能终端或无法连通网络)等通常无法使用社交媒体平台;(2)报告偏倚:社交平台的传播特征等(微博vs.论坛)会影响所报告的不良事件的类型,如发生性功能障碍ADE的患者可能不会将经历发布在特定的社交平台上;(3)成名偏倚:与自发报告数据类似,药品在刚被公众应用或被广泛曝光并知晓时可能会出现相关ADR报告数量的上升,影响ADR信号检测效果[33]。
2.2.3数据挖掘算法 基于比例失衡理论的数据挖掘算法是否还适用于社交媒体数据,仍有待研究提供证据支持[34]。
伦理和隐私保护是使用社交媒体数据时无法避免的挑战。社交媒体用户一般可以通过对自己的账户隐私级别进行设置,选择公开(所有人可见)或限定(仅自己或仅特定人群可见)展示发布的内容,但即便是用户选择公开的社交媒体数据,也不意味着可以被随意用于任何目的[35]。对来源于社交媒体数据的ADR个案的随访也会带来伦理和隐私保护问题。假设通过挖掘社交媒体数据发现严重ADR案例,原则上应当对发现的个案进行追踪和随访,甚至干预[29]。国家药品监督管理局在2018年发布的《个例药品不良反应收集和报告指导原则》中明确提出有必要对个例不良反应开展随访和调查。对个例不良反应信息的评估、随访和调查,需要获取其个人可识别信息以定位或联系到个体,这类目的的数据使用暂未包含在社交媒体平台现有的信息保护政策中,所以除非用户本人签署相应的知情同意,否则就无法完成对个例不良反应信息的评估、随访和调查。基于使用社交媒体数据开展药品上市后安全性监测时面临的以上挑战,需要继续开展相关研究,提供合理数据使用方式的证据支持和机制建议,如在遵守现行互联网信息保护相关法律法规的基础上,在社交媒体平台的用户协议中采取“opt-in”或“opt-out”(选择加入或选择退出)模式,获取用户的数据使用知情同意,为后续数据使用的合理合规提供伦理基础。
中国社交媒体平台用户数量巨大,2020年中国的社交媒体渗透率达到64.8%,略高于美国和日本等国。2019年,中国手机社交媒体活跃用户总数达10亿,成为亚太地区最大的社交媒体用户群体,而且中国社交媒体的用户使用时间也在不断增加。以微信为例,截至2020年10月,微信的月活跃用户约为10亿,大约54%的微信用户每天至少花10~30 min使用微信应用,由此带来的海量数据为药品上市后安全性监测提供的巨大潜在价值不言而喻。然而,应用中文社交媒体数据开展药品上市后安全性监测还有一些独特的困难和障碍需要克服和跨跃。首先,中文社交媒体数据以中文文本数据为主,由于中文语言自身的特点,加上中英文混杂表述的普遍出现,语言表达的多样性比单独的英文文本数据更加复杂,除错字错词、语法错误和缩略语外,还可能出现同音字(近音字)、形近字、语序错误的情况;其次,中文与英文表达组成的区别为文本数据处理带来挑战,在中文中,词与词之间除标点符号之外,不存在分隔符,这就给中文分词工作带来了挑战,另外,与英文文本数据相比,中文的标准化语料库,尤其是医疗健康相关语料库十分缺乏,为建立高效、准确的命名实体和标准化处理带来了困难;最后,由于国内的社交媒体数据使用和分析的相关法律法规尚在逐步建设和规范中,因此如何在使用社交媒体数据进行上市后监测时遵循伦理原则,保障社交媒体用户的隐私和数据安全,仍然需要政府监管部门、社交媒体平台和科研工作者的共同努力。
药品上市后安全性监测是保障患者用药安全的重要工作。社交媒体数据由于本身用户群广泛、数据体量巨大、来源丰富和时效性强等特点,作为一项患者产生的数据源对于提高现有安全性监测水平具有巨大的潜在价值。利用社交媒体数据开展药品上市后安全性研究发展已近十年,从目前已经发表的研究结果看,研究者普遍认同社交媒体数据是对现有药品上市后安全性监测数据的有益补充。社交媒体数据可能在特定ADR报告监测(报告率低的ADR或者年轻人群的ADR)方面提供有价值的结果,协助解决传统监测的盲点,但是社交媒体数据是否可以用于信号检测,尤其是早期信号检测,甚至是被纳入成为常规安全性监测的一部分,学术界尚未能达成共识,仍需要更充分的研究证据证实其价值和可靠性。不仅如此,社交媒体数据被真正用于药品上市后安全性监测之前,还须优先解决数据、方法和伦理三个方面的问题。社交媒体数据对药品上市后安全性监测的重要意义毋庸置疑,通过开发新技术并建立新机制,解决使用社交媒体数据时面临的各种问题,可能是未来研究的重要发展方向。