乔幸潮,陈超,李宗友,朱彦
(中国中医科学院中医药信息研究所,北京100700)
近年来,随着精准医学、大数据及以患者为中心的医疗健康管理等领域迅速发展,我国已经着手从国家到地方建立起各级健康信息交流平台,在医院、药店等医疗场所中广泛地开发和部署医学信息技术[1]。药物信息数据是医疗数据的重要组成部分,面对庞杂的药物信息数据,药物术语集对其标准化和共享化起到了非常重要的作用,是推进医药信息化过程的重要内容。药物术语集不仅可以用于不同系统间药物信息的交换、电子健康档案系统中药物信息的捕获、药物临床试验数据的研究及药品上市后不良反应的监测,还可有助于更安全药物的研发,以及在不同药物术语之间进行映射(例如,在医院药品系统与医疗保险药品清单中的药物术语间进行映射)[2]。但我国药学领域信息化程度与发达国家相比尚有一定差距,且缺乏完整可用的药物术语集,只有一些药品目录、数据库或药物辞典可供参考。当前世界上主流的三大药物术语集,分别是临床药品标准命名术语表(RxNorm)、世界卫生组织药物词典(World Health Organization Drug Dictionaries,WHODrug)和医学系统命名法-临床术语(Systematized Nomenclature of Medicine:Clinical Terms,SNOMED CT),均在国际上有较大的影响力。本文简述了这三大药物术语集的构建目的、命名原则、术语类型、术语关系及应用情况,并对其特定药物模型进行了比较,旨在为我国药物术语集的构建提供参考。
RxNorm由美国国立医学图书馆(The National Library of Medicine,NLM)编制,是美国联邦政府临床医学信息电子交换系统指定使用的标准之一。该术语集每周三更新,添加来自美国FDA新批准的药品信息。2001年,NLM开始在一体化医学语言系统中对临床药品进行建模试验,拟开发一种新模型以使采用不同药品命名法的不同系统能有效共享和交换数据,改善药物术语的互操作性;该模型基于医师或药房的实际应用场景,遴选了美国药房管理和药物相互作用系统中常用的词表作为药物名称来源。目前,RxNorm已包含了FDA结构化产品标签(FDA Structured Product Labels)、“金标准”药物数据库(Gold Standard Drug Database)、医学主题词表(MeSH)等17个来源词表,其收录范围覆盖了美国境内的处方药以及大部分的非处方药;同时,新药品一旦投入美国市场,即会被添加进入词表;此外,如果信息来源可靠,也会收录来自其他国家的处方药[3-4]。
NLM在接收到药品信息后,以标准数据格式将这些源数据输出到RxNorm文件中,并进行分组,组成同义词集合,称为“概念”。每个概念被分配一个RxNorm概念唯一标识符(RXCUI),但RXCUI并无内在意义。每个概念还具有一个RxNorm标准化名称,这些标准化名称计为“SAB=RXNORM”。每个“SAB=RXNORM”标准化名称遵循以下格式:
通用药品:活性成分+含量规格+剂型
品牌药品:活性成分+含量规格+剂型[品牌名称]
通用药品组合包:{#(活性成分+含量规格+剂型)/#(活性成分+含量规格+剂型)}Pack
品牌药品组合包:{#(活性成分+含量规格+剂型)/#(活性成分+含量规格+剂型)}Pack[品牌名称]
SAB=RXNORM使用不同形式的术语类型(Term types)来表示通用药品和品牌药品名称,详见表1。
表1 RxNorm术语类型格式Tab 1 RxNorm terminology type format
上述语义通过“关系”相互联系,例如“has tradename”“part of”“has dose form”“dose form of”等,构成语义网。语义网可以通过RxNorm的各种终端从任意一种形式的术语类型来检索到该药物的其他各种术语类型信息,通过关系传递实现不同表达水平、同种化学成分的药物信息交互[5]。以酒石酸美托洛尔(Metoprolol tartrate)为例,其语义网详见图1。
图1 Metoprolol tartrate的语义网Fig 1 Semantic web of metoprolol tartrate
RxNorm的应用包括:1)利用RxNorm标准名称和代码在电子健康档案系统中捕获药品信息。例如,Rx-Norm是美国医疗保险和医疗补助服务中心(Centers for Medicare and Medicaid Services,CMS)指定的参考文件,可替代美国国家药品代码(U.S.National Drug Code,NDC)表示药品名称,使得药品处方提交流程更为合理。2)RxNorm可用于个人健康管理系统(Personal health record system,PHR)或电子健康档案(Electronic health record,EHR)中。例如,将RxNorm用于动态EHR系统中,以捕获患者的药物治疗历史数据;同时,Rx-Norm与美国国家药品文件-参考术语(The National Drug File-Reference Terminology,NDF-RT)结合使用可对EHR药品数据进行分类。3)RxNorm在多个离散的药物术语表之间交叉映射,可使与药物相关的临床决策更加便捷、合理。4)RxNorm提供一系列应用终端,公众可以免费从终端中获取药物信息[5-6]。
WHODrug是WHO国际药物监测项目(WHO International Drug Monitoring Programme)的重要组成部分。该术语集于1968年发布,由乌普萨拉监测中心(Uppsala Monitoring Centre,UMC)负责该术语集的维护及更新,每年更新2次。2017年3月1日,UMC已将WHODrug术语集中的所有产品组合成名为“WHODrug Global”的词典,成为了世界上非常重要的药物信息来源。WHODrug Global是WHODrug增强版(WHODrug Enhanced)和WHO草药词典(WHODrug Herbal)的组合。WHODrug Global现已包括147个国家的300多万种医疗产品,数据涵盖了各国传统药物、植物药和常规药物(包括处方药、非处方药、药剂师自制制剂、生物技术和血液制品、诊断剂和造影剂等),美国FDA和欧洲药品管理局(EMA)注册的药品也会定期记录。为了充分利用WHODrug的标准化数据,该术语集还配套有WHODrug标准化药物分组工具(WHODrug SDG)、WHODrug浏览工具(WHODrug Insight)和WHODrug变化分析工具(WHODrug CAT)[7]。
WHODrug术语集采用解剖-治疗-化学(Anatomical therapeutic chemical,ATC)分类系统对药物进行分类。该系统是WHO对于药物的官方分类系统,由WHO药物统计方法整合中心(The WHO Collaborating Centre for Drug Statistics Methodology)制定并定期公布,第1版于1976年发布[8]。ATC系统将药物分为5个级别,分别为ATC01~ATC05。ATC对药物的命名由字母与数字间隔而成,共有7位数字,其中:ATC01由1位字母组成,代表药物作用的解剖学主族;ATC02由2位数字组成,代表药物的治疗学副族;ATC03由1位字母组成,代表药物的药理学副族;ATC04由1位字母组成,代表药物的化学副族;ATC05由2位数字组成,代表化学物质[9]。
ATC分类系统在一些北欧国家被用作国家药物分类系统,制造商、批发商、药店和监管机构均以该系统作为共同标准,在北欧国家销售的所有医药产品都被分配了ATC编码,且ATC编码作为国家标准也应用于国家药品目录中[10]。值得一提的是,我国《国家基本医疗保险和工伤保险和生育药品目录》等目录也采用了ATC的分类和编码。
WHODrug以两种格式分发给所有用户:B格式和C格式,用户可以自主选择。2018年9月之后,WHODrug全面升级到最新的B3/C3格式。其中,B3格式包含商品名、活性成分和ATC编码信息,唯一标识符是药物代码(Drug Code,DC);C3格式包含所有B3格式信息(包括DC),此外,该格式还提供有关产品的药名修饰词、销售国家、营销许可证持有者、剂型、含量、规格等信息,唯一标识符是药品编号(Medicinal Product ID,MPID)。C3格式可帮助用户通过其他信息准确找到药物[11]。
2.4.1 命名 WHODrug术语集中非专利名的来源,包括国家审批机构的国际非专利名(International non-proprietan name,INN)以及诸如《马丁代尔大词典》和《默克索引》等著名参考书目;而专利名则来源于WHO国际药物监测项目参与国的国家药物清单或国际参考书籍[11-12]。
2.4.2 代码系统 WHODrug词典包含两种数字代码系统:11位数的DC和MPID。其中,DC由药物记录码(Drug record number,DRECNO)+序列号1(SEQ1)+序列号2(SEQ2)共11位数字组成。DRECNO为6位数字,每个DRECNO都对应一个单一组分的化学基础物质或多组分药物的所有化学基础物质,化学底物相同的不同药物,无论为盐或酯,其DRECNO号码相同;SEQ1为2位数字,其中“01”表示不含盐或酯的基础物质,而“01”以上的数字表示含有盐或酯;SEQ2为3位数,其中“001”表示首选基础物质药物名(Preferred base name)或首选带盐药物名(Preferred salt name),而“001”以上的数字表示具有相同成分的其他通用名或商品名。DC编码规则及举例见图2。
图2 DC编码规则及举例Fig 2 Coding rules and examples of DC
MPID是C格式的唯一标识符,这个编码仅代表所有药品信息的唯一编码。
WHODrug术语集作为WHO国际药物监管项目的重要组成部分之一,在药物警戒的研究中发挥着重要作用。不良反应数据库中的药品名称经过ATC编码后,可在不同的ATC层级进行数据挖掘及安全信号分析。WHODrug术语集作为研究工具(特别是使用首选基础物质药物名研究某类药物)正在越来越多地应用于药物流行病学和药物安全研究领域[12]。
SNOMED CT是目前国际上较为通用的一种医学临床术语集,目前已经在50多个国家使用。1965年,美国病理学院研发了病理学系统命名法(Systematized Nomenclature of Pathology,SNOP),这是SNOMED CT的前身,后经过一系列的改革整合形成了现在的SNOMED CT系统。该系统现在由国际卫生术语标准制定组织(International Health Terminology Standards Development Organization,IHTSDO)进行维护[13]。
新版SNOMED CT的药物分类目的是使所有药物都能在必要和充分条件下被定义。药物主要分为4类:1)基于倾向(与药物的作用机制有关);2)基于化学结构;3)基于预期给药部位;4)基于治疗作用。
新版SNOMED CT药物模型主要涉及两个层次结构(Hierachy):物质类(Substances,包括化学或生物实体)和产品类(Products,即人造物)。SNOMED CT中的主要术语类型及格式见表2。
表2 SNOMED-CT中的主要术语类型及格式Tab 2 SNOMED-CT main terminology type and format
旧版SNOMED CT药物模型采用的是“is a”定义关系,而2018年7月新版SNOMED CT药物模型则采用了一种新的关系——“is modification of”来进行定义药物,以便于描述、信息交流和计算机处理数据。如“Metoprolol tartrate is modification of Metoprolol”,而不是“Metoprolol tartrate is a Metoprolol”。SNOMED CT中的与药物相关的关系还有“has manufactured dose form”“has active ingredient”等。以Metoprolol tartrate为例,其与其他术语之间的关系见图3[2]。此外,新版SNOMED CT药物模型中含量规格强度不是使用字符串(如10 mg)来表示的,而是使用离散的元素(分子值、分子单位、分母值、分母单位)来表示。
图3 在SNOMED CT中“Metoprolol tartrate”与其他术语之间的关系Fig 3 Relationship between“Metoprolol tartrate”and other terminologiesin SNOMED CT
SNOMED CT对药物的定义基于描述逻辑(Description Logic,DL),重点是用充分必要条件定义药物概念,其对于药物的描述往往是针对特定需求的。在不同的国家,药物的品牌名称、配方和活性成分含量可能各不相同,且各个国家监管机构对药品的授权会有不同的标准。因此,许多国家开发了自己的药物术语集。目前,SNOMED CT是世界上最大的临床术语集,但是要收录整个世界的药物处方集,并支持各种各样的使用案例还是非常困难的,所以SNOMED国际医学研究中心将其重点应用范围放在以下4个方面,即促进药物概念的国际互操作性、为成员国开发本国的医药产品术语集提供基础、支持药物分析研究、支持发展国际药物决策[2]。
对RxNorm、WHODrug、SNOMED CT的药物模型含有的药物信息进行比较,结果见表3。
由表3可见,(1)在术语编码方面:WHODrug采用DC和MPID进行编码,DC携带的结构化药物信息数据可有助于进行大量数据分析,也有利于开展国际间的交流;而RxNorm和SNOMED CT则对药物术语、关系、活性成分等分别添加编码,但并不是结构化编码。(2)在术语名称方面:WHODrug和RxNorm的药物术语都有药物的商品名信息,因为WHODrug主要服务于不良反应报告,RxNorm主要服务于EHR,都需要药品的商品名的信息;而SNOMED CT没有商品名信息,其目的是为了促进药物概念的国际互操作性。(3)在分类体系方面:只有WHODrug采用了系统的分类体系——ATC,SNOMED CT的分类只是为了更好地定义药物,而Rx-Norm则没有分类体系。
表3 RxNorm、WHODrug、SNOMED CT所包含的药物信息比较Tab 3 Comparison of information included in Rx-Norm,WHODrug and SNOMED CT
不同的术语集面向的需求和具体的应用场景导致药品术语集呈现不同的形式,也会引领术语集向不同的方向发展。例如,当前的药品术语发展趋势是对“活性成分”和“精确成分”的明确表达,在新的SNOMED CT药品模型中,把“精确成分”作为“活性成分”的一种修饰;在WHODrug中药物的盐或酯的信息在其DC中就有所体现;RxNorm则把“精确成分”作为“活性成分”的形式。这种明确的表达方式有利于药物研发和国际间数据的互操作性。此外,WHODrug和SNOMED CT均通过商业授权,而RxNorm则可免费从终端中获取。
随着近几年医学信息学的迅速发展,各大医疗数字平台之间的信息共享与互通需求不断增加,但我国只有一些药品目录、数据库或药物辞典(如《国家基本医疗保险和工伤保险和生育药品目录》、2015年版《中国药典》)供参考。而且这些数据,尤其是官方数据,公开的较少,且大部分为非结构化数据。从网络上可获取的非官方药物数据[如药智网(https://www.yaozh.com/)、39健康网(http://www.39.net/)],大多准确性不高,且更新不及时。除了数据上的缺失,我国药品还存在很多特殊性。例如,笔者初步抽样发现:我国部分化学药的商品名不全;中成药则因成分复杂,不好表达,没有合适的药物编码模型,且大部分中成药用商标代替其品牌名等,这也是导致我国药物术语集发展缓慢的主要原因。建议我国药物术语集的构建可在借鉴国外先进药物术语集的设计与实践经验的基础上,鼓励医院或医药企业公开和共享数据,并尝试构建化学药和中成药兼容的药品模型等,以适应我国药品的特殊性,满足国际交流的需要。