,,
PubMed和Embase是生物医学领域的两大文摘类数据库,它们独有的主题词表有效地提高了文献标引及检索能力,因而受到专业人士的青睐。PubMed长期坚持免费开放,在全球范围内拥有广泛的用户基础;Embase近年来除保持药学与病理学方面的特色外,还通过整合MEDLINE数据(PubMed的主体部分)提升产品影响力。对二者的词表构成及标引策略展开研究,既能促进用户对检索系统的认识和利用,也能推动信息检索理论的发展。
对PubMed或Embase的分析或比较研究,国内外均已有较多文献述及。在数据标引、收录范围、所用词表,专指度等方面[1-3],认为MeSH词表的收词量及专指度较为适宜[4];Emtree的词汇量大,专指性强,因而可保证较高的查全率和查准率[5];Embase主题检索查全率高于PubMed,PubMed基本检索查准率更高[6]。需注意的是,这些成果大多发表于20年前,由于研究视角、研究方法不同,尤其是检索问题、检索范围、检索时间及检索途径不同,还可能导致研究结论完全不同[7-9]。在国外研究方面,除Bekhuis等[10]所做的MeSH和Emtree收录术语及覆盖范围的比较效果研究(Comparative Effectiveness Research,CER)外,较多学者将注意力集中于医学某一分支领域开展实验性比较研究,如关于ClinicalTrials.gov、PubMed、Embase及Google scholar收录卵巢癌临床试验结果的透明度分析[11],MEDLINE和Embase数据库麻醉学系统综述检索策略优化的实验研究等[12]。Cadwell等认为,利用Embase的“Major Focus”功能可减少临床系统综述文献的筛查负担[13];Glanville等认为,尽管Embase是健康技术评估(HTAs)时需检索的一个关键数据库,但因其主题词数量太多而可能导致查准率不高[14];Lam等发现尽管Embase的收录范围更广,但美国和加拿大的医学界并未用Embase替代MEDLINE[15]。
从数据库及检索系统本身变化情况来看,Embase于2017年在检索途径及功能方面作了重大升级,2018年发布了新版Embase标引策略综合指南;PubMed在主题词表的修订与完善方面也做了较多改变,2018年新增主题词1000余个,为近年来增幅之最,还在增补概念表中新增了有机体类词汇,在限定检索中增加了主题限定等。
综上,国内虽有PubMed与Embase的比较研究,但大多成文时间较早,难以反映最新内容,研究结论的不一致也易使读者产生混淆;国外则更偏重于应用领域的实验性研究,对二者词表构成及主题标引的比较分析较少,反映最新变化较少。
PubMed所用叙词表为《医学主题词表》(Medical Subject Headings,以下简称MeSH),由美国国立医学图书馆(以下简称NLM)编制而成,主要用于NLM生物医学文献信息的索引编目以及检索利用。MeSH属于层级制医学受控词表,具有相对完善和固定的结构体系,被认为是词表之典范[1]。其创建时间最早可追溯至1940年《医学索引》的季度累积主题索引。1960年,随着《医学索引》新专辑的出版,《医学主题词表》首版正式发行,共收录4400个词汇[16]。目前,词表分为16个大类,最多可达13个层级[17]。
MeSH词表由主题词(Descriptors,亦称叙词)、副主题词(Qualifiers,亦称限定词)和增补概念(Supplementary Concept Records,简称SCRs)3类记录构成。主题词是MeSH的主体部分,由以下4类记录构成:第1类为主标题(Main Headings),用于MEDLINE数据库、出版物和其他数据库收录文献内容特征的编目索引,可在PubMed的[MH]字段中检索到,一般为年度更新,遇特殊情况时会频繁更新,如2003年的“非典”时期,NLM在5月份就将“Severe Acute Respiratory Syndrome”与“SARS Virus”加入到MeSH中;第2类为出版类型(Publication Characteristics或Publication Types),如期刊文章、临床试验、综述等;在MEDLINE记录中标记为“PT”而不是“MH”;第3类为特征词(Check Tags),用于特定类别信息的标引,不会出现在MeSH树状结构表中,之前曾收录人类、动物、性别、年龄等特征词,目前仅保留性别(包括“男性”和“女性”)特征词,其余均转换为第1类主题;第4类为地理名词(Geographics),用来描述物理位置,列入MeSH树状结构表的Z类中。
副主题词是指对主题某一方面内容进行限定的词,如“治疗”“遗传学”等,其数量比主题词少很多,也相对固定,官方宣称现有80个,但笔者发现其中的“antagonists & inhibitors”与“antagonists and inhibitors”疑为重复。一般情况下副主题词不单独使用,但在PubMed中也可使用[SH]标记实现副主题词字段的限定检索。
标引人员常会遇到找不到合适的主题词标引文献的情况,如某些特定化学品、罕见疾病或药物联合治疗方案等。NLM的解决方案是将其作为增补概念记录(SCRS)添加至MeSH词表中作为补充。不同于正规主题词的是,增补概念不列入MeSH树状结构中,而是单独成表,通过MeSH字段映射的方式来建立与主题词表的联系并实现其检索功能。从结构上看,增补概念包含术语结构和概念结构两种模式,术语结构由入口词、优选词两级结构组成,概念结构由类、概念和术语三级结构组成。概念和术语之间为严格的同义关系,类和概念之间可以是密切关联的同义、相关或广义关系[18-19]。从内容上看,增补概念分为4类:化学物质和药物,主要映射到D类主题;治疗方案,用于化疗方案,一般映射到主题“抗肿瘤联合化疗方案”和其他D类主题;罕见疾病,一般映射到C类和部分A类主题;有机体为2018年新增内容,一般映射到B类主题。目前,增补概念表每周更新,现收录词汇逾24万[17]。
Emtree是生物医学和相关生命科学领域的一种层级结构受控词表,主要用于Embase收录文献的标引与检索[20]。Emtree词表创建于1988年,其前身为MALIMET(Master List of Medical Indexing Terms),在规范控制方面借鉴了MeSH[5,21]的树状层级结构,所以二者在结构上相似。目前,该词表由14个大类构成,分类层级比MeSH更多,如“Chlorocebusaethiops”,在MeSH中为第13级,在Emtree中为第22级。 与MeSH类似,Emtree由主题词(Preferred Terms,亦称优先词)、副主题词(Subheadings)和候选词(Candidate Terms)3类术语构成,具体包括通用术语、药物名、特征词、候选词、副主题词(药物、疾病及设备类)、药物商品名及厂商名、设备商品名及厂商名、临床试验号、分子序列号以及CAS的化学物质登记号等10大类[22]。 Emtree的副主题词数量共计82个,其中疾病类14个、药物类64个、设备类4个,总量与MeSH大致相当。与MeSH不同的是,Emtree仅疾病、药物或设备类主题词才搭配副主题词。
ELSEVIER从收录术语数量、词表结构及覆盖范围、更新频率等方面详细比较了Emtree与MeSH:Emtree收录术语数量更多,在药物类主题方面覆盖范围更广、更新速度更快,更方便用户查阅最新文献等,具体见表1[23]。
主题词的表现形式不一,各有优缺点。Emtree的自然语序形式更为直观,更易于识别和理解;而MeSH的倒置形式则是为了使用户在利用主题词字顺表、索引表或在检索输入过程中能够更便捷地识别与选择同族词汇,这种倒置表达形式可在一定程度上弥补检索系统没有分类检索功能的不足[4]。
Emtree收词量比MeSH大,二者的侧重点和新词处理方式大同小异。Emtree收录主题词82 067个[22],约为MeSH的2.8倍。其中“化学品和药物”类所占比例最重,达39.54%;其后依次为“过程、参数和设备”类(14.30%)及“疾病”类(11.58%)。“化学品和药物”类收录的可用于检索的同义词在其同义词表中所占比例更高,达60%[23]。正因为如此,ELSEVIER在产品介绍时特别强调Embase侧重于药物、疾病与设备检索。
笔者统计2018年的MeSH词表发现,“D化学品和药品”类占整个MeSH词表的38.37%,其后依次为“C疾病”类(占19.70%),“E分析、诊断与治疗用技术及设备”类(占8.69%)。三者累积达66.76%,比Emtree还略高一些,说明MeSH从总体上也是侧重于药物、疾病与设备的。在数据更新方面,二者均使用了自动标引与人工标引相结合的方式。2009年,Embase引入自动标引技术,会议摘要、预出版文献以及处理过程中的文献均采用自动标引技术[24],PubMed则要更早些。新主题词替换旧主题词时,Embase将会回溯更新数据[24];而PubMed仅在副主题词更替时才会回溯更新数据,主题词变更时则不作处理,这就需要用户在主题词检索过程中关注主题词的变化情况。二者的新词处理方法相似:在Embase的数据标引过程中,标引人员遇到新词时可将其作为候选词(candidate term)直接编入Emtree[25];PubMed的标引人员在遇到新词时可将其放到增补概念表中,用户可在MeSH中直接检索,增补概念表每周更新,与Emtree的每年更新3次相比,更新频率更快[26]。
在入口词或同义词方面,NLM宣称PubMed的入口词有9万多条,增补概念表收录词汇超过24万条,二者累积量超过了Emtree的同义词。Embase将MeSH词汇完全收入后大多作为入口词或同义词,为用户从PubMed转到Embase提供了方便。在药物方面,其同义词数量总体上超过MeSH。
以“阿司匹林”为例,MeSH直接采用“Aspirin”,收录入口词共19个,利用MeSH Browser查询到增补概念表中映射到该词的记录共104个;Emtree采用的是“acetylsalicylic acid”,其同义词数量多达268个。可见Emtree的主题词标引粒度更细。
表1 Emtree与MeSH的不同点
*2018年5月的数据
尽管二者副主题词数量大致相当,但标引方式大相径庭。在PubMed中,任一类主题词均有可与之匹配的若干副主题词,且副主题词间是分级的,最多可存在3个层级,如“外科学-治疗-移植。若用户检索某一主题时选择了其副主题词“治疗”或“外科学”,其检索结果均包含了“移植”的相关内容。让人难以理解的是,PubMed检索系统实现了自动扩展检索副主题词功能,却没有在用户检索操作界面中将副主题词的层级清晰直观地体现出来,这种功能上的缺失可能会使用户感到困扰。在主题检索过程中,PubMed检索系统会自动屏蔽那些无法与之匹配的副主题词,如以“肝肿瘤”作主题词时,系统会屏蔽 “化学合成”“药理学”“治疗应用”等副主题词。在Embase中,仅有疾病、设备和药物3类主题词可搭配副主题词:药物类副主题词共64个,其中47个为给药途径类副主题词,其他17个副主题词中有5个为主要副主题词;疾病类副主题词14个,2个为主要副主题词;设备类副主题词4个,于2014年引入,其中2个为主要副主题词[27]。此外,在Embase中副主题词与主题词的结合不如PubMed紧密,Embase强调其副主题词可独立于特定主题,可单独检索,因而被称为自由浮动(free-floating)或浮动(floating)副主题词[21]。这样做的好处是在标引或检索时组配更加灵活,缺点则是可能会产生检索噪音。
前已述及,Emtree主题词数量是MeSH的2.8倍,因而从理论上来说,Embase收录文献的主题词数量应超过PubMed,加拿大药物与生物技术局的最新研究证实了该推断。研究显示,Embase的检索结果中平均有3~4个主要主题词和最多50个次要主题词,而MEDLINE记录平均只有10~20个主题词[14]。
此外,二者在副主题词标引方面差异明显。如PubMed中可与“阿司匹林”组配的副主题词共有30个,Embase仅有17个副主题词,Embase只是在“给药途径”方面细分出47种不同给药方式;再如以“肝肿瘤”作为主题词检索时,PubMed可与之匹配的副主题词达49个,而Embase则仅有14个。Emtree在副主题词组配方面存在小“瑕疵”,如药物类主题词可组配“药物治疗”,而疾病类主题词可组配“副作用”,逻辑上不太合理;PubMed则处理得更好,药物类主题组配“治疗应用”,疾病类主题则组配“治疗”,“副作用”只与化学及药物类主题词组配。究其原因,笔者认为是标引方法不同所致,Embase采用浮动或自由浮动副主题词的方式进行标引,而PubMed则采用先组式标引方式,主题词与副主题词关系紧密,存在严格的逻辑主从关系。
长期以来,PubMed对中医药文献的收录与标引缺乏足够重视,而Embase宣称在亚洲文献的收集方面超过PubMed。笔者以点代面,以“龙胆泻肝汤”为例,考察比较二者中医文献收录及标引情况。经检索发现,MeSH将龙胆泻肝汤收入SRCs中,并映射到主题词“Drugs,Chinese Herbal”下,可直接检索。在检索过程中也发现存在因翻译差异造成重复收录的情况,如2008年收录“longdanxiegan decoction”,2010年收录“longdanxiegan tang”。此外发现类似的情况还存在因汉语拼音与拉丁文翻译不同、剂型缺省、词形差异等原因造成的重复收录[28]。Emtree则将“longdanxiegan tang”列入候选词表中,未见有术语重复收录的情况,检出的文献也比PubMed的多。
笔者使用中发现,在一般情况下,Embase的检索结果往往比PubMed的多。以“阿司匹林”为例,在PubMed与Embase中选择主题途径检索,检索日期为2018-06-01,分别得到42 330和195 434篇文献。在对检索结果的进一步筛选时,Embase检索系统的优势就体现出来,可根据每一筛选项尤其是自动浮动副主题词以及其后列出的检索结果适时调整检索策略。
Embase在2017年改版后不仅增加了药物安全警示导引(PV Wizard)、循证医学(PICO)等检索途径,恢复了设备检索途径,而且大大提升了检索结果处理能力。一是在药物、疾病及设备等3类主题检索时,用户可在检索结果列出后进一步限定副主题词;二是系统会在检索结果页的左部列出来源、药物、疾病、设备、浮动副主题词、年龄、性别、研究类型、出版类型、期刊名称、出版年、作者、会议摘要、药物商品名、药物厂商名、设备商品名及设备厂商名17类筛选项,点击“疾病”“药物”或“设备”中的任一类,系统会列出检索结果中包含该类主题,再点击其后的“details”图标后,系统会弹出“主要副主题词”选择框,待用户选择后,系统还会进一步弹出与之相关的其它主题词的列表供用户进一步限定。Embase的浮动副主题词文献筛选功能在一定程度上相当于PubMed的多主题词合并检索,但不同的是,Embase的用户可根据检索结果适时优化检索策略。该功能还可为用户带来很多益处,如帮助用户从药物的角度获取文献中涉及药物不良反应、药物联用、药物比较等细节性的内容;从疾病领域出发,对文献进行筛选,进行疾病分析;查寻一些在研或上市的药物名称等。浮动副主题词文献筛选功能的实现主要得益于Embase的“三重标引(Triple Indexing)”机制,如表2所示[29]。
二者在主题检索中还有其他一些小功能,如“AutoComplete”功能,即在输入主题词时能从主题词表中将所有以这些字母开头的数据提示给用户,供用户选择。
表2 Embase三重标引示例
综上所述,从发展历程上看,MeSH历史久远,体系结构成熟稳定,被许多其他医学文献检索系统直接借鉴或间接参考;Emtree也不例外,不仅借鉴了其规范化控制,还将MeSH术语纳入自身的同义词表。从构成关系上看,二者结构类似,Emtree体量更大,但从入口词与同义词数量来看,利用增补概念扩充MeSH可从数量上接近Emtree。从主题标引上看,二者各有特色,PubMed在规范性方面更为出色,Embase的篇均标引量更高。在检索功能方面,PubMed更注重降低用户的学习成本,操作简捷易用,而Embase在用户友好性方面更胜一筹。