PubMed与Embase收录中国生物医学期刊及标引质量分析

2018-05-07 01:54
中华医学图书情报杂志 2018年11期
关键词:标引医学期刊字段

PubMed和Embase是生物医学领域最重要的两个文摘型数据库。PubMed以其收录范围广、更新速度快、检索功能强大、全球免费使用、提供丰富链接信息等特点成为众多国家的医学科研人员获取专业文献信息的首选。而Embase收录了大量欧洲和亚洲的生物学、医学和药学期刊,与PubMed数据库主要收录北美地区以临床医学为主的文献形成了互补之势[1]。

国内对PubMed或Embase的研究主要集中在检索功能、检索效果、收录范围、专指度等方面。如孙艳等学者研究发现,Embase收录范围更广、查全率更高,而PubMed的查准率更胜一筹[2];贾向春等学者关注并分析了PubMed收录中国期刊的选刊标准和收录现状等[3]。关于对PubMed和Embase标引质量的研究,除20世纪90年代有学者从标引深度和一致性对MEDLINE和Embase做了比较研究外,其他学者的研究主要体现在主题标引方面,如王岩等认为Embase中的Emtree的体量更大,PubMed的主题标引在规范性方面更为出色[4]。

国外的研究除加拿大药物与生物技术局对Embase和MEDLINE的篇均主题标引数量进行对比研究外[5],较多集中于PubMed或Embase在某一医学分支领域的具体应用性研究。如Roberto等对ClinicalTrials.gov、PubMed、Embase和Google scholar的卵巢癌临床试验结果的透明度、可信度的分析[6];Lee等人在PubMed和Embase中设置了肾移植过滤器,并对其进行了验证与分析[7]。

综上所述,国内虽有PubMed与Embase的收录范围、标引质量的比较研究,但并未以中国期刊为研究对象展开研究,且研究时间太早,难以反映最新内容和研究进展。仅有少数学者关注了PubMed收录中国生物医学期刊的情况,对Embase的研究成果则更少。国外研究多将视角集中于具体医学分支领域的应用,尚未见二者收录中国期刊的比较研究。对PubMed与Embase收录中国生物医学期刊的情况和标引质量展开比较研究,不仅可以促进国内医学科技工作者对两大生物医学文献检索系统的深入了解,而且可以为国内医学期刊建设与管理者在提升办刊质量方面提供思路,为国内信息系统开发者提供参考建议,从而促进中国生物医学行业的整体发展。

1 PubMed与Embase收录中国生物医学期刊情况

1.1 数据来源

为考察国外医学专业数据库收录中国生物医学期刊及其标引特点,笔者以PubMed与Embase收录的中国(包括大陆及港澳台地区)生物医学期刊为样本,对比研究了二者共同收录期刊的元数据描述、共同收录文献的标引特点以及与MEDLINE收录中国期刊的覆盖情况。以期刊出版国(PubMed:Country of Publication,CP;Embase:Country of Journal,cy)为检索字段,以“China”为检索词,分别在PubMed和Embase中进行检索,获得二者收录中国期刊列表。PubMed收录中国期刊340种,其中106种被MEDLINE收录;Embase收录中国期刊129种,其中48种被MEDLINE收录。

1.2 重复收录中国生物医学期刊的情况

以在PubMed和Embase中检索到的中国期刊为依据,比较重复收录情况(表1)。

表1 PubMed与Embase收录中国期刊的重复率

从表1可知,PubMed和Embase收录的中国期刊重复率相差较大。PubMed收录中国期刊的总数远大于Embase,但其中包含众多非生物医学期刊,如《中国社会科学》《中国材料科学前沿》等;而Embase收录的中国期刊均属生物医学领域。去除PubMed中的153种其他学科期刊,还有187种生物医学领域期刊。

MEDLINE是PubMed的主要数据来源,是美国国立医学图书馆(The National Library of Medicine,NLM)最重要的生物医学文献数据库,ELSEVIER公司于2003年宣布整合了MEDLINE数据库的全部内容。考察PubMed和Embase二者收录中国期刊论文情况,可以从中了解它们在选择、收录非英语语系国家专业文献时的基本思路和倾向。为此,笔者对PubMed、Embase、MEDLINE三者收录的中国期刊进行了对比(图1)。从图1中可以看出,PubMed涵盖了MEDLINE的全部内容,而Embase并未涵盖MEDLINE的全部内容,两者共同收录的中国期刊仅有48种,这与ELSEVIER公司的宣传及以往学界的普遍认识相矛盾。笔者在Embase中分别检索疾病(hypertension)、药物(saxagliptin)、设备(coronary stent)类文献证实,MEDLINE确有部分数据未被Embase收录。因此,科研工作者在了解自己发表的文献被外文文献数据库的收录情况时,需分别检索PubMed和Embase,以保证信息的完整性。

图1 PubMed、Embase、MEDLINE收录期刊数量与关系

1.3 PubMed与Embase收录中国生物医学期刊元数据的比较分析

PubMed在收录期刊自身元数据描述方面做得更细,而Embase的检索结果更便于使用和统计。PubMed的期刊自身元数据描述有29个字段,而Embase仅有13个字段(表2)。

从共有字段上看,PubMed收录的中国期刊同时标引了拼音和英译刊名,而Embase仅标引了英译刊名,二者的期刊名缩写方式一致。而在ISSN标引方面,Embase用2个字段分别描述纸质版和电子版期刊,而PubMed仅用1个字段,同时标注了纸质版和电子版。可看出PubMed更便于用户通过期刊名检索到中文期刊,Embase更便于用户通过ISSN号字段检索。二者均有收录期刊被MEDLINE收录情况的描述,PubMed使用“Current Indexing Status”、Embase使用“Indexed by Medline”进行标注。

表2 PubMed与Embase收录中国期刊的字段

此外,PubMed分别用“Publication Start Year”“Publication End Year”2个字段描述某期刊出版开始和截至年,用户可借此快速了解期刊的历史和当前状态。Frequency字段标明了期刊的出版周期,Publication Type(s)字段说明了期刊是否连续出版,Description字段描述了期刊的版次和尺寸等,Notes字段说明了期刊的其他详细信息,这些都有利于用户了解期刊基本情况、有助于馆员采编期刊。Embase的Source type字段说明所有检索结果类型都是期刊,Priority journal字段说明是否是重点期刊,Added since May 2017字段说明期刊是否为2017年5月以来收录,有利于用户了解最新收录情况和学科发展动态。

2 PubMed与Embase收录中国生物医学期刊文献标引质量分析

2.1 数据选取

为进一步考察两大数据库收录中国期刊论文的标引质量和特点,笔者选取PubMed、Embase、MEDLINE三者共同收录的48种中国生物医学文献的共有部分作为初选数据样本(图1),根据现代医学学科分类,将48种期刊分为基础医学、技术医学、应用医学3类。其中基础医学包含人体医学、(生命)现象医学和相关(因素)医学,技术医学包括生物医学技术工程和应用医学技术工程,应用医学包括普通应用医学和特种医学。再在每一组初选数据中随机选取3种期刊,最终得到的各类期刊如表3所示。

分别在PubMed和Embase中检索上述9种期刊2017年刊载的文献,并以中国生物医学文献数据库(CBM)收录文献量为基准进行比较,结果如表4所示。

表3 PubMed、Embase、MEDLINE中国生物医学文献选取列表

表4 PubMed、Embase收录9种中国期刊2017年文献量统计

从表4中可看出,PubMed收录中国期刊的文献数量和比例均明显高于Embase,收录比例达到91.25%,因此PubMed收录的中国生物医学期刊文献更全面。其中,PubMed收录《遗传学报》的文献数量大于CBM,因为PubMed收录的文献中包括封面和期刊介绍,剔除这些内容,则收录比例为100%。

2.2 标引字段分析

为进行下一步文献标引质量分析,笔者从表4的9种期刊中,先筛选出每种期刊在PubMed和Embase中共同收录的文献,再从这些文献所属的每种期刊中随机抽取10篇文献,共计选取90篇。

PubMed设置的文献标引字段共有47个,Embase有44个(表5)。PubMed设置了3个字段进行作者标引,其中作者字段为作者姓全称及名的首字母缩写,与作者全名字段结合起来标引,有效提升了作者检索的查全率。此外,二者都标注了文献的PMID号,方便用户对特定文献的获取。

PubMed和Embase均标引了主题词。PubMed设置了MeSH Terms、MeSH Subheadings、MeSH Major Topic 3个字段;Embase设置了Emtree Drug Index Terms (Major Focus) 、Emtree Drug Index Terms、Emtree Medical Index Terms (Major Focus)和Emtree Medical Index Terms 4个字段,其中Emtree Medical Index Terms字段内容包含了文献的Disease Terms、Device Terms和Other Terms 3类主题词。从主题词类目设置上来看,Embase专门将药物类主题词单独标识和显示,体现了药物信息检索的特色。

2.3 标引深度分析

标引深度(depth of indexing)指文献主题内容被揭示的详尽程度,对一篇文献而言,标引深度一般是指赋予该文献的标引词数量[8]。

表5 PubMed与Embase收录中国文献的字段

篇均标引深度为文献标引词总数与文献篇数之比,该值越大表明文献的标引粒度更细,检索入口更多。笔者在PubMed和Embase中,统计了上文筛选出的90篇文献的主题词并计算其篇均标引深度(表6),其中主要概念主题词为表达文献主要内容的主题词。

表6 PubMed与Embase收录中国文献的主题标引比较

从表6可以看出,Embase的主题词总数和篇均主题词标引深度高于PubMed,说明对于中国生物医学文献,Embase为文献提供的检索入口更多,用户更容易查到文献,标引粒度更细。但对比二者对国外期刊论文的主题标引情况的研究结果发现,Embase对国外期刊论文的篇均加权主题词标引深度约是3~4个、非加权主题词标引深度将近50个[9],PubMed对国外期刊论文的篇均主题词标引深度是10~20个[10],说明在主题标引深度方面,PubMed收录的中国期刊文献的主题标引深度与国外文献相比基本持平,而Embase收录的中国期刊文献的主题标引深度低于国外水平。

国外研究发现,Embase标引的主题词数量较多,导致大量不相关记录会被检索到,所以会降低查准率,建议选择加权检索以提高查准率[7]。为此,笔者专门考察二者的加权主题词情况时发现,PubMed略微高于Embase。

再对二者加权主题词占所有主题词的比例进行对比时发现,PubMed(32.57%)明显高于Embase(24.92%)。因此,PubMed的查准率更优,而Embase在查全方面表现更好一些。

2.4 标引差异性分析

为比较分析二者的主题标引的差异性,笔者对PubMed的PubMed Substances字段和Embase的Drug Terms字段内容进行抽样对比发现,同一篇文献的PubMed Substances字段内容基本都包含在Embase的Drug Terms字段中,且Embase中主题概念的粒度更细。为便于说明,笔者选取3个实例展示(表7)。在《中国中药杂志》中随机选取的10篇文献中,PubMed的Substances字段共收录了31个主题词,而Embase的Drug Terms字段共收录了42个主题词,前者的所有药物均被后者收录,说明Embase对中药的标引质量确实优于PubMed。此外,PubMed对中医药文献的标引多体现在增补概念表中,没有对应的主题词,出现了重复收录、同义词聚类不足、类方未能整合标引等问题[11]。因此,中医药的标引,更能凸显Embase数据库的特点,也符合ELSEVIER公司对Embase产品的宣传。

表7 PubMed Substances与Drug Terms对比实例

笔者比较分析了PubMed和Embase对同一文献主题词的标引情况,在选择对比项目时,只选取主题词,未考虑主题词与副主题词的组配,且对于“同意不同型”的概念认定为一致。通过比较发现,二者主题标引的一致性比较高,主要表现为完全一致和基本一致两种情况,实例如表8所示。

表8 PubMed和Embase标引一致性实例

注:*为主要概念主题词

从表8的“文献1”可以看出,PubMed和Embase的主题标引完全一致,且主要概念主题词的标引也完全一致;从“文献2”可以看出,二者主题标引比较一致(8个主题词中有5个一致)。由于笔者未对PubMed和Embase共同收录的除MEDLINE收录之外的6种期刊(图1)进行对比,该部分的一致性还不确定。但总体上看,PubMed和Embase对中国生物医学文献的标引一致性高于其他外文文献。

3 结论

PubMed与Embase作为生物医学领域两大文摘型数据库,对中国生物医学文献的收录与标引各有特点。二者对中国生物医学期刊收录的重复率较低,PubMed的期刊描述字段更详细,而Embase在收录期刊数据下载与利用方面友好性更胜一筹。此外,Embase对文献主题的标引粒度更细,中医药主题标引更为准确,二者对中国期刊文献的标引一致性比较高,这有别于外文文献的标引。鉴于数据量和统计方法的局限,对比内容可能不够全面,有待进一步探索。

对广大医学科研工作者而言,需注意的问题是在成果申报等过程中若要准确了解自身发表论文的国外收录情况,应同时检索PubMed和Embase等重要数据库,以保证信息的完整性。若需查找中医药学的国外相关文献,可首选Embase。对国内医学期刊建设与管理者而言,提升科技期刊国际影响力的重要途径之一就是被学科相关的国际权威数据库收录[12],如入选PubMed或Embase 对提升期刊国际科研地位和影响力具有重要的意义。因此应同时关注PubMed与Embase的收录变化,并可通过Embase的一些标引字段了解最新收录情况和学科发展动态,通过PubMed与Embase对中国生物医学期刊标引质量的特点减少期刊被剔除的风险,争取被二者收录,如中医药类期刊可多偏向于Embase。对国内信息系统开发者而言,可以在建设开发文献检索系统时,对期刊的标引尽量做到描述字段详细与数据下载、利用友好性相兼顾,对文献的标引做到粒度更细、查准更高。

猜你喜欢
标引医学期刊字段
山西医学期刊社简介
山西医学期刊社简介
中医古籍医案知识元标引方法的思考及对策
山西医学期刊社简介
山西医学期刊社简介
浅谈台湾原版中文图书的编目经验
档案主题标引与分类标引的比较分析
题名与责任说明附注字段用法分析
关于关键词标引的要求
关于关键词标引的要求