基于分析工具与期刊同现双重优化的生物医学领域学科分类体系映射研究

2022-12-17 07:55唐小利李晓瑛李爱花杨雪梅
医学与社会 2022年12期
关键词:学科分类类目教育部

唐小利,李晓瑛,刘 懿,李爱花,杨雪梅

中国医学科学院医学信息研究所,北京,100020

我国加快实现科技自立自强背景下,广泛集成多来源科技文献资源,构建国家高端学术交流平台[1],促进科研成果的开放传播共享与高效管理利用,已成为加强国家战略科技力量的一项重要举措。然而,不同来源的文献数据库所采用的学科分类体系尚不一致,导致相同资源的组织与揭示程度存在显著差别。因此,建立不同学科分类体系之间的语义映射,使分布式的科技文献资源得以统一组织,有助于科研成果的一站式检索、分类导航与统计评价。

Web of Science (WOS)和Scopus是目前国际上具有较高影响力的大型科技文献检索和引文分析数据库,且具有各自独立的文献分类体系,广泛用于科研机构与科研人员的成果产出分析、影响力评价、学术代表作评价等。在我国,国务院学位委员会和教育部公布的《学位授予和人才培养学科目录》(以下简称教育部《学科目录》),是现阶段高校和科研院所普遍采用的学科分类与评估依据[2]。鉴于语言文化、编制构想、应用场景等各方面的差异,造成WOS、Scopus文献分类体系与教育部《学科目录》的内容结构与类目设置不尽相同。但这些分类体系均以现代学科为依据,按照从一般到具体、同大类下内容相关的原则编制,因而相互之间可建立映射关系,以实现文献分类与学科分类的交叉融合。

本文在广泛调研国内外相关研究现状的基础上,深入分析WOS、Scopus分类体系及教育部《学科目录》的结构特异性,并采用计算机自动匹配与人工审核相结合的方法,初步完成WOS、Scopus分类体系中生物医学相关类目与教育部《学科目录》的语义映射。进一步,基于Incites学科分析工具与期刊同现两种不同的映射优化方法,对上述学科分类体系的映射结果进行完善与验证。研究成果有助于增强文献分类与学科分类之间的互操作性,提升科研学术成果统计评价的查全率和查准率,乃至参照WOS、Scopus分类体系的最新科研方向调整教育部《学科目录》的学科设置。

1 国内外研究现状

分类体系又称分类法,本质上是一种对资源进行有序化整理的知识组织系统,分类体系映射指在不同类目间建立语义对应关系的互操作方法[3]。通过在两部或多部分类体系间建立类目关联,有助于实现多来源网络信息资源的整合利用[4]。鉴于不同分类体系在编制目的、内容结构、列类标准、分类精度等方面存在一定差别,因此类目间存在多种映射关系。国内外学者根据类目所表达概念在内涵和外延上的重合程度,建立了以等价、包含、被包含和相关为核心的多种映射匹配关系[5-6]。国际标准化组织(International Organization for Standardization,ISO)发布的词表互操作国际标准《ISO 25964-2013信息与文献》,定义了在不同词表之间建立映射关系的3种主要类型:等同映射、等级映射、相关映射,为制定分类体系的映射原则与规范提供了依据[7]。

分类体系映射模型指映射时需要采用的模式[8],考虑待映射分类体系的规模体量、内容结构、映射目标、实施环境等因素,通过多种映射策略可构建不同的映射模型。Zheng等人从映射方法入手,提出了4种映射模型:翻译法、链接法、中介词表法及临时词表法[9]。《ISO 25964-2013信息与文献》从映射结构角度,规定了统一结构模型、直接链接模型和中心结构模型;统一结构模型主要用于同一分类体系不同版本之间的映射,直接链接模型在两部不同的分类体系之间直接建立映射关系,中心结构模型以一部通用的分类体系作为中心,其他分类体系分别向其进行映射。欧盟Renardus项目选取《杜威十进制分类法》(Dewey decimal classification,DDC)作为中心表,与德国、英国、法国、荷兰、瑞典等参与国家主题网关所用的分类体系进行映射,将多个主题网关的信息资源分别归入DDC相应类目,实现跨主题网络资源信息浏览与检索[10]。

人工映射和自动映射是分类体系映射常见的两类方法。人工映射依赖专家主观判断,在分类体系原本结构上建立类目之间的对应关系,DDC与《中国图书馆图书分类法》(简称《中图法》)之间的映射是人工映射的典型代表。人工映射需要领域专家的智慧,工作量大,容易产生主观导致的映射不一致,且缺乏衡量映射程度的定量指标。自动映射基于统计或规则,由计算机自动建立对应关系。随着计算机技术的不断发展,类目相似度计算、书目数据统计、交叉检索、期刊同现、机器学习等自动映射方法不断涌现,在一定程度上减轻对人工的依赖,提高了映射效率;然而,单一的自动映射准确率较低,需要大量的外部资源,否则映射效果无法保证。越来越多的学者开始关注和重视融合人工参与和计算机辅助的映射结果优化问题,减少人工智力干预程度,利用统计、规则和期刊分类数据优化映射结果,拓展优化方法在实践中的应用和推广已成为分类体系映射发展方向之一[11]。

2 学科分类体系结构分析与语义映射

2.1 学科分类体系结构概况

科睿唯安的WOS和爱思唯尔的Scopus是两个获取全球多学科学术成果信息的重要数据库,覆盖了期刊、会议论文、图书等资源类型;这两个数据库都提供基于期刊的学科分类体系,并允许一种期刊有多个分类。WOS和Scopus均是多重分类的综合性数据库,但在期刊的收录范围、学科分类体系设计理念、类目概念内涵及外延、分类标准等方面存在差异。

WOS数据库划分为科学引文索引、社会科学引文索引、艺术与人文引文索引,以及展示重要新兴研究成果的新兴来源引文索引等若干独立数据库,内容涉及自然科学、工程技术、生物医学、社会科学、艺术与人文共5个领域。WOS核心合集以期刊为最小分类对象,采用人工和启发式相结合的方式,统一使用254个学科类别进行分类。一种期刊可以分入多个与之相关的WOS类别,新收录的期刊采用基于引用与被引数据组合的Hayne-Coulson算法进行分类[12]。Nature、Science等综合性期刊无法明确分入具体研究领域,因此归入多学科类别。

Scopus是一个综合性数据库,没有划分独立的子库,使用一套完整的学科分类体系(all science journal classification,ASJC)对期刊进行分类。该体系分为3个层级,第一层级为生命科学、社会科学、自然科学、医学4个学科大类,第二层级细分为27个学科领域,第三层级在第二层级的基础上进一步细分为334个学科子类,配有4位数字组成的唯一分类号,每个学科子类对应唯一的学科领域。新收录的期刊由期刊负责人在已有学科类别中选择所属类别,再请数据库专业人员进行审查[13]。

教育部颁布的《学科目录》主要用于硕士、博士的学位授予、招生和培养,以及学科建设、教育统计分类等工作[14]。《学科目录》主要有4个层级,第一级为授予学位的13个学科门类,分别为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学;第二级和第三级分别为一级学科(两位学科代码标识)和二级学科(四位学科代码标识),第三级为具体学科设置;由于《学科目录》的第四层级包含各院校自主设置的学科,因此不作为本研究的映射对象。

WOS和Scopus分类体系主要服务于数据库期刊分类需求,偏重自然科学领域,类目设置不均衡,学科领域划分宽窄不一,不利于从学科角度进行分析评价。教育部《学科目录》服务于学科建设和评价,类目设置均衡,适用于不同学科。虽然科睿唯安和爱思唯尔在期刊分类与学科分类映射方面做出了一些努力,但这些成果集成在有些学科分析工具中,应用范围有限,自由度较低,灵活性差,严重影响我国高校和科研院所学科评估的准确性和可靠性。因此需要根据分类原理,通过分类体系映射将期刊分类和学科分类有机结合,并利用不同方法对映射结果进行优化验证,支持数字资源建设、学术成果统计和学科分析评价。

2.2 学科分类体系结构分析

WOS与Scopus数据库对所收录的期刊依据各自的学科分类体系完成了分类,这些期刊分类数据有助于本研究从细粒度分析其分类体系结构[15]。WOS历年累计的资源包含数据库中收录的26696种期刊,Scopus来源出版物列表包含Scopus数据库中发文量达到15篇阈值的41320种期刊。本研究选取截至2020年出版物类型为“期刊”的数据,去重后得到最终用于分析的WOS期刊20994种、Scopus期刊25964种;结合期刊全称、ISSN等信息,判断出这两个数据库共同收录的国际期刊共有14235种。进一步统计发现WOS期刊以单分类为主,超过70%的期刊只被分到一个类别,一种期刊最多可被分到6个类别;Scopus则侧重于多重分类(67.01%),仅有三分之一期刊(8566种)为单分类,一种期刊最多会被分入13个类别。对于两个数据库共同收录的期刊,这一现象依然存在,多分类的期刊占比分别为34.25%、66.65%)。见图1。

图1 WOS与Scopus收录期刊的分类数统计

WOS和Scopus分类体系均存在类目交叉现象。WOS分类体系中的类目粒度较为均衡,未见一个类目下所有期刊完全包含于另一类目的现象。Scopus分类体系的上位类和下位类可能同时出现在同一层级,存在一个类别完全包含另一类别的现象。例如“Immunology and Microbiology (miscellaneous)”完全包含于“Neuroscience (miscellaneous)”和“Medicine (miscellaneous)”中,标识有“miscellaneous”的Scopus类目对后续映射工作造成一定干扰。

2.3 基于中心结构模型的语义映射

对不同分类体系进行映射时采用统一标准作为基础,可以有效减少工作量。本研究以教育部《学科目录》为映射目标,WOS和Scopus分类体系作为映射源,采用直接链接法进行映射,遵循等同映射、上位映射、下位映射和相关映射4种原则。具体映射原则如下所述。①等同映射:WOS、Scopus与教育部《学科目录》的类目内涵相同时,则基于同义关系进行等同映射。②上位映射:由于教育部《学科目录》的一级学科类目揭示粒度较粗,WOS与Scopus分类体系中类目揭示度细,致使后两者的大部分类目无法在教育部《学科目录》中找到等同类目。因此需要进行上位映射,通过继承上位学科类目属性的方式将小概念映射到大概念。在就宽不就窄的上位映射原则下,一个教育部类目同时对应多个WOS或Scopus类目。同时,针对交叉学科类目,一个WOS或Scopus类目也可以对应不同的教育部类目,形成单一指向的多对多映射关系。③下位映射:Scoups分类体系中标识杂项的类目,类内分离,类间交叉,无法对应到具体的教育部《学科目录》中,只能采用下位映射,将大概念映射到具体包含的小概念。④相关映射:语义相关是一种弱映射关系,仅用于辅助映射而不作为一种映射关系。见图2。

图2 WOS、Scopus与教育部《学科目录》的中心结构语义映射模型

3 基于学科分析工具的映射优化研究

Incites是基于WOS核心合集数据进行计量分析和指标评价的学科分析工具,内嵌3种自建学科分类体系和10种区域性学科分类体系。Incites建立了其他12种分类体系与WOS学科分类体系的映射关系(未对外公开),支撑学科分析和科研评价。除了Incites,可选择的学科分析工具包括SciVal等,但仅对付费机构开放。

3.1 基于Incites学科分析工具的映射关系提取

Incites提供基于出版物的多种分析方式,利用学科分类体系中的“China SCADC Subject 97 Narrow”作为筛选条件,可收集到某一教育部类目下所有期刊及其WOS分类数据。进一步通过判断同一期刊的教育部分类和WOS分类情况,提取出两种分类体系之间的对应关系,用于辅助优化本研究初步构建的映射关系表。

首先,提取教育部某类目列表中期刊的WOS分类,判断是否多重分类,将WOS单分类的类目与该教育部类目建立直接相关关系;其次,判断多重分类的类目中包含生物医学相关类目的数量,如果该期刊的多个类目中仅有一个生物医学类目,则将该WOS类目与相应的教育部类目建立直接相关关系;最后,在同一期刊的多个生物医学类目与教育部类目之间建立可能相关关系。见图3。

图3 映射关系提取流程

以教育部分类“1001基础医学”为例,Incites获取的数据中该类目下共包含2526种期刊,涉及128个WOS分类。其中单分类期刊15种,只有一个生物医学相关类目的期刊8种,这23个WOS类目与教育部“1001基础医学”类目直接相关,构成映射关系。见表1。

3.2 基于已有WOS与教育部《学科目录》映射关系的优化研究

对比分析基于Incites数据提取的类目对应关系和本研究初步建立的学科类目映射表,提出以下几点映射关系优化方向。①增补缺失映射。将WOS和教育部直接关系映射表与前期初步构建的多对多映射表进行对比,增补后者缺失的映射关系。例如,在“基础医学”部分的映射中增补了“ENGINEERING, CHEMICAL”到“1001基础医学”的映射。②修正错误映射。对于“0831 生物医学工程”“1004 公共卫生与预防医学”等涉及跨学科或交叉学科较多的类目,鉴于语义映射存在交叉、循环等现象,可以借助直接关系进行辅助修正。③区分最优映射和推荐映射标识。筛选WOS分类和教育部类目直接相关的关系表中唯一映射的关系对,将其中的教育部类目标识为对应WOS类目的最优映射,其余映射相对于所对应的教育部类目为推荐映射。例如WOS分类中的“NEUROIMAGING”最优映射到教育部“1010医学技术”,推荐映射到“1002临床医学”。通过区分最优映射和推荐映射,为学科评估等要求对期刊进行唯一分类的使用场景提供便利。

表1 WOS分类与教育部基础医学分类直接相关类目

4 基于期刊同现的映射结果优化与验证

同现映射是一种通过统计相同数据集被不同分类体系归类后的类目同现频次,依据类目之间的相关度完成类目映射的方法,亦称为共现映射[8]。该方法在分类数据规模大、质量高时,能够得到准确率较高的映射结果。鉴于目前尚无WOS与教育部《学科目录》、Scopus与教育部《学科目录》的期刊分类数据,故无法直接采用同现映射方法。然而,本研究借鉴该方法的基本原理,并通过适当改进来间接地优化与验证分类体系的映射结果。

4.1 改进期刊同现的映射优化方法

理论上,借助WOS与Scopus共同收录期刊的分类数据,并通过本研究初步建立的生物医学领域WOS与教育部《学科目录》映射表、Scopus与教育部《学科目录》映射表搭建桥梁,可从两条路径得到共有期刊的教育部《学科目录》分类数据。对于同一种期刊而言,从两条路径得到教育部《学科目录》分类结果完全一致,则表明两组映射表中相应类目的映射关联准确;否则,结果出现包含或不同等情况,进一步从数据库初始期刊分类、映射表等多角度分析原因,并尽可能优化映射表以得到一致结果。这即为本研究基于期刊同现的方法优化学科分类体系映射结果的主要依据。见图4。

图4 改进期刊同现的映射结果优化流程

值得提出的是,由于WOS与Scopus分类体系结构、分类原则等差异,造成相同期刊的分类结果不尽相同。因此,采用本研究提出的基于期刊同现的方法对学科分类体系映射表进行优化时,需要排除WOS与Scopus数据库原分类数据的异质性对结果的影响。

4.2 基于改进期刊同现方法的映射优化与验证结果

本研究分别获取WOS、Scopus收录的生物医学期刊,对映射结果进行优化验证。WOS数据库生物医学期刊的筛选依据为Incites学科分类体系China SCADC Subject 97 Narrow下1001到1011各类目所包含的期刊,其中“1006 中西医结合”和“1008 中药学”没有数据;Scopus数据库中生物医学期刊来自其分类为“13 Biochemistry, Genetics and Molecular Biology”“16 Chemistry”“24 Immunology and Microbiology”“27 Medicine”“28 Neuroscience”“29 Nursing”“30 Pharmacology, Toxicology and Pharmaceutics”“32 Psychology”“35 Dentistry”“36 Health Professions”。经统计,两个数据库收录的生物医学期刊分别为5701、9983种(图5),其中4072种为两者共有(图5)。对这些共同收录的期刊,借助其WOS、Scopus分类数据及与本研究初步建立的映射表,采用图3所示的期刊同现优化方法,经多轮验证调整,最后所得结果见表2。

图5 WOS与Scopus生物医学期刊分类数据统计

表2 基于期刊同现的映射优化结果统计说明

综上所述,本研究采用基于中心结构模型的语义映射方法,初步建立了WOS、Scopus与教育部《学科目录》中生物医学相关类目的映射关联;而后基于Incites学科分析工具与期刊同现的方法优化验证了映射表;最终,WOS分类体系的103个类目映射到教育部《学科目录》12个类目,共126对映射关系;Scopus分类体系中153个类目与教育部《学科目录》12个类目建立了语义关联,共200对映射关系。教育部《学科目录》的12个类目分别为“1001 基础医学”“1002 临床医学”“1003 口腔医学”“1004 公共卫生与预防医学”“1006 中西医结合”“1007 药学”“1008 中药学”“1009 特种医学”“1010 医学技术”“1011 护理学”“0710 生物学”“0831 生物医学工程”,基本覆盖了我国高等院校生物医学相关学科。以“1007 药学”为例,展示了最终所得的语义映射关系。见图6。

图6 WOS、Scopus分类体系与教育部《学科目录》中“1007 药学”的语义映射关系

5 结论

本研究针对我国高端学术交流平台的数字文献资源建设与高校学科发展需求,分别建立了WOS、Scopus分类体系与教育部《学科目录》中生物医学相关类目之间的映射关联;利用Incites学科分析工具,以及WOS、Scopus共同收录期刊的分类数据,优化并验证了上述映射关系表。研究意义体现在资源建设、资源组织、学科评估等多个方面。从资源建设的角度,以教育部《学科目录》指导国际数字资源采购,将有限的购置经费向我国科技自主自强发展的重点学科倾斜,提升国家高端学术交流平台中关键资源的覆盖度;从资源组织的角度,针对我国科研人员与高校科研管理者对国际期刊的检索需求,实现以教育部《学科目录》来组织外文科技文献资源,提升目标文献的检索效率;从学科评估的角度,本研究减少了WOS、Scopus两大外文数据库期刊文献分类差异对我国高校学科评估、学术竞争力评价等分析结果的影响,提高了学科评估的查全率与查准率。今后,还将继续开展WOS、Scopus分类体系与《中图法》、DDC与《中图法》等国内外主要学科分类体系之间的映射研究,以更细粒度支撑国际科技文献信息资源从期刊级到篇级的分类组织与有效利用。

猜你喜欢
学科分类类目教育部
教育部辟谣小学学制变5年
本期练习题类目参考答案及提示
高校二级学院科研管理模式研究
审计学成为一级学科可行性研究
教育部召开座谈会推进一流大学和一流学科建设
中医药信息学教育发展历程回顾与学科发展现状分析
基于学科分类下的交互式电子白板设备应用绩效评价
《中图法》第5版交替类目研究综述
我校两教育部重大课题攻关项目开题
黄三角、长三角、珠三角明、清及民国通志一级类目比较*