郭碧玉 范艳芬 张羽
摘要:文章以中国知网、维普、万方3个中文学术期刊数据库为例,对三大数据库期刊检索平台进行访问并实施检索,从检索项和检索结果两方面分析,发现中文学术期刊数据库检索效果并不理想,提出应从完善检索项、加深聚类层次、优化关联推荐、用户检索过程控制与帮助、丰富可视化展现等方面做出改进,提升数据库检索效果。
关键词:学术期刊;数据库;检索效果
中图分类号:G250.7文献标志码:A0引言学术期刊具有及时性、新颖性、延续性等特点,能反映学科领域最新研究动态、研究成果和研究方向。因此,学术期刊数据库成为国内外学者从事科学研究、进行资料查找的重要工具,而数据库的检索效果直接影响着科研人员的研究效率。影响数据库检索效果的主要因素一方面是用户检索策略的选择,另一方面是数据库系统本身的检索性能。目前,我国对用户检索策略的研究较多,探究数据库本身检索效果的研究却寥寥无几。在中国知网中以“篇关摘=数据库 AND 篇名=检索策略”进行精确检索,检出结果450条,近5年内都有论文发表,但以“篇关摘=数据库 AND 篇名=检索效果”进行检索,检出结果仅有21条,且国内截至目前最新的一篇论文还停留在2014年,可见数据库本身的检索效果应该引起重视。
1中文学术期刊数据库检索效果调查与分析1.1调查对象及调查方法目前,中国知网、万方、维普已成为三大中文学术期刊数库,在资源收录、数据加工、系统功能和数据质量方面具有较高水平,选取这3个数据库为调查对象探究当前中文学术期刊数据库检索效果具有可行性与代表性。运用网络调查方法,对三大数据库的期刊检索平台进行访问并实施检索,客观记录数据并进行分类处理。调查时间截至2023年3月。
1.2調查现状说明检索项是用户选择检索策略实施检索的重要入口,检索结果的组织则直接体现出数据库的检索效果,因此从检索项、检索结果两方面探究中文学术期刊数据库检索效果。
将检索涉及的文献信息内容分为基本信息和辅助信息两类:基本信息是与文献内容直接相关的信息,包括论文信息、作者信息、期刊信息、时间信息及其他信息;辅助信息是与文献内容间接相关的信息,包括关联信息、特色信息、检索历史、结果排序。
检索项方面,三大数据库主要提供论文信息、作者信息、期刊信息、时间信息和其他信息五方面基本信息,如表1中标有“√”的部分所示。
检索结果方面,三大数据库除基本信息外,还有关联信息、特色信息等辅助信息,基本信息见表1中标有“■”的部分,辅助信息如表2所示。
1.3调查结果分析1.3.1检索项分析由表1可知,中国知网、万方、维普三大数据库的检索项分别为28项、18项、20项,普遍设置的检索字段有题名、关键词、摘要、基金、作者、期刊和时间等,其区别如下。
论文信息:除题名、作者等基本字段外,还有题名或关键词、篇关摘等组合式字段,并提供全文检索、任意字段检索,中国知网有小标题检索。文献标识方面,都提供中图分类号检索,知网和万方设了DOI(Digital Object Identifier)检索。维普和知网可进行参考文献检索。
作者信息:三者设置的检索项基本相同,都重视第一作者,为了提高查准率,维普设了作者简介字段,中国知网设了通讯作者和第一单位,没有数据库提供ORCID(Open Researcher and Contributor ID)检索。
期刊信息:中国知网和万方设置了国际标准连续出版物编号ISSN和国内统一刊号CN字段。知网和维普设置了来源期刊类别选项,如北大核心期刊、EI来源期刊、SCI来源期刊、CAS来源期刊等,并提供期刊栏目信息检索。知网在2021年有出版者和主办单位字段,现已撤销。
时间信息:三者都设置了收录/发表时间检索项,可对被检文献的时间范围进行限定。维普和中国知网设置了更新时间检索项,可以检索近一个月、近半年或近一年等时间段的论文更新动态。
其他信息:三者都设了检索词的中英文扩展、同义词扩展或主题词扩展,并支持基金信息检索。中国知网和维普提供学科限定检索。中国知网有出版信息检索,如网络首发、增强出版等。
1.3.2检索结果分析结合表1与表2,三大数据库都对检索结果做了详细处理。
基本信息:维普和中国知网都可对论文进行引文追踪与可视化引文网络,包括参考文献、共引文献、引证文献等。万方对不同机构的同名作者作了区分,中国知网可查看作者机构、关注领域、发表文献、合作作者、指导的学生、主讲视频等信息。另外,中国知网有主要主题和次要主题区分,万方设置了文献出版状态和来源数据库。
关联信息:都重视文献信息的关联推荐,设置了相关作者、相关机构、相关主题等。中国知网的相关视频可直接跳转到知网在线教学界面查看相关学术会议或论坛视频。万方的相关热词相对于主题词更能够及时反映某一领域的研究热点。万方提供每一篇文献的关键词、作者和机构等聚类信息,还可链接到万方分析查看其可视化图谱和相关推荐。维普在2019年未改版之前设有相关期刊,新版改为期刊导航与评价报告。
特色信息:中国知网提供检索结果计量可视化分析,包括总体趋势分析、关系网络、主题及作者分布等。在每一篇文献之后,中国知网设置了核心文献推荐,有研究起点、研究来源、研究分支和研究去脉。万方提供检索语词的智能扩展图谱,包括同义词、上位术语、下位术语、优选术语等,还可选择文献获取范围(仅全文、仅免费全文、仅原文传递、仅国外出版物)。维普提供参考文献和引证文献的引用分析,包括学术成果产出、主要发文人物、主要发文机构和主要学科
表2三大中文学术期刊数据库辅助信息辅助信息中国知网万方维普关联信息关联作者、相似文献、相关基金文献、读者推荐、相关视频、相关搜索相关主题、相关机构、相关学者、相关文献、相关视频、相关热词相关作者、相关机构、相关主题、相关文献、相关期刊特色信息计量可视化分析、核心文献推荐智能扩展、文献获取范围、研究趋势引用分析、统计分析检索历史检索历史、浏览历史、下载历史检索历史检索历史、浏览历史结果排序相关度、发表时间、被引、下载、综合相关度、出版时间、被引频次、下载量相关度、被引量、时效性统计等。
检索历史:三大数据库基本设置了检索历史、浏览历史和下载历史,用户可查看具体的检索词列表或文献列表。中国知网可查看检索条件、检索范围和检索时间,万方可查看检索列表、文献类型、检索式、检索结果和检索时间,维普可查看检索结果和检索表达式。三大数据库都可对检索历史进行删除操作。
结果排序:三大数据库对检索结果的排序主要有相关度、发表时间、被引量、下载量4种类型,中国知网设有综合排序。这些排序代表不同的相似度算法,检索系统每次排序都会打乱原有顺序重新排列,操作简单却存在缺陷,如会出现有关“某杂志被数据库和期刊检索机构收录”的通知类文献等与主题内容无关的干扰项。
2中文学术期刊数据库检索效果存在的问题2.1检索项缺乏,影响检索效果对一些对于学术研究极为重要且在国际社会较为关注的文献信息标识有所忽略,如DOI、ISSN/CN、通讯作者、ORCID等。维普在其检索项里没有设置DOI和ISSN/CN。近年来越来越多的期刊要求署名通信作者,而三大数据库中只有中国知网提供通信作者检索项。在ORCID方面,虽然万方是ORCID系统的合作机构,但是三大数据库都没有提供ORCID检索项。
2.2检索结果聚类层次较浅,效果不突出检索结果聚类大多是简单的初始聚类,与检索项多有重复,且没有加强聚类层次及对数据的深度分析与关系揭示。如维普对于“数字图书馆”的关键词检索,结果中以“数字图书馆”为主要主题的结果多达1.8万条。这样的简单归类对用户选择文献来说并没有很大作用。检索结果排序并没有有效排除与文献主题无关的干扰项,导致聚类效果不突出。此外,三大数据库也没有提供基于文献内容的附加信息聚类,如图、表格或其他材料等。
2.3关联推荐质量参差不一关联推荐是指“挖掘分析文献数据资源中文献之间、作者之间、机构之间、关键词之间的关系,进行关联文献、相关作者或机构、相关词语等数据资源的推荐”[1]。三大數据库都提供关联推荐,如相关作者、相关机构、相关主题、相关文献等,但在推荐的项目数量及内容的数据分析层次方面存在较大差异,如相关文献只是一系列相似文献的简单罗列,并没有进一步分析它们之间深层次的共现关系。
2.4用户可选择的检索项少与检索词的多义性干扰提供给用户的可选择检索项少,且用户无法自由选择检索深度与展现方式,只能被动查看系统自动给出的检索结果。在检索项上,用户只能选择要不要进行检索词的中英文扩展、同义词扩展,数据库并不提供相关词汇列表,维普和万方不支持用户根据需求自主选择一个或多个扩展词或同义词,致使检出结果数量庞大,同时包含多个相似主题,检索效果受到影响。万方在实施检索的检索词智能扩展虽然对用户调整检索式有一定作用,但是无法在用户实施检索之前起到辅助作用。
2.5检索结果展现方式单一,可视化程度不足检索结果的展现方式过于单调,主要是文摘、列表,属于原始图展现方式[2],将检索结果简单地罗列在显示区域内。一些数据库虽使用了目录型或树形展现方式,但只提供类目列表或二级到三级类目。同时,检索结果可视化程度也不高,中国知网和维普可生成简单的可视化分析图谱,万方的可视化分析主要在语词方面,包括检索词的关系图与主题词的知识脉络图谱。
3中文学术期刊数据库检索效果提升策略3.1完善检索项,与国际接轨(1)完善DOI检索项。DOI符合数字融合和多媒体应用发展趋势,是管理数字网络内容识别的通用框架,对数字环境下的信息管理极为重要。重视通信作者,增加“通信作者”检索项,与“第一作者”做出区分,更好地体现科研论文的作者分工协作关系,还可设“第一作者单位”,适应未来科研评价与学术发展要求。(2)增加ORCID检索项。ORCID作为目前使用最广的“科研人员全球学术身份证”,在全世界备受关注,它不仅可以区分同名研究者,确保其学术活动可以被识别,还可以追踪该研究者在不同阶段学术思想的发展与变化。(3)增加ISSN/CN等国际标准出版物编号,促进学术规范。随着国内外开放获取运动的发展,OA(Open Access)资源越来越受到学界关注,三大数据库也收录了OA期刊,可增加OA资源文献标识,如arXiv作者ID、URL等。
3.2增加检索结果聚类深度,丰富筛选方式科学设计检索结果聚类体系,对数据库中的文档进行预处理和分类。改进聚类算法,对于二级类目以下的各类目层次,采用层次聚类算法,如基于贝叶斯和谐度的聚类算法、基于层次和密度的任意形状聚类算法,或非层次聚类算法如高阶联合聚类算法等,由系统自动根据文献对象的属性特征和数据均密来确定聚类个数和聚类终止点,从而发现任意形状的聚类。两者结合,既保证类目设置的科学性,又根据本数据库实际收录的期刊范围来增加聚类深度。丰富检索结果的筛选方式,如增加影响因子分值来过滤论文,增加图片、表格等附加信息模块来直观地查阅文章中文字以外的附加材料,设置分支学科细化学科大类等。在检索结果排序上应确保聚类算法的优先级,在此基础上按相关性、被引量等辅助排序方式显示,排除干扰项。
3.3优化关联推荐,对关联数据进行深层次分析提供关联推荐,实现知识重组与发现。一是提供基于内容的推荐,如相关文献、关联作者、相关基金、相关博文、相关媒体资源推荐(图像、音频、视频等)等;二是提供基于协同过滤的推荐,如读者推荐、相似文献等,如图1所示。在提供关联推荐的基础上,利用各种关联数据挖掘方法,如以关联数据挖掘模型Liddm为代表的直接挖掘法,以事务构建为代表的间接挖掘法和以启发式关联遍历挖掘、深度学习为代表的链接挖掘法等[3],对数据的动态分布、语义联系、范围和规模等做出详细描述与深层次分析,形成文档分析报告或可视化图谱,实现检索系统的个性化推荐服务以及知识决策服务。
3.4加强对用户检索过程的控制与帮助建立全面的语料库系统,避免检索词的多义性干扰,将用户输入的自然语言转换成相应的规范语言(叙词),并提供语词列表让用户根据需要自主选择检索词。如PubMed数据库[4]在检索词方面提供了MeSH词表词、MeSH词确立日期、MeSH主要主题词、MeSH副主题词、文本词等供用户选择。EBSCO数据库[5]为了防止漏检和误检,提供专业的主题词索引,根据用户输入的检索词自动推荐相关规范词汇,使用户可以优先选择主题词来进行检索。提供用户可选择的检索项,如信息类型、类目精确度、学科、网站、地域、资源类型、结果显示方式等。如MDPI(Multidisciplinary Digital Publishing Institute)期刊检索[6]设置了论文类型检索项,作者在检索时可选择review、case report、commentary、concept paper、data descriptor、guidelines、study protocol、project report等多种论文类型。中国知网在检索之前就提供包含资讯选项来区分学术研究文献与资讯文献。数据库检索系统应该建立用户反馈机制,使用户在检索过程中遇到的问题能得到及时反馈与有效解决。
3.5豐富检索结果展现内容与形式积极探索和尝试多种可视化技术,如基于几何的技术、基于图标的技术、基于图形的技术、面向像素的技术等[7],结合交互技术与扭曲技术[8],使用户在可视化的基础上能够对可视化过程进行干预,对自定义的局部数据进行多样性操作。在内容展现方面提供宏观分析与微观分析可视化,如图2所示。宏观分析应提供对检索结果的总体分析,包括某主题研究趋势图、资源类型分布、学科分布、作者及机构分布、基金分布等;微观分析应以某篇文献为对象进行分析,如该文章的引文网络、作者合作关系、关键词共现等。通过各种方法对文献进行整合与分析,生成可视化文件,并在保护知识产权的前提下支持下载与利用。
4结语数据库检索水平的高低会直接影响科研人员研究的进展与效率。随着人工智能、云计算、大数据等信息技术的发展,特别是 ChatGPT的出现,一定程度上冲击了以往搜索引擎式的检索与数据库检索,引起了新一轮信息检索与服务方式的变革与转型。应加大对中文学术期刊数据库检索效果的理论与实践研究,逐步升级现有数据库检索系统,优化检索性能,促进知识重组和知识发现,满足用户对深层次复杂信息的需求,从而提高信息检索效率和资源利用效率,带给用户更好的检索体验。
参考文献
[1]吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75.
[2]郑海燕.关系数据库对象级别检索结果的聚类展现方法研究[D].大连:大连海事大学,2013.
[3]崔家旺,李春旺.基于关联数据的知识发现技术述评[J].图书与情报,2016(5):119-125.
[4]NCBI.PubMed[DB/OL].[2023-02-09].https://www.ncbi.nlm.nih.gov/pubmed/advanced.html.
[5]EBSCOhost.ASP&BSP[DB/OL].[2023-02-09].http://search.ebscohost.com/.
[6]MDPI.Advanced search[DB/OL].[2023-03-01].https://www.mdpi.com/.
[7]吴静.基于站点地图的可视化研究及交互设计应用[D].长沙:湖南大学,2012.
[8]任永功,于戈.数据可视化技术的研究与进展[J].计算机科学,2004(12):92-96.
(编辑李春燕编辑)
Investigation and analysis of retrieval effect of Chinese academic journal databaseGuo Biyu Fan YanfenZhang Yu
(1.Library, Sichuan Institute of Arts and Science, Dazhou 635002, China;
2.Library, Liaoning University, Shenyang 110036, China)Abstract: The article takes three Chinese academic journal databases, namely CNKI, VIP, and Wanfang, as examples to access and implement searches on the three major database journal retrieval platforms. From the perspectives of search items and search results, it is found that the retrieval effect of Chinese academic journal databases is not ideal. It is proposed to improve search items, deepen clustering levels, optimize association recommendations, control and assist users in the retrieval process, improve the visual presentation and other aspects to enhance the effectiveness of database retrieval.
Key words: academic journal; database; retrieval effect