孙清玉 梁美宏 胡晓辉
(河海大学图书馆 南京 210098)
机构知识库起源于开放获取运动,是互联网技术环境下的新型学术交流共享方式,有利于数字化资源的管理、传播、挖掘与利用。机构知识库自产生以来,国内外均对其展开了一系列理论研究与实践应用。截至2022年2月底,开放存取知识库目录OpenDOAR登记的机构知识库已有5 814个,其中我国大陆地区有65个[1]。现有的机构知识库主要以资源存储、简单标引、基本检索与利用等为主,尚缺乏广泛、详尽、细粒度的语义描述与关联,不足以使具有相关关系的资源得以充分集中呈现,从而满足语义网环境下数据开放共享的要求。
学术关系是学术研究产生与发展过程中存在的关联关系。机构知识库收录的资源中包含众多相互之间存在学术关系的科研实体,如作者、机构、成果等等,深入挖掘分析这些科研实体之间存在的学术关系,并通过科学的发现体系来实现实体间语义关联与揭示,有利于从学术发展角度组织机构知识库资源,进而推动机构知识库的有效使用与价值发挥。目前学术界鲜有从学术关系角度的机构知识库资源语义组织研究。
机构知识库(Institutional Repository,简称IR)又称机构典藏库、机构仓储、机构库等,通常情况下指的是,某个机构实体为保存和管理本机构智力成果资源(包括本机构成员创作的学术成果、科研数据、课件教程、软件工具等等),自主或借助第三方机构建立的集提交、组织、检索、分析、利用等为一体的学术存储与服务系统,通过校内IP或账号登录等方式,为用户提供开放式知识服务。
目前机构知识库科研实体关系研究主要集中在以下两方面。其一,基于现有模型实体关系的机构知识库语义关联研究,例如王思丽、祝忠明等以CASIR中实体关系为基础,利用关联数据设计了机构知识库语义扩展方案[2];肖可以、龚晓阳等分析了科研信息系统CRIS中的CERIF 模型中实体之间关系及实体间语义关联,并分析其可以与机构知识库有机链接,实现异质资源整合[3-4];Farid, H等研究并建立了机构知识库资源与本体的转化体系,以实现机构知识库实体与本体的语义关联[5]。其二,基于特定资源类型的机构知识库数据关联研究,例如侯瑞芳、陈嘉勇等在其研究中构建了文献实体关系模型[6-7];魏来等研究了书目数据与机构知识库数据的关系及关联方法[8];都平平等研究了机构知识库中研究数据的关联关系[9];Hallo, M等研究了利用关联数据发布开放获取期刊数据的方法,实现相关数据集的关联链接,指出该方法可用于机构知识库数据的关联组织[10]。可以看到,现有研究主要以现有模型或特定资源实体作为机构知识库实体相关关系研究的对象,缺乏深入剖析不同类型资源的内外部属性特征,从细粒度分析资源间存在的各种关系,难以充分、深入表达揭示机构知识库实体之间的关系,继而挖掘出更多潜在价值。
学术关系,顾名思义是指存在于专门学问中的关联关系。刘绍怀指出学术关系是通过对学术的生成源头和发展变化过程进行的研究,有助于厘清学术发展的历史脉络、总结学术合作关系的形成与发展的基本规律[11];苏静认为学术关系主要指从学术产出(论文)的角度出发,学术生产主体(学者)之间、学术机构之间、国家/地区之间、学术机构和学术生产主体(学者)之间、学术期刊和学术生产主体(学者)之间所产生的某种学术联系[12];雷雪等认为学术关系是学者与学者之间因个人经历、隶属机构、所在国家/地区、学术产出等因素所产生的某种学术联系[13]。此外,还有一些学者从学术产出主体、学术产出机构等角度具体研究了作者学术关系、学术师承关系、机构学术中介关系等方面[14-16]。可见,学术关系涉及到学术生产者、学术产出机构、学术产出国、学术产出成果、学术出版者、学术资助者、学术领域等多种科研实体。
现有学术关系研究涉及哲学、历史学、管理学等领域。其中人文社会科学领域的学术关系研究主要以定性方法为主,研究内容包括学术成果之间的学术影响、学术机构之间的学术渊源、学者之间的思想相互影响等等[17-19];自然科学领域的学术关系研究则以文献计量学方法为主,以客观数据为支撑,定量统计并分析学科演变、学术合作、知识脉络等问题,具体分析方法有共引分析、共词分析、多元统计分析、社会网络分析等等[20-22]。
机构知识库中包含学者、机构、成果等各种学术科研实体,其中学者除本机构科研人员以外、还包含众多与本机构人员合作的外单位人员,机构除本机构不同层级单位外、还包含与本机构合作的外机构单位,成果则以本机构科研人员在科研过程中产生的一系列科研成果为主。不同科研实体之间存在多种多样的学术关系,例如学者与学者之间存在学术合作、学术继承、学术引证等学术关系;机构与机构之间存在学术合作等学术关系;成果与成果之间存在学术合作、学术交叉、学术演进等学术关系。
本文拟以机构知识库所含资源为分析对象,分析不同类型资源的属性特征,以资源中主要科研实体为对象,研究科研实体之间存在的学术关联关系,并构建机构知识库科研实体学术关系发现体系,为机构知识库资源语义关联提供理论基础。
结合上述机构知识库定义及相关研究可知,机构知识库包含的资源类型既可以是著作、论文、专利、成果等公开出版的白色资源,也可以是预印本、实验数据、教学课件、授课讲义等灰色资源,甚至还可以是一些涉密文献、保密数据等黑色资源。根据载体/内容特性可以将机构知识库资源大致分为:文本资源、声像资源、数据资源、实物资源,各类型内涵及实例如表1。
不同类型资源拥有不同的内外部特征,分析发现文本资源、声像资源、数据资源、实物资源四种类型资源主要特征属性如下所述。
著作、论文、专利文献、报告、手稿等文本资源包含但不限于以下特征属性:标识符、题名、作者、机构、摘要、关键词、分类号、主题词、学科领域、参考文献、资助基金、来源、语种、出版社、出版年等等。教学视频、课件演示文稿、科研图片等声像资源包含但不限于以下特征属性:标识符、名称、制作者、机构、制作时间、格式类型、学科专业、播放时间、内容简介、来源、语种等等。实验数据、研究数据、科学数据等数据资源包含但不限于以下特征属性:标识符、标题、作者、机构、产生时间、数据类型、学科领域、归属项目/论文、来源等等。专利产品、计算机软件、实体模型等实物资源包含但不限于以下特征属性:标识符、名称、创作者、创作时间、形状、大小、尺寸、材质、来源、归属项目/论文等等。
表1 机构知识库资源类型划分
总体来看,不同类型资源既包含相同的科研实体,也包含不同的科研实体。为发现机构知识库主要科研实体间的学术关系,依据职能部门、科研人员、机构库用户等不同用户的不同需求内容,选择各类资源共同拥有的、且能体现其特征的科研实体作为分析对象。此外,学术资源的产生是源源不断、不停变化的,不同学者的各类型新成果会被收集存储在机构知识库中,而机构知识库中的本机构学者、机构、学科则是相对固定不变的,为系统全面地揭示本机构主要科研实体间的学术关系,选择学者、机构、学科、资源作为学术关系分析的主要科研实体。
依据学术关系内涵,学术关系是在学术生成与发展过程中产生的。学术生成过程中涉及到的学术关系主要是学术合作,包括作者合作、机构合作、国家/地区合作,涉及的科研实体有学者、机构、国家/地区;学术发展过程中涉及到的学术关系包括学术继承、学术演进,其中学术继承主要指师承关系,学术演进包括学术引证、学科前沿热点、学科交叉等,涉及的科研实体有学者、参考文献、学科、关键词、主题词、分类号等等。
1.了解现实问题。为了让学生全面了解问题,主动参与课堂教学,笔者为学生播放相关视频纪录片,学生在感到震撼的同时,也对环境污染问题有了更深入的了解,产生了掌握相关词汇的迫切欲望。
本文选择的科研实体中,学者是学术关系的生成主体;机构是学者的隶属单位,也是学术关系产生的重要实体单位;学科是学术生成与发展所在的研究领域;资源是学术生成与发展过程中产成的成果,在学者、机构、学科等科研实体学术关系中起到重要的桥梁作用。基于学术关系内涵、机构知识库资源特征,分别以学者、机构、学科、资源为主体,分析机构知识库主要科研实体的学术关系,为学术关系的关联、发现与揭示打下基础。
以学者为主体,学者与学者之间存在的学术关系有师承关系、合作关系、引证关系等,其中师承关系主要涉及的资源是包含导师在内的资源,典型的有学位论文;合作关系涉及的资源是包含两个或两个以上作者的资源;引证关系涉及的资源是包含参考文献的资源。此外,学者与机构之间存在隶属关系;学者与学科之间存在研究领域隶属关系;学者与资源之间存在贡献关系。
以机构为主体,机构与机构之间存在的学术关系主要是合作关系,涉及的资源是包含两个或两个以上机构的各类型资源,除一级机构之间的合作关系外,机构知识库中的机构合作还可以依据作者所属二级机构、资源中存在的二级机构信息等内容分析到本机构二级机构合作关系。此外,机构与学者之间存在隶属关系;机构与学科之间存在研究领域隶属关系;机构与资源之间存在贡献关系。
以学科为主体,学科与学科之间存在的学术关系有前沿热点、学科交叉等,涉及的资源主要是包含关键词、主题词、分类号等与学科有关的论文、专著、专利文献等文本资源。此外,学科分别与学者、机构、资源之间存在研究领域隶属关系。
以资源为主体,资源之间存在的学术关系有引证关系、附属关系、相关关系等,其中引证关系涉及的资源是包含参考文献的资源;附属关系涉及的资源是同属于一个研究内容、研究项目等的资源;学术相关是指同作者、同学科、或同主题的研究成果。此外,资源与学者之间存在被贡献关系;资源与机构之间存在隶属关系;资源与学科之间存在研究领域隶属关系。
表2展示了机构知识库主要科研实体的学术关系类型、对应的资源特征属性、及主要意义。
表2 机构知识库主要科研实体学术关系类型及意义
实现机构知识库科研实体间的学术关系关联与发现,主要是依托机构知识库自身资源,对不同来源、不同类型的资源经过整理、描述等加工过程,形成规范化的元数据集,明确资源中存在的科研实体,构建规范名称库,然后基于科研实体之间存在的学术关系,通过特征挖掘、关联技术、揭示方法等一系列手段实现科研实体学术关系的关联与发现,最终实现机构知识库科研实体学术关系的揭示与应用,具体关系关联与发现体系框架如图1。
图1 机构知识库科研实体学术关系关联与发现体系框架
其中人工上传的数据是由科研成果生产主体或是科研秘书、学科秘书等管理人员直接在机构库系统进行填报、提交,该种方式的数据字段内容相对较为准确、完备,但需要具有良好的主动上缴环境,这对于刚建成的机构知识库是比较难的,并非能够一蹴而就,需要机构知识库负责人员、单位的不断努力,在做出一定成果之后,通过大力宣传、取得院级/校级领导层面的支持等方式,逐步提高人员主动上缴意愿。同时,人工上传方式要耗费大量时间,还需要机构知识库负责人员承担大量审核、维护工作。
相比之下,与国内外各知名数据库商合作,运用机器学习、自动追踪等技术抓取数据库中已有的成果数据,能够快速获得本机构人员的科研成果,节省大量时间。但该种方式得到的数据准确性、完备性会存在一定问题,即使事先建立好学者规范词典、机构规范词典,也会因原始数据中存在同名不同人、同人多种名称变体、机构字段不完整等情况,使数据出现偏差。因此通常需要人工介入,经过认领、修改、审核等工作来确定数据。
通常情况下,机构知识库采用机器抓取+人工上传相结合的数据获取方式,得到不同来源、不同类型的资源,力求最大程度容纳本机构科研人员的各类型科研成果。此外,由于科研成果的产生是源源不断的,因此机构知识库也要建立数据采集更新机制,持续更新资源内容,并依据用户需求、知识组织要求,关注并解决数据采集中存在的问题。
机构知识库中不同来源、不同类型的资源拥有不同的数据结构,为便于资源管理、关联、展示、利用,需要对这些异构资源进行整合、加工、标准化描述。为实现机构知识库科研实体学术关系关联与发现,需要选择并构建合适的规范描述框架,包括元数据集、语义描述框架、规范文档等等,对相关数据进行加工,形成可存储、可读取、可关联、可展示的资源元数据架构。
基于上述机构知识库资源类型及科研实体学术关系内涵梳理,所构建的元数据集应至少包括:文本资源元数据集、声像资源元数据集、数据资源元数据集、实物资源元数据集;规范文档应至少包括:学者名称规范文档、机构名称规范文档、期刊名称规范文档、基金项目规范文档等。依据上文分析的资源知识要素属性,表3列出了不同资源元数据集的部分主要元素项;依据科研实体基本特征,表4列出了不同名称规范文档的主要属性项。此外,语义描述框架则可依据具体关联方法、结果等来选择合适的概念模型、编码技术,如FRBR、RDF等。为有效发现学科实体间的学术关系,应构建教育部学科、ESI学科、中图学科、WOS学科等多种学科分类体系的映射词表。
表3 不同资源元数据集的主要元素
表4 不同名称规范文档的主要属性
以规范描述好的元数据集为基础,利用实体识别技术识别学术关系涉及的科研实体、元素项、属性项,完成实体抽取与主要元素抽取。以构建好的规范文档为依据,对抽取出的实体与元素进行唯一化、规范化,并完成语义描述。基于上文分析的科研实体间存在的学术关系类型及属性特征,构建基于属性值匹配的推理关联方法,从而发现资源实体之间的学术关系并使其建立关联链接,主要关联过程如图2所示。最终形成机构知识库实体学术关系网络,网络模型大致如图3所示。
图2 机构知识库科研实体学术关系关联过程
图3 机构知识库科研实体学术关系网络模型
基于学术关系的机构库科研实体关联与发现,可以使分布在不同类型资源中具有学术关系的科研实体建立链接、实现关联,其大致可以在可视化揭示、语义化检索、智慧化服务等方面进行应用。
首先基于发现的科研实体学术关系网络,可以将各实体及资源通过可视化图谱等多种方式予以揭示,从而更清晰、直接地在用户面前展示资源、实体间的相关性,便于用户对机构库资源的利用。其次基于发现的科研实体学术关系网络,可以实现具有学术关系的机构知识库科研实体聚合组织,可构建语义度更高的检索系统,用户在检索时,可以同时获得与检索结果有学术关系的相关实体与资源,省去二次或多次检索,节省检索时间,提高检索效率。再次基于发现的科研实体学术关系网络,图书馆可以为用户提供更加丰富的智慧化、个性化知识服务,例如相关内容推荐、具有学术关系的资源/学者/学科发展态势分析等等。
机构知识库作为存储、管理、展现本机构科研成果的重要平台,其序化组织对于平台可持续发展有重要意义。现有的机构知识库资源组织主要以学者、机构、学科等常用的单一实体组织为主,用户可通过字段检索、导航浏览等方式来查阅所需资源,这种资源组织方式得到的检索结果相互之间较为独立,难以将存在关联关系的资源经过一次检索,直接呈现在用户面前。本文以科研实体间存在的学术关系为研究起点,分析机构知识库科研实体间存在的学术关系及其发现体系,该方式使不同科研实体间的学术关系得以语义揭示,并建立关联,形成机构库资源实体的语义聚集,能够使用户在检索之后,同时获得与检索内容有学术关系的其他知识内容,有利于机构库资源更好地的组织与利用。
本文研究内容尚存在一些不足,例如学术关系类型主要依据学术关系内涵及现有研究归纳所得,其完备性、准确性还需在实践工作中不断修正与完善;所选科研实体中学者和机构以本机构的学者、不同层级单位为主,对与本机构存在合作关系的外机构学者、单位缺乏科学的数据规范与描述,容易导致本单位与外单位学术关系的揭示不够全面准确。未来将通过实证研究、与外单位协同合作等途径开展进一步深入研究,使研究内容更具有操作性、科学性、实践性。