机构知识库研究现状及趋势的可视化分析

2013-02-22 05:43林彦汝浙江树人大学图书馆
新世纪图书馆 2013年5期
关键词:知识库期刊论文

林彦汝(浙江树人大学图书馆)

机构知识库(Institutional Repository),简称IR,又称为机构仓储、机构典藏库、机构库等,是收集、存放由某个或多个学术机构(例如研究所、大学、图书馆、博物馆等)专家、教授、学生创造的、可供机构内外用户共享的学术文献的数据库。机构知识库是图书情报界近几年方兴未艾的一项研究热点,最早于2001年出现在国内研究文献中,它的出现是由于研究机构原生数字资源的大量产出,期刊价格暴涨及商业出版的不合理性引起的全世界范围内的学术交流危机和研究人员对科研资源的迫切需求三者之间矛盾不断激化而产生的。

机构知识库研究是图书情报学科的重要研究内容,也成为其发挥作用、影响其他学科的重要方面。随着机构知识库的发展,对该方面研究的文献数量也随之不断增加,因此有必要对研究现状进行总结分析。目前已有一些相关的研究综述发表在各类期刊上,例如:2007年杨宏的《国内机构知识库研究综述》、2008年鞠延玲的《机构知识库研究综述》,以及2008年金春梅的《近五年来我国机构知识库研究综述》等文章。但是这些研究大都没有结合信息可视化这一方法来呈现。笔者由此提出本文要关注的问题:就国内来说,近年来机构知识库研究的整体情况如何,其研究力量的分布怎样,主要涉及了哪些方面等等。显然,这些问题的回答是相关机构和学者普遍关心的问题。本文拟对上述问题从科学计量学的角度,综合运用信息可视化分析、词频分析、社会网络分析、共词分析等科学计量方法和数据挖掘技术,对国内机构知识库研究作计量分析,为相关研究和课题的开展提供参考,推进我国机构知识库研究的持续发展。

1 数据来源与研究思路

本文选用CNKI 检索平台作为研究的数据来源,分别以“机构知识库”、“机构库”为检索词,通过主题、关键词、题名、关键词或题名等四种检索方式,选择“精确”为检索途径,1981年至2012年为检索时间(具体检索日期为2012年10月9日),最终得出的检索结果见表1。

根据数据的检索结果,具体可归纳为以下5 点:(1)相关博士论文有3 篇,由于不少博士论文没有授权给CNKI,还有些论文的公开存在一定时延,因此实际的相关论文数会多一些。这3 篇博士论文分别来自2008年吉林大学邓君的论文《机构知识库建设模式与运行机制研究》,发表时间较早,被引频次也较大(22 次);2009年上海交通大学姚海的论文《广义执行机构概念设计中的计算机辅助分析方法与技术研究》;以及2012年南京大学钱鹏发表的《高校科学数据管理研究》。(2)相关优秀硕士论文有25 篇,其中发文量最高的是东北师范大学,有4 篇,分别是郭淑艳的《基于开放获取的机构知识库的研究》,王丹的《开放获取仓储发展研究》,姜宝娜的《我国高校科研管理中的机构知识库建设研究》和侯丽慧的《我国机构知识库模式构建研究》。(3)相关会议论文有6 篇,这些论文的来源较为分散,大致为“中国高校科技期刊研究会第15 次年会”、“新观点新学说学术沙龙”、“2008年湘粤澳闽图书馆学(协)会学术研讨会”、“中国高等学校自然科学学报研究会第12 次年会”、“第十三届全国机构学学术研讨会”等。(4)相关课题方面,460 篇期刊论文中有144 篇文章带有项目基金赞助,包括国家基金21 篇,教育部基金8 篇,中科院基金6篇。其中专门针对机构知识库的国家基金课题有:2007年中科院马建霞的“机构知识库建设与应用研究”,2008年中国农业大学李晨英的“图书馆特色知识库构建与知识服务实证研究”;教育部基金课题有:2009年天津商业大学李大玲的“学术机构知识库效益模式与实证研究”;中科院基金课题有:“机构知识库的语义增强方法与技术研究”、“研究所机构知识库建设”、“全院联合机构知识仓储体系建设”等。(5)相关图书方面,通过各种不同途径检索发现有:2009年李大玲编著的《学术机构知识库构建模式研究》等。具体见表一。

表1 机构知识库研究文献量的分布情况

本文研究的基本思路是:通过对论文(主要是期刊学术论文)的发表年代、发表期刊、所属机构、作者等信息的分析来研究论文的产出模式;通过对论文高产出作者及高频关键词共现知识图谱的分析来研究论文的主题分布与演进等,最后得出一些基本结论。

2 论文研究力量分布

2.1 论文的年代分布

一个领域中文献的数量是反映该领域发展规律的重要指标,图1 是历年来机构知识库领域的论文发文量曲线图,其中包括期刊论文、博硕士论文以及重要会议论文在内的494 篇文章。

图1 论文发文量的年代分布图

从图1 中我们可以看到,2001年是机构知识库方面的研究元年,第一篇文章是2001年5月黄石高等专科学校机电系的成经平发表于《机械设计》的《机构智能概念设计知识库的构建研究》。但2001—2005年间,每年的发文量都不超过5 篇,说明2001—2005年间,该方面的研究还处于起步阶段。而从2006年开始,每年的发文量大幅度增加,引起了多个学科领域的关注和重视。2009—2011年,每年的发文量都差不多,趋于稳定,显然在近几年内,机构知识库研究已逐步进入成熟阶段,相信在今后的几年里,该方面的研究论文还会层出不穷。

2.2 论文的期刊分布

经统计,460 篇期刊论文发表在104 种刊物上,核心期刊就有41 种,涉及学科前5 名分别是:图书情报与数字图书馆、计算机软件及计算机应用、科学研究管理、高等教育、以及自动化技术。

表2 是载文量超过10 篇的期刊,这些刊物都是图书情报领域的期刊。表中所列的14 种刊物中,除《现代情报》、《农业图书情报学刊》、《情报探索》和《科技情报开发与经济》外的10 种刊物都是核心期刊,说明在机构知识库领域发表论文的质量比较高。如果以期刊所载相关论文的篇均被引量和下载量作为衡量期刊影响力指标,《图书馆论坛》在该方面的影响力遥遥领先于其他期刊,而《农业图书情报学刊》和《科技情报开发与经济》两种普通期刊的影响力则远远落后于核心期刊,一方面是由于篇均被引量和下载量都具有累积性,发文年代越早的越高,另一方面则说明了核心期刊的影响力远超过普通期刊的影响力。

表2 载文量超过10 篇的期刊

2.3 论文的作者分布

460 篇期刊论文中,共有552 位作者,有133 位作者发文量≥2(24.09%),说明该领域只有少量的高产作者在持续深入研究。表3 为发文量前10 名的作者,其中特别要指出的是,作者王颖洁在2006年以南开大学信息资源管理系为机构名发表了一篇文章,而毕业后发表文章的所属机构都是西安外国语大学图书馆。

表3 发文量前10 名的作者

图2 为相关发文量超过2 篇的核心作者网络图,图中节点的大小代表作者的发文量,节点越大,说明发文量越高;连接节点与节点之间线条的粗细,代表作者间的合作频次,线条越粗,说明合作越密切。图3 为作者间的合作网络图(共现次数≥2),其中规定节点统一大小,以便于更能清晰的观察作者间的合作情况。

图2 发文量超过2 篇的核心作者网络图

图3 作者间的合作网络图(共现次数≥2)

结合图2 和图3,不难发现机构知识库领域主要有以下研究团队:(1)祝忠明团队。祝忠明长期从事网络信息系统组织与开发建设、数字图书馆技术与系统的研究与应用,他是中科院国家科学图书馆兰州分馆信息技术部主任,也是目前领域中影响力较大的学者,其团队人数较多,主要由其同事组成,承担了众多课题,发文量高。(2)张晓林团队。张晓林是中科院国家科学图书馆馆长,主要从事数字图书馆研究与应用工作,获得了多项国家级和省部级科研或教学奖,主要成员是其同事,由于同属中科院,因此该团队与祝忠明团队间有很多合作交流。(3)李晨英团队。李晨英是中国农业大学教师,主要研究方向为数字化资源建设与服务模式研究,论文主要偏重于“图书馆特色知识库构建与知识服务实证研究”这一国家级课题领域。(4)邓君团队。邓君是吉林大学教师,主要由其同事和学生组成,其团队主要围绕项目“科学信息开放获取发展模式研究”进行的。(5)曾婷团队。曾婷是清华大学图书馆教师,团队成员都是其同事。(6)柯平团队。柯平是南开大学教授,主要成员是其学生王颖洁和天津商业大学的李大玲。承担了多个教育部和中科院的课题,同时,李大玲还出版了一本相关领域的书籍。

2.4 论文的机构分布

460 篇期刊论文中,共涉及315 家机构,发文量超过2篇的有102 家。发文量前10 名的机构中除了中国科学院国家科学图书馆兰州分馆(27 篇)、中国科学院国家科学图书馆(20 篇)、中国科学与文献情报中心(18 篇)外,全部来自高校,这也说明了机构知识库的研究力量主要集中在高校内。

对机构的分析能够了解领域研究力量的分布及机构间的合作情况,机构分析可分为两种不同层次,一种是直接使用作者所著录机构情况,了解机构合作的微观结构;另一种是调整并补充著录信息,以显示机构合作的宏观结构。图4是国内机构知识库研究机构的微观结构,图中删除了孤立节点,余下102 家机构。图5 是国内机构知识库研究机构的宏观结构(发文量≥2,共94 家单位),对同一单位(如高校)进行合并,以便于了解研究该领域的各单位间的合作情况。

图4 国内机构知识库研究机构的微观结构

图5 国内机构知识库研究机构的宏观结构

图4 中的研究机构大部分都是图情领域,说明关于机构知识库的研究机构类型还是相对集中的。结合图5,笔者发现最有影响力的是中国科学院,它有多个分属机构从事这方面研究,而且合作和交流都比较频繁;吉林大学的相关研究机构对机构知识库领域有不俗的贡献,单位内部间也有合作;另外,武汉大学及其研究机构也发挥了重要作用,主要原因还是因为其具有实力雄厚的图书情报院系。对比两图,不难发现武汉大学、湘潭大学、浙江财经学院等虽然发文量较多,但与其他机构(校外)间没有任何合作关系,而佳木斯大学、湖南商学院、福建师范大学等这些发文量多的机构,则与校内外的机构都没有合作。

3 高影响力论文分析

文献被引用是业界专家对其的一种共同肯定,也是其影响力评价的重要且客观的指标,通过对高影响力论文的分析,可快速地找到领域经典的文献,因此被引频次是学术影响力的总体反映。460 篇期刊论文中,被引15 次及以上的有33 篇论文,2006年浙江大学图书馆赵继海的《机构知识库:数字图书馆发展的新领域》的被引频次最高,达67 次。被引频次较高的33 篇论文中有3 篇是由王颖洁发表的,充分说明了她的影响力。

在网络环境下,下载频次反映了论文在网络中的影响和被利用的能力,各论文下载频次远远大于被引频次,从某种意义上说,下载频次可以更直接地显示论文被读者使用的情况,避免一些认为因素和不良引用动机的影响。相关论文中,下载频次超过400 次的共有36 篇,与被引频次较高的论文相比,最明显的差异就是这些论文发表的时间比较晚,其中有4 篇都是近两年发表的,具体的排列顺序也有所区别。被引频次与下载频次之间的关系是一个值得研究探讨的问题,具体可深入为:近期的高下载频次是否预示着未来的高被引频次;下载频次与被引频次差异较大的论文都具有哪些特点等。

表4 被引和下载都较高的机构知识库研究论文

张晓林在2008年发表的《机构知识库的政策、功能和支撑机制分析》和2010年发表的《从文献传递到知识传递:面向未来的模式转变?——参加ILDS2009 会议有感》两篇文章的下载频次分居第一、第二名,高达839 次和797 次。高下载频次文章的作者、期刊分布与高被引频次文章的情况大致相同,并且,在被引频次较高的33 篇论文与下载频次较高的36 篇论文中,有18 篇是相同的,这就说明了下载频次与被引频次两者之间确实存在着一定的关系。表4 为被引频次与下载频次均比较高的前10 篇论文,笔者认为这些论文是机构知识库领域中的高影响力文章,从表4 中可以明显看到,具有高影响力的10 篇论文中,全都是发表在图书情报类期刊上,而且大多数都是核心期刊,说明图书情报领域在机构知识库研究方面已相当成熟。

4 论文主题分布

论文的关键词是其内容的浓缩和提炼,关键词的分布频次与特征能显示某领域总体特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向、学术研究的重点与热点等。对所有论文的关键词经过相关合并处理,比如:把“OA、Open access、开放存取、开放获取”等同义词合并为“开放存取”,把“IR、机构仓储、机构典藏、机构库、机构知识库”合并为“机构知识库”,把“台湾、台湾地区”合并为“台湾”等。最后得到460 篇相关论文中共有701 个关键词,出现2 次以上的关键词有159 个。本文中,对这159 个词构建共现矩阵,然后再通过Pajek 软件可视化,得到图6,图中节点的大小代表论文中关键词的频次,节点越大,说明词频越高,关于该主题研究的论文越多;连接节点与节点之间线条的粗细,代表两个关键词同时出现在一篇论文中的次数,线条越粗,说明这两个关键词关联度越强。此外,图中分别标出了4 个区域,分别是:区域A 理论研究,区域B 系统工具与资源,区域C 研究方法,区域D 实际应用,下文对这4 个区域的研究主题分别进行详述。

图6 机构知识库研究论文关键词(频次≥2)共现图谱

4.1 理论研究

机构知识库理论是机构知识库应用研究的基础,国内的理论研究大都从机构知识库的现状、热点、趋势、策略等方面进行论述。乔欢、姜颖、宋姝在《机构知识库内容建设现状及思考》中结合国内外研究实例对机构知识库内容建设的现状进行归纳分析,对机构知识库内容建设过程中存在的内容数量和种类、全文获取率、内容收集策略和类型、内容的质量控制以及作者的自存储行为等问题进行思考。赵迎光、曾苏、马建霞在《国内机构知识库发展现状与对策研究》中提出了IR需要转变的三个方面,即IR 发展应在资源征缴政策上寻找资源数量和质量的平衡点,在建设类型上从单一型向综合型转变,以及促进开放获取,提高资源共享程度。李明鑫、田丹、魏来在《机构知识库发展模型探析》中根据不同时期灰色文献在机构知识库中所占不同比例,设计了机构知识库发展模型。此外,王丹在《国内机构知识库构建研究》中分析了机构知识库构建中存在的问题,提出了解决机构知识库构建策略。

4.2 系统工具与资源

国内专门研究机构知识库系统、工具和资源的文献不多。杨武健和王学勤选用DSpace 系统为研究对象,并系统研究了DSpace 的功能特点, 以及在实际安装测试过程中的研究发现。王颖洁从软件的系统概述和对比分析两大方面对DSpace、EPrints、Fedora 进行比较,在系统概述方面,对其基础概念、系统结构、内部构造等进行介绍。并以表格的形式从技术规范、知识库及系统管理、内容管理、用户界面与检索、文件的保存及系统维护5 个方面就软件进行比较分析。赵圣文、胡常全、刘玉霞和李兆松以NoteExpress 为工具自国内外主要数据库中采集数据导入Dspace 平台构建机构知识库,并对数据合并、剔重等问题提出针对性解决方案。由于机构知识库正受到越来越多的学术机构的重视,广东商学院图书馆的林爱群基于元数据抽取和收集两种方法,提出元数据自动生成系统的框架结构,并分析讨论了元数据完整性和精确性这两个主要的评价指标。

机构知识库系统工具中,Dspace 应用最广泛,它是由美国麻省理工学院图书馆(MIT Libraries)和美国惠普公司实验室(Hewlett-Packard Labs)合作研发的,以内容管理发布为设计目标,遵循BSD 协议的开放源代码数字存储系统,该系统可以收集、存储、索引、保存和重新发布任何数字格式、层次结构的永久标识符研究数据。OpenDOAR 是由英国的诺丁汉大学和瑞典的伦德(Lund)大学图书馆共同创建的开放获取仓储检索系统,提供全球高品质开放获取信息资源库清单,它和ROAR、DOAJ 一道构成当前网络开放获取学术信息资源检索的主要平台。EPrints 是使用较为广泛的机构开放获取知识库专业软件平台,拓展了机构寻找功能强大的、低成本高效能的知识库的选择范围,支撑不同群体的用户和数字对象,为知识库管理者、技术维护者和用户提供了管理和灵活控制的功能。NoteExpress 是北京爱琴海软件公司开发的一款专业级别的文献检索与管理系统,其核心功能涵盖“知识采集,管理,应用,挖掘”的知识管理的所有环节,是学术研究,知识管理的必备工具,发表论文的好帮手。

数据资源的来源是机构知识库研究的基础,参考了众多文献,笔者发现这些资源类型大致分为信息资源、学术信息资源、网络信息资源、数字资源、网络信息等。研究过程中,通过对搜集到的元数据进行保存、关联数据、自存储、信息共享、知识集成等处理,达到机构知识库的创建、管理等目的。

4.3 研究方法

国内在机构知识库领域的研究中,专门提出或是改进某种方法的文献比较少,大多数还是借鉴以及引进国外的方法,而这些研究方法,主要都集中在文献计量学、知识图谱分析、对比分析等方面。学者利用文献计量学中的引文分析、内容分析、定量分析等方法,描述或解释该领域的各文献样本,从而达到研究机构知识库的目的;知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法,为学科研究提供切实的、有价值的参考。

赵卫运用文献计量学方法,并结合文献主题,以10年来Scopus 中机构知识库研究文献为研究对象,对文献数量、核心作者、期刊、文献被引、学科领域以及主题等进行分析,以明确国外机构知识库研究的现状。葛慧丽、王冬杰和唐建国绘制了2003-2009年我国开放存取研究主要代表人物知识图谱、核心文献知识图谱、高产机构知识图谱、发表期刊知识图谱,这些图谱反映出开放存取研究领域的现状和发展趋势,通过对图谱的解读,对我国开放存取研究提出一些建议。曾苏和马建霞对中国科学院部分研究所、部分高校的科研人员、研究生进行问卷调查,分析科研机构和高校科研人员对IR 的认知和态度差异,在此基础上得出研究结论。

4.4 实际应用

国内对机构知识库的具体应用研究主要集中在图书情报领域。在诸多应用领域中,对机构知识库进行内容建设、开放获取、资源整合,以达到知识共享、学术交流、知识管理和知识服务的目的。在所有论文中,有的领域有多篇研究论文,从数据分析上来看,大都为同一作者(或同一团队)所做的系列研究,也有不同作者从不同角度对同一领域的研究。另外,在对机构知识库的研究中,图书情报与数字图书馆领域的应用研究论文最多,其次是学术期刊和科研机构方面。

5 结论

通过文中的分析,发现国内在机构知识库研究领域有了突破性进展,不仅有更多更深入、更广泛的研究,而且还有越来越多的机构、作者加入到该研究领域。2009年以来,研究论文量基本趋于稳定,在应用方面,已建设机构知识库或类似系统的有中国科学院、清华大学、厦门大学、香港大学、台湾大学等机构,其中还有很多机构正在筹备或建设中,相信在未来几年内,将会有更多优秀的机构知识库面世,也期待有新的突破和发展。未来应着重关注以下几个方面:

(1)知识产权问题。知识产权问题是在开放获取过程中必须处理好的问题,因此如何了解各种资源的知识产权状况,采取相应的知识产权管理措施是值得研究的问题。

(2)数据资源收集、质量控制问题。开放获取是机构知识库建成后面临的一大挑战,资源的提交率仍处于一个较低的水平,而且因收集方式的不同,需采取不同的质量控制策略,所以为了促进机构知识库的发展,需要加强相关的方法、策略研究。

(3)应用研究。国内已有不少机构知识库的应用研究,但大都集中在图书情报领域,期待能加入到更多其他领域的应用中去。

1 黄凯文,刘芳.网络科学信息资源“公开获取运动”的模式与方法[J].大学图书馆学报,2005(2):38~41

2 杨思洛,韩瑞珍.知识图谱研究现状及趋势的可视化分析[J].情报资料工作,2012(4):22~28

3 马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006(2):163~171

4 杨武健,王学勤.DSpace 机构知识库系统的分析与研究[J].现代情报,2006(11):220~225

5 王颖洁. 机构知识库建库软件DSpace、Eprints、Fedora 的比较分析[J].图书馆学刊,2008(4):133~137

6 赵圣文,胡常全,刘玉霞,等.基于NoteExpress 构建机构知识库初探[J].科技资讯.2012(22):16~17

7 林爱群.机构知识库元数据的自动生成与评估研究[J].图书馆学研究,2009(7):21~23,10

猜你喜欢
知识库期刊论文
我国机构知识库内容质量服务探讨
本期论文英文摘要
期刊审稿进度表
本期论文英文摘要
期刊审稿进度表
本期论文英文摘要
期刊审稿进度表
2013年5—12月最佳论文
基于Lucene搜索引擎的研究
位置与方向测试题