魏瑞斌 陈丹丹 琚兴
【摘要】
通过文献综述和统计分析的方法,分析高校机构知识库的研究现状;并利用知识图谱工具研究2006-2011年安徽财经大学管理科学与工程学院的学术资源情况,指出高校机构知识库中的资源在高校构建科研团队和学科建设等方面的应用价值。
【关键词】
高校 机构知识库 知识图谱 合作网络 共词分析
2002年,学术出版与学术资源联盟(Scholarly Publishing and Academic Resources Coalition,简称SPARC)高级顾问Raym Crow[1]在其The Case for Institutional Repositories: ASPARC Position Paper一文中,首次提出了机构知识库的概念。之后随着Dspace等机构知识库的开发工具的诞生,机构知识库在国内外迅速发展。
2003年5月10日Cornell大学的Paul Ginsparg 在于加利福尼亚Irvine大学的国家科学院贝克曼中心举办的“知识图谱测绘”学术研讨会上,针对数据访问做了演讲,主要介绍了Cornell大学的机构知识库的基本状况。此次演讲将知识图谱的理念和机构知识库相结合,阐述了知识图谱在Cornell大学机构知识库中的应用情况。
机构知识库的概念
迄今为止,机构知识库没有一个明确的定义。Raym Crow在2002年提出的机构知识库是收集并保存单个或多个大学、科研机构智力成果的数字化资源集合[1]。加拿大研究图书馆协会(Canadian Association of Research Libraries,简称CARL)认为机构知识库是搜集、存储学术机构成员的知识资源,并提供检索的数字知识库,同时可作为一个全球知识库的子库,为世界范围内的网络用户服务[2]。柯平等人[3]将机构知识库定义为是利用网络及相关技术,依附于特定机构而建立的数字化学术数据库,它收集、整理并长期保存该机构及其机构成员所产生的学术成果,并将这些资源进行规范、分类、标引后,按照开放标准与相应的互操作协议,允许机构及机构内外的成员通过互联网来免费地获取使用。
虽然机构知识库没有统一的定义,但是这些定义具有一些共性。一方面,机构知识库都是为存储某一个机构的资源而建立的;另一方面,机构知识库中的资源是对外开放的。笔者认为,机构知识库是为存储机构中的资源而建立的、能够保存机构中所有形式的资源,为机构中的用户提供信息服务的系统。
机构知识库的研究现状
自从机构知识库的开发工具Dspace产生以后,国内外机构知识库迅速发展。截至2012年5月7日,在Registry of Open Access Repositories(简称为ROAR,http://roar.eprints.org/)注册的全球机构知识库已经达到了2 875个,分布于100余个国家,而欧美的机构知识库数量占绝大优势,其中美国以454个居第一位,英国以235个排名第二。如表1所示:
从表1可以看出,美国的机构知识库数量远远超过了其他国家,这主要有两方面原因:一方面,美国的数千所高校将机构知识库作为校园的基础设施组件,虽然机构知识库至今还没有得到完全的普及,但是各高校都将机构知识库看成是对教学材料、教学研究材料等进行管理的数据库;另一方面,美国的大部分机构知识库都是基于Dspace构建的,Dspace作为一种开源软件在很大程度上促进了美国机构知识库的发展。
从表1还可以看出,中国的机构知识库的数量并不在少数,但是中国大陆的79个机构知识库里,有65个都是属于中国科学院的各个研究所的,其余的14个中,由大陆登记的高校机构知识库只有厦门大学(http://dspace.xmu.edu.cn/dspace/)和浙江大学(http://dspace.zju.edu.cn/)。
高校机构知识库是机构知识库的一种主要类型,与科研单位机构知识库一样,是对高校的智力成果进行收集和保存的知识资源集合。目前国内很多高校构建了机构知识库,但是这些机构知识库的链接很多已经失效,更没有被ROAR收录,只能够通过文献知道这些机构知识库(例如中国农业大学机构知识库[4]、同济大学机构知识库[5])存在过。
目前机构知识库的构建技术已经相当成熟,但是由于高校领导和政府对机构知识库不够重视,加之机构知识库构建后的管理和维护单位不够明确等,许多机构知识库建立不久即告夭折。本文从机构知识库中资源的应用情况出发,研究机构知识库的用途,以提高机构知识库在高校中的知名度。
基于知识图谱的高校机构知识库的应用
高校机构知识库构建的最终目的是促进高校内部和高校之间的学术交流和共享,使机构知识库中的资源得到合理利用。本文将机构知识库中存储的资源作为研究对象,进行社会网络分析和共词分析,全面分析机构知识库中资源的情况,进而把握高校中具体的科研成果情况。
由于本文撰写时机构知识库尚处于构建初期,机构知识库中的数据暂时并不完整,考虑到数据的完整性和可获取性,笔者利用CNKI的中国学术期刊全文数据库,检索2006年至2011年期间以安徽财经大学管理科学与工程学院(原为信息工程学院)为作者单位的期刊论文。具体检索条件如下,时间范围:2006年至2011年;单位名称:安徽财经大学信息工程学院或安徽财经大学管理科学与工程学院;期刊范围:所有期刊。共检索到595篇文章,其中第一作者是安徽财经大学信息工程学院或安徽财经大学管理科学与工程学院的论文有532篇,非第一作者发文为63篇。笔者选取安徽财经大学管理科学与工程学院(包含更名前的信息工程学院,下同)为第一作者单位公开发表的论文532篇作为研究对象,这些研究对象都将被存储到机构知识库中。
3.1 基于高校机构知识库的科研团队建设
对机构知识库中的资源所有者进行研究,可以通过研究科研人员论文合著情况来探讨科研人员的合作和科研团队的构建。例如,南京大学信息管理系朱庆华[6]教授应用社会网络分析方法对国内情报学领域合著网络进行了实证研究,评价了学者在合著网络中的地位,发现了合著网络中的联系紧密的团体,指出了合著网络中核心作者的数量和所属机构。程齐凯[7]对档案学领域的合著网络进行了研究分析,总结了档案学科的科研团体分布情况并对学者合著规律进行了探讨,等等。
3.1.1 合作网络的构建
笔者检索到的532篇论文中包括两个或两个以上作者的共有250篇,占论文总篇数的46.99%。将2006年至2011年划分为两个时间段:2006-2008年与2009-2011年,在此基础上绘制机构合作网络,并分析学术机构合作网络的变化情况。
根据笔者编写的程序将整理的作者信息制成合作网络矩阵(见表2、表3),在矩阵中n(n=1,2,3,…)表示两位作者之间合著的频数,0表示两位作者之间不存在合著关系。
合著网络可以表示为一个无向的连通图,图中的节点表示资源的作者,节点之间的关系表示作者之间的合著关系,线条的粗细表示作者之间的合作次数,次数越多,线条越粗。笔者采用Pajek软件,以可视化的图形来表示个阶段的合著状况,如图1和图2所示:
3.1.2 合作网络分析
将2006-2008年作为第一阶段,2009-2011年作为第二阶段,通过图1与图2的比较,第一阶段的合作数量没有第二阶段的多,这种现象一方面取决于第一阶段的安徽财经大学管理科学与工程学院的期刊论文发表数没有第二阶段的多;另一方面,随着时间的推移,本机构的发展逐步成熟,机构的团队相对稳定,其中包括许多本科生和研究生都积极地发表期刊论文。
观察图谱,其中的合作类型主要包括三种:①师生合作,老师作为核心人物,这种合作在网络中很多,例如图2中与程刚教授合作的冯丹丹、杨改、唐凯、王影洁、周绮娟等都是程刚教授的学生。夏日教授和他的学生琚兴、汪玮、李文涛也有合著过论文;②机构内部人员合作,这种合作模式是学者之间学术交流的一种,例如图2中程刚教授和李旭晖老师、魏瑞斌教授之间的合作;③与外机构人员合作,例如图1中程刚教授和石秀和教授之间的合作。
3.1.3 机构知识库在科研团队建设中的应用
科研团队学术带头人的选择。科研团队学术带头人具有较高的学术造诣和较好的组织协调能力,在研究群体中有较强的凝聚作用。节点中心度通常是用来衡量团队的核心人物的指标,科研人员的节点中心度较高,表明他在网络中拥有较多的直接联系,这个科研人员也就居于本机构科研的中心地位。在一个合作网络中,如果一个科研人员居于其他两节点的网络路径上,也可以认为该科研人员处于重要地位。中间中心度通常用来刻画行动者对资源的控制程度[8]。表4和表5分别表示2006年至2011年安徽财经大学管理科学与工程学院的合作网络的网络节点点度中心度和节点中间中心度。
结合科研人员在合作网络中的地位,笔者认为,点度中心度和中间中心度都较高的科研人员可以作为科研团队的带头人。从表4和表5看,程刚、徐勇、李旭晖、张雪东等人可以作为科研团队的带头人。
科研团队成员的选择。一个科研团队需要具备的条件之一是拥有类似或相同的研究内容,故科研团队的成员可以从与学术带头人有合作经历的人员中选择。如图1和图2中,徐勇、张海、朱其祥、周森鑫等人已经长期合作,可以考虑构建成一个科研团队。还可以从合作网络中挖掘一些与科研团队研究方向相近、有潜在合作条件的科研人员。在图1和图2中,除了A部分的长期合作并且合作比较广泛的科研人员外,B部分的科研人员可以作为备选对象。
在机构知识库中构建科研团队。通过以上的分析,机构中的科研人员可以直观地从合作网络图谱中发现机构内成员之间的合作情况,了解机构内成员科研团队的划分,决定要加入的科研团队。本文借助一些辅助软件绘制出机构内的合作网络,并且以图片的形式保存到高校机构知识库中,机构科研人员可以对其进行下载和浏览。
结合机构的合作网络,笔者在已构建的高校机构知识库中创建一个群组,本群组的成员可以对这个群组中的内容进行下载和浏览等。例如创建一个知识图谱的群组,可以选择机构知识库中不同的成员加入到这个群组,并且这个群组对某一特定的专题有一定的权限,如修改、上传权限等,群组分配如图3所示:
图3 机构知识库中群组的分配
通过构建机构知识库中资源的合作网络图,一方面,可以寻找本机构的科研团队的带头人,建立相关领域的科研团队;另一方面,可以帮助机构中的科研人员寻找和自己研究领域相同的团队。
3.2 基于高校机构知识库的学科建设
学科是作为知识体系的科目和分支[9],相对于专业而言更强调知识体系。一个机构中的学科建设取决于本机构过去的“研究热点”和未来的研究方向。“研究热点”,无非是引起学者的广泛关注、吸引大量研究的学术主题,值得进一步探索和拓展研究的焦点问题[10]。不同的学者从不同的角度对这些热点的界定和研究方法进行研究。例如,魏瑞斌[11]利用社会网络分析对关键词共现网络分析,归纳了国内特色数据库的研究热点。对研究热点的分析,除了大量应用期刊论文关键词之外,还有学者以国家自然科学基金项目[12]、国家社会科学基金项目[13]、硕博论文[14]等为研究对象。胡志刚和李志红[15]研究了我国科学学的研究热点。
3.2.1 研究热点图谱的构建
笔者以检索到的532篇期刊论文的关键词为研究对象,来研究安徽财经大学管理科学与工程学院2006-2011年研究热点的情况。首先对文献的关键词进行清洗,将具有同一含义的关键词进行统一表达,例如:安徽、安徽省统一用安徽表达,剔除没有意义的关键词,例如学科编码。然后将数据转换为Ucinet可以处理的矩阵,利用Ucinet软件画出每个关键词之间的网状关系,最后利用Pajek绘制了度数大于8的共词网络图,如图4和图5所示:
3.2.2机构研究热点分析
从图4和图5来看,每张图都由大小不同的网络构成。根据图中关键词的信息可以看出,B部分的都是相对较小的网络,相对而言这些研究的内容具有特殊性,例如图4中对帆船动力、网格计算的研究;图5中对研究生课程、水印提取技术的研究。A部分都是相对较大的网络,是由小的网络图构成的。例如图4中的数字图书馆和数据挖掘的相关性将三个小网络联系到一起,图5中的系统架构和工作流管理的相关性同样将三个小网络联系到一起。但也有可能由于关键词选择的不同,研究相近的关键词不能联系在一起。例如图5中的“聚类”、“聚类分析”两者的相关性很强,但是由于作者的表达方式不同,两者之间未能建立联系。
基于以上分析,笔者认为安徽财经大学管理科学与工程学院2006-2008年的研究热点主要集中在“知识管理、数据挖掘、数据仓库、算法、系统开发”等领域。2009-2011年的研究热点主要集中在“信息公开、农村信息化、隐私保护、数据发布、评价分析”等领域。
仍将2006-2008年看成第一阶段,2009-2011年看成第二阶段,从图4和图5来看,第一阶段和第二阶段的研究主题有着一定的联系,例如图4中的关键词“数字水印”和图5中的关键“水印选择”都是关乎水印技术的。有些领域是到了第二阶段才兴起的,例如图5中的“新农村信息化”。另外,在第一阶段,安徽财经大学管理科学与工程学院的研究热点偏向于计算机技术和应用,例如图4的“算法、C\S、B\S”等;而在第二阶段,研究热点偏向于信息保护和信息管理,例如图5中的“信息门户、信息化、隐私保护”等。
3.2.3 机构知识库在学科建设中的应用
通过以上的分析可知,通过知识图谱可以直观地了解机构的研究动态、研究热点。笔者将上述机构知识图谱存储到高校的机构知识库中,方便高校的科研人员了解本机构的研究动态和研究热点,从而确定个人未来的研究主题和研究方向。首先,使用一些辅助软件构建出高校中相关的主题知识图谱;其次,在机构知识库中构建院系中设置一项“知识图谱”,将这些借助工具生成的历年来的知识图谱以图片的形式存储到机构知识库中。科研人员可以根据权限对高校机构知识库中的知识图谱进行下载和浏览。图6是“知识图谱”专题的界面。
综合考虑到目前高校资源保存的特点,机构知识库的出现为各高校的资源建设和保存提供了一个很好的思路[16]。本文构建的机构知识库支持各种数据类型,即机构知识库中存储的内容包括正式发表的文献和大量的灰色文献,如一些期刊论文的预印本、多媒体教学课件、项目的文稿等。这些灰色文献是科研和教学过程的记录,也是高校发展的一个重要凭证。科研人员可通过知识图谱了解本机构的科研动态、合作情况,高校方面则可籍此加强科研管理和学术交流。
结 语
国内外机构知识库的建设越来越普及,但是机构知识库资源的利用还有待加强。本文利用知识图谱的方法,研究高校机构知识库中资源的具体应用,包括高校科研团队的建设和学科建设两个领域的研究。研究结果表明,高校机构知识库的建设在这两个领域都具有很大的应用价值。