基于机构知识库的知识分析及可视化功能实现

2016-09-29 11:39刘巍祝忠明张旺强姚晓娜王思丽
图书与情报 2016年3期
关键词:知识图谱可视化

刘巍 祝忠明 张旺强 姚晓娜 王思丽

摘 要:文章首先描述了知识分析及可视化技术的发展历程及现状,并以中科院机构知识库的使用情况为例提出用户的应用需求,根据用户需求给出一系列关键技术的解决方案,并在中科院机构知识库系统中实现了知识分析及可视化功能。可视化功能的实现主要通过对机构知识库中资源的元数据进行重组和索引,在此基础上进行分析和聚类,并将结果构建为动态图表和知识图谱,以此向科研人员和管理人员可视化的展示机构知识资产分布状况,学术贡献状况以及知识资产关联和作者合作网络。文章不仅扩展了基于机构知识库可提供的知识服务的外延,在一定程度上体现机构知识库建设的意义和价值,也为用户科研创新和管理提供文献分析的支持和保障。

关键词:知识分析;可视化;机构知识库;知识图谱

中图分类号: G203;G250.25 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016064

Implementation of Knowledge Analysis and Visualization Function Based on Institutional Repository

Abstract The development and current situation of the knowledge analysis and visualization technology are described first. The usage of the CASIR reflects the user requirements, and a series of key technology solutions is given according to the user requirements. These solutions were applied to develop the visualization and knowledge analysis functions based on the CASIR system. The resources in CASIR system were reorganized and indexed, and the analysis and clustering techniques were used to build the dynamic charts base on the results. Knowledge analysis and visualization function were provided, which can display the relationship between resources based on institutional repository. This study can extend service for institutional repository and improve literature analysis and utilization for researchers and managers.

Key words knowledge analysis; visualization; institutional repository; mapping knowledge domain

机构知识库作为机构知识管理的重要机制,如何有效地挖掘和利用其中丰富的知识资源,支持科研人员的知识创造,同时支持基于知识的战略规划[1],成为面向未来机构知识库发展的重要挑战和机遇。将知识分析与可视化技术应用到机构知识库系统中,对其中蕴藏的大量深层次知识进行分析和挖掘,并将结果转化为可视化形式提供给终端用户,可以有效提高机构知识库资源传播、管理和利用的能力和效果。本文基于中科院机构知识库系统,对其中知识资源开发知识分析和可视化功能,使用多种知识分析及可视化的模型为用户提供多角度的知识发现与揭示服务,以增强机构知识库建设支撑科研创新和科学管理的能力。

1 研究现状

从可视化技术发展的角度来看,1987年,美国国家科学基金会发表了一份研究报告《科学计算中的可视化》[2]被认为是科学可视化领域诞生的标志。随着计算机图形学的发展,人们使用计算机创建图形图表,可视化展示提取出来的数据并将数据的各种属性和变量呈现出来,逐步形成了数据可视化[3]的研究领域。1989年 , Robertson,Card和 Mackinlay首次提出了 “信息可视化”[4]概念,并用来可视化地表现大数据集中非空间、非数值和高维度信息之间的关系。2004年,M.J.Eppler和 R.A.Burkard提出了“知识可视化”[5]的概念,用可视化的方法传输、重构和应用知识。同时期,可视化的知识分析以及知识图谱的概念和相关技术、应用也得到快速发展和成熟,并被广泛使用。如汤森路透的TDA(Thomson Data Analyzer)系统,可以对文本数据进行多角度的数据挖掘和可视化的全景分析[6]。由陈超美研发的CiteSpace系统,基于引文分析理论,可以提供知识领域可视化图谱的绘制,并强调对领域发展过程中转折点和关键点的研究[7],目前已被广泛应用于文献情报分析领域。

从可视化技术在知识仓储系统中应用的角度来看,近年来也涌现出很多成功的范例,如康奈尔大学的VIVO系统,在用户的VIVO个人主页(VIVO Profile)中嵌入了作者合作网络(Co-author Network)和针对作者的科学地图(Map of Science)[8],很直观地展示了作者的科研背景和研究现状。国内的机构知识库系统如香港大学学术库将作者合作网络和访问统计信息进行可视化的表示[9]。西安交通大学机构知识门户[10]将可视化的技术与资源统计功能相结合,实现统计结果和分析对比结果的可视化展示。

2 应用需求及关键技术实现

2.1 应用需求

中科院自2008年开始启动研究所机构知识库的推广建设以来,经过各个研究所七年多时间的建设和维护,相当多的研究所机构知识库已经积累了一定规模的知识资源。而在此基础上如何提升机构知识库系统对研究人员科研和机构管理的支撑水平,成为摆在机构知识库未来发展面临的重要课题和研究方向之一。本研究基于中科院机构知识库系统的资源及其存储结构,结合研究所机构知识库应用中反馈的有关需求,设计开发了中科院机构知识库系统的知识分析和可视化功能。主要提供从不同角度统计知识资源分布、作者发文量和作品被引频次排行以及基于网络分析理论绘制关联知识图谱等三类知识分析和可视化服务。

多角度统计知识资源分布的功能,有助于机构知识库的推广和应用,首先该功能便于浏览者直观 地了解机构知识库中知识资源的数量和分布结构情况,同时,通过对数据构成条件的设置,实现在不同数据范围内的多角度知识资源分布及可视化视图,也为机构管理人员提供了对知识资产审计的有效依据和灵活的工具。

作者发文量以及收录(SCI、EI、CSCD)数量的排行,可以帮助浏览者和研究人员快速定位机构中学术贡献度高的作者,而被引频次的排行可以辅助研究人员和管理人员快速发现机构内学术能力突出的科研人员和高质量的知识作品。

基于网络分析理论绘制的知识图谱从关键词共献网络和作者共著网络两个方面为用户提供知识分析服务。前者有利于发现机构的主要研究热点以及研究热点之间的关联,并可通过设置作品的发表时间范围来了解机构各个时期研究热点的变化,同时也可以辅助科研人员发现新的研究热点。后者则可使浏览者了解机构各阶段中主要研究团队的构成以及各研究团队间的关联关系。

2.2 关键技术实现

2.2.1 信息采集和重组机制

中科院机构知识库系统为中科院兰州文献情报中心开发的CSpace系统。在CSpace系统中,每个条目在提交时都会与预定义的内容类型建立映射关系,这保证了条目可以按照内容类型分布进行统计和重组;收录类别是期刊论文和会议论文默认模版中推荐采集的元数据信息,绝大多数研究所在机构知识库资源建设的过程中对该元数据的采集都给予了相当的重视,数据质量相对较好,这保证了条目按收录类别分布进行重组以及作品收录排行功能实现的可行性;从CSpace 4.0版开始,系统可以通过iSwitch[11]接口和CSCD接口定期获取条目的被引频次信息,解决了作品按被引频次发布排行的数据基础问题;同时,CSpace系统还内嵌一套作者别名库和作品认领机制[12],条目在提交后可以通过别名等信息自动建立映射关系,并推送给相关的作者进行认领确认和建立索引,用户认领后就建立了准确的从条目到作者,再到归属部门以及归属机构的映射关系,这为建立作者合作网络做好了数据准备。

2.2.2 数据组织和映射机制

作品在提交或认领后,所有信息会按照预先定义的格式,即时地组织到solr索引中。

2#@author@刘巍#@unique_id@12502-000343

信息系统部

中国科学院兰州文献情报中心

机构知识库中作者标识与作品认领机制的研究与实现

……

期刊论文

信息技术

0

0

所有与知识分析和可视化功能相关的信息经过预处理后,都归入适当的solr索引中,便于检索、统计和分析。在构建知识资源分布和作品排行的可视化功能时,根据功能需求和所选参数,构造对应的solr分面检索式,然后将分面检索的结果转化为可视化组件要求的数据格式。关联网络图谱则需要将符合条件的数据检出后,通过关联分析构造多个对象间的二维表,然后将二维表转化为可视化组件要求的数据格式。最终通过可视化控件自动生成可视化图形和图谱。

整个可视化的过程用户只需要设置简单的参数,数据的检索、整理、分析、映射到最终的可视化输出全部由系统自动完成(流程见图1)。

2.2.3 可视化插件的应用及功能实现

本研究为嵌入到CSpace系统中的知识分析和

可视化功能。因此,后台是基于J2EE框架开发,通过J2EE框架实现数据的检索、整理、统计、分析、挖掘及对结果的格式化封装。在视图转化方面,目前国内外支持构建可视化视图的组件很多,通过前期调研和对比,我们选择了echarts图表组件作为可视化视图创建工具。echarts是一个免费且功能强大的图表库,使用javascript开发,可以通过javascript将echarts组件无缝的集成到CSpace系统中。根据echarts组件对数据格式的要求,所有统计分析的结果最终都转化为对应的json格式,并通过javascript的jquery库实现echars组件与系统后台间的数据通信。这种方式有效的解决了数据集多样性及数据通信等问题(见图2)。

3 机构知识库知识分析及可视化功能实现

3.1 功能设计

本研究所述功能采用B/S架构,以J2EE为主要技术进行开发,通过javascript的jquery库实现后台数据与可视化组件的通信及可视化组件的嵌入,使用Postgresql数据和Solr索引作为数据存储及预处理的工具,共同构成了知识分析及可视化应用的开发环境。该环境具有灵活可扩展且易维护的特点。

本研究所提供的功能及应用场景包括:(1)从知识分布的角度对机构知识库中的资源按内容类型、研究单元和收录类别进行重组,并以数据可视化的方式向用户提供不同类别的知识分布信息;(2)从统计作者发文量及被引频次的角度,辅助用户快速发现机构在不同时间区间中较活跃和学术贡献较高的科研人员以及高质量的知识资源;(3)从网络分析的角度对机构知识库中作品的关键词和作者分别进行分析、挖掘并映射为可视化的关联网络图谱,为科研人员及机构管理人员提供分析机构学术主题发展及科研团队发展的依据和工具。

3.2 多角度统计知识资源分布

知识资源分布可视化包括从内容类型、研究单元和收录类别的角度,向用户提供机构知识资产构成的数据可视化服务。首先,向用户提供条件设置接口,可设置的条件包括:发表时间区间、所属机构、部门或内容类型,当数据处理程序接收到用户设置的参数后,会根据参数组合检索机构知识库中符合条件的知识资源并按照分布类型对资源进行重组和排序,并转化为特定格式供可视化组件生成视图。

知识资源可视化功能的结果呈现包括条形图和饼图两部分。其中:(1)条形图展示的信息包括根据用户设置的条件检索到的可用于构图的作品总量,数据的最后更新时间,以及各分布指标的名称和数量某机构中作品被收录的类别名称及被收录的数量(见图3)。此外,可视化系统还提供多个可操作的功能,如条形图可转化为线形图,且图形可被导出为PNG格式的文件保存和使用;(2)饼图展示的信息除了作品总量、更新时间、分布指标名称和数量外,还提供每个分布指标在所有资源中所占的比例(见图4)。此外可操作功能还包括可以只选择某几个用户关心的分布指标进行单独的对比和分析。在点击数据视图按钮后,会向用户提供文本格式的数据分布信息。同样,饼图也可以导出为PNG格式的文件供用户保存和使用。

3.3 发文量与被引频次排行

发文量与被引频次排行包括研究人员发文量排行(见图5)和被引频次排行(见图6)两大类,其中发文量排行包括研究人员总发文量、SCI发文量和CSCD发文量排行三个子功能,被引频次排行分为研究人员发表论文总被引频次、SCI被引频次和CSCD被引频次排行以及论文SCI被引频次和CSCD被引频次排行五个子功能。用户可以通过设置发表时间

区间了解机构在不同时间区间内,有较高学术贡献

的研究人员和有较高学术价值的知识作品。每一类排行按发文数量或被引频次选择排在最前的20位进行展示。

研究人员发文量和发文被引频次排行展示的信息包括作者姓名、总发文数量、被SCI收录或SCI被引频次数量、被EI收录的作品数量、被CSCD收录或CSCD被引频次数量以及作者所属的研究单元,同时在排行的下方会说明构成排行数据的条件、数据最近更新时间以及一些术语的释义。此外,用户通过点击排行中的作者姓名可以链接到以该作者姓名为检索词的作者作品检索结果界面,供用户进一步浏览和分析。

论文被引频次排行展示的信息包括论文的题名、(SCI、CSCD)被引频次数量以及论文的作者。同时,用户可以点击论文题名,跳转到作品详细信息及在线阅览界面。此外,同样提供排行选取数据的说明、数据最近更新时间以及一些术语的释义。

3.4 关联关系网络图谱

关联关系网络图谱包括关键词共献和作者合作网络两类(见图7)。用户可以通过设置发表时间区间了解机构在不同时间区间内研究主题的演化过程,以及研究团队的变化情况。同时,还可以查看在所选时间区间内主题词群的聚合情况以及主要研究团队的构成,并可反映研究主题以及研究团队之间的关联关系。

论文关键词共现图谱中每个节点代表一个关键词,为了提高图谱的表现力和可读性,在构图前系统已经对节点进行了筛选和分类。其中红色节点表示热点关键词,即在条件设定的范围内被多个条目标注的关键词。热点关键词节点的数量不多于50个。此外,还有蓝色节点表示的相关关键词。相关关键词是与热点关键词有共现关系的其他非热点关键词。图谱中所有节点的大小表示当前关键词被条目标注数量的多少。图谱中的连线表示两个关键词间有共现关系,连线的粗细表示两个关键词间关联度的强弱,关联度越强的关键词在图谱中聚合的越紧密(见图7(a))。此外,从可操作的角度,图谱还支持对节点的拖拽以及选择只浏览热点关键词或关联关键词网络的功能。同时也可以将图谱导出为PNG格式文件。另外,从支持信息可视化的角度,当用户点击图谱中的节点时,会返回以当前关键词为检索词的条目检索结果;点击连线后,会返回以所点击连线相关的两个关键词以“AND”逻辑关系组合后查询得到的检索结果。

作者合作网络图谱中,每个节点代表一个作者。同样,在构图前系统已经对节点进行了筛选和分类。其中红色节点表示活跃作者,即在条件设定的时间区间内发文量较多的作者。活跃作者节点的数量不多余30个。蓝色节点表示相关作者。相关作者是与活跃作者有共现关系的其他非活跃作者。在图谱中的所有节点的大小表示当前作者在条件设定时间区间内发文量的多少。图谱中的连线,表示两个作者间有共著关系,连线的粗细表示两个作者间关联度的强弱。关联度越强的作者在图谱中的位置越靠近(见图7(b))。此外,作者合作网络图谱也支持对节点的拖拽以及选择某一类节点构成合作网络的功能,同时也导出为图像的功能。在信息可视化方面,当点击图谱中的节点时,会返回以当前作者为检索词的条目检索结果;点击连线,会返回所有两个作者合著的作品。

4 案例及应用效果

目前,本文所述的知识分析及可视化功能已经嵌入到中科院机构知识库系统CSpace 4.0中,并已在中科院100多家研究所完成部署。从目前该功能在已部署研究所的使用情况来看,整体反映良好,可以展现出研究所机构知识库的建设概况、机构的主要研究方向以及研究团队的构成和关联情况,初步达到了该应用最初设计的目标。

但是知识分析的结果,以及最终图形化表现的效果,与机构知识库中资源的数量和元数据质量有着直接的关系。以目前的情况来看,以中科院文献情报中心和山地灾害与环境研究所为代表的30多家机构和研究所因在机构知识库资源建设过程中比较重视元数据的质量和作品认领信息的完善,分析结果和可视化的作用与表现力相对较好;另有40多家机构和研究所因作品认领和用户信息暂时不太完善,在作者合作网络的可视化效果上仍有欠缺;其余研究所因关键词、收录信息等元数据建设不完善,导致学术贡献排行和关联网络图谱的展示效果不够理想。针对以上问题,项目组也在继续跟踪并努力解决资源数量及元数据质量的问题。如通过iSwitch接口,帮助研究所用机器的方式,提高机构知识资源存缴的效率并辅助完善元数据的质量。同时,根据研究所机构知识库的数据量,动态调整一些构图的参数,使视图具有更好的可读性。

5 结语

本研究主要是基于中科院机构知识库系统进行知识分析和可视化功能的开发和应用,为用户提供了多角度知识资源分布、发文量和被引频次排行以及关联关系网络图谱三项服务功能。通过丰富的可视化模型,良好的人机交互环境,辅助科研人员进行知识创新并为机构管理人员利用机构知识库开展基于知识的发展规划提供数据依据。同时也是在机构知识库资源建设达到一定程度后,为机构知识库赋予的一种新的服务模式。

知识分析和可视化技术在机构知识库中的应用有着非常广阔的前景,本研究目前的成果还只是这个研究方向中的冰山一角。如何利用机构知识库中的大量资源去分析和挖掘深层次的信息,并以数据可视化、信息可视化以及知识可视化的形式无缝的嵌入到科研人员的知识创新流程和管理人员的机构发展规划过程中,将是项目未来继续努力和追求的目标。

参考文献:

[1] 张晓林.机构知识库的发展趋势与挑战[J].现代图书情报技术,2014(2):1-7.

[2] McCormick B,Defanti T,Brown M.Visualization in scientific Computing:Report of the NSF Advisory Panel on Graphics[R].Image Processing and Workstations,1987.

[3] Vitaly Friedman.Data Visualization:Modern Approaches[EB/OL].[2015-07-12].http://www.smashingmagazine.com/2007/08/02/data-visualization-modern-approaches/.

[4] Robertson G,CARD S K,Mackinlay J D.The Cognitive Co-processor for Interactive User Interfaces[C].In:Proceedings of the ACM SIGGRAPH Symposium on User Interface Software and Technology,1989:10-18.

[5] EPPLER M J,BRUKARD R A.Knowledgevisualization:towards a new discipline and its fields of application[D].Lugano:University of Lugano,2004.

[6] Thomson Data Analyzer[EB/OL].[2015-07-12].http://www.thomsonscientific.com.cn/productsservices/TDA/.

[7] Chaomei Chen.CiteSpace II:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359–377.

[8] Cornell University VIVO[EB/OL].[2015-07-12].http://vivo.cornell.edu/.

[9] 香港大学学术库[EB/OL].[2015-07-12].http://hub.hku.hk.

[10] 西安交通大学机构知识门户[EB/OL].[2015-07-12].http://www.ir.xjtu.edu.cn/jspui/index.

[11] 钱力,师洪波,张晓林,等.开放获取论文推送转发服务系统iSwitch:论文分发推送[J].现代图书情报技术,2015(6):7-12.

[12] 刘巍,祝忠明,张旺强,等.机构知识库中作者标识与作品认领机制的研究与实现[J].现代图书情报技术,2014(3):8-13.

作者简介: 刘巍(1980-),男,中国科学院兰州文献情报中心副研究馆员;祝忠明(1968-),男,中国科学院兰州文献情报中心研究馆员;张旺强(1985-),男,中国科学院兰州文献情报中心馆员;姚晓娜(1985-),女,中国科学院兰州文献情报中心馆员;王思丽(1985-),女,中国科学院兰州文献情报中心馆员。

猜你喜欢
知识图谱可视化
数据可视化设计在美妆类APP中的应用
画图:数学思维可视化的有效工具
思维可视化
基于GeoGebra的高中物理可视化教学研究
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势