邓志文 都平平 李新春
摘要:[目的/意义]单一数据源下机构知识可视化存在信息的缺失,基于多数据源的可视化可以相辅相成,互为补充。[方法/过程]分析了多数据源下机构知识动态可视化的关键技术,并针对知识节点的巨星问题给出一种多粒度数据采样和属性值加权的知识构造方法,对平台的系统架构进行了详细讨论和设计,最后基于Echarts可视化套件对平台中合作关系、研究热点、机构分布等进行了实现。[结果/结论]多数据源知识可视化平台能弥补单一数据源中可能丢失的各种关系,多粒度采样让可视化结果整体美观协调,为机构的学术发展状况、研究方向的确立、研究团队的组建等决策提供了信息支持。
关键词:多数据源;数据抽取;可视化;知识融合;数据采样
DOI:10.3969/j.issn.1008-0821.2019.02.020
〔中图分类号〕G255.76〔文献标识码〕A〔文章编号〕1008-0821(2019)02-0169-09
近些年来,国内很多大学或学术机构都在积极地建立自己的机构知识库,机构库存储和管理着大量的研究文献和机构知识,对这些大量文献进行整理和梳理,并采用各种分析方法从中获取隐含的有价值的信息和知识是图书馆提升情报服务能力的有效途径,而这个过程需要科技分析人员花费大量时间和精力。可视化分析技术以直观的方式显示知识之间的相互联系,并采用数据挖掘、信息处理、知识计量等手段把复杂的知识领域通过图形显示出来,揭示知识领域的动态发展规律[1];国内使用最多的機构知识储存平台Dspace本身没有这种可视化分析模块,很多研究者都是基于第三方工具如CiteSpace、VOSviewer等对机构知识进行可视化图谱分析[2],而这种分析结果都是静态图,并没有将其嵌入到机构知识平台实现其动态可视化;同时对这种单一源的数据进行可视化,其数据来源单一、资源有限,对应的可视化所展示的信息也有限。现实中机构同一主题的信息(如某一专家的信息)往往分布在不同的数据源中,如能从多个不同类型的数据源中进行数据的获取,这样来自不同数据源中的知识能相辅相成,互为补充,所构建的知识可视化平台也能全面丰富地反映有关主题的知识图谱网络,同时也能弥补单一数据源中可能丢失的各种关系[3]。
基于此本文分析了多数据源下机构知识动态可视化图谱平台的关键技术,并针对本文讨论的可视化中出现的巨星问题给出了一种多粒度的数据采样知识构造方法,有效回避了因巨星节点产生的信息不可见问题;最后设计了多数据源下机构知识动态可视化图谱平台,实现了其作者合作关系、研究热点、机构分布等动态可视化展示,从其运行结果中该平台有效揭示了机构的研究主题、研究前沿、潜在研究团队等信息,在一定程度上为机构、用户的决策需求提供了参考。
1关键问题
知识可视化是当下研究的热点,谷歌公司早于2012年5月17日提出了知识图谱的概念,并宣布以此为基础构建下一代智能化搜索引擎[4]。知识可视化图谱的构建对中文信息处理和检索具有重要的现实意义和应用价值,吸引了大量的国内外研究者,其中也出现了很多可视化辅助工具,尤其在采集、预处理、分析和可视化学术数据等方面存在多种工具,许多工具不仅专业性强且功能丰富。在高校或者科研机构中构建的知识图谱大部分是通过各种专业性工具进行的手工构建,有时缺乏统一的方法,并且都是面向某一特定信息源(如Dspace数据、SCI数据、CNKI数据等),其知识源有限,所展示的信息也有限,而本文讨论的基于多数据源的知识可视化平台需要解决的问题包括以下几方面。
1.1多数据源数据融合
由于多数据源的知识来源于不同平台中,其知识的表示、知识的结构存在不同,同时知识之间也存在重复冗余等问题,所以必须要进行知识的融合。关于多数据源的融合已有很多理论研究成果,如文献[5]针对结构化数据、半结构化数据、非结构化数据以及现有的一些通用知识图谱库等多数据源给出了其知识图谱构建方法。本文从现实和可操作性考虑主要研究从高校和科研机构中各种结构化数据库进行数据的融合,如:机构知识库、学位论文库、专家数据库、教参库等。
1.2可视化节点的巨星问题
在知识图谱的节点关系图中,往往节点的大小用来反映其在机构知识中的重要程度,比如作者合作关系图中,作者节点越大则说明他的合作数就越多,而节点的大小一般都是通过挖掘机构知识中所有他的合作关系进行累加的值,由于各单位以及个人发文量以及合作人数都不一样,其作者节点大小会存在很大差别,有时会出现巨型节点,此时很多可视化平台会自动的过滤掉小节点,就好比站在宇宙边缘看整个宇宙,只需要看到大恒星,不需要看到地球等小行星,这种巨星问题会造成局部信息的丢失,即使可视化平台不过滤掉小节点,也会使整个显示效果很不美观和协调。另一方面,对于多个机构而言,用户一般只关心可视化结果中各机构间的整体网络关系情况,而对其某一单个机构的局部相关网络此时不会有太多关注。但任何一个可视化开发套件都是依据所给的数据源如实的展现知识,它无法去智能的适应这种知识机构数的变化,因此在不同的机构数下需要有不一样的数据采样粒度。
1.3元数据的清洗
机构知识中由于人工操作不规范,在格式和内容上存在不一致,如关键词间用逗号、汉字的分号、内容中有不该存在的字符等,这就造成元数据中存在异常的数据,需要对这些引起异常的数据进行清洗去除。因此需要分析所有异常数据可能性,并采用一定的方法最大限度地降低这些异常数据。
2多数据源的知识可视化关键技术
2.1基于ETL的数据抽取
本文讨论多数据源主要针对机构中常见的各种关系数据库中的数据,文献[6]中给出了一种ETL数据抽取体系,基于此本文设计的多数据源数据抽取体系如图1所示。该体系中ETL是中间层,其依据预先定义的规则负责从各种分布的数据源中如结构化数据、文本数据等抽取需要的数据进行清洗、转换、采样、融合,最后存入到目标数据平台中,成为分析处理、数据挖掘、知识表示的基础。进行数据抽取前需要确定各数据源运行的是什么DBMS(数据库管理系统),并分析其元数据中是否存在手工输入数据(如有人工录入就存在数据的质量问题后续必须要进行数据清洗)和半结构或非结构化的数据等问题。其ETL体系中数据源访问过程分为如下:
应用服务层:系统管理对元数据、机构、地理坐标等,可视化数据服务需要将获取的元数据进行预处理、数据清洗、规范化、分析、采样和结构映射6个步骤,其中数据清洗把脏数据、敏感数据过滤掉,采样需要剔除和可视化结果无关的冗余数据,映射是调整数据结构到表示層能接受的格式。
数据表示层:可视化结果中无法把所有的数据都一次展示,该层需要对数据进行标准化处理,标准化的过程有赖于所依赖的可视化套件,也就是要将最终的数据转换成用户端可视化套件要求的数据格式。
4平台实现
本研究以中国矿业大学的Dspace机构库、Scholor专家库和学位论文库为数据源,并以Echarts[10]可视化套件作为动态可视化效果,实现了有关可视化设计,图5是显示的所有的作者合作关系图,不同院系颜色不一样,院系间存在有节点的链接,也就是说各院系间存在潜在的合作作者。
图6是显示的单个院系(安全学院)的作者合作关系图。从图5和图6中可以看出各节点的大小不一样,它与S类结构中的Value值相关,但整个可视化界面没有出现巨星节点,节点间的大小比例都控制在比较合适的显示范围。同时从图5和图6不难看出在院系机构数不同的情况下,其机构显示的节点数不一样,实现了不同粒度的显示。另外从图6不难看出作者节点聚类为9个,也就是说该机构可能存在9个研究团体。
5总结
本文研究了多数据源下机构知识可视化的关键技术,并对可视化过程中的数据融合、数据清洗、数据采样等关键问题进行了详细描述,以Echarts为可视化工具对平台进行了实现,从运行结果来看,平台实现了多数据源的信息处理、知识计量和知识展示,数据查询效率高,响应快,并很好地揭示了机构知识领域的动态规律和隐含知识。本研究获取的知识数据源仅限定在关系化的结构数据,而机构中还存在很多的半结构或非结构化的数据,因此本研究所形成的可视化图对机构来说还不全面,这也是本研究的不足,下一步工作需研究从更多和更广的异构数据源中获取知识进行可视化。
参考文献
[1]秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,(1):30-37.
[2]汪传雷,张岩,陈欣.基于CiteSpaceⅢ知识图谱的科技创新服务能力研究[J].现代情报,2016,36(4):156-164.
[3]胡芳槐.基于多种数据源的中文知识图谱构建方法研究[D].上海:华东理工大学,2014.
[4]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,(3):582-598.
[5]吴运兵,阴爱英,林开标,等.基于多数据源的知识图谱构建方法研究[J].福州大学学报:自然科学版,2017,45(3):329-335.
[6]徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20.
[7]邱均平,董克.作者共现网络的科学研究结构揭示能力比较研究[J].中国图书馆学报,2014,40(1):15-24.
[8]刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13.
[9]高劲松,梁艳琪.关联数据环境下知识融合模型研究[J].情报科学,2016,34(2):50-54.
[10]Echarts[EB/OL].http://echarts.baidu.com/,2018-09-05.
(责任编辑:郭沫含)