喜马拉雅区域研究文献知识图谱分析

2018-04-24 12:17郭柯娜唐裕婷张思原

现代计算机 2018年6期

郭柯娜,唐裕婷,张思原

（四川大学计算机学院，成都 610065）

0 引言

具有“香格里拉”之称的喜马拉雅区域历史悠久，文化遗产丰富多样，是世界上非常独特、神秘而具有吸引力的区域之一。早在18世纪[1]，喜马拉雅的生态和人类文化就已成为西方人类学关注和研究的重要领域。直至今天，随着大量关于喜马拉雅区域的文献的相继产生，构建一个针对喜马拉雅文献的多媒体数据库，并利用知识图谱对文献进行分析对今后进一步探索、研究喜马拉雅区域是有必要且意义重大的。

1 喜马拉雅区域文献数位技术

1.1 喜马拉雅多媒体数据库

随着网络的发展以及计算机的普及，“数位文化”[2-3]的概念被提出，人们开始使用新技术去展现过往文字所不能负载的成果，借助数位科技进行人文研究，使得文献能得以更有效地分析以及呈现。喜马拉雅多媒体数据库是喜马拉雅区域研究文献与数位技术的有效结合，将为对喜马拉雅区域进一步的科学研究提供切实的有价值的参考。

喜马拉雅多媒体数据库由英国剑桥大学与四川大学合力构建，引用与共享了剑桥大学康和计划及其合作机构所藏有的关于喜马拉雅地区的多媒体数字资源。

喜马拉雅多媒体数据库包括文献检索、相关文献推荐、文献检索结果空间可视化、文献计量分析、知识图谱展示等多个功能。

作为喜马拉雅多媒体数据库的一部分，利用知识图谱等对文献的可视化分析具有重要作用。在喜马拉雅多媒体数据库中，该部分集成为多媒体数据库中的“知识视图”模块，主要展示对文献的统计分析和图谱结果。

1.2 知识图谱技术

知识图谱[4]是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组，实体间通过关系相互联结，构成网状的知识结构。

知识图谱，自2012年由Google正式提出[5]以来，已广泛运用于包括医疗[6]]、金融[7]、旅游[8]等各种垂直行业[9]，并很好地为各个领域的研究提供了切实参考。

目前，针对喜马拉雅区域文献的知识图谱分析研究十分缺乏，喜马拉雅多媒体数据库为喜马拉雅文献分析提供了数据支持。利用知识图谱技术对喜马拉雅文献进行可视化分析，对揭示喜马拉雅区域研究的动态发展规律具有重要意义。

现有的知识图谱构建多数依赖于某些软件工具[10]，如 CiteSpace[11]、Pajek、CNKI等。这些工具都对数据格式有一定的要求，或是只针对某些特定数据库中的文献。如CiteSpacey要求数据格式必须为WOS中的TXT格式或用软件转化了的CSSCI格式，且主要对CNKI、SCI等数据库中的文献进行分析。

对于喜马拉雅多媒体数据库，现有的知识图谱构建工具无法直接使用，因此需要利用自然语言处理的相关知识以及可视化技术进行构建。

2 喜马拉雅区域相关文献的图谱分析及结果

2.1 知识图谱分析流程

知识图谱的构建过程见图1，主要分为数据获取、数据处理、生成知识图谱3大步骤。

图1 知识图谱构建流程图

2.2 数据来源

本文的数据来自喜马拉雅多媒体数据库平台。共选取了其中2544篇期刊文献，针对这些期刊文献在数据库中存储的作者、关键词、摘要元数据进行统计分析，并构建知识图谱。

2.3 数据处理

在进行统计分析的过程中，需要从喜马拉雅多媒体数据库中获取所需的内容，包括文献的作者、关键词、文献摘要内容等。然后利用自然语言处理的相关方法进行处理，再将处理后的数据以知识图谱的形式展现出来。

文献作者、关键词以及文献摘要都是从喜马拉雅多媒体数据库中直接读取元数据获取，对于获得的元数据在根据构建的知识图谱的需要进行进一步处理。对文献作者主要进行作者姓名规范统一，并统计姓名出现的次数作为作者的发文数。对于关键词元数据，需要去掉关键词中包含的无关符号，并统计关键词出现的次数。对于摘要元数据主要进行大写变小写，过滤掉数字、标点符号以及停用词等操作（由于所选文献皆为英文文献，因此跳过了分词过程）。

2.4 喜马拉雅文献分析图谱结果

（1）喜马拉雅区域研究者合作分析。研究者合作分析指在该领域一段时间内研究者在某一研究方向进行合作并发表文章的情况。统计2544篇文献，共4793名研究者（部分文献作者匿名），多数作者发文量在2篇以内。其中有978名研究者以唯一作者的身份发表文献，如 Schubert,J（13篇），Wylie,Turrell V（12篇）。

图2 研究者合作局部图

图2展示了发文数排名前100的作者间合作关系，图中每个节点代表一个作者，节点大小展示作者发表的文献数量多少，节点间的边表示作者间的合作关系，边越粗表示合作越频繁。

（2）喜马拉雅区域研究基于给定关键词的共现网络分析。关键词是一篇文献中表达文章主题概念的词语，给定的关键词相对利用自然语言处理方法从文本中抽取的关键词更为规范。

关键词共现网络指根据关键词共同出现的情况构建的关键词关系网络，展现了关键词与关键词之间的关联和结合情况。通过对关键词共现网络的分析，可以得到相关研究的主题分布及研究热点变化。

图3 关键词共现局部网络

图3以喜马拉雅多媒体数据库中存储的关键词元数据为基础，根据关键词的共现情况得到，每个节点代表一个关键词，节点大小表示关键词的出现的频繁程度，节点之间的边表示关键词见的共现关系，边的粗细代表连接的两个关键词共同出现的频繁程度。的发展具有重要意义。

（3）喜马拉雅区域研究基于TF-IDF权重的关键词聚类包图分析。TF-IDF是衡量某个词对文档重要性的指标。其计算公式为（1），其中wij表示词wi在文档j中出现的次数，dj表示文档j的长度，N表示文档总数，dwi表示包含词wi的文档数目：

表示某个词在一篇档中出现的次数越多且在其他文档中出现的次数少，则说明该词对区分该文档相对重要。根据TF-IDF权值抽取得到的词语不完全同于人给定的关键词（元数据中的关键词），人为给定的关键词是基于人对文章的理解，而通过TF-IDF能更直接地从文章词频的角度反映文献的研究主题与趋势。由于摘要作为文章内容的概括，为了减少噪声，本文选择使用TF-IDF从摘要而不是从全文抽取关键词。针对每篇摘要首先进行预处理，然后计算文本中每个词的TF-IDF权值。选取TF-IDF权值最高的六个词作为关键词，然后选取出现频次前100的关键词，用词向量表示，并使用kmeans++算法进行聚类，然后构建关键词聚类包图。

kmeans++算法是在kmeans算法的基础上，针对kmeans随机初始seeds可能影响聚簇效果的现象进行改进得到的算法。其主要思想与kmeans相同，即以空间中k个点（seeds）为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。kmeans++基于初始的聚类中心之间的相互距离要尽可能的远的思想来选取seeds。

关键词聚类包图根据词语的语义信息，将语义相似的关键词聚到一起，再将聚类结果以打包图的形式可视化展现。每一个pack（包）里面的词语在语义上相似，根据聚类打包图可以对文献主题进行概括性分析。

图4 关键词聚类打包图

在图4中，共10个pack（包），每个pack代表一个簇，簇的个数是聚类时人为给定。由簇3，包含了喜马拉雅区域研究的主要地域，如不丹、尼泊尔、西藏等。由簇1，喜马拉雅地区研究对象主要是孩子、妇女、农民、病人、学生等，对应的研究内容有如簇5的社会人文环境，簇7的地理类研究等。

3 结语

对喜马拉雅文献进行知识图谱分析，将相关研究文献显式或隐含的信息以知识图谱的形式展示出来。有助于人们直观地从大量文献数据中了解喜马拉雅研究现状、获取潜在的有用信息，对以后的研究具有重要的参考意义。

4 不足与展望

在利用文献以知识图谱的形式实现对喜马拉雅区域研究的过程中，选取的是喜马拉雅多媒体数据库中的2544篇文献，可能存在文献数据代表性不足的缺点。此外由于直接从pdf格式的文献中抽取所要的信息具有一定的难度，且得到的信息可能含有大量噪声，因此本文多是使用喜马拉雅多媒体数据库中存储的元数据。而元数据则导致了部分数据不可获得的情况。

此外，本文的关键词共现关系网络是依据共现频次构建的，下一步工作可以根据语义相似度进行构建。

参考文献：

[1]沈海梅.西方人类学领域的喜马拉雅研究学术史[J].西南民族大学学报（人文社会科学版）,2015（8）.

[2]翁稷,Ching-chih Che,林滿紅.数位人文在历史学研究的应用[M].台湾:国立台湾大学出版中心,2011.

[3]金观涛,刘昭麟,项洁.数位人文要义：寻找类型与轨迹[M].台湾：国立台湾大学出版中心,2012.

[4]刘峤,李杨,杨段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53（3）.

[5]AMIT S.Introducing the Knowledge Graph[R].America:Official Blog of Google,2012.

[6]张观林,欧阳纯萍,邹银凤,等.知识图谱及其在医疗领域的应用[J].湖南科技学院学报,2016,37（10）.

[7]王萍,詹川.互联网金融研究文献的知识图谱分析[J].情报探索,2016（1）.

[8]陈洁,吴琳.国内旅游公共服务研究的文献计量和知识图谱分析[J].旅游论坛.2015,8（6）.

[9]徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报.2016,45（4）.

[10]肖明,邱小花,等.知识图谱工具比较研究[J].图书馆杂志,2013（3）.

[11]陈悦,陈超美,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33（2）.