基于论文中高频关键词的GIS领域研究热点的可视化分析

2017-07-01 19:15刘海砚杨瑞杰郭文月杨明远
测绘工程 2017年8期
关键词:共词词频学术论文

李 静,刘海砚,杨瑞杰,郭文月,杨明远

(信息工程大学 地理空间信息学院,河南 郑州 450001)

基于论文中高频关键词的GIS领域研究热点的可视化分析

李 静,刘海砚,杨瑞杰,郭文月,杨明远

(信息工程大学 地理空间信息学院,河南 郑州 450001)

文中对国内GIS领域研究发展和研究热点进行可视化分析。利用词频统计和共词分析方法,并结合SPSS统计分析工具,以六大测绘期刊2006—2015年学术论文为数据源,分析GIS领域发文规律、高频关键词在时间维度上的分布规律和聚类特点,发现近五年来国内对GIS领域研究在发文数量上呈逐年下降趋势,且近10年间GIS领域主要关注WebGIS相关应用、地理信息服务、地图制图与可视化、数字城市建设及空间关系相关理论技术5个方面的研究,从一定程度上揭示GIS领域的研究热点及发展状况。

GIS;关键词;研究热点;共词分析;可视化

学术论文是用来进行学术领域的研究和描述学术研究成果,既是探讨问题进行学术研究的一种手段,又是描述学术研究成果进行学术交流的一种工具。对学术研究而言,相关文献的梳理、综述和分析研究,是学者从事个人研究的基础。学术论文在很大程度上传播和推广了科学家们的研究理论与成果,促进研究者之间的交流,推动科技进步与发展。与此同时,关键词是学术论文所具备的独特要素,也是将学术论文与其他类型文本区别的重要特征之一。关键词是学术论文中承载各类学术概念的最小单位,而通过对学术论文高频关键词的分析,可以发现并把握科技发展的动态,为研究人员提供参考依据。

目前,我国学术论文的发文量逐年递增,每年出版数百万篇学术论文。截止2013年,根据统计数据指出,我国的科技期刊已达到4 944种。CNKI收录的测绘类学术论文,至今已有118 654篇,而仅2015年收录的就达8 150余篇。

就当前地理信息系统(Geographic Imformation System,GIS)方向来讲,对于数量多、研究内容种类多的学术论文,缺乏有效的、合理的、直观的方法对其进行系统的梳理,缺乏对GIS领域研究热点、研究发展等问题的定量研究。如何更高效、更直观地了解GIS学科的发展历史及发展动态,已成为当前亟待解决的问题。

本研究从文本数据分析角度出发,结合文献计量学方法以及可视化分析相关理论,以期刊论文为数据源,计算出高频关键词,通过对高频关键词的可视化分析,完成从单一指标、概略估计的数据分析,向综合指标、精确量化、可视图形交互分析的转变,从而解决对GIS领域研究热点从定性到定量的表述,客观地完成对GIS方向研究的知识梳理以及其发展规律的探索。

1 主要研究方法及数据处理

1.1 研究方法

本研究采用文献计量学中词频统计和共词分析方法对GIS领域研究内容进行定量表述,并主要通过标签云方法、组合式统计图表以及树状图对词汇级文本数据和关联关系型数据进行可视化。

1.1.1 文献计量学方法

文献计量学原理为本文中所进行知识梳理和科学研究提供理论基础[1]。所谓文献计量学,即用数学和统计学的方法,定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体,注重量化的综合性知识体系。其计量对象主要是:文献量(各种出版物,尤以期刊论文和引文居多)、作者数 (个人集体或团体)、词汇数(各种文献标识,其中以叙词居多),文献计量学最本质的特征在于其输出的是“量”。其中,本研究所采用的词频分析和共词分析法是当前应用较为广泛的文献计量学方法。

1)词频分析法[2]是利用能够揭示或表达文献核心内容的关键主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法。

2)共词分析方法[4]最早在20世纪70年代中后期由法国文献计量学家提出。其主要原理是通过两两主题词同时出现在一篇文章中的次数的多少,来衡量主题词间的亲疏程度和关联关系。本研究通过计算两两高频关键词之间的共现次数,构造共现矩阵,进行聚类分析,从而反映在多层次聚类下的知识单元在空间和时间分布上的演进关系和研究热点等问题。

1.1.2 可视化方法

本文通过对研究中所出现的不同类型的数据,选用适当、准确的可视化方式,以便能够合理、直观地展示数据和揭示数据中所蕴含的信息和规律。研究中主要涉及两种类型数据:词汇级文本数据和关联关系型数据,主要可视化方式包括:树状图以及各种统计图表。

1.2 数据处理

1.2.1 数据源

本研究以CNKI为主要的检索平台,收集了《测绘学报》《武汉大学学报(信息科学版)》《测绘科学与技术学报》《测绘通报》《测绘科学》《测绘工程》6大核心期刊2006—2015年共10年的14 725篇科技论文。

1.2.2 数据筛选

由于本研究主要关注GIS方向的研究热点,而研究中的数据源主要以测绘期刊为主,涵盖整个测绘领域的研究方向,如:GIS、大地测量、遥感、航空摄影测量等。因此,需要将涉及GIS方向的论文从中提取出来。

本研究以《国家自然科学基金地理学学科方向分类与关键词(2012试用版)》中,地理信息系统(D0107)类别中涉及的514个关键词作为提取依据。把该514个关键词作为分类特征词,将收集的期刊论文关键词中包含有1个或1个以上分类特征词的论文提取出来,作为研究对象。经过数据筛选后,共提取出4 029篇关于GIS领域的学术论文。

2 分析结果及可视化

2.1 发文量分析

表1是将6类测绘期刊2006—2015年间发文数量进行统计,包括六类期刊每年总的发文数量、每年涉及GIS方向的发文数量以及GIS方向的发文数量占总的发文数量的百分比。从中可以看出:①GIS方向每年的发文量平均在402.9篇,其中最大值为2010年的466篇,最小值为2015年319篇;②GIS方向每年的发文数量占总的发文数量的百分比平均为27.95%,其中最大值为2007年的36%,最小值为2014年的20.95%。由此可以反映出,涉及GIS相关方面的研究在测绘领域范围内,占到多于1/4的比重,说明GIS对于整个测绘领域来讲,占据着较为重要的地位。

表1 发文量统计

图1是将表1中的内容以条形图和折线图结合的形式可视化出来,以便更直观的展现和更深层的理解表1中的数据,从而发现数据中隐含的信息。图1中,条形代表GIS方向的发文数量,折线代表GIS方向的发文数量占总的发文数量的百分比。从图中可以看出:①从发文数量上看,在2006—2010年间,GIS方向的发文数量整体呈上升趋势,但在2010—2015年间,发文量逐年减少;②从GIS方向的发文数量占总的发文数量的百分比上来看,自2007—2015年,GIS方向发文数量所占的百分比呈逐年下降的趋势;③发文数量与百分比,并不成正比例关系,即该方向的发文数量上的增多,并不能说明对该方向上的研究增多。

图1 发文量统计图

2.2 高频关键词分析

本研究根据期刊论文数据特有的关键词要素,以年为单位,采用武汉大学开发的ROST词频统计软件对其进行统计,进行词频分析,从而反映研究内容时间分布上的演进关系和研究热点等问题。主要进行两个方面的研究:①在时间层次上,探索高频关键词分布特征;②在非时间层次上,即整个研究时间段上,分析高频关键词间的共词关系,从而完成对高频关键词的聚类。

2.2.1 高频关键词的时间分布特征

通过以年为时间单位,对每年的关键词进行统计并剔除无用词后,得出表2所示的结果。表2是将2006—2015年,每年词频排名在前10位的关键词进行罗列。

表2 排名前10位的高频关键词统计表(2006—2015年)

表3将表2中所出现的关键词再次进行统计。从表3中可以看出,在这10年间,出现频次最大值为10,有且只有一个关键词,即“空间分析”;频次最小值为1,共有14个关键词。

表3 关键词出现频次统计表(2006—2015年)

附:频次指的是排名前10位关键词在2006—2015年间所出现的次数

研究中,考虑到在时间上的连续性这一重要特征,故将在表1中连续出现5次以上的关键词通过图2的方式可视化表示出来。从图2中可以较为明显的看出:①“空间分析”这一关键词跨越了整个研究时间段,从一定程度上表明,空间分析是GIS领域研究中的核心内容,是GIS区别于一般的信息系统、CAD或者电子地图系统的主要标志之一。②在时间段2009—2015年中,关键词“可视化”连续出现6次,且所处的排名均比较靠前,从一定程度上可以看出,近年来,在GIS研究中可视化的地位居高不减,研究人员开始更加注重对图形的表达,逐渐从单一的数据形式,迈入视觉化的思考模式。③在研究时间段前5年,即2006—2010年,关键词“空间数据”连续出现5次,且排名处于递减的状态。空间数据一直是整个GIS领域研究的基础,在研究时间段的前5年中,空间数据的获取、结构、存储、处理等问题一直是GIS研究中的热点问题。④在研究时间段的后5年,即2011—2015年间,关键词“制图综合”连续出现,成为近些年来GIS研究领域持续的一个研究热点。⑤在研究时间段中期,即2009—2013年间,“电子地图”连续出现,说明在该时间段内,GIS方向上,电子地图成为该时期持续的一个研究热点。

图2 连续出现5次以上的高频关键词在时间维上的分布图

2.2.2 高频关键词的共词分析

本研究对2006—2015年间4 206篇关于GIS领域的学术论文中的15 319个关键词进行统计并剔除了无用词。根据计算得到平均每篇论文的关键词约为3.64个。关键词词频最大值为116,且有且只有一个;词频最小值为1,共有5 879个关键词。

研究将词频大小排名前20位的关键词作为高频词,即表4所示关键词,进行共词分析。

通过对表4中所示的关键词进行两两共现次数统计,得到20×20的共词矩阵。表5所示的为部分关键词共词矩阵。再将共词矩阵通过计算Pearson相关系数,转换为相似性矩阵。最后再通过SPSS软件对其进行系统聚类,结果如图3(a)所示。

表4 排名前20位的关键词

表5 高频关键词共词矩阵(局部)|

图3 高频词聚类树状图

考虑到层次关系,以及关键词数量上的均衡等因素,本研究将20个高频词聚类后划分为5类,如图3(b)所示。根据每一类中所包含的关键词并结合包含该类关键词的论文的研究内容,总结出5个方面的研究热点,分别是:

第1类,基于WebGIS应用的相关研究。该类包含5个高频关键词,即“空间数据库”、“WebGIS”、“空间分析”、“空间数据”和“时空数据模型”。结合原始论文数据,可以看出,该类主要研究内容是指在WebGIS开发和应用过程中,空间数据库的构建、空间分析以及时空演变关系分析等方面的研究。

第2类,基于地理信息服务的相关研究。该类包含4个高频关键词,即“地理信息服务”、“本体”、“遥感”和“移动GIS”[4]。地理本体是表达地理概念以及地理概念之间关系的有效手段,包含本体属性、一般关系和空间关系等语义信息,是实现地理信息共享和提供智能地理信息服务的一个研究重点。遥感技术为地理信息共享和服务提供基础的数据支持和分析方法。随着GPS技术、无线通信技术的发展,以及智能手机等移动终端设备的普及,移动GIS作为实现地理信息服务的一种重要方式也受到越来越多的关注。

第3类,地图制图与可视化方法研究。该类包含4个关键词,即“可视化”、“数据库”、“制图综合”和“数字高程模型”。制图综合一直是地图制图方向的研究重点,而数字高程模型作为一种空间数据模型在三维可视化、等高线综合等方面都有着较好的应用。通过结合原始论文数据,可以看出,该类研究内容具体包括:空间数据的多尺度表达方法、空间数据可视化方法、数字高程模型应用等方面研究。

第4类,数字城市建设的相关研究。该类包含5个高频关键词,即“地理信息”、“数字城市”、“电子地图”、“三维可视化”和“三维GIS”,具体包括地理信息获取、电子地图制作、三维可视化方法等在数字城市建设方面的应用。

第5类,空间关系相关理论研究。包含“拓扑关系”和“空间关系”两个高频关键词。空间关系是空间物体之间由空间物体的几何特性(位置、形状)所决定的关系,包括距离关系、拓扑关系、方向关系和相似关系,是空间信息科学的理论基础之一,一直是空间信息科学理论研究的重点。结合原始论文数据,可以看出,该类主要研究内容是指对拓扑关系表达方法、空间关系相似度计算及模型化表达方式的理论研究。

3 结 论

本研究以2006—2015年10年间6种测绘期刊中的学术论文为研究对象,通过对论文关键词的词频统计分析和共词分析,发现了国内GIS领域一些主要的研究内容和研究规律。通过对高频关键词的相关统计和可视化分析,可以得出以下结论:

1)对于整个测绘领域来讲,GIS方面的相关研究始终处于一个相对重要的地位。但近几年对于GIS方面的相关研究呈现明显的下降趋势。

2)从GIS领域研究热点在时间纬度上的分布特征可以看出,在研究时间段的前中后期,研究侧重点分别从基础的“空间数据”相关研究,过渡到应用型的 “电子地图”相关研究,再到“制图综合”技术方法的相关研究。在此期间,空间分析作为GIS区别于一般信息系统的重要特征,一直是GIS领域研究中的核心内容。

3)通过分析,GIS领域近10年在研究上的主要内容,概括为5个方面,即:WebGIS相关应用、地理信息服务、地图制图与可视化、数字城市建设及空间关系相关理论技术。

[1] 温克勒.基于科学计量学指标的科研评价[M].马峥,等,译.北京:科学技术文献出版社,2014.

[2] 马费成,张勤.国内外知识管理研究热点-基于词频的统计分析[J].情报学报,2006,25(2):163-171.

[3] CALLON M, LAW J.Rip, A.Mapping the Dynamics of Science and Technology:Sociology of Science in the Real World[M].Macmillan,1986.

[4] 苗瑾花,王家耀,成毅,等. 地理本体研究综述及趋势分析[J]. 测绘科学技术学报,2014(6):653-658.

[5] 王强,王家耀,姜艳媛,等. 基于P2P和本体的空间信息服务发布与发现[J]. 测绘科学技术学报,2009(6):454-457.

[6] 刘涛. 空间群(组)目标相似关系及计算模型研究[D].武汉:武汉大学,2011.

[7] 陈生,曾行吉,梁军. 基于GIS的统计数据可视化研究[J]. 计算机工程与设计, 2008, 29(14): 3757-3759.

[8] 王曰芬. 文献计量法与内容分析法的综合研究 [D]. 南京:南京理工大学, 2007.

[9] 王凯. 新闻文本集可视化模型研究[D]. 北京:中国地质大学 (北京), 2013.

[10] 赵红,赵良英.《测绘学报》论文及作者的统计分析[J]. 测绘学报,1998(3):88-95.

[11] JIAN Ping, ZENG Chengrong, WU Wei Wang. Multi-grain hierarchical topic extraction algorithm for text mining[J].Expert Systems with Applications,2010(37):3202-3208.

[12] 洪文学,王金甲.可视化和可视化分析学[J]. 燕山大学学报,2010(2):95-99,105.

[13] 李静,刘海砚. 基于测绘期刊论文数据的可视分析[J]. 测绘通报,2016(6):50-54.

[14] 王家耀. 大数据时代的智慧城市[J]. 测绘科学,2014(5):3-7.

[责任编辑:张德福]

Visual analysis of hot spots in the field of GIS based on high frequency keywords in the paper

LI Jing,LIU Haiyan,YANG Ruijie,GUO Wenyue,YANG Mingyuan

(School of Geography Space Information, Information Engineering University, Zhengzhou 450001,China)

The paper tries to analyze the development and hot spots of the field of GIS in China. Using the analysis method of frequency statistics and co-word, combining with the SPSS statistical analysis tools, and taking academic papers from Chinese surveying and mapping journals from 2006 to 2015 as the data source, this paper analyzes the number of papers, high frequency keywords in the dimension of time distribution and clustering characteristics. The recent years papers in the field of GIS have been issued with the downward trend. The field of GIS is mainly concerned with five aspects: WebGIS applications, geographic information services, mapping and visualization, digital city construction, and the related theories of spatial relationship. This research reveals the hot spots and the development of the GIS field to a certain degree.

GIS;keyword;research hotspot;co-word analysis;visualization

2017-01-20

国家自然科学基金资助项目(41501446)

李 静(1990-),女,硕士研究生.

著录:李静,刘海砚,杨瑞杰,等.基于论文中高频关键词的GIS领域研究热点的可视化分析[J].测绘工程,2017,26(8):71-76.

10.19349/j.cnki.issn1006-7949.2017.08.015

P208

A

1006-7949(2017)08-0071-06

猜你喜欢
共词词频学术论文
学术论文征集启示
学术论文征集启事
《发表学术论文“五不准”》通知
基于突变检测与共词分析的深阅读新兴趋势分析
基于Matlab的共词矩阵构造
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
中国文化在国际社交媒体传播的类型分析——基于共词聚类的研究
基于共词知识图谱技术的国内VLC可视化研究
词频,一部隐秘的历史
以关键词词频法透视《大学图书馆学报》学术研究特色