基于测绘期刊论文数据的可视分析

2016-07-15 05:10刘海砚
测绘通报 2016年6期
关键词:文献计量研究热点统计

李 静,刘海砚

(信息工程大学地理空间信息学院,河南 郑州 450000)



基于测绘期刊论文数据的可视分析

李静,刘海砚

(信息工程大学地理空间信息学院,河南 郑州 450000)

摘要:结合文献计量方法与可视化技术,以《测绘学报》《测绘通报》《测绘科学》《测绘工程》2003—2013年共收集的5863篇学术论文为数据源,进行了关键词、论文作者及论文作者所在地3方面的统计分析,并将统计结果以统计图表和地图的形式展现,直观地反映了我国测绘学科研究热点的演变,以及活跃作者群的人数、核心研究区的地理分布。研究显示,涉及大地测量、地理信息系统和地图制图3方面研究内容的论文占总论文数的59.9%,达一半以上;根据普赖斯定律确定的活跃作者群人数为131人;发文量排名前10的城市中,有90%为省会城市或直辖市。从研究结果可以得出,我国测绘学科的发展每年的研究热点都不相同,其中大地测量、地理信息系统和地图制图的研究较为广泛;测绘学科发展具有高质量的活跃作者群体,但学科的发展具有地域不均衡性。

关键词:统计;可视化;研究热点;文献计量;普赖斯定律

《测绘学报》《测绘通报》《测绘科学》《测绘工程》是测绘科学领域具有重要影响力的期刊。其论文数据是科研成果原理与思想的展示,在一定程度上反映了我国测绘科技水平的发展及测绘领域的最新成果,促进了学者们的互相交流与学习。为实现对我国测绘科技发展状况从定性到定量的分析,本文结合文献计量学的方法,对《测绘学报》《测绘通报》《测绘科学》《测绘工程》2003—2013年的所出版的5863篇科技论文进行关键词、作者及发文地等方面的统计和分析,并采用可视化技术将统计结果进行直观展现,便于从繁多的数据中找出数据所蕴藏的信息,进而分析得出我国测绘学科研究内容的变化情况,确定出活跃作者群的人数,以及核心研究区的分布情况。

文献计量学原理为本文中所进行知识梳理和科学研究提供了理论基础。所谓文献计量学,即用数学和统计学的方法定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体,注重量化的综合性知识体系。其计量对象主要是:文献量(各种出版物,尤以期刊论文和引文居多)、作者数 (个人集体或团体)、词汇数(各种文献标识,其中以叙词居多),文献计量学最本质的特征在于其输出的是“量”[1]。其中,普赖斯定律是文献计量学方法中一个比较著名的定律,它是由被誉为“科学计量学”之父的普赖斯于1963年提出的。普赖斯认为:“全部论文的一半系由该领域中全部作者的平方根的那些人所撰。”后又补充道:“如果设所发表的全部论文为n篇,可以发现其中低产作者论文总数相当于少量高产作者论文总数,在这种简单的情况下,对称性可能表明作者数量是符合平方根定律的。”该理论反映了作者与发文数量之间的数学关系,从而为本文中进行活跃作者群的确定提供了数学方法和依据。

一、可视分析

1. 研究热点演变

期刊论文数据不同于一般的文本数据,它属于半结构化数据,具有一定的结构和要素。文献中的关键词在一定程度上反映了该篇论文的研究内容。本文根据期刊论文数据特有的关键词要素,以年为单位,采用武汉大学开发的ROST词频统计软件对其进行统计,从而反映研究内容在时间上的变化情况;并根据论文的题目、摘要、关键词等要素信息对论文进行整体分类,从而突出测绘研究内容上的差异。

(1) 关键词统计

表1中表示的是剔除掉无用词后,2003—2013年间每年出现频率最高的关键词。从中可以看出,每年词频最高的关键词都各不相同,这反映出11年来测绘科学每年的研究热点都各不相同。其中词频的均值为9.7,最高的为13,即2005年的“地图综合”。从关键词内容上可以看出,2003—2007年,主要属于GIS和地图制图范畴。

表1 2003—2013年最高词频关键词统计

图1是关键词随时间变化的统计图,折线表示词频,条形图表示该词所占当年所有关键词的比例。从图上可以看出,2003—2007年关键词的词频与其所占比例基本上呈正相关关系,即该关键词词频越高,其所占的比例越大,从而可以说明该词具有一定代表性,可以反映当年的研究热点。2008—2013年,每年的关键词总数增多,最高词频下降,最高词频关键词所占比例也较之前明显下降,这说明这几年的研究内容相比之下比较分散,更加多元化。

图1 2003—2013年最高词频关键词随时间变化图

(2) 论文内容分类

本文根据论文的题目、关键词、摘要对其进行分类。表2表示2003—2013年间论文内容分类的统计结果。从表2可以看出,近11年间,发文数量最高的为大地测量方面,共1407篇,占论文总数量的24%;第2位为GIS,占论文总数量的19.6%;第3位为地图制图,占论文总数量的16.3%,仅关于大地测量、GIS和地图制图方面的研究总和达到59.9%。这说明,在测绘领域的研究中,大地测量、GIS和地图制图等内容被广泛研究和发展。另一方面,对其他方面的研究也在不断深入,从各个方面充实着测绘科技的发展。

图2是根据UGGIS于2006年提出的地理信息科学与技术知识体系8个方面的内容对论文进行分类后所绘制的漏斗图和玫瑰图。从图中可以看出,测绘领域研究主要是建立在对地理空间数据上的,地理空间数据是整个测绘学科研究的基础,地理空间数据的概念与获取占有重要地位。从总体上看,数据建模、分析方法、地理计算、地图与可视化主要涉及方法的研究与探索,其论文数量占到多数;其次设计问题、地理信息科学与技术主要涉及地理信息的应用与服务,而其论文数量相对较少。这说明研究者更多地致力于对规律的探索、模型的建立、合理算法与研究方法的探寻。

表2 论文内容分类统计

图2 论文内容分类统计

2. 论文作者分析

(1) 作者发文量统计

测绘期刊在2003—2013年间共刊登了5822篇署名作者的文章,共3652名作者以第一作者身份发表文章,其中单个作者发文量最高的为45篇,最低为1篇,平均发文量为1.59篇。

表3反映了不同发文量的作者数及不同发文量占总文章数的比例。其中发文量为1篇的作者数最多,且总发文量达到总文章数的45%,这说明四大期刊有丰富的作者资源。发文量大于3篇的比例总计为23.9%,这说明四大期刊有着权威的作者队伍,实力雄厚,支持着整个测绘领域的发展。

(2) 活跃作者群的确定

所谓活跃作者群,是指在某一领域发表论文数量较多,且影响力较大的作者的集合。本文对11年间论文作者的发文量进行了统计分析,并结合普赖斯定律确定在测绘领域的活跃作者群,现将发表论文数以N表示,单位为篇,计算公式如下

N=0.749×(Z)1/2

(1)

式中,Z为发文量最多的作者所发的文章数。根据表3可知Z为45篇,从而计算出N。

N=0.749×451/2≈5.024≈5

(2)

因此,根据普赖斯定律将活跃作者群的发文量确定为5篇和5篇以上,得到活跃作者群的总数为131人,占作者总数的3.6%,其活跃作者群所发表的论文占论文总数的17.3%,这说明在测绘领域有着稳定的作者群,他们实力雄厚,基础扎实,虽然所占总人数的比例较小,但是具有较高的发文量,支撑着测绘事业的发展。

表4统计了发文量大于10篇的作者信息。可以发现,发文量大于10篇的作者总共有20人,其中发文量最多为45篇且只有一人。如图3所示,发文量大于10篇的作者有45%分布在北京各个科研院校,15%分布在武汉,10%分布在西安。

表4 发文量大于10篇的作者情况统计

注:①按照第一作者进行统计;②作者所在地指该作者最新发表的论文中其所在单位。

图3 发文量大于10篇的作者单位分布统计

3. 核心研究区分布

一个地区发文量的高低在一定程度上反映了该地区的师资力量和科研水平。本文根据发文量多少来确定测绘学科核心研究区的分布情况。

根据第一作者单位所在地,本文对发文地点进行统计。表5罗列了发文量排在前10位的城市。可以看出,第1位为北京,发文量占总论文数量比例为18.7%;第2位为武汉;第3位为郑州。前10位城市发文量总和占到总论文数量的70%。研究发现,排名前10位的城市,北京、上海为直辖市,除徐州外,其余均为省会城市。这说明,在经济发达和人口众多的地区,教育资源丰富,师资力量雄厚,学术交流便利,是测绘领域研究的核心区域。

表5 发文量排名前10位的城市统计

本文以5篇发文量为节点,将发文量高于5篇的地区称为高发文区,低于5篇且大于0篇的地区称为低发文区。据统计,高发文地区主要集中分布在中东部地区,且主要为省会、直辖市等大型城市;而低发文区分布在中东部地区和东南沿海城市,这些城市规模相对较小。总体来看,无论高发文区或低发文区都主要分布在中东部地区,城市规模的大小、经济水平的高低直接影响该区域科研水平与师资力量。

二、结论

从以上的统计分析可以表明,期刊论文数据具有非常高的研究价值,能够定量描述某一学科的研究状况及其发展。本文通过研究测绘期刊论文数据统计图表及可视化图形,可以得出以下结论:

1) 测绘学科研究热点从时间上看,每年的研究热点都有所不同,且研究内容从2008年起更加丰富、多元化。2003—2007年间,测绘领域研究热点主要集中在GIS与地图制图方面。

2) 测绘学科从研究内容分类上看,大地测量、GIS和地图制图等内容被广泛研究和发展;而地理空间数据是整个测绘学科的研究基础;对于研究者来说,他们更致力于对科学方法的寻求及对规律的探索。

3) 测绘学科拥有一大批实践经验丰富、理论水平较高的作者队伍。虽然所占总人数的比例较小,但是实力雄厚,基础扎实,支撑着测绘事业的发展。

4) 测绘学科主要分布在经济发达和人口众多的中东部地区,可以看出我国测绘学科的发展具有地域不均衡性。主要有以下原因:一是测绘领域科研高校主要集中在北京、武汉、郑州等几个城市,从而造成作者主要来自于这几个地区。二是每个省市测绘地理信息局都可能会有自己的侧重点,侧重点为理论研究的可能就有较高的发文量,而注重实用性的地区发文量就较低。这表明,在注重实践的同时,同样应当注重理论研究的创新。三是偏远地区通信交通都较为不便,也在一定程度影响了该区域的发文量。

参考文献:

[1]温克勒.基于科学计量学指标的科研评价[M].马峥,译.北京:科学技术文献出版社,2014.

[2]唐家渝, 刘知远, 孙茂松. 文本可视化研究综述[J]. 计算机辅助设计与图形学学报, 2013, 25(3): 273-285.

[3]刘海砚, 孙群, 肖强, 等. 数字地图制图中多源数据 (资料) 的综合应用[J]. 测绘科学技术学报, 2006, 23(3): 161-164.

[4]蒋颖.人文社会科学领域文献计量学研究[M].北京:社会科学文献出版社,2013.

[5]周炤, 刘海砚, 李少梅, 等. 现代地图语言[J]. 测绘工程, 2008, 17(2): 6-8.

[6]陈生,曾行吉,梁军. 基于GIS的统计数据可视化研究[J]. 计算机工程与设计, 2008, 29(14): 3757-3759.

[7]王曰芬. 文献计量法与内容分析法的综合研究 [D]. 南京:南京理工大学, 2007.

[8]王凯. 新闻文本集可视化模型研究[D]. 北京:中国地质大学 (北京), 2013.

[9]林鸿飞, 高天. 中文文本的可视化表示[J]. 东北大学学报(自然科学版), 2000, 21(5): 501-504.

[10]钟文娟. 基于普赖斯定律与综合指数法的核心作者测评——以《 图书馆建设》 为例[J]. 科技管理研究, 2012, 32(2): 57-60.

[11]赵红,赵良英.《测绘学报》论文及作者的统计分析[J]. 测绘学报,1998,27(3):88-95.

[12]罗玲,王文福. 《测绘科学》在中国知网的文献计量分析[J]. 测绘科学,2013(4):209-212.

[13]普赖斯,张季娅.洛特卡定律与普赖斯定律[J]. 科学学与科学技术管理,1984(9):17-22.

[14]KEIMDA,MANSMANNF,SCHNEIDEWINDJ,etal.VisualAnalytics:ScopeandChallenges[J].LectureNotesinComputerScience, 2008(4404): 76-90.

[15]THOMASJJ,COOKKA.IlluminatingthePath:TheResearchandDevelopmentAgendaforVisualAnalytics[M].Piscataway:IEEEComputerSocietyPress, 2005.

[16]JIANP,ZENGCR,WUWW.Multi-grainHierarchicalTopicExtractionAlgorithmforTextMining[J].ExpertSystemswithApplications,2010(37):3202-3208.

[17]洪文学,王金甲.可视化和可视化分析学[J]. 燕山大学学报,2010(2):95-99,105.

[18]姜春林,刘盛博,丁堃.《中国科技期刊研究》研究热点及其演进知识图谱[J]. 中国科技期刊研究,2008(6):954-958.

[19]刘红红. 基于复杂网络的报告文本可视化模型研究[D].北京:中国地质大学(北京),2012.

Visual Analysis of Paper Data from Surveying and Mapping Journals

LI Jing,LIU Haiyan

收稿日期:2016-01-15

基金项目:地理信息工程国家重点实验室开放基金(SKLGIE-M-4-3);国家自然科学基金(41501446;41471387)

作者简介:李静(1990—),女,硕士生,主要从事数据挖掘与文本可视化研究。E-mail:brandy12367@sina.cn

中图分类号:C82

文献标识码:B

文章编号:0494-0911(2016)06-0050-05

引文格式: 李静,刘海砚. 基于测绘期刊论文数据的可视分析[J].测绘通报,2016(6):50-54.DOI:10.13474/j.cnki.11-2246.2016.0188.

猜你喜欢
文献计量研究热点统计
我国医学数字图书馆研究的文献计量分析
近五年我国职业教育研究热点综析及未来展望
国内外智库研究态势知识图谱对比分析
国内外政府信息公开研究的脉络、流派与趋势
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
2008—2015我国健美操科研论文的统计与分析
自闭症谱系障碍儿童的教育干预
山东省交通运输投资计划管理信息系统的设计
基于社会网络分析的我国微课研究探析