国内期刊论文产出时空分布与演化特征研究

2020-04-01 15:15许林玉杨建林
现代情报 2020年4期
关键词:时空分布

许林玉 杨建林

摘 要:[目的/意义]运用探索性空间数据分析方法(ESDA)对国内期刊论文进行时空分布与演化特征的可视化探索分析,拓展了图书情报领域计量研究的深度与广度。[方法/过程]以我国各地区的期刊论文产出为研究对象,以科研人员在CNKI数据库的期刊发文数量为衡量指标,运用探索性空间数据分析等方法,分析我国2008-2017年31个省、市、自治区、直辖市(不含港澳台地区)期刊论文产出空间格局的分布及演化特征。[结果/结论]我国期刊论文产出呈现东多西少的空间格局;论文产出绝对差异增大,相对差异减小,集聚性呈先上升后下降趋势;论文产出三大区域内及区域间差异缩小;区域论文产出的极化现象减弱,且空间集聚格局较为稳定。

关键词:期刊论文产出;探索性空间数据分析;时空分布;演化特征

DOI:10.3969/j.issn.1008-0821.2020.04.015

〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2020)04-0128-08

Research on Spatial-temporal Distribution and

Evolution Law of Domestic Journal Paper Output

Xu Linyu1,2 Yang Jianlin1,2

(1.School of Information Management,Nanjing University,Nanjing 210023,China;

2.Jiangsu Key Laboratory of Data Engineering & knowledge Service,Nanjing University,

Nanjing 210023,China)

Abstract:[Purpose/Significance]Exploring and analyzing the spatial and temporal distribution and evolution characteristics of domestic journal articles by using exploratory spatial data analysis method,the depth and breadth of spatial measurement dimension research in Library and information field are expanded.[Method/Process]This paper analyzed the spatial pattern of the distribution and evolution of journal paper output in 31 regions of China from 2008 to 2017,by taking the journal paper output of various regions in China as the research object,taking the number of journal published by scientific researchers in CNKI as the measurement index,and using the method of exploratory spatial data analysis.[Result/Conclusion]The results showed that the output of journal paper was more in the east than in the west.The absolute difference of journal paper output among regions increased,while the relative difference decreased.The agglomeration of journal paper output showed a trend of rising first and then declining.The intra-regional and inter-regional differences of the output of journal papers in the three regions were narrowing.The polarization phenomenon of regional journal paper output was weakened and the spatial agglomeration pattern was relatively stable.

Key words:journal paper output;exploratory spatial data analysis;spatial and temporal;evolution law

期刊論文是科研成果发表和传播的重要方式之一,单个区域期刊论文的产出数量与质量能够在一定程度上反映该地区的科研能力,而对期刊论文的时空分布及演化特征进行可视化探索与分析,则可以揭示各区域在学术生产力和科研活跃度方面的差异,分析结果对宏观层次的科研管理决策具有一定的参考价值。因此,对期刊论文产出的区域差异性分析成为学者们的研究内容。ESDA方法是空间统计学中较为成熟的方法,通过对现象或事物空间分布格局的描述与可视化能够发现空间分布、空间差异、空间集聚等方面的特征。将ESDA方法引入图书情报领域,可以作为传统计量方法的补充,拓展图书情报领域计量研究的深度与广度。

国外研究者进行期刊论文产出的研究较早,如Matthiessen等1999年以SCI的文献为数据源,对欧洲城市的研究能力进行划分,如欧洲超级科学联盟、初等研究中心以及小型研究中心等各等级[1];Bornmann L等基于Scopus和Wos数据库中的高质量论文,通过构建密度地图来研究科研产出“热区”[2]。

近年来,国内学者对于期刊论文产出的时空维度的研究主要可以概括为以下几个方面:

1)从时间视角对期刊论文产出的研究:

冯凌等选取国内旅游类期刊论文为例,以中文核心、CSSCI、CSCD为数据源,对我国改革开放30年来的旅游类期刊论文进行时序分析[3];高晓培等以SCIE收录1920年、1960年、2000年的1 118 199篇论文为数据源,分析了其首次被引时间间隔的分布规律,发现不同出版年论文首次被引时间间隔服从幂律分布[4];俞立平等以CSSCI(2014-2015)收录的图书馆、情报与文献学期刊为例,研究了期刊被引频次的时间分布规律[5]。

2)从空间视角对期刊论文产出的研究:

张立菊认为学术期刊论文的区域分布,对区域学术影响力差异及学术活跃程度具有重要影响,故而以图书馆学、情报学的核心期刊为例,以作者的发文量及总被引频次排名前100位的机构为数据源,对发文量和被引频次所在区域进行统计分析,探究该学科的区域学术活跃度与区域学术影响力的规律[6];刘兵红以数学学科为例,以SCIE收录的1997-2016年高影响力期刊论文为数据源,利用Citespace可视化工具,对学科高影响力作者、时空演化特征、国家和机构的分布等内容进行研究[7]。

综上所述,目前国内外学者对于期刊论文的时空维度做了一定的研究,但是现有研究期刊论文的数据源大都基于某一视角的数据做的研究,而较少从我国整体期刊论文产出的宏观视角进行探索分析;其次,在研究方法上,现有的探索期刊论文产出空间维度的研究方法主要为Citespace及中国知网自带的计量可视化分析等工具方法,这些方法只能做简单的空间分布及演化研究,而无法进行深层次的空间差异及集聚性等方面的研究。在此背景下,本文运用探索性空间数据分析等方法,对我国2008-2017年31个省、市、自治区、直辖市的期刊论文产出进行空间分布与演化的探索研究,从我国期刊论文产出的全局分布、空间差异及集聚性,再到区域间的差异演化、极化及空间集聚等层面进行逐层展开研究,对图书情报领域时空维度的深入研究具有一定的理论与实践意义。

1 数据来源及研究方法

1.1 数据收集

综合考虑数据的全面性与可得性,本文选取数据的数据库来源为中国知网(CNKI)的期刊数据,中国知网数据库作为我国的主要数据库,涵盖国内大部分期刊,因而对该数据库的数据进行空间特征的探索研究能在一定程度上反映我国期刊论文产出的分布及演化规律。为了真实反映区域期刊论文产出,也为了消除区域重复计数,在后期的数据处理中,本文只收集文章第一作者的所在机构。在时间节点上,选择2008-2017年,在时间层面上纵向覆盖10年。在空间方面,本文依照《中国统计年鉴2018》划分标准,除去港澳台,我国大陆共有31个省市自治区及直辖市等,从空间层面上覆盖我国大陆31个省市自治区及直辖市等区域。

在地址匹配识别阶段,本文为了数据的客观性,对于一些无法准确识别归属地的机构,一律做无效数据处理,如中国石油大学在北京和山东都有校区,故而只能识别类似于“中国石油大学(北京)”“中国石油大学(华东)”及一些延伸形式,而“中国石油大学”这个名称确实无法准确识别其归属地,故而作无效数据处理。

最后经过人工筛选、地址字符截取、地址匹配等数据处理清洗过程,剔除数据中的重复数据及会议通知、征稿启事、新闻报道等无关数据以及地址无法准确识别匹配的无用数据,共得到13 867 106条有效数据。故而本文以2008-2017年我国31个省、市、自治区、直辖市的科研人员以第一作者在中国知网数据库的发文数量为数据源来研究我国期刊论文产出时空分布与演化特征。

1.2 研究方法

定量研究区域差异的常用指标为极差、标准差、变异系数、基尼系数等,极差、标准差、变异系数等指标计算相对简单,主要衡量期刊论文产出的绝对差异和相对差异;而基尼系数计算相对复杂,但可分解为组内差异和组间差异进行进一步的探索研究。近些年,探索性空间数据分析(ESDA)方法也逐渐用来研究区域差异空间分布及演化规律。本文在前人研究基础上,结合本文研究的具体问题及数据,主要采用的方法为标准差、变异系数、基尼系数及探索性空间数据分析等。

1.2.1 ESDA探索性空间数据分析。

探索性空间数据分析(ESDA)是空间统计学中较为成熟的方法,其本质是以空间关联测度为核心,通过对现象及事物空间分布格局的描述与可视化,发现空间集聚、空间异常等现象,揭示研究对象之间的空间规律[8-9]。目前,ESDA已在空间数据挖掘[10]、自然灾害[11]、数字图像处理[12]、区域经济[13]等研究领域受到重视。

ESDA的核心是空间相关性分析,主要包括全局空间自相关及局部空间自相关分析这两个部分。在进行探索性空间相关性分析过程中,首先要设置空间权重,主要通过设置空间矩阵来实现,GeoDa工具有两种定义空间矩阵的方式,分别为基于距离关系和基于邻接关系,本文在国家尺度范围下对中国区域期刊论文产出进行研究,且考虑到各研究区域之间并不是简单的邻接关系,故而本文采用基于距离的空间关系的空间矩阵定义方式来进行空间自相关分析,且该方式下计算的全局莫蘭指数都通过了显著性检验。

1)全局自相关分析

全局自相关分析主要探索期刊论文产出在区域中总体的空间差异及关联。一般采用莫兰指数I来表征[14],公式如下:

I=N∑ni=1∑nj=1Wij*∑ni=1∑nj=1Wij(xi-)(xj-)∑ni=1(xi-)2(1)

其中,N是区域数目,xi和xj分别是i、j地区的期刊论文产出数量,Wij是i、j地区的空间权重矩阵。莫兰指数的取值在-1~1之间,当I小于0时,表明期刊论文呈现空间分散态势,反之,期刊论文产出呈集聚态势,若I等于0则说明期刊论文产出在空间上遵从随机分布。

2)局部自相关分析

大多数情况下,区域存在空间异质性,故而引入局部空间自相关统计量来探究期刊论文产出的局部空间变化。一般用局部指标LISA来表征,用莫兰散点图来直观展示,计算公式如下:

LISAi=Zij∑Nj=1WijZj(2)

式中,N為区域数量,Zi和Zj是区域i和j上期刊论文产出的标准化,Wij是空间权重,其中∑Nj=1Wij=1。本文主要借鉴蔡芳芳等研究者的观点,将局部自相关的局部空间变化分为下述4种情况:HH(高值集簇区)、HL(高低孤立区)、LH(低高空心区)、LL(低值萧索区)[15],通过这4种局部空间变化类型来描述局部自相关的空间分异。

1.2.2 变异系数

变异系数(CV)是由样本的标准差与均值之比来得出,计算公式如下:

CV=1*∑Ni=1(xi-)2N(3)

其中,xi是第i地区的期刊论文产出,是全国期刊论文产出的平均值,N是地区总数,其中,变异系数越大,反映地区期刊论文产出越离散[16]。

1.2.3 基尼系数

本文根据Dagum C提出的基尼系数及其子群分解的方法对我国期刊论文产出的空间差距进行研究[17],该方法不仅能从整体上描述我国期刊论文产出发展的空间差距及其演变趋势,还可以对我国期刊论文产出的地区内和地区间差距进行分解,更深入地研究我国期刊论文产出的空间差异问题。

基尼系数的计算公式为式(4),在对基尼系数分解时,首先依据地区内期刊论文数量的均值对地区排序,如式(5)所示。在上述公式中,N表示地区划分的数量,n代表省份、自治区、直辖市等的数量(下面统一用省份代替),nj、nh为j、h地区内的省份数量,yji及yhr表示j、h地区内任意省份的期刊论文数量,是全国各省份期刊论文产出的平均值。

G=∑Nj=1∑Nh=1∑nji=1∑nhr=1yji-yhr/2n2(4)

h≤…j≤…≤N(5)

依照Dagum C在1997年提出的基尼系数分解法将基尼系数分为3个部分:G=Gw+Gnb+Gt,其分解公式分别为式(6)~(10),其中Gw表示地区内差距的贡献,对应于式(7);Gnb表征地区间净值差距的贡献,对应于式(9);Gt表征超变密度的贡献,对应于式(10);式(6)表示j地区的基尼系数Gjj、式(8)指的是j、h地区的地区间基尼系数。

Gjj=12j∑nji=1∑njr=1yji-yjr/n2j(6)

Gw=∑Nj=1Gjjpjsj(7)

Gjh=∑nji=1∑nhr=1yji-yhr/njnh(j+h)(8)

Gnb=∑Nj=2∑j-1h=1Gjh(pjsh+phsj)Djh(9)

Gt=∑Nj=2∑j-1h=1Gjh(pjsh+phsj)(1-Djh)(10)

其中pj=nj/n,sj=njj/n,j=1,2,…,N,Djh是j、h地区间期刊论文产出的相对影响。Djh、djh、pjh的计算公式分别如式(11)~(13),其中Fj、Fh分别表示j、h地区的累积密度分布函数[18]。

Djh=djh-pjhdjh+pjh(11)

djh=∫∞0dFj(y)∫y0(y-x)dFh(x)(12)

pjh=∫∞0dFh(y)∫y0(y-x)dFj(y)(13)

2 我国期刊论文产出差异的总体特征

2.1 我国期刊论文产出地理分布特征

本文以31个省、自治区及直辖市等为观测点,运用GeoDa软件的自然间断点地图将2008-2017年10年间的期刊论文产出(以期刊论文数量平均值计算)绘制中国期刊论文产出分布图(如图1所示),其中,自然间断点地图是基于数据中固有的自然分组,对相似值进行最恰当地分组,并使各个类间的差异最大化。图1中区域颜色越深表明区域期刊论文产出水平越高。从图1可直观看出,我国期刊论文产出呈现东多西少的空间差异格局,其中,两个期刊论文产出最高的区域分别为江苏省和北京市,而西藏自治区、青海省、海南省及宁夏回族自治区这4个地区则为最低产区域。因而,从各地区的总体分布格局来看,我国期刊论文产出存在明显的不均衡性。

2.2 我国期刊论文产出绝对差异增大,相对差异减小

本文选取2008年、2010年、2012年、2014年、2016年以及2017年6个时间横断面数据来展开研究,并将这6年数据的标准差、变异系数及全局莫兰指数计算并呈现如表1及图2所示。

由表1可看出,2008-2017年我国期刊论文产出的标准差一直处于上升态势,2017年标准差为30 490.56,比2008年增加了5 000,反映了我国期刊论文产出的绝对差异增大。由图2可看出,2008年以来,我国期刊论文产出的变异系数不断下降。由表1可得,2017年的变异系数是0.5941,与2008年相比下降8.16%,由上文可知,变异系数这个指标反映期刊论文产出的离散趋势,指标变小说明我国期刊论文产出呈现趋同态势,即我国期刊论文产出相对差异正在逐步减小,我国期刊论文产出的不平衡正在不断降低。

2.3 期刊论文产出集聚性呈现先上升后下降趋势

为了进一步了解我国期刊论文产出的空间集聚性,本文借助GeoDa软件计算2008-2017年我国区域期刊论文产出的莫兰指数统计量(Morans I)(如表1所示),表1中各年份的莫兰指数统计量均通过显著性检验(P<0.05)。根据表1、图2可知,2008-2017年莫兰指数均大于0,表现为各地区期刊论文产出存在空间正相关关系,说明在期刊论文产出较高的区域,其周边区域的期刊论文产出也较高,即期刊论文产出水平相似的地区存在明显的空间集聚态势,空间集聚程度越高也表明期刊论文产出空间存在明显的不平衡,这也与我国期刊论文产出空间分布图(如图1所示)的结论一致。

由图2可看出,2008-2017年莫兰指数的变化趋势为先上升后下降,可见我国期刊论文产出集聚性呈现先上升后下降趋势。其中,2008-2014年,莫兰指数不断上升,从0.2321增大至0.2663,虽然增幅不够明显,但是也能反映此阶段我国期刊论文产出集聚状态的加强。2016年以来,莫兰指数一直下降,2017年降至0.2211,说明该阶段我国期刊论文产出集聚趋势虽存在但程度变弱。

3 区域期刊论文产出空间格局演化

3.1 期刊论文产出区域内及区域间差异缩小

为了进一步了解我国期刊论文产出在东、中、西三大地区的空间差异,本文根据Dagum C的基尼系数及其子群分解方法,对我国期刊论文产出的地区差距进行深入研究。本文根据需要只计算我国期刊论文产出基尼系数的地区内差异及地区间差异两部分,本文运用R语言计算的结果见表2。

基尼系数这个指标反映期刊论文产出的离散程度,由表2可得,我国期刊论文产出总体基尼系数呈下降态势,指标变小说明我国期刊论文产出呈现趋同态势,我国期刊论文产出的不平衡正在不断降低。图3进一步描述了我国期刊论文产出在三大地区内部分布的差距特征。由图3可直观看出,西部地区期刊论文产出的地区内差距最大,东部次之,中部地区期刊论文产出的地区内差距最小。由图3可看出东部期刊论文产出的地区内差异较为稳定,一直在0.27左右波动,而中部和西部地区的基尼系数水平也一直在向东部地区靠近,可见东部地区的期刊论文产出区域内的差异水平是一个相对稳定的状态。

图4进一步描述了我国期刊论文产出在三大地区的区域间差距特征及演化趋势。从图4可看出,中部—西部期刊论文产出的地区间差异的基尼系数最大,处于图4的最上面一条线,而东部—中部的区域间基尼系数最小,且较为稳定,可见中部—西部之间期刊论文产出的差异最大,而东部—中部地区之间期刊论文产出的差异最小。总体而言,我国期刊论文产出的地区间差距整体上呈现下降态势,以2008年为基期,2017年东部—中部、东部—西部以及中部—西部地区间的基尼系数分别下降了2.62%、0.83%以及10.61%,可见,中部—西部地区的区域间基尼系数下降明显,中部—西部期刊论文产出的地区间差异明显缩小。

3.2 区域期刊论文产出的极化现象减弱

为了更形象直观地展现我国区域期刊论文产出水平的空间变化,本文以2008-2017年的平均数据为基础,结合GeoDa的自然间断点法将期刊论文产出水平分为低水平、较低水平、较高水平、高水平4个等级,并选取2008年、2012年及2017年这3年为横截面数据进行研究,绘制出2008年、2012年以及2017年中国期刊论文产出空间分异图(如图5),其中区域颜色越深表明区域期刊论文产出水平越高。从图5可看出,2008年低水平、较低水平、较高水平、高水平的数量分别为9、13、7、2;2012年各水平下的数量分别为7、11、11、2;2017年各水平下的数量分别为4、13、10、4;由此可知,期刊论文产出的高水平区域变多,而期刊论文产出的低水平区域变少,2008-2017年,期刊论文产出低水平区域个数从9个减少至4个,高水平区域个数由2个增加到4个。其中,北京市以及江苏省这2个区域一直处于期刊论文产出的高水平区域,广东省及山东省逐渐迈入高水平区域,而新疆维吾尔族自治区、内蒙古自治区、甘肃省、云南省以及贵州省慢慢脱离低水平区域。总而言之,中国区域期刊论文产出的两极分化现象趋于减弱态勢,区域期刊论文产出整体的离散程度降低,故而区域期刊论文产出水平的差异降低,这也与上述的结论具有一致性。

3.3 区域期刊论文产出空间集聚格局较为稳定

为了描述空间自相关的演化趋势,本文选取2008年、2012年及2017这3个时间横断面数据,运用GeoDa的局部自相关方法来分析中国期刊论文产出空间相关性及空间聚类演变趋势,结果如图6,表3所示。

象限的变化在一定程度上反映了这些区域期刊论文产出的变化,由图6,表3可看出,2008-2017年,位于各个象限的区域较为稳定,只有少部分的区域所处的象限发生了改变,如黑龙江省由第四象限(高低类型)进入了第一象限(高高类型),说明跟黑龙江省的周边区域的期刊论文产出都有了一定的提高。

由图6,表3可看出,多数区域位于第一、三象限内,均表现出正的空间自相关。其中,2017年,位于HH区(高值集簇区)的区域数量为13个,占区域总个数的41.94%,主要为北京市、河北省、上海市、江苏省、浙江省、山东省等区域及其周边地区,这些区域的期刊论文产出较高,且带领周围区域期刊论文产出的增加,反映了该区域本身及其邻近区域的期刊论文产出均处于较高水平且较为稳定。

4 结 论

本文以我国31个地区为研究对象,以CNKI的期刊论文数量为测度指标,综合运用探索性空间分析等方法分析了我国2008-2017年期刊论文产出的时空分布及演化特征,得出的特征如下:

从2008-2017年的数据可看出,国内期刊论文产出差异的总体产出呈现东多西少的空间差异,其中,两个高产的地区分别为江苏省和北京市,这与区域经济有一定的联系,但是与区域生产总值并不完全重合,2017年我国区域生产总值最高的4个区域分别为;广东省、江苏省、山东省以及浙江省,北京市的地区生产总值排在第12位,但是其期刊论文产出却排在前列。由此可见,经济水平不是期刊论文产出总量的决定性影响因素,是否是区域的经济水平、高校及科研院所数量、各区域对教育的重视程度(即科研投入)以及区域人口等因素综合作用的结果,有待后续研究进行探讨。

猜你喜欢
时空分布
酒泉市强对流天气指标研究
海岸带森林生态系统中土壤酶活性研究进展
临夏州暴雨天气特征分析
辽宁省盛夏降水时空分布特征及影响因子分析
基于云模型的淮北平原参考作物蒸散量时空分布
基于云模型的淮北平原参考作物蒸散量时空分布
马来西亚与新加坡旅华客源时空分布对比研究
入境游客时空分布格局及演变分析
五垒岛湾海域无机氮、无机磷的时空分布和氮磷比值变化