期刊论文被引次数与下载次数的关系研究

2017-12-07 05:24毛国敏吴何珍蒋知瑞生冬梅孙振凯袁志祥宋胜合
关键词:概率密度期刊论文正态分布

毛国敏,吴何珍,任 蕾,蒋知瑞,生冬梅,孙振凯,袁志祥,宋胜合

(1.中国地震局地球物理研究所文献信息中心,北京100081;2.首都医科大学附属北京口腔医院《北京口腔医学》编辑部,北京100050;3.中国地震局工程力学研究所,黑龙江 哈尔滨150080;4.《灾害学》编辑部,陕西西安710068;5.《地震》编辑部,北京100036)

0 引言

学术期刊论文下载次数和被引次数是两个非常客观的指标,显示论文被使用和受重视的程度,论文下载或被引的次数越多说明该论文受到同行的关注和重视也越高.从直觉和常理推断,论文下载次数会对被引次数产生正的影响.多年来,论文下载次数和被引次数之间的关系是期刊计量指标分析中最简单、最为人们普遍关心的问题,引起相关学者的广泛研究兴趣[1~13].

万锦堃等[1]分析了期刊论文网上下载频次的年代分布和被引频次的年代分布,得到“去年发表的论文下载多,前年发表的论文被引用多,当年发表的论文下载频次与被引频次的比值高”;庞景安[2]对中文科技期刊的下载计量指标和引用计量指标进行定量研究,利用Spearman等级相关分析方法,探讨了中文科技期刊两类计量指标之间的相关性问题,认为全部1 471种期刊总被引频次与总下载频次指标间存在较强的相关关系;刘筱敏[3]以15种化学类电子期刊为统计样本,分析2003~2005年的全文下载量,利用中国科学引文数据库中国科学院著者引用这15种期刊的引用数据,分析下载行为与引用行为的相关关系,认为下载行为与引用行为存在正向相关关系;赵大良[4]以1996~2000年发表在《西安交通大学学报》的论文为例,选取被引频次最多的前100篇文章与访问量最高的前100篇共22篇论文,统计其在发表以后的被引用频次、网络访问量,发现无论是Web下载、网络浏览还是访问量的变化趋势都与文章的被引用的发展趋势相反,即呈负相关性;杜秀杰等[5]以《西安交通大学学报》的数据为例,对1994年第1期、2006年第1~3期和2007年第1期发表文章的下载频率和被引频率进行相关分析,表明网络传播是提升期刊影响力的必要条件和手段;丁佐奇等[6]根据《中国天然药物》和《中国药科大学学报》2003~2008年发表的论文在中国知网《中国学术期刊文献评价统计分析系统》下载数据库与引证数据库中的下载频次与被引频次,对两种期刊下载与被引频次最高的前20(Top20)篇文章进行分析,探讨影响科技论文被引频次和下载频次相关性,认为单篇论文的被引频次与下载频次的相关性较差,不能用先期的下载次数对后期的被引次数进行预测;张小强[11]以中国知网中中国科学引文数据库(CSCD)和中国人文社会科学引文数据库(CHSSCD)来源期刊为统计分析样本,对下载频次、被引频次与影响因子之间的相关性进行分析,表明期刊被引频次与下载频次具有高度的正相关性.

检索相关研究文献发现,目前多数是针对特定时间段、多是以期刊或某期刊类别为观察对象进行分析,得到了一些有意义的研究结果,绝大多数忽略了研究指标的分布问题或假定指标是服从正态分布的.为此,本文在考虑原始数据概率密度分布的基础上,通过对原数据的合理变换,运用相关和线性回归方法,对不同学科类别、载文规模和学术影响力、有一定代表性的3种期刊进行分析,探讨单刊论文全时域(从创刊至现在)下载次数与被引次数两个变量之间的关系问题.

1 资料来源及数据样本的基本情况

本文以《CT理论与应用研究》期刊(简称A刊)为例,研究学术期刊论文被引次数与下载次数之间的关系.A刊在中国学术期刊影响因子年报[14]中的学科类别为自动化技术计算机技术(TP)类或军事医学与特种医学(R8)类,2013年起科学类别更改为综合性科学技术(N/Q,T/X)类或综合性医药卫生(R)类,学术影响力一般,载文规模较小.为了验证期,我们再利用其他两种不同学科类别、载文规模和学术影响力的B刊和C刊资料,进一步研究论文被引次数与下载次数相关性并作回归分析.其中:B刊为某地球物理(P)类精品期刊,学术影响力较大,载文规模中等;C刊为某高校学报,学术影响力较大,载文规模较大.

考虑到论文自发表至下载和被引的时滞,数据采集的时间段分别为各刊创刊年至2011年12月,3种期刊的样本数据分别为1 059、2 156和14 017,原始数据来源于文献15~16.表1为3种期刊论文下载次数和被引次数基本统计量情况,3种期刊论文下载次数和被引次数数据见表2.

表1 期刊论文下载次数和被引次数基本统计情况

表2 期刊论文下载次数和被引次数数据

2 原理

2.1 相关原理

设X=(x1,x2,…,xn),Y=(y1,y2,…,yn),分别为来自X和Y的两个样本,则样本相关系数为[17]:

(1)

r取值在-1与1之间,它描述了两变量(或两指标)线性相关的方向和程度.r>0,两变量之间为正相关,r<0为负相关.|r|≥0.8时,可认为两变量之间高度相关;0.5≤|r|<0.8时,可认为中度相关;|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关[17].

2.2 一元线性回归

设X=(x1,x2,…,xn),Y=(y1,y2,…,yn)分别为来自X和Y的两个样本,样本值(xi,yi),如果变量满足一元线性方程

y=c+bx

(2)

则有n个方程,通过求解正规方程组,可得到c和b的最小二乘估计

3 分析方法

我们使用SPSS20软件对3种期刊论文被引次数与下载次数分别进行相关和回归分析,相关和回归分析要求分析变量的概率密度满足正态分布[17、18].图1为3种期刊原始被引次数v与下载次数u散布图,由于v和u的概率密度都呈左偏(偏度系数S>0)、高窄(峰度系数K>0)态,远离正态分布(|S|>3,|K|>8)(见表1),v和u值小的概率高,随着v和u的增加,v和u的概率快速减小,高被引和高下载的概率仅占很小部分[19~21].因此,图中左下方的数据点很密集,而在右上方数据点却非常稀少,从图中可看出原始下载次数u与被引次数v之间没有明显的关系.

因为论文下载次数u的概率密度服从对数正态分布[21],理论上,只要对u作对数变换,即令x=ln(u),那么x变量的概率密度就是正态分布的,可以利用x做各种对数据有要求的分析.

文献[20]认为,被引次数v的概率密度服从漂移幂律函数分布,理论上总能找到一种变换,使变换后的变量近似服从正态分布,但是考虑到简洁性,更主要是为了与下载次数的变换以及变换后的数值分度一致,我们也对v作简单的对数变换,即令y=ln(v+a),根据文献[20]的结果,A、B和C三种期刊的a的取值分别为1.540、4.311和3.827.对v先平移再作对数变换的优点是:(1)简单;(2)与x的变换一致;(3)与x值的分度一致;(4)避免了零被引(v=0)不能取对数的情况.其缺点是:y的概率密度并非完全正态分布,但y的偏度系数Sy和峰度系数Ky的绝对值远小于v的偏度系数Sv和峰度系数Kv的绝对值(表3),尤其是Ky与Kv相比有了很大的改善,y变量的峰态更接近标准正态,Sv的绝对值小于8(表3),可以认为y基本满足正态分布的要求.

表3 三种期刊论文被引次数变换前后的偏度和峰度系数

3.1 相关分析

对下载次数v和被引次数u作变换得到y和x,表4为3种期刊论文被引次数y与下载次数x之间相关系数及其检验,经统计检验(表4),3种期刊y与x相关的显著性P值均为0.000,相关系数分别为0.651、0.374和0.548.由此我们可以得出,至少在显著性Pα=0.01的水平上,A刊、B刊和C刊论文的被引次数与下载次数有显著正相关关系,其中A刊和C刊为中度正相关,B刊为正弱相关.3种期刊论文被引次数y和下载次数x的散布图如图2所示,从图2中可以比较直观地看出y与x呈正相关关系.

表4 三种期刊论文被引次数与下载次数相关分析及其检验

3.2 回归分析

表5 三种期刊论文被引次数与下载次数回归模型检验

注:均方和=平方和/自由度;F值=回归均方和/残差均方和;R2为模型的拟合优度,R2=1-残差平方和/总平方和.

(3)

类似于A刊的分析过程,经检验(表5和表6,见106页),B刊和C刊论文被引次数与下载次数之间也存在线性关系,线性回归方程分别为:

(4)

(5)

表6 三种期刊论文被引次数与下载次数回归参数估计及其检验

4 讨论与结论

在撰写本文过程中还做了一些探索性工作,我们对3种期刊论文被引次数y与下载次数x两变量直接做回归分析,也能得到模型参数并且各参数都通过统计检验,但是,回归模型的拟合优度差,决定系数R2分别为0.424、0.140和0.300,这说明A、B和C刊3种期刊变量y关于x的线性回归模型不能成立.通过这些探索性的分析工作,表明当原始的概率密度远偏离正态分布时,需要对原始数据做必要的变换和适当的处理,才能做有关的统计分析,得到合理的预期结果.

本文在了解原始数据概率密度分布的基础上,通过对原数据作合理的变换,运用相关和线性回归方法,对不同学科类别、载文规模和学术影响力、有一定代表性的3种期刊进行分析,探讨单刊论文全时域(从创刊至现在)下载次数与被引次数两个变量之间的关系问题,得出:(1)学术期刊原始论文被引次数v与下载次数u之间没有明显的关系;(2)经变换,论文被引次数y与下载次数x呈正相关关系;(3)对数据再做适当处理后,论文被引次数y和与平均下载次数存在简单的线性关系,随着论文下载次数增加,与之对应的论文被引次数也随之而增加.本文的分析方法对今后其他类似利用非正态分布数据进行相关和回归分析也有一定的参考价值.

猜你喜欢
概率密度期刊论文正态分布
关于n维正态分布线性函数服从正态分布的证明*
连续型随机变量函数的概率密度公式
计算连续型随机变量线性组合分布的Laplace变换法
偏对称正态分布的若干性质
基于GUI类氢离子中电子概率密度的可视化设计
正态分布及其应用
关于二维正态分布的一个教学注记
中文科技期刊论文LaTeX模板的研究与实践
公共图书馆不应认可的职称期刊论文探析——基于重庆图书馆职称期刊论文的实证调研
人文社科期刊论文被引频次和下载频次相关性研究