文献关键词分布特征与期刊学术质量的关系

2019-05-05 04:56李秀霞程结晶邵作运
中国科技期刊研究 2019年4期
关键词:幂函数曲线拟合学术期刊

■李秀霞 程结晶 邵作运

1)曲阜师范大学传媒学院, 山东省日照市烟台路80号 276826 2)扬州大学社会发展学院, 江苏省扬州市四望亭路180号 225008 3)曲阜师范大学图书馆, 山东省日照市烟台路80号 276826

学术期刊是学术信息的重要传播载体和科研成果的重要展示窗口,是知识创新和科技成果转化的重要桥梁[1]。学术期刊所刊载文献的关键词反映了期刊的研究内容,分析一段时间内期刊关键词的分布特征及其与期刊学术质量之间的关系,对学术期刊出版机构科学控制文稿比例,优化稿源结构,凝练期刊特色,提高自身的内在质量和学术影响力等具有重要意义。

目前,期刊学术质量的评价方法主要有3种。(1)专家调查法。主要通过专家调查来收集专业人士对期刊的主观感受,并利用这些主观判断的数据分析期刊内容,目的或是对多学科期刊群进行学科分类[2]、或是对同一学科的期刊组进行等级排序[3]。《中文核心期刊要目总览》[4]就是先在定量评价基础上产生核心期刊名单,再邀请几千名各学科的专家对候选名单进行审核。(2)文献计量法。主要从期刊的被引频次以及由此引申出的一系列计量指标如影响因子[5]、h指数[6]、z指数[7]、综合指标[8]等来评价。计量指标已有很多,既有单一计量指标,也有综合计量指标,对期刊学术质量的定量、客观评价产生了巨大的推进作用。然而,单纯通过被引频次这种外化指标的统计与排序,尚不能从知识交流与创新内容的视角科学评价期刊的学术影响力。(3)内容分析法。主要通过特征提取或深度学习的方法挖掘期刊文献的研究内容[9],进而对期刊进行分类和评价。对比发现,内容分析法是目前期刊学术质量评价方法中较为理想的方法[10],但鲜有此类研究的报道。

国内较具代表性的、基于文献内容的期刊质量研究有:安璐等[11]通过计算期刊的关键词数量与方差,将60种图书情报类英文期刊按照专业化与综合性进行分类,并指出学术期刊质量的提升不仅依赖于被引频率、影响因子等,更重要的是规划、调整期刊的主题内容;马峥等[12]通过统计期刊文献关键词,设计了“红点指标”,该指标可以计算一种期刊所刊载的内容与同领域的研究热点方向或主题重合的程度,以此评价期刊的学术质量,其研究为从内容层面评估期刊质量和影响潜力开创了新的思路。上述研究说明期刊关键词数量、关键词分布特征与期刊学术质量存在一定的关系,但其更直观、更具体的关系尚需深入研究。鉴于此,本研究拟通过期刊关键词的提取,构建期刊关键词词频数据集,通过数据集的曲线拟合,探寻期刊关键词的分布特征;并根据拟合方程对应的参数分析期刊关键词分布与期刊学术质量的关系。

1 研究方法

研究期刊关键词分布的方法主要是公式法,例如:计算各期刊不同关键词出现次数的方差法;借鉴经济学领域中测度社会收入分配差异程度的统计指标,如变异系数、泰尔系数、基尼系数等。公式法虽然能够反映期刊主题的均衡与集中程度,但也存在指标取值带有主观性、计算复杂、结果不够直观等问题。为此,本研究采用曲线拟合的方法研究期刊关键词的分布特征。

曲线拟合是以连续曲线近似地刻画平面上离散点对应坐标之间的函数关系,并用解析表达式表征离散数据的一种方法。曲线拟合方法的原理简单、操作方便,能够直观、形象地反映复杂数据的总体特征,在工程设计、科学实验中得到广泛的应用。在实际问题中,当根据专业知识或观测数据特点不能确定哪种曲线模型最接近样本数据时,曲线拟合是一种较好的选择。首先,根据实际问题的特点选择几种常见的曲线模型;其次,根据显示出的统计量R2值评估选取曲线模型的效果,通常选择R2值最大的模型作为首选的曲线模型。

通过统计多种学术期刊的关键词发现,一些关键词出现的频次相当高,是期刊的核心关键词,但这类关键词的数量较少;随着关键词出现频次的降低,其数量越来越多,呈长尾分布。这种分布特征与负幂函数曲线的特征极为相似。

幂函数的一般形式是y=kxα,α为幂函数的指数,当α<0时,为负幂函数,负幂函数具有以下性质:图像在区间(0,+)上是递减函数;自变量趋近+时,函数值趋近0;α越小,函数曲线左侧凹陷程度越大(图1)。k为幂函数的系数,表征幂函数值的放大程度。

图1 负幂函数随指数α变化的趋势

本研究将采用幂函数曲线拟合学术期刊关键词的分布特征,并分析拟合方程的参数(包括指数α、系数k)与期刊学术质量的关系。

2 实证研究

2.1 数据来源与处理

本研究数据来源于中国知网(China National Knowledge Infrastructure, CNKI)数据库,为方便对比实验,从中选取我国情报学领域具有代表性的11种核心期刊(包括10种CSSCI来源期刊和1种CSCD来源期刊)和4种普通期刊。分别检索上述15种期刊所刊载的学术文献,时间设定为2013年3月—2018年2月,检索结果见表1。

表1 15种样本期刊列表(按期刊发文量由低到高排列)

注:《数据分析与知识发现》于2017年由《现代图书情报技术》更名而来;《科技情报开发与经济》于2016年更名为《图书情报导刊》。

首先,利用数目共现分析系统BICOMB 2.0分别提取15种情报学期刊5年内刊载文献的关键词,形成词-篇矩阵;其次,在Excel中统计各期刊相同关键词的词频,以获取5年内每种期刊所涉及的关键词数量及出现的频次,由于频次≤2的关键词对期刊主题贡献不大,也不影响期刊关键词分布的曲线拟合结果,为此,选取词频≥3的关键词(不区分“期刊关键词”的重要性,均等同看待);最后,将选取的关键词导入Excel中,建立关键词序列和关键词出现频次的二维数组,并将每种期刊的关键词按词频由高到低排序,以备曲线拟合之用。

2.2 期刊关键词分布曲线拟合

以每种期刊关键词序列为横坐标,期刊关键词频次为纵坐标,从Excel中插入散点图,在散点图上添加趋势线,选择曲线拟合的函数形式,根据显示的R2值确定拟合函数形式。R2值是取值范围在0~1之间的数值,趋势线的R2值越接近1,曲线拟合程度越高,趋势线的可靠性越高,反之,可靠性越低。实验发现,利用幂函数拟合,期刊关键词的负幂函数分布对应的R2值多在0.9以上,仅有《图书情报知识》的R2值为0.8588,可见,期刊关键词呈典型的负幂函数分布。15种期刊的负幂函数分布曲线见图2。

图2 15种期刊关键词的负幂函数分布曲线

表2所示为曲线拟合时获得的各期刊关键词分布的负幂函数方程及其参数(方程的指数和系数),表2中数值按幂函数指数由大到小排序。

2.3 结果分析

(1)负幂函数方程的参数与期刊学术质量评价指标的相关性。为说明表2中负幂函数方程的参数与期刊学术质量的关系,将其与经典的期刊评价指标、现有的效果较好的评价指标进行相关分析。本研究选择的对比指标为期刊影响因子和文献[1]给出的期刊学术影响力综合评价值。影响因子是期刊评价中最具代表性的经典指标,是国际上通用的期刊学术水平测度指标[13],这里的影响因子是从CNKI中的期刊“评价信息”中获取;文献[1]的综合评价值则充分考虑了学术期刊评价指标间的相关性,是将社会网络分析和密度算子相结合得出的学术期刊评价模型,通过对图书情报学学术期刊进行评价,得出该方法是切实可行的学术期刊综合评价法。15种期刊的影响因子、综合评价值见表2。因为负幂函数的指数、系数以及其他指标对应的量值差异较大,所以先对数据进行归一化处理,之后导入SPSS 22.0软件进行相关性分析,相关性分析的结果如表3所示。

表2 15种期刊对应的幂函数方程、方程参数及其与参考评价指标的对比

表3 负幂函数方程的参数与其他指标、关键词总量的相关性

注:**表示在0.01水平(双侧)上显著相关;*表示在0.05水平(双侧)上显著相关。

由表3可知,负幂函数方程的指数与影响因子、综合评价值的相关性显著,相关系数分别为0.741、0.668;方程的系数与影响因子、综合评价值也有一定的相关性,相关系数分别为0.738、0.512。这与负幂函数方程的指数与系数之间具有较高的相关性(相关系数为0.926)一致。影响因子与综合评价值的相关性略高,相关系数为0.788,这与影响因子是综合评价指标中的一个子指标有关。负幂函数方程的参数是在期刊主题内容层面考察期刊的学术水平,而影响因子是从期刊文献的被引用程度来衡量期刊的学术影响力,综合评价值则综合考虑了期刊影响因子、期刊文献的引用半衰期、被引半衰期、基金论文比、引用期刊数、下载量、Web即年下载率等因素,全面衡量期刊的学术质量。可见,三者是从期刊不同的层面来评价期刊的学术质量,所以它们之间的相关系数(在0.73~0.8之间)不是很高。鉴于影响因子已被广泛接受,其综合评价的有效性已被证明,根据负幂函数方程的参数与影响因子、综合评价值具有显著的相关性,可以确定反映期刊关键词分布的负幂函数方程的参数与期刊学术质量有密切的关联。

(2) 负幂函数方程的参数与期刊学术质量的关系。分析图2中期刊关键词分布曲线,结合表2的幂函数方程,发现幂函数方程的指数越大,系数越小,期刊关键词分布曲线越平缓,说明这些期刊关键词虽然呈递减分布,但却相对均衡。在15种期刊中,《情报学报》(方程指数为-0.362,系数为10.582)、《情报资料工作》(方程指数为-0.405,系数为11.897)、《图书情报知识》(方程指数为-0.458,系数为12.222)的幂函数指数值位居前三,系数则居于后三位。相反,幂函数方程的指数越小,系数越大,期刊关键词分布曲线左侧越陡,曲线下降越快,说明这些期刊关键词分布越不均衡,主要集中于少数关键词。《科技情报开发与经济》(方程指数为-0.729,系数为362.93)、《情报探索》(方程指数为-0.739,系数为229.34)、《大学图书情报学刊》(方程指数为-0.759,系数为124.89)、《农业图书情报学刊》(方程指数为-0.777,系数为405.79)等期刊按幂函数指数排在后面,按系数却排在前面。学术期刊一般都有自己的办刊宗旨和栏目设置,栏目设置又具有一定的稳定性和连续性,学术期刊应该围绕栏目设置来录用稿件,并且在每个主题上都应有一定的刊文量。因此,合理的期刊关键词分布应是按幂函数规律均衡递减分布,而不是少数关键词频次巨高、其他关键词频次骤减的非均衡分布。上述期刊中,前者均属于我国情报学核心期刊(CSSCI来源期刊),后者均属于非核心期刊,这证明负幂函数的参数可以反映期刊的学术质量,一般来说,负幂函数方程的指数越大,系数越小,期刊的学术质量越高。

(3) 期刊幂函数方程的系数与期刊关键词数量的关系。由表3的相关分析结果可知,幂函数方程的系数与频次≥3的关键词总量具有较高的相关性,相关系数为0.900。总体来看,期刊关键词越多,幂函数系数越大。因此,幂函数方程不仅能够反映期刊关键词分布均衡与否,还能够反映学术期刊关键词的数量规模。从表2可以看出,《情报学报》《图书情报知识》《情报资料工作》3种期刊的幂函数系数最小,对应的频次≥3的关键词也最少,《情报学报》有45个,《图书情报知识》有32个,《情报资料工作》有35个,这3种期刊的频次≥3的关键词数量在所有期刊中最低;而表2中幂函数系数最大的两种期刊是《科技情报开发与经济》和《农业图书情报学刊》,其频次≥3的关键词分别有791个和651个,在所有期刊中,这两种期刊的影响因子最低,分别为0.147和0.362。在同一学科领域内,不同的学术期刊可能具有不同的刊载特点,综合性期刊涉及大量主题,专业化期刊侧重于少数主题[13]。本实验选取的是“图书情报文献学”下的“情报学”这一较小学科领域的样本期刊,属于专业性较强的期刊。对于专业性较强的期刊而言,如果涉及的关键词很多,而且关键词的频次又不均衡,则说明期刊刊文主题繁多,注重规模发展,忽视发文质量,往往会偏离其办刊宗旨。可见,对于出版周期相同的期刊而言,期刊关键词的规模与期刊学术质量具有较高的相关性,进一步说明期刊幂函数方程的系数与期刊学术质量有正相关关系。

3 结语

目前,已有不少专家学者利用不同的方法研究学术期刊质量,本研究与前人研究的不同点在于从拟合曲线和拟合方程的角度来评价期刊的学术质量。实证研究表明,学术期刊关键词呈典型的负幂函数分布。通过分析期刊关键词分布的负幂函数方程,发现其参数与影响因子、综合评价值之间具有显著的相关性,因而确定期刊关键词分布的负幂函数方程的参数与期刊学术质量有关,可将其纳入评估期刊学术质量的指标体系中。

目前,学术期刊的评价方法众多,但涉及期刊主题内容的评价方法很少,山东大学刘京希教授曾经呼吁“尊重学术期刊发展生态规律的评价体系应当是内容评价而不是形式评价”[14],从期刊主题内容层面分析期刊的影响力更为合理、重要[11]。本文的实证研究部分仅是从期刊关键词层面评价期刊学术质量的一种浅显尝试,希望本研究结论能为同行深入开展基于主题内容的期刊学术质量评价提供借鉴。

需要说明的是:《图书情报工作》在“图书馆、情报与文献学”CSSCI排名中多年稳居第2,是图书情报学中有较高影响力的期刊,但若根据本研究幂函数方程的参数来评价,在15种期刊中仅排在第5位。原因可能是《图书情报工作》属于两栖期刊,既刊登情报学主题的文献,也有图书馆学主题的文献;而且该刊的出版周期最短,是15种样本期刊中仅有的半月刊,刊文量大,主题内容丰富多样,致使其幂函数拟合曲线有相对较大的凹陷,幂函数指数相对较低、系数较高。因此,期刊关键词分布幂函数拟合曲线仅仅是从期刊关键词分布规律这一维度反映期刊的学术水平和影响力,如果全面、客观、公正地评价学术期刊的质量和影响力,需要考虑多维综合评价指标。相信随着期刊主题内容在期刊多维评价指标中地位的确立和提升,期刊学术影响力的评价结果将会更加科学、合理。

猜你喜欢
幂函数曲线拟合学术期刊
2020年百种中国杰出学术期刊获奖证明
我刊获评四川省社会科学优秀学术期刊
幂函数、指数函数、对数函数(2)
幂函数、指数函数、对数函数(1)
我刊获评四川省社会科学优秀学术期刊
不同阶曲线拟合扰动场对下平流层重力波气候特征影响研究*
幂函数、指数函数、对数函数(1)
基于MATLAB 和1stOpt 的非线性曲线拟合比较
浅谈Lingo 软件求解非线性曲线拟合
曲线拟合的方法