编委对期刊研究主题的影响研究

2024-04-14 13:33余颖罗奕初石进李明
现代情报 2024年4期
关键词:编委重合发文

余颖 罗奕初 石进 李明

关键词:期刊编委;学术期刊;研究主题;信息科学领域;学术影响力;主题分布;Word2Vec

学术期刊是学术领域前沿智慧和理论创新表达的重要载体之一,是学术话语权的重要传播载体。学术期刊的编委会成员通常由该学科具有较高科研产出和学术影响力的学者组成,期刊编委作为学术期刊的守门人对期刊的发展起着十分重要的作用,不仅代表着期刊的学术声誉,对期刊的办刊宗旨、发文特征和学科导向有着不可忽视的作用。与此同日寸,期刊编委对文章的同行评议以及发表与否起着决定性作用,从科研产出端决定着学术影响力。

期刊及其编委会成员在学科领域中掌握着学术话语权,对期刊和在科研产出过程中发挥重要作用的编委进行研究是必要的。学界对编委的重要作用和影响力逐渐形成一种共识,但是更多地在讨论审稿流程中编委发挥的作用,从研究主题层面探究编委对期刊的影响与贡献的文章较少,因此,本研究从研究主题出发,展开研究期刊编委对期刊主题的引导作用,以期揭示期刊编委对期刊研究主题层面的影响特征,深入挖掘期刊编委的学术引导能力,为我国完善建设编委制度提供参考。

1相关研究

学术编委是从众多学者中筛选得出具有一定学术影响力和学术创新力的学术群体,能够准确把握研究领域的发展方向,推动学科发展。目前已有许多研究讨论期刊编委对国家和机构的影响力。Zsin-dely S等发现不同国家的期刊编委数量与各国家的期刊数量存在显著相关性,并主张使用国际期刊编委参与度作为新的科学度量指标。Wang X使用分位数回归模型探究计算机科学领域期刊编委与科研成果的关系,研究发现编委会成员数量与所在大学的研究产出数量和影响力呈正相关关系。BraunT等利用期刊编委数据对高校的学术影响力进行评价。卢小莉等考虑期刊等级、编委等级、编委规模等多个维度构建期刊编委指数,认为编委的学术表现能够反映科研机构的学术影响力。

编委与期刊是相辅相成的,具有学术影响力的编委有助于提升期刊的知名度和影响力,同时担任期刊编委也为编委在期刊中发表学术观点提供了更加便利的平台。Mazov N A等发现编委会成员的文献计量指标与期刊的文献计量指标存在相关性。Xie Y D等构建编委团队学术指数,发现该指数与期刊声誉存在显著的正相关关系。Jessica P等将编委团队特征与期刊影响力联系起来,发现编委团队的科学成就比团队多样性更加重要。Zhang T J等探究作者一编委合作模式发现编委的参与对作者出版有很强的正向影响。Xu S等从出版延迟的角度挖掘编委与非编委作者的发文差异,发现编委出版物出版速度更快,比非编委作者有更高的引用次数。

近年来逐渐有学者从研究内容的角度探究期刊编委的影响。张丽华等通过比较期刊编委数据集和非编委论文数据集中重复前沿所占比例判断编委和非编委作者探测研究前沿的能力,研究发现大多数情况下期刊编委比非编委作者较早探测到同一个研究前沿。蔡程瑞利用可视化方法绘制期刊编委知识图谱,对比分析得到编委通过学科相关理论逐渐吸纳新的研究主题,从而引领学科发展。赵宇翔等通过比较图情领域国际一流期刊JASISIT和IP&M编委团队变化前后,所在期刊的主题演化和影响因子等发文特征变化进行分析,认为编委团队变化对期刊的发展有显著作用。

综上所述,已经有许多学者研究了期刊编委对期刊影响因子、论文影响力的影响,编委对期刊的研究主题会产生影响逐渐成为一种共识,但是编委如何对期刊研究主题产生影响,产生了什么样的影响?因此本文基于文献关键词,使用Word2Vec模型和Kmeans聚类方法对期刊收录文章的发文主题进行提取,探究期刊编委对期刊的主题影响情况。

2研究思路与方法

2.1研究思路

论文关键词是研究成果的高度概括性表达,体现了研究成果核心思想或主要内容.学者发表的论文是其研究兴趣和研究方向所在,学术论文的关键词是对论文内容的高度概括,因此学者的研究兴趣可以通过其发表论文的关键词集合进行表征,期刊的高频关键词集合能够体现期刊的研究目标和研究方向。

因此本文基于期刊收录文章的关键词,将数据集划分为编委数据集和非编委数据集,经过数据清洗和预处理后比较两个数据集,观察不同期刊的主题聚合程度,挖掘期刊的研究主题差异。然后使用文章标题、摘要和关键词信息训练Word2Vec词向量模型,对关键词进行向量化处理。针对向量化处理后的关键词集,通过手肘法确定最佳主题聚类数,进行Kmeans聚类得到文献之间的内部语义联系,得出各期刊的发文主题分布情况,分析期刊编委群体的主题分布特征,探索期刊编委对期刊的主题影响情况。

3.2研究方法

主题演化是图情领域十分重要的研究方法之一,能够帮助学者了解学科内的主题变化趋势,识别出学科内的研究热点,常用的方法包括关键词词频统计、共词分析、知识图谱等。随着自然语言处理的发展,逐渐开始采用LDA、Word2vec等主题聚类的方法识别学科主题,对文献和主题语义进行匹配,分析文献主题的动态演化路径。基于共现方法获得的研究主题较为笼统,但是可以获得研究主题之间的关系,而主题聚类获得的研究主题力度更小更具体,主题更加细分,因此本文使用Word2Vec词向量模型从更细粒度挖掘期刊主题。

Word2Vec词向量模型是Google在2013年开发的词向量训练工具,能够解决单词的分布编码问题,把文本信息从非结构化形式转化为向量化形式,生成的词向量和语义相关,并且更关注上下文逻辑,使得相关或者相似词语在距离上更加接近。Word2Vec模型包括输入层、隐藏层和输出层,模型框架根据输入输出的不同主要包括CBOW和Skip-gram模型如图1所示,其中w(t)为目标词,模型构建N维词向量,根據上下文输入训练得到各层之间的系数矩阵,进而得到隐藏层词向量。

CBOW模型将词语的上下文作为输入预测词语本身,Skip-gram模型将词语作为输入预测词语的上下文,本文输入文章关键词进行聚类,故采用Skip-gram网络结构。将每本期刊2017-2021年刊载论文的题目、关键词、摘要作为语料训练Word2Vec模型,利用训练好的模型获取每个关键词的词向量,为了避免关键词个数造成的影响,取每篇文献关键词词向量的平均值作为该文献的向量化结果。

Kmeans聚类算法根据距离对类簇进行划分,数据对象距离越近相似度越高,从而将相对距离较近的数据对象划分为同一类簇,这一聚类方法实现过程简单并且能够有效处理大规模数据。因此本文采用手肘法确定最佳主题聚类数,通过Kmeans聚类对向量化结果进行分类,聚类结果能够反映期刊收录文章的主题类型,从主题分布的角度进一步探究期刊编委对期刊主题的影响。

3研究流程和结果

3.1数据来源与处理

本文以WOS引文数据报告中信息科学IS&LS门类影响因子前10的期刊作为样本期刊,为保证有足够的训练样本,剔除了5年内论文总数低于200篇的期刊得到《International Journal of Information Man-agement》《Journal of Knowledge Management》《Jour-nal of Management Information Systems》《Information&Management》《Information Systems Journal》《Gov-ernment Information Quarterly》這6本期刊(下文分别称为期刊1~6)。在Web of Science网站中以期刊名为检索词,检索时间范围设置为2017年1月1日-2021年12月31日,下载各期刊在该时间范围内收录文章的题录信息。

本文涉及的数据清洗主要包括剔除关键词为空的文章和筛选编委所著文章。本文从关键词的角度出发对期刊的载文特征展开研究,使用文章标题、摘要和关键词作为语料进行模型的训练,为了保证后续分词过程顺利,避免英文单词大小写造成的词向量误差,因此在数据清洗过程中将文本内容统一处理为英文小写,并去除摘要或关键词为空的数据。本研究以期刊为基本单位探究期刊编委的发文影响,在筛选编委所著论文时,根据各期刊官方网站Editorial Board栏提供的编委名单在数据集中进行检索筛选,将数据集分为编委数据集和非编委数据集,筛选编委数据集时包括编委独著和合著署名的所有文章。

3.2发文主题挖掘

关键词集合中能够挖掘期刊研究主题,从编委发文占比和关键词重合度两个特征把握编委发文的整体特征,对不同的关键词集合进行比较分析,挖掘期刊的整体研究内容。

以编委2017-2021年在期刊发表文章的关键词构建编委关键词集,与同期刊非编委作者发表的文章进行比较得到关键词重合度。根据期刊官网提供的编委名单筛选出数据集内编委所著文章,编委发文数与总文章数量的比值计算得到编委发文占比。每本期刊的编委发文占比和关键词重合情况如表1所示。

从表1能够发现所选期刊编委发文占比普遍较高,除期刊2收录编委文章较少仅占6.24%以外,其他期刊编委文章均占据较高的比例,期刊3编委发文占比高达27.55%。比较不同期刊的编委发文比例和关键词重合程度能够发现,编委发文量高的期刊,重合的关键词不一定达到同等水平,如期刊2编委发文占比仅占6.24%,其关键词重合度高达21.62%:期刊5编委发文占比为21.32%,但是重合关键词仅占总关键词的9.65%,说明期刊中编委发文占比与关键词重合度不存在必然联系。

关键词是论文主题凝练的规范性表达,使用相同关键词的文章在研究主题上会更加相似,如果论文的关键词与编委发表文章使用的关键词一致,说明该论文与编委的研究主题相关。因此本文构建编委关键词集,得出每本期刊的关键词重合情况如图2所示。

进一步探究图2所示高频重合关键词,能够发现期刊1、期刊2、期刊6的关键词重合程度较强,重合频次峰值较高,表明这几本期刊收录文章使用的关键词聚集性更强,主题相关度较高。期刊3、期刊4和期刊5关键词聚合程度较低,可能原因是这几本期刊的研究粒度较小,考虑了相关研究的多场景应用,对知识技术进行了拓展和迁移,导致关键词分布并不集中,重合关键词体现的概念词汇和理论方法起辅助作用,如期刊5主要研究内容为信息系统和信息技术,但是研究和讨论的内容主要是系统建设中的问题和技术应用的场景,呈现出来的关键词包括数字平台、技术压力、软件开发等,因此关键词分布分散,聚合度较低。

研究主题由一组相互关联的词汇组成,关键词本身具有较强的学术规范性,关键词集合能够直接概括地代表期刊的研究主题。对各期刊编委和整本期刊的高频关键词进行对比分析,得到各期刊的关键词集合如表2所示。

由表2能够看出不同期刊的研究方向有所差异,这些差异在高频关键词上均有体现:众多期刊收录的文章都对社交媒体展开了研究,但是研究的侧重点有很大的差异。如期刊1对大数据、文本挖掘、人工智能和区块链等技术研究十分关注,尤其对新冠肺炎疫情造成的影响变化赋予了很高的关注:期刊3对虚假信息、在线社区等社交行为更加关注;期刊4发表的论文侧重于商业分析与商业价值挖掘:期刊5则倾向于数字平台构建相关的研究。部分期刊的研究内容联系紧密,如期刊2专注于对知识组织挖掘相关主题展开研究,主要研究内容聚焦于知识管理、知识转移和知识共享等方向;期刊6的研究集中于政务电子化,对数字政府、政务数据、智慧城市展开了广泛研究。

比较编委和期刊高频关键词能够发现,编委和期刊的研究主题在整体上保持一致,但是也存在着差异,主要体现在期刊1和期刊5中。期刊1中编委除了对社交媒体、机器学习、人工智能等主流内容研究以外,编委Niki Panteli对虚拟团队的领导力、创新力展开了研究,Ioanna Constantiou、Yan-qing Duan等编委深入讨论了新冠肺炎疫情影响下的电子化转型实践问题。期刊5中编委团队与期刊收录文章的研究主题呈现出了较大的差别,期刊收录文章收录的关键词显示该期刊对数字平台构建的关注,对数字平台、数字创业、软件开发以及社会化媒体展开了讨论,但是编委团队研究内容较为分散:主编Robert M.Davison对行动研究感兴趣,编委Ravishankar M N和Sutirtha Chatterjee对金融科技的发展、金融科技与信息系统的融合进行了研究,编委Stan Karanasios注重新冠肺炎疫情背景下的信息系统应用研究。与此同时,本文查阅了各期刊官网。Aim and Scope”栏提出的期刊研究目标,比较发现期刊收录文章研究主题、编委研究方向与期刊的研究目标保持着一致,包括关键词统计结果十分分散的期刊5,虽然期刊5编委和期刊的关键词差别较大,但是研究总体都是从信息系统、信息技术进行延伸。

3.3发文主题分布

学术文献的影响力与学科领域、研究主题密切相关,研究主题逐渐被纳入文献影响力评价体系之中,通过研究主题挖掘能够揭示信息科学领域一流期刊的整体研究方向,但是缺乏对各期刊内主题分布趋势的把握。因此本文使用Word2Vec模型对关键词做向量化处理,并使用Kmeans方法进行聚类,从主题分布结果分析编委对期刊的影响。

将每本期刊的摘要、标题和关键词信息作为语料库训练模型,利用训练好的模型计算关键词对应的词向量结果,取每篇文献关键词词向量的平均值作为文章的词向量,进行Kmeans聚类后得到每篇文章的研究类别。以期刊为单位,能够得到期刊中不同主题类型分布的变化趋势,为避免不同刊期发文数量差异造成的影响,以刊期为横坐标,该主题类型发文数量在该刊期发文数量占比为纵坐标绘制主题分布图。本文选取编委发文占比与关键词重合度居于相同水平的两本期刊1、期刊6.和编委发文占比与关键词重合度呈负相关水平的两本期刊2、期刊5,对这4本期刊的主题分布情况进行比较分析,探究编委发文主题对期刊研究主题的影响。

图3反映了期刊1在2017-2021年期刊主题的变化趋势,对主题分布图分析发现该期刊主题2和主题3的讨论更为广泛,主题2讨论度缓慢下降,主题3讨论度逐渐上升。随着时间的推移,主题4的讨论度呈现先上升后下降的趋势,主题1近几年文章发表数量明显增长,讨论度逐渐增加。

为进一步探究编委的发文影响,对编委和非编委在不同刊期的主题分布情况进行分析,绘制主题分布图如图4所示。由下图能够明显看出期刊1编委和非编委在不同主题的发文趋势具有较强的相关性,编委在特定主题发文量明显增加后,非编委在对应主题发文出现明显上升趋势,在图中呈现交叉上升趋势:也有部分情况下编委和非编委在同一主题下发文占比同时增加,表明编委大部分时间对研究主题的敏感度高于非编委作者,对期刊的研究主题分布具有引导作用。

对编委发文占比和关键词重合度同样较高的期刊6进行同样的分析,绘制主题分布图如图5和图6所示。期刊6对主题2关注度较低,主题1-直保持着较高的讨论热度,主题3和主题4的发文水平保持稳定。观察期刊6编委与非编委主题分布情况能够发现大多数情况下编委与非编委对主题的关注度呈现同步上升趋势,对应主题的发文量出现同步上升或下降趋势。

对编委发文和关键词重合度同样高的期刊1和期刊6分析发现,编委对主题的敏感程度普遍早于非编委,并且会影响期刊对该主题的文章收录情况。接下来本文对编委发文占比与关键词重合水平不一致的期刊2和期刊5进行比较分析。

由图7可得,期刊2对主题1、主题2和主题3的讨论更为广泛,其中主题1讨论度逐年上升,主题4讨论度逐年下降。期刊4对两个主题的讨论此起彼落,主题2在2017-2019年发文占比逐年增长,在2019-2021年逐渐回落,主题1呈现出相反的趋势。

期刊2-年仅一刊变化趋势不明显,从编委非编委主题分布图来看,期刊2中除主题2和主题3中编委与非编委对主题的关注度呈现出了不同的表现趋势,对其他主题的关注趋势基本保持一致。从期刊5的主题分布趋势来看,学者们对主题2行动研究、数字平台、金融科技等主题一直保持着高关注度。主题1的研究热度在2017-2019年逐年消退,直到2019年编委在热度渐低的主题1集中性的发文,吸引了其他作者的关注,使得该主题有扩张趋势,推动主题1的讨论热度达到新的高峰。

通过上述研究能够发现,对于较为新颖的主题,编委对主题的关注会影响整本期刊对该主题的关注水平;对于热度比较稳定的主题,编委和非编委的关注水平不具有明显的相关关系。与此同时,关键词重合度和编委的参与度不存在必然联系,而是与期刊主题聚合度相关,编委参与度低的期刊中,编委自身发文对期刊主题影响十分有限,期刊研究主题聚合度较高使得关键词重合水平较高:编委参与度高的期刊,编委关注度高的主题能够吸引更多的学者进行研究,但是期刊主题的聚合程度较低会导致关键词重合度较低。

3.4格兰杰因果检验

上述分析從定性角度揭示了编委发文和期刊文章的相关关系,在此基础上用格兰杰因果检验进一步从定量角度分析它们之间的影响机制。格兰杰因果检验源于计量经济学领域,现也逐渐应用于信息计量学领域,是一种用于判断两个时间序列之间是否存在因果关系的统计方法,进行格兰杰因果检验的前提条件是时间序列必须具有稳定性。对期刊编委和非编委在不同主题的发文占比进行平稳性检验,检验结果如表3所示,样本时间序列数据通过平稳性检验,少数主题由于编委发文较少未通过平稳性检验。对满足序列平稳条件的期刊和主题进行格兰杰因果检验,检验结果如表4所示,由于期刊2因数据量太少缺乏置信度故不进行检验。

检验结果显示,期刊编委的发文与期刊收录文章的主题存在因果关系,并且这一规律在选取的样本期刊中普遍存在。检验出具有因果关系的期刊主题有期刊1主题1、期刊3主题2、期刊4主题1、期刊5主题2、期刊6主题3。尽管编委对部分期刊主题对影响因果关系并不明显,但是这并不代表二者没有因果关系,可能该类主题的影响因素较多,主题各因素的影响机制较为复杂,所以难以分析编委对该类主题的影响。

对编委的影响进一步分析发现,编委并非在所有主题上对期刊收录文章主题产生影响,而是更多的在新兴主题上影响期刊收录文章主题。结合期刊主题近5年的变化趋势,观察发现通过格兰杰因果检验的期刊主题通常为期刊的新兴主题,编委在这些主题的发文对非编委作者产生了一定的影响,使得新兴主题随着时间的推移在学者中的关注度逐渐提升:然而,热门主题的编委发文量与非编委发文量因果关系并不明显,此类主题已经吸引了大量学者关注与发文,编委的发文难以助推热门主题的热度,对本身关注度高的主题影响并不显著。

就检验出因果关系的期刊主题来看,少数主题仅在滞后1期存在因果关系,可能与不同期刊的出版速度有关,出版速度较慢的期刊在响应主题上存在一定的时间滞后。大部分主题这种因果关系在滞后1期和滞后2期均存在,说明因果关系较为稳定,编委在该主题的发文不仅能够快速吸引同类主题的文章,还能维持该主题的关注力度,其影响具有即时性和延续性。

4讨论

4.1编委的主题内容影响

编委为期刊贡献了大量稿件与高水平论文,许多期刊编委发文占比超过20%。对主题挖掘结果进行分析,能够发现编委和期刊发文的关键词趋于规范,许多期刊的关键词重合度超过10%,并且高频关键词与期刊本身的研究目标高度相关,体现出了期刊和编委对主题的坚守。不同期刊的研究主题有所差异,都坚持着各自的研究目标,在不同的主题内容上为信息科学领域的研究添砖加瓦:但是各期刊在研究内容上也存在着共性,如在高频重合关键词中均出现的单词是社交媒体,充分说明信息科学研究中,无论是编委还是非编委作者都关注利用社交媒体挖掘方法对社交媒体数据进行挖掘和分析。于此同时能够发现,除了使用主流关键词围绕期刊目标进行研究,编委群体自身还在不断拓展创新研究主题,结合已有理论和技术方法对学科开展多场景应用,拓展理论研究的新方向,同时结合社会发展探究学科主题的新变化,为期刊注入了新的活力。

4.2编委的主题分布影响

以年为单位来看主题聚类情况,期刊收录文章的主题类型呈此起彼伏之势,所有主题在本研究截取的时间范围内保持着连贯性和持续性。围绕主题偏好分布进一步归纳能够发现,编委和非编委作者对所有研究主题均投入了关注和研究,但是对不同讨论热度的研究主题,编委的影响特征呈现出了不同的特点:当期刊编委在新兴主题中发文时,会吸引其他学者对该主题进行研究,使得主题关注度上升;当期刊编委在热门主题发文时,对其他学者的影响并不显著,学者们依旧遵循自己的研究路径。格兰杰因果检验的结果验证了这一想法,期刊编委在新兴主题的发文会对其他学者产生影响,促进学界对该主题的关注,这种影响具有即时性和延续性,其影响大于对热门主题的影响。

观察发现,编委群体的研究兴趣十分广泛,对各研究主题均有涉猎,编委和非编委作者都能够感知到新兴主题,但是往往编委对新兴主题有更强的捕捉能力,并更早涉足该主题的研究。编委在新兴主题上的集中发文或是持续性发文都能够提高其他作者对该领域的关注程度,对期刊的主题内容产生引导作用。综上,编委在各主题都会进行持续的研究,在热门主题发文量更高,在部分热门主题和新兴主题研究中会集中性组稿发文,从而吸引其他作者的关注,使得期刊中该主题整体讨论度上升。

5结论

期刊编委是学术群体的重要组成部分,相比其他学者有着更强的学术领导能力和学术话语权,通过研究期刊编委对期刊主题层面上的影响特征有助于更好地了解编委的学术影响力。为了探究期刊编委对期刊的主题影响,本文借助Word2Vec模型和Kmeans聚类方法探索了信息学科优秀期刊的主题分布特征,研究发现编委对新兴主题的影响高于对热门主题的影响,编委对新兴主题的集中性发文能够引导期刊的研究主题偏好發生变化,相较于非编委作者,编委也呈现出了更好的创新活力,引导学者对有价值的主题关注研究。但是本文还存在一些局限性,在探究编委对研究主题的影响时仅在期刊范围内进行了讨论,如果能够从整个学科内探讨编委对学科整体的影响,或是从某一研究主题出发探究编委对主题分化过程的促进作用,一定能对编委的学术影响力有更加深入的认识。未来可以进一步扩大研究范围,探究学科内期刊编委整个学术群体的影响特征。

猜你喜欢
编委重合发文
编委简介
编委简介
编委简介
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
本刊编委简介
校园拾趣
爷孙趣事
以牙还牙
电力系统单回线自适应重合闸的研究
考虑暂态稳定优化的自适应重合闸方法