■姚志昌 段瑞云 付继娟 沈昕威 郑雪萍 李思宇
1)中国矿业大学学报编辑部,江苏省徐州市金山东路1号 2210082)香港科技大学数学系,香港九龙清水湾 3)中国矿业大学图书馆,江苏省徐州市大学路1号 221116
国民经济和社会发展对创新的渴求需要科技期刊以提升创新能力为使命,以社会需求为导向创办精品期刊,首要任务就是不间断地发表高水平论文,提高创新效率,这不仅是因为创新效率的高低决定了自身的发展前景,而且在很大程度上影响着整个国家的创新进程[1]。期刊创新效率的高低受初审方法、评审质量、编辑水平、传播速度等因素的影响,直接体现在论文发表后的被引频次、下载次数上,间接体现在学术创新后衍生出来的社会效益上。初审作为期刊最重要的工作之一历来受到重视,国内众多学者对科技期刊初审多有论述,例如从初审原则、内容审查、真实性审查进行探讨[2-6],在如今来稿量与日俱增的情况下,审稿人尤其是知名专家面对日益增多的审稿任务往往感到难以应付,导致审稿周期过长,论文不能得到快速发表。减少审稿专家的工作量、缩短出版时间现已成为办刊人首先要面对和解决的问题,行之有效的方法就是在初审时尽可能地对论文进行全面评估,通过精准选稿来提高论文在发表后有良好表现的概率。
布拉德福的“文献离散定律”、加菲尔德的“引文分析体系”、普赖斯的“文献指数增长规律”共同构成“核心期刊”理论,为精准选稿提供了有力支撑。核心期刊是指特定学科领域内刊发较多高学术质量论文的期刊,从遴选核心期刊的两个主要指标载文量和引证情况看出:哪种期刊拥有的被引论文数量、高被引作者数量越多,哪种期刊在核心区的地位就越强,而且高被引作者对核心期刊的贡献最大。因此,精准选稿首先就是要在核心期刊已发表并表现良好的论文中找出其特征,以办刊效果突出的期刊为参照;以高被引论文独有的、共有的特征为借鉴,从中感知作者背景、科研支撑、团队合作与被引频次的相关性,由此建立客观、科学、有据的精准选稿方法。
论文发表后的大数据研究已经被推到创新、提高竞争力和工作效率的前沿,过去大部分人对大数据的理解还停留在大量数据和数据的多样性本身,而忽略了它最重要的角色之一,即帮助挖掘创新亮点与社会需求。影响因子、期刊被引量在一定程度上反映了期刊的创新效率,零被引、下载次数不高是期刊创新效率低的表现,一年一度权威部门发布的期刊引证报告和中国知网(http:∥www.cnki.net)不断更新的每一篇论文的被引频次、下载次数是我们关注并研究的大数据,这些数据具有Volume(大量)、Variety(多样)、Value(价值)、Veracity(真实)的特征,是体现办刊效果及作者创新能力、研究水平、创新效率的最好见证,关注学术创新亮点、不断向比自己更优秀的期刊学习是期刊自我提升的必经之路。通过分析这些数据可以发现:(1)结合论文数、作者h指数等指标,识别不同研究方向的代表性专家[7];(2)了解学术创新对个体的影响,做到有针对性的传播[8];(3)挖掘数据寻找影响办刊效果的关键指标[9]。如果办刊人真正理解期刊文献指标和中国知网发布的每一篇论文的引用、下载数据所透露出来的实质,把论文发表后的表现看成是期刊选稿效果的展示,也是读者对获取知识后的反馈,那么,可以从这些数据中不断挖掘读者和引用者的学习和研究需求来优选组稿方向。
期刊核心竞争力的提升战略是适应外部环境变化,通过大数据挖掘在创新方面有突出表现的人,借助他们的创新特长来提升期刊影响力的一整套战略。期刊的精品荣誉都是因发表众多高水平论文而获得的,其“超凡脱俗”的表现70%归功于有创新禀赋的作者[10],秉持“与优秀的人为伴会让自己也变得优秀”的选稿理念,提高期刊核心竞争力的重点是对期刊外部资源的有效挖掘[11],通过对期刊文献指标数据和论文引用、下载数据的挖掘,帮助办刊人发现有创新禀赋的作者和热点方向,提高论文发表后成为高被引论文的概率。精准选稿的目的就是要选出有潜力成为高被引的论文,助力期刊提高创新效率,让刊发的每一篇论文都能为期刊“提质增效”。
引用期刊层次、被引量是评价已发表论文是否出色的重要指标,本文以“中国精品科技期刊”(以下简称“精品期刊”)为切入点,以2012—2018年能源领域代表性期刊的F5000入选论文为研究样本,分析F5000入选论文所具有的特征及背景,为实现精准选稿提供参考。
精品期刊是中国科学技术信息研究所(以下简称“中信所”)每3年根据中国科技期刊综合评价指标体系,利用主要学术指标通过隶属度转换,采用层次分析法由专家打分确定重要指标的权重,分学科对中国科技论文与引文数据库(Chinese Science and Technology Paper Citation Database,CSTPCD)收录的每种期刊科学计量指标进行综合评定而遴选出来的优秀期刊。2017年中信所从115个学科分类、2008种核心期刊中遴选出300种 “中国精品科技期刊”,这些期刊是各学科分类中综合评价总分排名居前者,也是核心期刊中的佼佼者,将目光聚焦在精品期刊上,就是要从这些精品期刊的F5000入选论文中挖掘亮点,不断提高选稿水平,让不是精品期刊的期刊争取跨入精品期刊行列,已是精品期刊的进入精品期刊前列。
2012—2018年以来中信所共提名22546篇论文入选F5000。从遴选过程来看,入选F5000的论文有以下特点[12]:(1)出自于精品期刊;(2)被引频次高于该学科类别年度的高被引论文的基准线;(3)任何一种期刊择优入选篇数限定为20篇。由此可知,入选F5000的每篇论文都因其特有的创新性而被引用借鉴,从高被引能体现论文可信度和权威性来看,他们是我国精品期刊上发表的原创性科学发现和技术创新最有影响力的研究成果,基本上代表了中文科技论文在各学科领域的学术水平。对中信所而言,F5000入选论文是精品期刊中优秀论文的代表;对办刊人而言, F5000入选论文是精准选稿的结果。近年来F5000入选论文受到国内学者广泛关注,相继有对F5000入选论文进行文献计量学研究的文章发表[13-15],但综合作者被引情况、将F5000入选论文数量等大数据用以指导精准选稿的方法报道不多,尤其是对能源领域期刊及F5000入选论文缺少分析。能源在国民经济中的地位非同一般,况且能源领域F5000入选论文众多、精品期刊数量庞大,以此为研究对象分析得出的结果受益面广。
从F5000展示平台(http:∥f5000.istic.ac.cn/f5000/index)选取“石油天然气工程类”期刊6种、“矿山工程技术类”期刊3种、“能源科学综合类”期刊3种,共计12种能源领域期刊。将这12种期刊2012—2018年入选F5000的论文数量进行统计(图1),参照2013—2017年中国各学科Top1%高被引论文基准线(表1)[16],根据其年度入选论文数量的变化,了解其深层次原因。
2012—2017年F5000展示平台显示入选F5000论文数量(不含编辑部推荐)排序为:《煤炭学报》96篇;《石油勘探与开发》88篇;《天然气工业》79篇;《石油学报》76篇;《石油天然气地质》38篇;《中国矿业大学学报》46篇;《燃料化学学报》55篇;《石油化工》21篇;《采矿与安全工程学报》22篇;《太阳能学报》10篇;《中国石油大学学报》5篇;《矿物学报》1篇。从图1可以看出:(1)石油天然气工程类期刊入选F5000论文数量最多,矿山工程技术类入选F5000论文数量最少。(2)各期刊不同年度入选F5000论文数量出现波动,2012—2013年有些期刊的波动与中信所2013年提名论文Excel表和2012年提名论文的Excel表中作者重复有关,但2013年以后入选F5000的论文数量基本反映了期刊的办刊效果;有些期刊在2017年未能入选“中国精品科技期刊”,导致入选F5000论文数量为0。(3)虽然不同学科的年度高被引论文基准线(表1)存在差异,总体上学会、科研院所主办期刊入选F5000论文数量高于高校主办期刊入选F5000论文数量。
图1 2012—2018年能源领域12种期刊F5000入选论文数量变化
表1 2013—2017年中国各学科Top1%高被引论文基准线
从F5000展示平台(http:∥f5000.istic.ac.cn/f5000/search)上检索出2012—2017年中信所提名的能源领域F5000论文数量排名居前的期刊、作者及作为第一单位产出的全部F5000论文数量(表2)。从表2可以看出:(1)人才汇集的高校是产出数量众多F5000论文的地方,但高校主办期刊进入能源领域F5000论文数量排名前10的期刊仅有3种;(2)F5000入选论文数量(不含期刊推荐)排名前10的作者(含并列)中都是正高级专家,其中有8位是院士,排名榜前3位的邹才能于2017年当选中国科学院院士、康红普于2015年当选中国工程院院士、赵文智于2013年当选中国工程院院士,这与他们在科研上取得突出成就支撑其撰写出高水平论文分不开。F5000入选论文数量与通过中国知网查询的2007—2017年每位作者发表的论文总量(表2)之比折射出作者在研究领域的高屋建瓴及“领跑者”地位,作者论文发表频率、创新效率也可见一斑。虽然F5000入选论文4篇及以上(不含期刊推荐)的作者人数不多,但其入选F5000的论文数量已充分展现了作者在学科领域里的引领力、辐射力,这一切都与他们独具的创新禀赋密切相关,从论文入选F5000的难度上看,精准选稿的工作就是要选准创新禀赋突出的作者,而且选准作者比选准方向更为重要,这是因为具有创新禀赋的作者自己就具备引领创新方向的能力。
中信所划分的矿山工程类、能源综合类的期刊大多属矿业领域期刊,有必要对矿山工程技术类F5000入选论文的第一作者职称、单位、基金资助情况(表3)进行统计分析,然后与矿业领域入选F5000论文2篇以上的第一作者及作者h指数、作者单位、发表期刊(表4)进行对比,找出原因所在。
从表3可以看出:作者为正高级职称和博士研究生的入选F5000论文数量较多;《中国矿业大学学报》《采矿与安全工程学报》都是中国矿业大学主办、Ei Compendex收录的双月刊,《中国矿业大学学报》的本校稿件入选率为47.17%,《采矿与安全工程学报》的本校稿件入选率为65.39%,在吸引本校作者投稿方面,《采矿与安全工程学报》做得比较好,《中国矿业大学学报》在吸引校外投稿方面比《采矿与安全工程学报》有优势;入选F5000的论文基本上都有基金项目资助,从资助类别来看,国家级资助项目占比很大,充足的资金来源对高水平成果产出尤为重要。
表2 2012—2017年中信所提名的能源领域F5000入选论文数量排位居前的期刊、作者和单位
注:小括号内的数字为该作者2007—2017年在http:∥www.cnki.net上收录文章数量。
表3 2012—2018年矿山工程技术类期刊F5000入选论文背景
注:《中国矿业大学学报》的F5000入选论文第一作者中有一位为硕士研究生,《采矿与安全工程学报》的F5000入选论文中有一篇论文没有基金资助,因此未将这2篇论文列入表3中。
表4为矿业类F5000入选论文数量超过2篇(不含期刊推荐)的作者统计结果。可以看出:(1)在数量上,中国矿业大学、中国矿业大学(北京)作为“双一流”高校,是F5000论文产出最多的高校,煤炭科学研究总院紧随其后,说明优势学科支撑、良好的实验条件对孵化出高水平论文至关重要。(2)许多第一作者的入选F5000论文发表在不同的期刊,尽管这些论文出自不同期刊,但作者发表的论文入选F5000这件事本身就体现出该论文对他人的借鉴价值。同一作者的F5000入选论文来自不同的期刊,既反映了期刊之间存在影响力、竞争力上的差距,又为期刊编辑了解自身不足,改进选稿思路与习惯,有利于今后约稿、组稿能力的提升。(3)在矿业领域,6年内入选F5000论文数量超过3篇(不含期刊推荐)、h指数超过40的第一作者当选院士的概率最大,由此可见入选F5000的论文数量与作者h指数一起,可以作为衡量作者学术创新能力及论文质量的标尺。(4)表4中单独作者的论文有15篇(其中11篇来自院士),占F5000入选论文总数(79篇)的18.99%,这既体现了单独作者引领创新的独特魅力,又反映了科研团队对产出F5000论文相互协作与贡献。论文入选F5000(不含期刊推荐)表明其创新性和学术质量已被中信所认可,F5000入选论文完全可以看成是所有作者好的资质和成果的记录。
在深入了解论文入选F5000的不易后,从办刊的角度来看,应充分发挥和利用F5000入选论文作者在学术创新上的独特能力,以他们的研究成果作为精准选稿的方向,将F5000入选论文的第一作者纳入重点关注人员名单,尤其是紧盯2次及以上入选F5000论文第一作者的科研进展,主动邀请其审稿,积极向其约稿,让F5000入选论文作者独具的创新能力助力期刊学术影响力提升。
表4 2012—2017年矿业领域入选F5000论文数量超过2篇的作者统计
F5000入选论文为精品期刊的优秀代表,论文入选F5000离不开期刊责任编辑的辅助作用,编辑是论文的“发现者”“培养者”,是对论文的“再创造”[17],编辑给予作者的是让论文更完美。2012—2017年《中国矿业大学学报》入选F5000的44篇论文发表时间为2007—2016年,考虑投稿时间早于发表时间9个月以上,将投稿时间段责任编辑职称与F5000入选论文的专业方向统计列于表5中。由于《中国矿业大学学报》稿件处理采取对来稿按责任编辑主管专业进行分稿,经过责任编辑初审→专家评审→主编终审后论文得以发表,从这点来看,F5000入选论文的高被引表现主要来自作者及所在学科的优势,与责任编辑职称级别关系不大,是作者的创新禀赋起关键作用,但也不能忽视编辑对学术创新的鉴别能力。经编辑选稿到加工后发表,论文入选F5000看上去如同“伯乐相马”,要想提高期刊的F5000入选论文数量,编辑需要担当好三方面的角色:(1)导演角色,挑选有创新禀赋的作者和刊用优先方向;(2)精品设计师角色,为作者精雕细琢出“华丽”作品;(3)创新助推者角色,以社会需求为导向、以解决在科研中出现的“疑难杂症”为己任,通过辛勤劳动将创新成果挖掘并快速展示出来。
表5 2012—2017年《中国矿业大学学报》F5000入选论文的责任编辑职称、专业方向
实现精准选稿的关键在于选准作者及刊用方向,要领在于科学地设立初审尺度来遴选稿件,而这一切都需要来自期刊引证报告、作者发表论文表现等大数据的支撑。精准选稿的核心任务就是利用大数据对论文进行鉴别,以大数据作为科学遴选论文的起点、支点,在深度和广度上对研究领域、作者表现进行量化对比,辅助办刊人实现优选关键作者、优选关键题目,促进学术创新走上高质量发展的道路。
创新禀赋体现在科研创新、学术创新上,创新禀赋与论文被引量存在正相关关系,每一位论文作者都是从创新意识→科研支撑→研究成果→创新感悟→发文论述中成长起来的,鉴于创新禀赋的差异,所获得的创新成就不同,作者创新禀赋的高低决定了作者创新效率与获得成就的高低,承担重大科研项目、发表论文被引量高无不体现出创新禀赋及其独有的创造力、竞争力,而这正是精准选稿所看重的品质,况且精品期刊与非精品期刊在数量上基本符合帕累托定律(Pareto Law),对社会贡献的创新价值存在差异(图2)。F5000入选论文的作者是从精品期刊遴选出来的表现突出者,理应成为组稿的优先关注人选,邱均平等[18]认为基于某学科领域核心期刊的发文量和h指数相结合的方法,能更好地筛选出高影响力的领域专家,这与笔者“精中选优”的思路不谋而合,可以将入选F5000论文数量与作者h指数相结合,作为衡量作者创新能力及论文质量的标尺,与作者发表论文的频率、篇均被引频次、作者的学术创新指数[19]一起作为目标作者的挑选指标。
图2 期刊创新价值
自然科学、工程技术方面的重大研究很少是凭借单人之力能够完成的,F5000入选论文的作者,刚开始时都是科研团队中的一员,经过科研过程的历练,因论文相继发表而显露头角,尽管团队中每个人的创新感悟不一,各自作为第一作者的论文发表后被引频次出现差异,但没有科研项目的支撑,很难涌现出高水平的学术论文。F5000入选论文作者的成长经历相似:参加科研项目→发表高质量的学术论文→展现出个人创新禀赋→项目主持人→科技奖获得者→国家重大项目领军人物。一方面,揭示论文有无科研项目支撑非常重要,能拿到科研项目就已经表明申报者的创新思路及所具备的科研能力在众多申报者中足够优秀,其优秀还意味着其今后发表的论文成为高被引论文的概率会很高,国家重大科技攻关进展、优势学科专家的研究成果应是精准选稿的主要追踪热点;另一方面,科研团队承担项目多,产出的成果就多,科研团队规模与学术影响力呈正相关关系[20],尤其是发表科研团队领军人物的论文一定会有好的效果。在科研团队领军人物成为各种期刊的追逐焦点、一稿难求的情况下,应将目光放在科研团队中年轻有为的作者身上:(1)通过作者发表论文的频率,了解作者创新感悟能力及写作勤奋度;(2)通过作者发表论文的篇均被引频次,了解作者学术创新效率及水准;(3)通过计算作者学术创新指数[19],知晓作者学术创新水准在不同年度的变化情况。
态势感知是预测未来推动期刊发展的重要手段,通过对广域时空范围内涉及科技期刊发展变化的各类要素的采集、理解,力争主动、准确、有效地办好期刊。精准选稿作为提升期刊创新效率的有效方法,在反复经历“来稿→筛选→决策→执行→效果→反馈”的过程中(图3),不断获取态势感知以对选稿方法进行改进。
图3 办刊态势感知
经历了对精品期刊、F5000入选论文、学科强弱和自身的不断认知后,在筛选论文时有必要对来稿进行评测而获得态势感知:一来提高工作效率;二来提高论文发表后的被引概率。对办刊人而言,具备的职业素养和能力有很多项,但在这些素养和能力中,学术鉴赏力是不可或缺的素养,它是长期实践中生成的独特的感知和判断能力,也是在态势感知中感悟出来的一种认知能力。经历了从大数据获取多维信息、理解这些信息及预测未来态势的态势感知过程,编辑 “独具慧眼”的能力逐步提高,根据预测后产生的效果来厘清哪些数据可以作为关键数据能获得可靠的态势感知,在筛选论文时态势感知是不可缺少的一环,与学术鉴赏力同等重要且相辅相成。
办刊中的态势感知来自多个方面,主要包括:(1)对作者的态势感知——通过h指数、学术创新指数、发表频率、创新效率,可以深入了解作者的学术创新角色,感知其是创新的引领者还是跟随者;(2)对科研条件的感知——从基金项目级别及金额、实验室支撑上感知创新竞争力;(3)对科研团队的感知——从人员参与规模上感知发文频率及研究的可持续性;(4)对学科热点的感知——从被引频次、下载量上感知普遍关注和共同研究的某一学科或领域的热点;(5)对办刊方向的感知——从期刊年报、其他优秀期刊的被引频次和下载次数上感知今后组稿方向。总之,在上述需要感知的5个方面中,科研条件是基础,科研团队是配角,作者创新禀赋是关键。感知涉及的内容越丰富就会让我们的认知越深入、预判越准确,而目的只有一个——在现有环境下指导办刊绩效最大化。大数据和高级分析的时代已经到来,需要感知的信息越来越多,以大数据为切入点洞察数据价值、获取态势感知的工作量日益增多,培养数据驱动、测试与机器学习相结合的智能处理方法乃是实现精准选稿的最佳路径,人类擅长处理的是所指和异态势感知,计算机擅长的是能指和同态势感知[21],人工处理与计算机处理分工合作,应用人工智能在一定时间和空间内对来稿进行感知、理解、预测效果、决策的评审方法便应运而生。
人工智能技术已应用于学术论文评审工作,而且大幅提高了大数据处理的效率和洞察的深度[22]。2016年,Aries系统公司将元文献计量智能(Meta Bibliometric Intelligence)集成到《编辑经理》(EditorialManager)这一学术刊物的稿件和同行评审跟踪系统中[23],以帮助编辑在同行评审中利用人工智能估算一篇稿件的未来被引频次和影响,多项测试结果标明:该技术可以帮助编辑作出更加准确的论文出版决策。2018年,北京大学的杨鹏程课题组提出基于层级结构的卷积神经网络,同时引入了注意力机制来解决论文评测问题,该模型可以自动进行论文评估,决定哪些论文应该被会议接收,结果表明,“作者”对论文能否被接收的影响最大[24],这与笔者前面分析得出的“高水平论文与作者创新禀赋密切相关”不谋而合。此外,对结果影响最大的分别是“结论”和“摘要”,而“方法”这一部分的影响则相对较小,不过该项实验结果表明该模型目前的准确率仅达到 67.6%,距离真正可以使用该自动评价系统来进行论文评审工作还有一定距离。纽约雪城大学(Syracuse University)开发了一种算法[25],分析了截至2015年PubMed Open Access(PMOS)子集中发布的所有数据,包含了760036篇文章、超过200万条数据,自动检测图像重用的嫌疑对象,研究结果表明,在PubMed Open Access上,大约有0.59%的文章被认为具有欺骗性——在760036篇文章中大约有4484篇文章涉嫌造假。此外,国家自然科学基金委员会利用人工智能工具来减少寻找评审人所需的时间[26],通过抓取在线科学文献数据库和科学家个人网页,利用自然语言处理来收集潜在评审人的出版物或研究项目的详细信息,将文中的关键词与其他科学家出版物中的关键词相匹配,利用文本语义分析来比较这些信息,并确定最匹配的评审人,以最匹配评审人的意见为参考助力精准选稿。
总的来说,人工智能可以全方位辅助审稿工作,但要实现人工智能完全独立审稿必须深化目标问题中关联参数之间相关规律的解析和建模。常规求解是以文献指标为目标导向,目标拓展后,关联参数之间的非线性模型将更为复杂。现有描述复杂过程的非线性模型中多为统计类和神经网络类模型,即利用统计方法(如回归分析、参数估计等)获得显式数学表达,或利用神经网络类(如BP、RBF、SVM等)方法来映射输入和输出获得隐式数学表达。从对稿件创新度的认识程度的角度来看,这些方法形成的模型仍是“黑箱”,这并不利于对过程的深入理解。特别值得注意的是,神经网络类的建模必须依靠大量具有典型特征的样本数据,模型参数选择要依靠经验和试验,训练过程耗时长,且易出现“过学习”或“欠学习”导致局部最优,模型泛化能力不强。因此要充分利用大数据,采用融合算法实现审稿过程解析和数据驱动的结合,深化对复杂过程参数的建模和解析。
实现重大创新的捷径是培养数据驱动、测试与学习相结合的能力。无论是编辑还是采用人工智能在进行精选时,看重的都是以往的创新效率(不同层次论文的数量/被引频次)→现在的素质能力(主持或参加项目的级别和数量)→未来的潜力(论文高被引的概率)。借助大数据获得态势感知,编辑在学术创新鉴别上火眼金睛、在社会需求感知上高瞻远瞩;人工智能则采用最为科学的算法,利用计算机不知疲倦、公正工作的特点,不断发现不足而进行迭代改进,如此循环往复最终实现目标的精准选出。