闫晓慧 邓三鸿 张艺炜 张 琪 胡昊天 马博闻
(1.南京大学信息管理学院,南京,210023; 2.江苏省数据工程与知识服务重点实验室,南京,210023)
党的十九大报告指出“创新是引领发展的第一动力,是建设现代化经济体系的战略支撑”。2020年9月,习近平总书记在科学家座谈会上也强调“让科技创新成果源源不断涌现出来”[1]。当前,随着高校/科研单位和企业合作的深度进展,科研成果技术转化得到重视和加快,对于具有高度创新性成果的扶持促进了整体研究领域的进步。学术论文是科研人员学术成果产出的重要表现形式之一,其质量主要由创新度来体现。对于学术论文创新度的及时评价,有助于科研管理机构更加有效、准确地给予科学资助,促使科学技术快速发展[2]。
“创新”本身具有高度的复杂性,一般指在一定的领域内,创立或者发展了比原先更加有价值的理论、专业、方法、技术等,也指把前人的成果或理论等进行加工、整理、提炼、发掘出新的想法,给予新的结论[3]。Uzzi 等人[4]认为科学创新是将新观念进行原创组合来产生新的科学成果,创新度就是将其具体创新程度进行直观化的数字表示。根据数值大小,创新被分为“无创新” “渐进性创新”“突破性创新”三种[5]。
对于学术论文的创新度测量主要有基于同行评议的定性方法和基于信息计量学的定量方法两种。同行评议是一种对于学术论文创新度检测的过滤机制,是当前认可度较高的定性评价方法之一,在科学进步中起着至关重要的作用。在学术论文的评价工作中,同行评议发挥了十分重要的作用,在学术论文的发表之前就需要经过不止一次的同行评议[6]。基于信息计量方法的学术论文评价类型相对较多:一是针对学术论文的外部特征进行创新度分析,如基于作者的H指数[7]和期刊的影响因子[8]等单个指标进行评价,将学术论文的创新度和影响力同等看待并把影响力高的学术论文直接判定为高创新度论文[9],通过分析学术论文在引文网络中的出入度构建创新度指标S指数[10],还有一些研究从引文角度进行成果创新度研究[4,11-16];二是针对学术论文的内容特征进行创新度研究,通过自然语言处理方法,对学术论文的内容进行创新度评价,如一些研究[17-23]采用向量空间模型进行学术论文内容的创新度测量,还有一些研究[24-31]从学术论文关键词、主题词和具体词频等角度进行文本创新度研究。除此以外,还有一些学者分析了学术论文创新度的影响因素,如王晓慧等分析了多种学术影响力指标之间的关系[32];Vieira等得出学术论文的作者数量、具体成果的篇幅、引文数量、载体的影响因子以及参与的学术机构数量等多个方面都能够直接影响学术论文的创新度[33];Bornmann 等证明学术论文的发表时间、期刊、成果本身、作者、成果所属的学科和他人获取的难易程度都会影响其学术论文的创新度[34];贺婉莹证实学术论文作者本身的声望、引文、期刊、合著、与内容相关等内在因素都会对学术论文的创新度造成直接影响[35]。
虽然当前对于学术论文的创新度测量已经有了丰硕的成果,但是仍然存在一些不足之处。主要是测度的方法比较单一,大部分研究从单个角度进行考量,参考维度比较少,还有一些方法要求使用人员具备一定的技术基础。索传军等人建议从定量和定性全面分析,再结合其他相关数据进行整体判断[36]。因此,本文围绕学术论文的创新度测量展开研究,通过对国内外研究情况的调研,总结了当前学术论文创新度测量的研究现状及问题,并就学术论文创新度测量模型构建的一些基本问题进行探究。在此基础上,本文构建了一种基于“作者前期积累(Basic,简称B)”“载体影响因子(Journal,简称J)”“被认可程度(Recognized,简称R)”“内容相似度(Content,简称C)”四个方面定量和定性相结合的学术论文创新度测量模型,并进行了数据验证。
学术论文是学者对于特定的研究领域中的特定问题进行深入研究后,通过科学表述得到具有学术性、科学性、创造性的成果,是科研工作者的研究对象、工具和思路等所有智慧的集中体现,是正式学术交流的重要媒介之一。学术创新并不是一蹴而就的,每一位科研人员本身的前期知识积累是其后期进行科研创作不可或缺的财富。同一主题下,前期的学术论文越多,可视为该科研人员在该主题下具有越多的的经验和知识积累,具备更高的能力从不同方面审视主题研究内容,相对而言后期相应科研成果的创新度也就更高[37]。
长期以来,学术界对于期刊影响因子有着很高的崇拜[38],虽然饱受诟病,但是影响因子是期刊上刊载的所有学术论文的长期积累,在一定程度上具有很大的借鉴意义,金碧辉等人的研究指出,影响因子对于学术论文的创新度和期刊的整体学术水平具有很直接的关系,是学术评价的重要指标[39]。具体到学术论文发表的过程中,各个期刊编辑部参考自己预先设立的算法,根据投稿论文的内容选择合适的评审专家。同行评议制度的不断完善,促使其中的不正之风以及同行不是“小同行”的现象逐渐减少。随着科学交流的日益频繁,学科之间的界限变得越来越模糊,同一主题下的学术论文会发表在不同学科的期刊上,给不同学科的研究人员提供了便利。同时,随着国内外学术道德规范建设的不断进展,国际学术出版界和科学共同体对各类科研不端行为、发表论文质量参差不齐、以及掠夺性期刊等方面的问题采取了多种措施,包括技术防范手段、建立和维护高质量期刊“白名单”、科学共同体共同发现和清理有问题文献、利用法律手段制裁掠夺性期刊等,有效改善了学术发表环境,提升了学术期刊及发表论文的质量[40]。
一篇学术论文被引用次数的多少在一定程度上可以体现该学术论文被认可程度的大小[41]。从引用角度来讲,学术论文之间并不是孤立存在的,科学的不断发展是科学研究者在前人研究成果的基础上继续努力的结果,参考文献是这些智慧传递的途径,也是连接不同学术论文之间知识的桥梁[42]。参考文献的数据是动态变化的,会随时间发展不停地变化,加菲尔德针对论文之间的引证和被引证的关系进行分析,由此总结概括为引文分析法[43]。一般情况下,引用表示对其内容的掌握,换句话说,引用了某一学术论文表示对该学术论文的了解,相互引用是知识传递的充分表现[44]。一般情况下,学术论文的创新度越高,收到的关注度也越高,也更容易被同行认可,得到的引用次数也就较多[45]。并且,随着引文规范的实行,各种大型的学术数据库(Web of Science、CNKI等)都提供有引文下载功能,为引文分析奠定了坚实的科研基础。科学研究已经能够正确地使用引文数据,这使得引文分析有着强有力的前提[46]。学术引用可以直接表示论文间知识的流动,所以引文分析可以应用于展现论文之间的知识流动。有研究显示,高创新度的学术论文具有较为重要的桥梁作用,在科学发展中起到承上启下作用[24]。
每篇学术论文包含着题目、摘要、关键词、正文和参考文献等部分,其中,题目、摘要和关键词是每篇学术论文的精炼,是从正文中提炼出来的简短的、能够准确反映其主旨内容的浓缩[47],这些内容在一定程度上能够完整反映整个学术论文的研究主题和内容。一般情况下,当一篇学术论文的这些内容同其他学术论文之间的相似度越小的话,该篇论文的创新度可能比较高[48]。对学术论文中题目、摘要和关键词等内容进行具体分析,可以有效地识别其具体的创新度。
除了以上四个角度以外,还有学者从学术论文引用前期成果时是否进行跳跃性引用角度进行创新度分析[49]。但该方法需要所选择论文数量足够大,在引文网络节点中重要的中心节点可能不属于同一个研究主题,所以对于从是否跳跃引用来进行论文创新度评价可能会有一定的不稳定性。另外,还有实验得出跨学科研究有助于科学创新[50],但是涉及学科的多少对创新度大小的影响目前并没有很明确的结论[51]。
根据上述研究角度,本文拟从“作者前期积累(Basic,简称B)”“载体影响因子(Journal,简称J)”“被认可程度(Recognized,简称R)”“内容相似度(Content,简称C)”四个方面构建学术论文创新度测量模型,即BJRC模型。模型的具体内容分析如下:
不论一篇学术论文是独著还是合著的,都是所有作者的通力合作。每一篇学术论文的出版都是所有作者前期知识储备的集合,论文的所有作者都对该论文的创作提供了支持,学术论文的合作有助于科学创新[52]。因此,本文在分析作者对学术论文创新度影响因素的时候,综合了所有作者前期在该主题下所有的前期学术储备。作者前期积累对于学术论文创新度的分析具体见公式1,其中,i表示具体的论文,Bi表示第i篇论文中所有作者在该主题下前期所有的学术储备,Ai表示该篇学术论文的作者前期知识积累。
Bi=∑Ai
(1)
学术论文的载体一般是期刊,每一种期刊都有着变化的影响因子。作者在进行投稿之前,一般情况下都会以期刊的影响因子以及分区进行参考。但是不同的期刊影响因子之间的数量相对关系会有些悬殊,本文将根据每年的期刊影响因子进行归一化处理。具体见公式2,其中,Ji表示第i篇论文的载体影响因子对论文创新度的影响,Pi表示第i篇论文发表的期刊在发表年的影响因子,Pmax表示每年该主题下论文刊登期刊的影响因子的最大数。
(2)
“被引用”是学术论文被认可的一种很重要的方式,Ri表示第i篇论文发表后被引用的次数,由于本文进行的是同年度学术论文创新度的测量工作,所以暂时无需考虑由于发表时间长短造成被引频次变化的问题。
在内容分析的角度下,本文把同年的所有学术论文的摘要(题目,关键词,摘要等)通过余弦相似度公式进行计算,进行学术论文的创新度排序,用Ci表示论文内容的相似度,相似度越小的论文的创新度越高[53]。
为了将这四个方面的数据更好地集成在一起,本文给各个方面的数据赋予不同的权重。即Ii=α×Bi+β×Ji+γ×Ri+δ×Ci,且α+β+γ+δ=1,其中Ii表示学术论文i的创新度(Innovation,简称I)。本文邀请信息计量领域的十位专家进行两轮的赋值,经过计算,最后得出α∶β∶γ∶δ=0.33∶0.38∶0.53;(-0.24)。因此,得到的学术论文i的创新度BJRC模型见公式3:
Ii=0.33×Bi+0.38×Ji+0.53×Ri-0.24×Ci
(3)
“人工智能”是当前比较热门的主题,而且学术论文和专利之间的交流也比较多。故本文选取的数据为WoS(Web of Science)核心合集数据库中主题为“人工智能”的学术论文,以“人工智能”为主题(检索式为“TS="artificial intelligence" or "inteligencia artificial" or "ai" or "artifitial intelligence" or "artificial intelligent" or "artificial intelligence" or "artificial inteligence" or "artifical intelligence" or "intelligence artificielle" or "artificial intellegence"”)进行检索。在Web of Science核心合集数据库中,由于创新度测量的是“研究型论文”,而非其他类型的成果,所以本文只选择了检索结果中“article”格式论文。检索日期为2021年6月11日。由于Finardi U[54]和覃佳慧等人[55]都得出了同一主题下的学术论文被专利引用的时间滞后大约为3—4年。因此,本文选取2015—2017年的数据进行实证分析。首先是建立数据库,从Web of Science数据库中下载上述检索得到文献的带有制表分隔符的txt格式数据;然后进行数据抽取,选取其中的“作者”“参考文献”“数据对象标识符(简称DOI值)”“来源出版物”“出版年”“被引频次合计”“影响因子”“摘要”和“关键词”等字段。接着进行数据清理,主要包括两方面,一方面为了实现对摘要等内容的分析、精确地度量两篇学术论文之间的相似度,需要将摘要等文本中的停用词剔除,接着进行同义词消歧,统一化后再做相似度计算;另一方面,由于计算学术论文前期积累需要将所有作者在该领域下的论文进行累加,数据清理工作需要根据作者的地址或者邮箱等信息进行同名处理,最后再进行计算。
经过数据处理后的2015—2017年“人工智能”主题研究论文的具体数据结果见表1。本文以学术论文的DOI标识号作为唯一的标志,得出这3年的研究型论文3741篇,分别为2015年1087篇、2016年1145篇、2017年1509篇,成果呈逐年递增的情况。去重后得出,2015—2017年“人工智能”主题下的学术论文共发表在1598种期刊上,涉及到131个学术研究方向和219个Web of Science学科类别。从数量上讲,这三年的数据能够为后续的科学研究提供有力的数据保障。
表1 “人工智能”学术论文年份分析
本部分的内容主要是为了验证本文构建的BJRC模型是否可以进行准确评价。专利,尤其是发明性专利,具有很高的创新度,专利是当前科技创新的重要成果,是当前主流技术创新的重要体现。很多研究显示,论文和专利之间的相互引用的发生越来越普遍,科学与技术之间的联系也越来越紧密[56-58]。其中,学术论文成为专利的前向引文,创新度较高,具有十分重要的情报意义[59]。论文被专利引用是变革性研究的早期识别信号之一[60],专利文献中的参考学术论文经常被用来追踪创新的来源[61]。因此,学术论文被专利引用可以在一定程度上体现学术论文的高创新度。
本文在Plum Analytics网站上检索确定学术论文是否被专利引用及被引次数,利用python程序以上面下载的WoS“人工智能”主题下每篇学术论文的DOI识别码开展检索。2015—2017年内“人工智能”主题下被专利引用的学术论文一共有40篇,其DOI码和被专利引用次数的具体情况见表2。
表2 2015—2017年“人工智能”主题下的学术论文被专利引用的情况
本文构建的BJRC模型是从作者前期积累、载体影响因子、被认可程度、内容相似度四个方面组合进行研究的,因此需要将各年的各篇学术论文进行四个方面分别计算。其中,“被引次数(R)”和“期刊的影响因子(J)”可以从WoS数据库中直接得出;“前期学术基础(B)”需要把每篇学术论文的每位作者的前期成果进行分别统计,然后进行计算;“内容相似度(C)”需要将每篇学术论文的摘要、题目、关键词等内容进行拆分,根据每年的论文内容进行训练,使得每篇摘要拆分为词向量,最后再进行全年所有论文的相似度比较。最后将四个方面的计算结果综合在一起,得出各年的论文的创新度排名,2015—2017三年内的各年的“人工智能”主题下创新度前1%的论文见表3。
表3 BJRC模型识别出的三年内的“人工智能”主题下前1%的高创新度学术论文
根据本文构建的BJRC模型,得到2015—2017三年的“人工智能”主题下创新度前1%的论文共36篇(2015年10篇、2016年11篇、2017年15篇)。识别出来的36篇论文中被专利引用的一共有12篇(2015年3篇、2016年4篇、2017年5篇),分别占这三年所有被专利引用论文的75.00%、36.36%、31.25%,占比逐年减少的原因很大程度上是由于专利引用学术论文中存在的时间延迟问题导致的。
本文构建的BJRC模型能够准确识别出来三年内被专利引用次数最多的学术论文,2015年的10.1038/ncomms7269论文被专利引用了2次,在模型测度后的排名为5;2016年的论文10.1038/nature16961的年度排名为1,被专利引用次数为10;2017年的3篇论文10.1038/nature21056、10.1109/JPROC.2017.2761740、10.1073/pnas.1611835114都被专利引用了8次,排名分别为1、4、10名。综合看来,被专利引用的学术论文中,其本身的被引频次和所在期刊的影响因子两个指标中至少有一个的值在所有论文中相对比较突出,有些成果的前期储备较多,有些的储备比较少,学术论文在内容相似度方面,相对没有前三个维度的区别大。
2015年,未被识别出的论文10.1016/j.artint.2015.07.005属于计算机学科分类,其被引频次为40,没有被识别出来的原因有可能是因为其所在期刊的影响因子有些太低,仅为4.7多,大概率属于那种起初并未被识别的创新学术论文。2016年,除论文10.1049/iet-cps.2016.0027是因为没有被其他成果引用之外,其他未被识别的论文同2015年未识别论文的原因是相同的。2017年的所有被专利引用的学术论文在本文构建的BJRC模型得出的排名都在前10%左右,结果是比较合理的。
虽然本文构建的BJRC模型不能完全把所有的被专利引用的论文识别出来,但是可以相对简单地计算出学术论文的创新度排名,能够在最大程度上得出年度具创新度的学术论文,为下一步的高创新度论文识别节省时间。
为了进一步证明本文构建的BJRC模型的准确性和科学性,我们还将本文构建的创新度测量模型从两个方面进行了比较论证:一是将本文构建的综合模型和单一指标进行对比,二是将本文构建的模型同当前学术界同类型创新度测量模型进行比较。
3.4.1 同单一指标的比较分析
本文提出的模型可以视作一种综合指标,可以将模型涉及的四个方面视为四项单一评价指标,即,学术论文的Bi(作者前期积累)、Ji(载体影响因子)、Ri(被认可程度)、Ci(内容相似度)四个角度均可以单独用以识别高创新度论文。5个指标分别识别出来的年度前1%高创新度论文被专利引用的结果具体见表4。
具体分析表4,可以发现,单一指标模型中被认可程度Ri计算出来的结果数是除综合指标BJRC模型Ii之外最多的;五个模型中,只有综合指标BJRC模型Ii可以将当年被专利引用频次最高的论文全部识别出来,单一指标Ri识别出来的数量紧随其后,其他三个单一指标模型在识别最具有创新度论文的能力上相对较弱一些;并且各个单一指标模型对于年度被专利引用次数最多的论文识别也不如综合模型BJRC的效果好。因此得出,综合模型BJRC比单一指标模型具有一定的优越性。
表4 综合模型和单一指标模型识别出来的前1%高创新度论文结果表
3.4.2 与同类型创新度指标的比较分析
将本文构建的BJRC模型与当前主流的创新度识别指标进行对比。这些主流指标主要有两大类,一类是学术论文的外部特征测量指标,包括:作者的H指数、期刊的影响因子、论文在引文网络中的节点重要程度等;第二类是学术论文内部特征测量指标,如用自然语言处理进行文本分析后讨论学术论文的创新度。本文构建的BJRC模型和其他指标模型识别出来的前1%高创新度的论文结果,具体见表5。
表5 BJRC模型和其他指标模型识别的前1%高创新度论文结果情况表
从表5可以得出,根据作者的H指数和学术论文在引文网络中的中间中心性、接近中心性、特征向量中心性和点度中心性进行高创新度学术论文的识别结果都没有本文构建的BJRC模型好,并且对于年度被专利引用次数最多的学术论文的识别能力也没有BJRC模型强。学术论文在引文网络的中心性比较是不同的学者根据自己的研究需要进行选择的,可以发现中间中心性和接近中心性的识别效果要相对好一些。外部特征中的学术论文的“期刊的影响因子”和“影响力(引文次数)”即J和R,在3.4.1已经进行了比较,其识别能力也低于本文的BJRC模型。对于学术论文内容特征方面,很多学者利用自然语言处理方法,对学术论文中的创新词或者创新句进行内容层面的研究,但本文认为自然语言处理前期需要一定的人工标记,处理难度要更加大一些,用自然语言处理方法识别高创新度的学术论文更加适合大量论文处理之后的小部分论文的仔细筛选工作。
由此可见,本文构建的BJRC模型相较于当前的主流模型,结合了外部特征和内容特征两个方面,操作相对要简单一些,并且识别高创新度学术论文的能力也要更强一些。
为了在海量的学术论文中快速找出创新度较高的成果,更好地计算不同学术论文的创新度,本文构建出包含学术论文的作者前期积累、载体影响因子、被认可程度、内容相似度四个方面的BJRC学术论文创新度测量模型。我们用2015—2017年的“人工智能”主题下的学术论文被专利引用的情况作为实证研究,得出BJRC模型在原理上是科学合理的。在与单一指标和同类型的评价指标分别进行对比后,可以发现本文构建的BJRC模型具有一定的优越性,有助于对创新度较高的学术论文进行识别,计算方式相对比较简单,可以在一定程度上为学术论文的定量化评价提供支持。
本文提出的测度模型对于学术论文的创新度测量和学术评价具有一定的实践意义,对于科研资助机构具有一定的参考价值。如,评价研究成果的创新性时,可以考虑采用BJRC模型对研究成果提及的已发表的学术论文进行快速评价;又如面对大量的科研基金申请,BJRC模型可以帮助减少项目评价前期的一部分工作量,有助于简单直接地识别出创新度比较高的学术内容。