李晶 杨雪 苏秋丹 吴登生
摘 要: [目的/ 意义] 创新是科技成果的本质特征和推动科学发展的根本动力, 厘清科技成果创新性测度的基本问题, 可为优化与改进现有研究、辅助同行评审进行科学决策提供有价值的参考。[方法/ 过程] 基于知识单元理论, 从新颖性与有用性维度对现有科技成果创新性测度与评价的相关研究进行述评, 具体包含新颖知识单元、新颖知识单元组合和知识单元转移扩散的影响力4 方面。[结果/ 结论] 通过对现有研究成果的系统梳理,发现当前研究存在浅层知识单元测度指标过度使用、有用性维度知识单元未充分挖掘、专家评审相关定性评价数据利用不足等方面问题, 并根据上述问题提出挖掘使用细粒度知识单元与新型数据源、提高对有用性维度指标的关注度并促进其与新颖性维度指标相结合、充分利用专家评审数据等科技成果创新性测度的优化和改进策略。
关键词: 科技成果; 学术论文; 专利; 知识单元; 创新性测度
DOI:10.3969 / j.issn.1008-0821.2023.08.015
〔中圖分类号〕G301 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 08-0161-17
科技成果, 以专利和科技论文为主要形式, 承担着传播科技理论、推广技术应用创新、推动科技进步的重要功能, 成为衡量一个国家科技进步发展与自主创新水平的重要标志。党的十九大报告明确提出“要坚定实施创新驱动发展战略, 加快建设创新型国家” 的战略部署, 学术评价领域也在加快破除落后的评价导向, 建立与国家战略需求一致的新型评价体系。2020 年2 月, 科技部、教育部就相继出台系列政策文件, 包括《关于破除科技评价中“唯论文” 不良导向的若干措施(试行)》《关于规范高等学校SCI 论文相关指标使用 树立正确评价导向的若干意见》等, 强调论文成果参与评价时要“回归学术本质” “展示创新性和学术影响”,不能“只数数量和影响因子, 不看质量”。上述系列政策以改革论文评价导向为切入, 通过发挥论文作为微观主体在创新评价导向中的驱动力, 逐步扭转和重构各类以论文评价要素为基础的各类科技评价理论和应用实践, 最终构建符合科学发展内在规律的、服务于国家创新驱动发展战略的新型学术评价体系。在当前科技评价改革发展的关键时期, 理论界和实践界亟需解决的一个关键问题是: 如何准确评价科技成果的创新性?
诞生于19 世纪初的同行评审一直是识别和评价论文学术创新性的主流方法, 但是进入20 世纪后半叶, 科技论文数量激增给同行评审人带来了巨大的审稿负担, 同时由于认知的局限性, 导致一些重大创新成果被迟滞承认而成为科学“睡美人”[1] ,给科学发展带来了巨大的损失; 另一方面, 创新理论和创新性客观测度方法不断发展和完善, 开始为同行评审决策提供辅助评审标准。在已有研究中,罗卓然等[2] 、李姗等[3] 、柴嘉琪等[4] 、魏绪秋等[5]对论文创新性进行了系统评述。不同于以往研究,本文的主要创新体现在两个方面: 一是扩展了研究对象的范围, 充分借鉴了现有对专利新颖性、创造性测度的技术和方法, 同时综合期刊论文创新性测度的理论成果, 梳理形成的评价指标体系框架具有全面性; 二是兼顾科技成果的内容特征与外部特征, 以创新理论、知识单元理论为基础, 按照创新过程中知识单元的属性特征, 将现有科技成果创新性研究划分为基于新颖知识单元、新颖知识单元组合以及知识单元转移扩散影响力3 类, 从新颖性和有用性两维度对科技成果创新性测度研究成果进行系统梳理, 旨在为实现科技成果创新性自动测度、辅助同行评审进行科学决策提供有价值的参考。
1 基于知识单元理论的科技成果创新性内涵
对科技成果创新性进行测度, 首先要明确什么是创新? 现有研究尚未形成对创新的统一定义, 不同领域研究人员依据其研究领域特征形成对创新的不同见解。创新理论的鼻祖约瑟夫·熊彼特提出组合创新理论, 认为创新是建立一种新的生产函数,把尚未出现过的关于生产要素和生产条件的新组合引入生产体系[6] , 该思想作为创新的起源, 自诞生起便受到各界的普遍认可, 在此基础上也形成了一系列探索性研究, 深化了对创新来源及其特征的认识。Chen J 等[7] 指出, 生产系统中由生产要素的新组合形成的创新资本往往涉及新产品、新技术、新市场、新材料等, 即创新由具备新颖性的要素构成, 涵盖了新颖性要素组合转化为新颖性成果的转化过程。在诸多组合中, 跨边界合作及知识共享在取得创新绩效与突破性成果方面更为成功[8-10] 。经上述分析可知, 新颖性是创新性测度的首要维度,同时由于创新是产生想法并实施, 最终能够创造价值的活动[11] , 因此在满足基本的新颖性要求的基础上, 更要具备使用价值, 检验新颖性成果是否能够满足创新价值要求则需由创新产出的应用阶段来检验[12] , 当人类的创造力转化而来的新事物取得良好使用效益时, 该事物可称为真正意义上的创新[13] 。由学界对创新性的概念解释可见, 新颖性与价值性即有用性是创新性成果的两个重要维度,二者之间的关系如图1 所示。
创新性成果首先必须具备新颖性, 即有新的成果产出, 能够改变、发展或突破旧有研究的范式、领域及思想。由于科学总是建立在一定学术共识的基础上, 因而要随时间变化验证新颖性成果的有用性, 实质上即判定新颖性科技成果是否具备科学创新性。因此, 创新成果的有用性是使新颖性转化为创新性的必要条件, 新颖性是使有用性成果可被界定为创新性成果的重要前提, 具备有用性特征的科技成果、产品或服务若缺少必要的新颖性条件也不可称之为创新。
以科技文献为研究对象时, 创新可理解为在已有知识基础上, 通过知识的获取、共享和吸收等知识间的互动融合过程创造新的想法、产品或更深层次知识的活动[14-15] , 赵红洲等[16] 从科学创造的角度提出了知识单元, 认为任何一种科学创造过程都是在新的思维势场上知识单元的重组过程和新的知识单元的创生过程。可见, 知识单元可视为判断创新现象产生的媒介, 在科技文献中, 知识可利用知识单元表示, 对科技文献创新性评价的本质是看有无新知识的创造, 最终要落实到对科技成果所承载的知识单元的计量与测度上[17] 。
广义知识单元泛指对知识进行处理与组织的任何一种相对独立的、完整的单元内容和形式, 具有多层次性、多粒度性、多维性、分合性、重组性和再生性特征, 既可以指特定概念, 又可以指单篇文献, 因而其容量是无限度的。而狭义知识单元则特指在思维中不再分解的最基本的思维形式, 往往指构成整个知识系统最基本的单元形态, 即通常所说的知识元[18-19] 。本文使用广义知识单元的概念,并根据其在知识管理活动中的演变, 将其分为文献单元、信息单元和微观知识元3 个层次, 各层次知识单元的知识粒度逐渐细化。
文献单元是知识的物理载体或物理单位, 如论文的卷、期、页码、发文量、引文量等, 信息单元是用于独立控制和处理文献的信息标识, 以文献的某些属性特征作为知识组织和管理的基本单元, 如著者、发表时间、出版社等外部信息特征和摘要、主题词、关键词、标题、字、词、句、段、参考文献等内容特征。知识元是不可再分的最小粒度知识单元,其强调独立性、完整性、单一性, 如论文概念、理论、方法等。文献单元是信息单元及知识单元的物理载体, 信息单元是文献单元和知识元的过渡或中间概念, 微观知识元来源于文献单元和信息单元, 是其深入发展的结果[20-21] , 三者共同构成了知识的不同内容形态, 其中文献单元和信息单元可视为以知识的物理载体形态为主要标识的知识单元, 知识元可视为以知识的内容形态为主要标识的知识单元[19] 。由此可见, 知识单元具有多维性, 其并非知识的最小组分, 是微观知识元的上位概念,知识元的排列组合形成了不同粒度的知识单元。
综上, 本文认为创新是技术、理论、方法等要素在现有知识基础上进行重构而产生的知识增值,表现为有新的产出且产出具备一定影响力, 结合知识单元理论和学术界对创新的普遍共识, 具有创新性的科技成果至少包含知识单元产出新颖性和有用性两个基本维度, 因此, 立足于知识单元理论的科技成果创新性测度也主要围绕上述维度, 借助科技文献三层次知识单元及其组合的新颖性与有用性展开。
2 科技成果创新性测度指标
结合学界对科技成果创新性测度的研究和知识单元理论, 可将现有成果创新性评价研究分为新颖性和有用性测度两维度, 其中新颖性又可以细分为新颖知识单元、新颖知识单元组合两方面; 有用性则以知识单元转移扩散影响力测度。“新颖知识单元” 是指上述文献单元、信息单元与知识元中新出现的知识单元, 是一个与“已有知识单元” 相对应的概念, 强调论文的创新性由新出现的知识单元定义[22] , 结合现有研究, 其既包括多个知识单元结构的差异性特征, 也包括关键词、句子、主题词等知识单元与已有知识单元的差异度。“新颖知识单元组合” 是指科技成果中两类及以上知识单元的组合构成了成果创新性的来源, 如问题与方法的组合、特定学科领域的参考文献与技术领域的组合、知识实体组合等。“知识单元转移扩散的影响力” 是指如概念、定义、理论、观点等知识单元被引用至其他科技成果时产生的影响, 主要使用知识单元被引频次及比例来测度, 这一维度侧重于评估科技成果知识单元对后续研究的价值, 实则用影响力替代度量创新性, 测度基本原理是高创新性的论文同时也具有较高学术影响力。
根据上述思路与当前学界研究现状, 将科技成果创新性评价指标总结如图2 所示, 以下按照新颖知识单元、新颖知识单元组合和知识单元转移扩散的影响力三维度的順序, 对现有科技成果创新性评价研究中相关测度思想、指标与方法进行梳理。
2 1 新颖知识单元
从新颖知识单元的角度对科技成果创新性进行评价的核心思想是“查新”, 即识别科技成果中新出现的知识单元。这类测度方法测度的对象主要有成果结构、关键词、句子等。
2 1 1 多个知识单元结构的差异度
结构是科技成果内容与写作逻辑的体现, 成果结构中各部分知识单元内容对其整体创新性的影响不同, 由此可通过科技成果不同结构的内容识别创新性, 如通过是否提出新论点或使用新论据判断成果创新性。杨京等[23] 以论文结论为创新性评价对象, 通过论文的IMRD(Introduction、Method、Re⁃sults、Discussion)结构, 提出基于论文Results 数据的论文创新性评价方法。Lynn 则将科学工作概括为假设、方法、结论三要素, 根据是否在已有论文中被报道过(是为P, 否为N), 将论文的原创性划分为NPN、NNN、NPP、PNN、PPN、NNP、PNP、PPP 8 类, 提出NPN 模式(新假设—旧方法—新结论)是最常见的创新性研究类型, 该评价方法的基本思想是新的假设可以产生新的结论[24] 。在科技成果语义结构方面, Jan 抽取专利的SAO(Subject-Action-Object-Structures)语义结构识别成果新颖性[25] 。首先, 使用语义分析工具抽取专利的语义结构并构建相似性矩阵; 其次, 利用相似性矩阵计算专利的新颖性。具体计算方法见式(1)。
Ni =1-max(Si(n)) for all n<I (1)
其中, Ni 为被评价专利的创新性, Si(n)为该专利与本领域之前发布的专利的相似性。
2 1 2 单一知识单元差异度
知识单元是科技成果内容的基本组成要素, 可通过知识单元同先前成果的差异度来测度新颖性,各知识单元的差异度计算如下。
1) 关键词。关键词可反映论文研究主题, 是表述科技成果中心内容的词汇, 当作者使用从未出现的关键词时则可能代表知识创新或新概念的提出[26] 。学界已有探索通过神经网络算法自动识别基于关键词的科技成果创新性的研究[27] , 目前主要的方法是借助新颖关键词与关键词组合频率、新颖关键词组合共性以及关键词重要性的指标识别成果创新性。Yan Y 等[28] 和Bornmann L 等[29] 、ShinH 等[30] 分别计算新颖关键词组合比例及新颖关键词比例, 以其新颖程度度量论文的创新水平。杨建林等[31] 认为, 可通过计算关键词对的逆文档频率来计算论文的主题新颖性, 其使用共现、词频、时间戳、关键词对逆文档频率的原则量化论文主题的新颖性。具体计算方法见式(2), 其中, ti 、tj 分别表示文档的第i 个和第j 个关键词; n 表示文档D 中关键词的数量, KPTIDF(D,ti ,tj )表示带时间戳的关键词对逆文档频率。
Lee Y N 等[32] 通过参考文献来源期刊组合共性量化论文创新性方法被Carayol N 等[33] 、Lee C等[34] 应用于通过关键词组合共性测度成果创新性的过程中。首先计算关键词i、j 在c 领域的共性值, 见式(3):
随后将单篇论文表示为关键词组合, 进而以关键词组合共性值代表单篇论文的共性值, 见式(4):
Comc =10thPercentile(Comjict |∀ij∈K) (4)
论文的创新性novc 的表示见式(5):
novc =-log(comc ) (5)
除通过关键词组合频率以及关键词组合共性测度科技成果的新颖性, 冯立杰等[35] 利用关键词以及单个技术方案的IDF 值对专利的新颖性进行衡量,基于IDF 值评价创新性的思想来源于传统逆文档频率算法, 即文本集中包含词项w 的文档越少, 说明其出现频率越小, IDF 值越大。通过IDF 值实现对潜在技术创新方案新颖性的排序, 可最大限度地减少因专家人工筛选大量专利信息所带来的效率和准确性问题。在运用TextRank 算法提取潜在技术方案的关键词并将专利文本向量化后, 运用LDA主题识别模型识别潜在的技术机会, 以提取到的关键词集合w 代表潜在技术创新机会所对应的技术方案。关键词集合的重要性IDF(w) 表示见式(6):
其中n(w)为专利集中包含关键词w 的数量,N 为专利文本总数, q 为关键词个数。
2) 句子。以句子为指标评价成果创新性, 能够反映科技成果在具体研究内容方面的差异性, 如研究主题、使用的方法等, 测度的根本在于衡量其与已有研究成果的相似性。Tsai F S 等[36] 提出基于文档—句子(Document-to-sentence)标注的文档级新颖性检测框架, 其将论文分割成句子, 得到每个句子的新颖性, 依据阈值计算单篇论文的新颖性得分。随后, 通过句子创新性预测单篇论文创新性的测度思路也被应用于构建论文创新性评价系统的过程中, 实现了从语义层面计算论文创新性的自动化[37-38] 。晁珍珍[39] 则通过词语网络的方法, 以概念图的形式对句子的相似度进行度量, 进而实现对专利全文新颖性的测算。Wang Z 等[40] 则对句子中包含的特定知识元素的创新性进行抽取, 认为当前集中于宏观层面度量科学文献整体创新度的方法忽略了特定知识元素的创新性, 因此提出基于方法知识元素(MKE)的细粒度新颖性评价法, 使用BTM主题模型, 根据方法表示句抽取MKE, 根据论文中MKE 与同领域论文的相似性表示创新水平, 相似性越高表明创新程度越低。不同于上述基于句子相似性的创新性评价研究, 章成志等[41] 依据学术论文全文, 提出创新研究评价句自动抽取以获取研究的创新评价句的方法, 并按照学术评价句的内容对评价句的类型进行了分类, 除此也对评价句在学术论文中的相对位置分布进行了分析, 为学术成果创新性评价研究提供了新的解决方案。
3) 主题及主题词。主题词是在标引和检索过程中用来表达文献主题的词汇, 也是衡量文章创新性的重要知识单元, 曹树金等根据论文主题是否涵盖后续研究热点识别当下具有创新价值的论文, 可视为以论文预测新颖度与论文实际新颖性差异衡量创新性的方法。在利用LDA 模型识别每篇论文主题并求得主题概率分布后, 使用SVM 模型预测待评价论文的发表年并使用Platt Scaling 模型进行概率校准。论文创新性计算见式(8):
根据现有研究, 计算新颖主题词或其组合频率是常用的创新性量化方法。Boudreau K J 等[43] 通过计算新颖主题词比例衡量项目的创新性, 其基于Mesh Lexicon 医学主题词表, 提取每个项目的主题词, 将提案中主题词对集合与PubMed 中所有的主题词对进行对比, 并计算先前未出现过的新颖主题词的比例, 比例越大说明创新性越强。值得注意的是, 该研究仅使用主题词作为测度指标的来源。进一步的, 有学者使用主题词的非典型组合预测论文内容的新颖性方法[44] , 如任海英等[45] 以论文的题目、摘要与关键词为数据源, 通过文本挖掘方法提取论文主题词, 构建主题词共现网络, 分别计算论文主题词的新穎组合率、中等组合率和常规组合率, 指出主题词组合具有高新颖性和高常规性的论文具有最高的新颖水平, 且更易产生高影响力。因而在进行创新性研究时, 应注重新颖知识与常规知识的适当组合。逯万辉等[46] 则利用文本挖掘技术构建了基于深度学习的文本内容特征因子计算模型,以论文摘要和标题为数据源对科技成果的研究主题进行抽取和计算, 构建主题新颖性测度指标。首先利用Doc2Vec 计算文档集内文本语义相似度, 并在论文研究主题相似度计算的基础上, 构建主题相似性网络, 采用隐马尔可夫模型的相关算法来计算文档集内所有文本间的相似性, 实现对论文的主题创新性的测度。任海英等[47] 也以专利摘要和标题为数据源, 通过文本挖掘和知识网络的方法, 构建了基于单词组合分布的专利新颖性识别方法, 并得出高新颖性专利更容易产生突破性发明的结论。
4) 参考文献。参考文献在一定程度上可反映科技成果的研究主题与内容, 使用参考文献衡量科技成果创新性已被广泛应用于科技成果创新性评价领域, 主要是从知识来源的角度评估当前成果知识单元构成情况与已有成果的差异性。Dahlin K B 等[48]从专利引用结构相似性的角度对专利创新性进行了度量, 认为专利引用结构的差异反映了发明所依赖的知识之间存在的差异, 因此可通过专利的引用结构对潜在的突破性进行识别, 当前专利与过去专利参考文献重叠越小新颖性越高。论文定义了OSij测度专利的创新性, 见式(10)。
OSij表示焦点专利的参考文献与同域专利参考文献间的重叠分数, 该得分在0~1 之间, 得分越接近1 说明其创新性越强。
也有学者借助参考文献来源期刊组合计算创新性。具有代表性的研究如Uzzi B 等[49] 提出的Z 值算法, Z 值算法的基本思想是创新来源于知识的重新组合[50] , 知识重组的程度利用参考文献刻画,表现为该文章所引用参考文献的来源期刊组合尚未在之前的研究中出现。Z 值法以期刊组合对在WOS中观察到的实际组合频率与期望观测频率之差除以文章到文章随机引文网络的10 个随机模拟所得期刊对数标准差表示, Z 值低于零意味着该组合是非典型或新颖的。随后, Zhang X 等[27] 、Kim D 等[51] 、Lin Y 等[52] 也继承了科学文献的创新来源于知识组合的思想, 采用Uzzi B 的计算方法对论文和专利的创新性进行评价。Boyack K 等[53] 在Uzzi B 的Z值算法的基础上, 提出改进的K50 指标, 其使用平方共引计数矩阵的行和列及计算的期望值和标准化值, 省去了前者使用蒙特卡洛技术的不必要的计算过程, 该成果可以视为是对Uzzi B 方法在技术上的有效改进。
Wang J 等[54] 以首次出现的期刊组合及其形成难度衡量论文的创新性。在提取新颖期刊组合后,对期刊组合构建期刊共引矩阵并计算其余弦距离即余弦相似度, 代表了期刊组合对的形成难度。计算公式见式(11):
虽然参考文献可作为评估科技成果新颖性的工具, 但参考文献并不针对论文的实际内容, 且作者所参考的文献也未必是文中创新性思想的来源[55] ,即目前仅通过参考文献度量创新性的方法依旧停留在内容之外的较浅测度层次上。因此, Shibayama S等[56]将研究视角延伸至论文参考文献组合语义层面,其认为引用了语义上的远距离文献组合的文章具有创新性, 并通过参考文献组合的摘要、关键词、标题等文本距离来量化创新性。该研究中使用词嵌入技术与引文分析技术, 从语义层面衡量论文创新性的方法具有数据获取简单、操作便捷的优势。计算过程包括, 首先提取文档中的文本语义信息并以词向量表示各参考文献; 其次计算每对参考文献对之间的语义距离; 最后聚合所有被引用参考文献的距离得分计算论文的创新性。
2 2 新颖知识单元组合
依靠单一知识单元往往不能客观、准确地反映成果的创新性。因此, 有学者综合考虑多个知识单元, 通过知识单元组合来测度创新性。包括问题与方法组合、参考文献与技术领域分类代码组合、知识实体组合等。
2 2 1 问题与方法组合
Luo Z 等[57] 认为, 论文的创新性由构成论文的各个部分的创新性决定, 并将研究问题与研究方法视为主要创新要素, 提出从“问题—方法” 的语义组合衡量论文新颖性的方法。该方法同时考虑问题与方法术语的时间与频率特征以及术语本身的语义内涵, 依据阈值确定二者的创新水平, 在此基础上定义论文的创新类型, 并指出“新问题+新方法” 组合是最具新颖性的组合。其分别提出基于LifeIndex 指数和基于语义与BERT 模型的“问题”“方法” 及其组合的新颖性度量法, 两种方法的计算结果具有一致性, 基于语义相似度的方法可弥补LifeIndex 指数在确定新颖性差异方面的局限。随后, 罗卓然等[58] 也在该研究的基础上, 对研究数据、研究方法做进一步改进, 在语义层面为科技论文新颖性测度提供更为精细化的方法。钱佳佳等[59] 也采用基于论文“问题—方法” 组合的新颖性度量方法, 首先基于深度学习模型得到科技论文的问题词和方法词, 通过“问题—方法” 组合贡献率衡量论文新颖度。其分别计算了论文的单个问题新颖度、方法新颖度以及“问题—方法” 组合新颖度, 以出现频率表示创新程度, 最后使用三者新颖值的加权平均值作为科技论文整体的新颖性值, 表示为Nov(D), 见式(13):
Nov(Q)、Nov(M)、Nov(Q,M)分别为问题新颖性值、方法新颖性值与问题—方法组合的新颖性值。k1、k2、k3 分别为上述要素权重值, 其大小可反映对论文新颖性的决定程度。
2 2 2 参考文献与技术领域分类代码组合
参考文献反映了专利内容的基本构成情况, 专利涉及的技术领域则衡量了专利的技术交叉性,Verhoeven D 等[60] 通过计算专利所属的IPC 分类码与其参考的专利、科学文献所属领域的组合频率衡量专利创新性, 其中IPC 技术分类代码体现了专利技术领域的多样性, 该评价方法的根本在于衡量专利的跨领域创新性。吴菲菲等[61] 认为, 专利引用的参考文献发表时间越接近当前, 说明该专利的技术循环时间越短, 同时若其涵蓋的学科领域广泛,专利潜在的创新性越强, 基于此, 其提出利用参考文献的技术循环时间和基于IPC 分类码的领域交叉度度量方法评价专利创新性, 根本上是对专利所含知识单元的新颖程度与丰富程度进行整合测度。由于专利知识来源可分为技术知识来源和科学文献知识来源, 因此需分别计算来自技术知识和来自科学文献知识的技术循环时间, 利用二者的技术循环时间计算总体技术循环时间TCTi , 见式(14):
TCTi =αTCTti +(1-α)TCT si (14)
其中, ti 为技术起源知识循环时间, si 为科学文献知识技术循环时间, α 可由专家设定。随后利用IPC 分类码的数量评估专利的跨领域性, 由此实现对创新性的综合判断。
除参考文献与技术分类代码组合, 在内容层面, 也有学者利用图网络工具将关键词与主题词两类知识单元结合度量成果的创新性, 主要通过自编码神经网络的方法, 引入以文档和作者为节点的宏观层面的图, 以及以关键词、主题词为节点的微观层面的图, 当加入新的论文时, 以图的结构和特点变化表示科技成果的创新性[62] 。
2 2 3 参考文献与产出内容组合
秦岩等[63] 认为, 论文新颖性的产生是一个二阶过程, 第一阶段是知识吸收阶段, 主要来源为参考文献, 第二阶段为知识产出阶段, 即作者进行论文创作。由此提出基于知识吸收与知识产出视角的会议论文新颖性度量法。其中吸收新颖性指标是基于参考文献的新旧程度进行测度, 产出新颖性指标是从现有成果与已有研究的相似度比较的角度进行测度。知识吸收新颖程度通过新旧参考文献在论文参考文献中的比例计算, 吸收新颖性指数I(i)new 表示见式(15):
W 是论文i 的参考文献数量, a 是参考文献发表时间与本论文发表时间差值小于等于N 的论文数量。随后计算所有会议论文新颖性值的中位数H,该值即为评价新颖程度的阈值。若Inew ≥Hnew , 则表示论文的吸收新颖性水平高。在知识产出阶段,提取论文摘要与标题作为数据源, 使用TF-IDF 算法和LSI 方法计算文本相似度, 产出新颖性指数则等于1 减最大相似度值。最后, 计算所有论文的产出新颖性指数的中位数, 大于中位数則产出新颖性水平高。研究也指出吸收与产出新颖性水平都高的论文则更容易在A 类会议上发表, 该方法也可辅助其他类别论文以及专利创新性的自动评审。
2 2 4 知识实体组合
在对科技成果创新性进行评价时, 也有学者将多个知识单元作为一个实体对象进行评价, 以从多角度整体衡量成果新颖性。如Amplayo R K 等[64]依据现有的知识对过去已有知识的突破程度, 将关键词、词组、主题作为一个实体对象, 利用自编码神经网络的方法对论文特征进行提取并计算创新度得分。Wang S 等[65] 以摘要数据为基础, 自动提取论文实体及实体组合, 以未出现在其参考文献中的新知识单元和知识单元组合比例代表论文的创新性, 该值越高说明论文的创新性越强。Liu M 等[66]也提出以新颖实体组合比例衡量论文创新性的方法, 首先从2020 年12 月及之前发表的CORD-19相关论文标题和摘要中抽取知识实体并配对, 使用BioBERT 模型衡量论文中实体对间的余弦距离, 表示如式(16):
其中, i 和j 为实体对中实体, i 2 j 2 表示二者的欧几里德范数的乘积。随后根据实体对间的距离分布情况, 将位于前10% 的实体对视为新的实体组合。论文新颖性得分即以新颖实体对与论文中所有的实体对的数量之比衡量。如式(17):
其中, i 表示论文, n 表示从论文i 中提取的实体数量, C2n 表示由n 个实体生成的实体对数量,m 表示实体距离位于前十百分位的实体对数量。
2 3 知识单元转移扩散的影响力
以上基于新颖知识单元以及知识单元组合维度的指标重在测度科技成果的新颖性维度, 而通过知识单元转移扩散的影响力角度识别创新性, 能够更为直观地量化成果中知识单元的有用性, 主要使用知识单元被引频次和被引比例来实现。
2 3 1 知识单元被引频次
创新性成果被引用说明其某一理论、观点或其他知识内容为施引者所用, 其引用的对象即为以论文、句子等为代表的知识单元, 知识单元被引频次是评价科技成果影响力的重要切入点, 一般来说,被引频次越高说明该成果具有较高的价值和影响力。Leydesdorff L 等[67] 认为, 可以通过论文短期引用量来识别创新性, 其认为引用可区分为长期引用和短期引用两种, 长期引用体现的是论文的原创性与学术影响力, 而短期引用说明科技成果处于研究前沿或研究热点之中, 可体现该研究的创新性。但有学者也提出了相反的观点, 如Wang J 等[54] 认为, 创新性具有延迟认知的特点, 在3 年引用窗口内, 创新性的论文被引用的可能性很小, 但随着引用窗口的延长, 其引用频次会显著高于创新性低的文章。一些研究也尝试通过知识单元被引情况随时间变化的特征对成果的创新性进行识别。如Min C等[68] 利用引文的扩散模式识别论文的创新潜力,其基本思想是具有高创新性的论文在第一代引文结构和第二代引文结构上具有显著的差异性, 在此假设基础上, 该文献对获得诺贝尔奖和未获得诺贝尔奖的两组不同创新性文章的实证分析发现, “引用起飞点” “平均集聚系数” “连通性” 3 个指标可有效区分两组文章的创新性。
2 3 2 知识单元被引比例
近年来, 通过施引文献引用结构测度焦点专利创新性的方法也受到学者的重视, 该方法的测度原理在于衡量焦点文献中的知识单元在整体施引文献引用中所占比例。Shibayama S 等[69] 认为, 论文的价值与原创性可以通过后续引用计算, 从施引文献是否把焦点论文作为主要知识来源识别焦点论文的原创性。2019 年, Wu L 等[70] 重新解释了突破性D指数并将其应用于专利评价领域。突破性指数以施引文献引用焦点文献及其参考文献的情况作为衡量焦点文献突破性的标准, 实则是通过学术论文的学术影响力与科技成果创新性之间的相关关系, 用学术影响力度量科技成果创新性。
依据施引文献引用知识单元的不同, 可将施引文献引用模式划分为3 种: 其一, 只引用焦点论文中的知识, 这种情况下说明焦点文献具有颠覆性;其二, 既引用了焦点论文中的知识又引用了焦点论文的参考文献, 说明焦点论文具有发展性; 其三,只引用了焦点论文的参考文献, 说明焦点论文具有继承性。依据以上3 种情况, 焦点文献的突破性指数计算方法见式(18):
其中, NF 为只引用了焦点论文的施引文献数量, NB 为引用焦点论文及其参考文献的施引文献数, NR 为只引用了参考文献的施引文献数。D 的取值范围是-1~1, 当D>0 时, 说明偏向颠覆性;当D =1 时, 说明焦点文献完全突破已有研究。随后, Wu S J 等[71] 、Osório A 等[72] 和Bornmann L等[73] 使用该指数进行实证研究, 证实了该方法的有效性。利用突破性指数从施引文献的角度评价科技成果的创新性, 体现了该科技成果的有用性和新颖性, 为评价科技成果创新性提供新的视角。但该方法仅能针对单篇科技成果的评价, 无法实现对无引用量的科技成果的评价, 在利用该方法进行评价时, 也要关注施引者引用意图的问题。
不同于依赖参考文献的论文颠覆性测度方法,Wang S 等[74] 在上述基于引用的突破性指数及其相关改进指数的基础上, 提出以知识实体为对象测度论文颠覆性的ED 指数, 通过该指数反映的论文直接创造和激发的知识突破量测度创新性, 破坏性越强, 对现有研究知识流的改变就越大, 意味着论文创新性越强。具体度量包括焦点论文偏离现有研究的程度及沿其传播路径引起的焦点转移的程度两方面。EDs 量化了焦点文献直接导致的现有研究知识流的变化程度, 计算如式(19):
其中, Ni 表示只引用焦点文献的数量, Nj 表示既引用焦点文献又引用参考文献的文献数量,Nk 代表只引用参考文献的文献数量。由此, 论文的创新度c 计算方法见式(25):
c =d∗μ (25)
上述内容是对科技成果创新性测度指标所做的具体分析, 表1 中选取了代表性的文献, 对文献中出现的测度指标、知识单元、方法内涵、测度模型, 以及研究者实证分析中应用的数据源及具体研究领域进行分析, 以便从宏观上把握当前科技成果创新性测度的研究现状。
3 总结与展望
科技成果的创新水平是衡量其学术质量的关键,也是推动国家科技发展的核心动力。本文通过对创新性理论和知识单元理论的深入分析, 以及对现有科技成果创新性测度研究现状的调研, 立足于知识单元理论视角, 从创新成果的新颖性和有用性两个基本维度出发, 对现有研究进行了梳理。以下对前文所述评价指标进行对比分析并总结目前研究存在的不足, 最后对未来科技成果创新性评价研究进行展望。
3 1 创新性测度指标对比与分析
科技成果创新性各维度评价指标在评价过程中的侧重点各有不同, 因而也呈现不同的测度效果。新颖性指标侧重从知识来源及产出是否“新颖”的角度对学术成果的创新性进行测度, 而有用性指标往往依赖学术成果的引用特征, 更加侧重于从其后续知识影响力的视角对创新性进行评价。就此而言, 新颖性相关测度指标无需依赖引用时间窗口,具有操作上的独立性特征, 无论学术成果是否已发表, 皆可对其进行直接测度, 且从辅助同行评审的视角, 在证实相关指标有效性的基础上, 可为论文同行评审提供量化参考, 进而提高科学交流效率,相对而言具备一定优势。但在足够的时间窗口内,基于有用性维度的测度指标对于识别具有实际创新价值的科技成果、改进学术成果新颖性测度方法而言具有重要意义。
现有新颖性测度指标中, 较多使用关键词、参考文献及其组合比例和频次特征对科技成果新颖性进行测度, 从计算过程和结果的可解释性方面来看具有直观性, 但是上述指标皆存在不直接针对内容性的弊端, 如作者自主提供的关键词可能存在代表性和规范不足的问题, 未必都能真实反映文献的核心研究内容。通过参考文献识别创新性方面, 当前的研究中多通过参考文献来源期刊的组合对新颖性进行测度, 参考文献的组合体现了科技成果的跨学科性, 在一定程度上能够体现论文的创新潜力, 具有可操作性和合理性, 但鲜有研究者考虑到作者引用动机的问题, 且由于参考文献的选取依旧具有主观性, 具有不针对论文实际内容的固有局限, 而作者虽参考该篇文献, 但所参考的文献也未必是文中创新性思想的来源[65] , 因此其量化结果的科学性有待考究, 不宜单独作为指标使用。除关键词与参考文献外, 主题及主题词也是常用的科技成果创新性测度指标, 其虽然能够更加精准地从科技成果的主题视角揭示内容创新性, 但从当前的研究现状来看, 利用主题词对创新性进行测度的方法大多依赖于特定领域的主题词表, 具有学科与领域依赖性,暂未能实现对跨学科、跨领域的学术成果的评价。而在使用新颖知识单元组合方面, 已有使用研究问题与研究方法组合以及参考文献与产出内容组合的改进评价方法, 前者深入科技成果文本内容和论文研究核心要素, 后者同时关注论文知识来源与知识产出, 更加聚焦于论文创新本质, 从综合的视角对已有研究进行了完善与补充。
现有对科技成果有用性的测度主要使用论文被引频次和被引比例等指标, 对于刻画新颖成果价值而言具有优势, 但由于论文被引量并不直接体现论文质量, 是论文影响力的体现, 引用频次高代表该成果影响力大, 但其并不直接体现成果创新性, 且可能受潜在因素操纵, 因而不适合直接用以度量创新性。以国际合作成果为例, 多个国家(地区)与作者群会产生更高的引用量, 但是其实际创新性会削弱。因此, 科技成果创新性与学术影响力是两个不同的概念, 在进行创新性评价时应注意区分。此外, 引文本身也存在时滞性、片面性等问题, 如何从引文位置、引文情感、引文动机方面进行更细致的分类后再构建成测度指标也是一条可行的路径。
3 2 研究不足与展望
在本文的研究中也发现, 尽管现有的大量文献已经为创新性测度奠定了重要的学理基础, 但是仍然存在一些待优化和改进的方面, 总体来看, 构建一套准确、完善、可用的创新性测度体系还需要学术界进行更多努力和不断的尝试。
3 2 1 研究不足
通过对科技成果创新性测度相关研究的梳理,本文认为, 当前科技成果创新性在测度方法和理论方面有待优化之处包括以下几点。
1) 浅层知识单元测度指标过度使用。通常认为, 参考文献、引文都属于文献知识单元的范畴,其具备量化科技成果内容特征的要求。通过前文梳理可见, 上述指标目前在学界使用频率较高, 但是相比于全文本、句子、语词等知识单元[56] , 参考文献等这类知识单元反映、表达和刻画所承载知识的能力有限, 特别是被构建利用, 单独作为测度指标时更可能造成测度结果的偏误[64] 。本文将这一类知识单元描述为浅层次的知识单元。现有研究中出现利用浅层次知识单元构建创新性测度指标对科技成果创新性进行测度已取得丰富的研究成果, 但由于操作难度等潜在因素的影响, 对于利用更加细粒度、聚焦科技成果内容的知识单元测度创新性的相关研究仍存在较大改进空间。
2) 有用性维度知识单元未充分挖掘。通过对现有研究成果的梳理发现, 当前在科技成果创新性评价领域所用指标主要以新颖性相关指标为主, 而有用性维度的相关指标并未得到充分运用。在目前的研究中, 该维度下所利用的数据源仍存在较为单一的问题, 数据类型主要包括发文数据和引用数据, 量化粒度较粗, 对成果引用位置、引用情感等内容层面指标的关注度不足, 且在科学计量学实践领域已被广泛探索运用的“使用数据” 和“替代计量数据” 尚没有被采用, 而事实上这两类数据特别适用于衡量科技成果的社會影响力、真实贡献度和实际价值, 在测度科技成果有用性特征方面的潜力没有得到充分发挥。同时, 现有研究较多从成果学术影响力层面对创新性进行测评, 而从成果社会影响力角度提取相关指标对成果创新性进行测度的研究尚未受到关注。除此之外, 如前文所述, 新颖性与有用性是创新性的两个维度, 在刻画创新性方面二者存在互为补充的关系, 而目前综合新颖性和有用性维度, 从“查新” 与“实际价值评估”的角度全面衡量成果实际价值的研究依旧有待深入。
3) 专家评审相关定性评价数据利用不足。创新性研究中, 测度与评价具有本质的不同, 前者强调借助客观数据和量化研究手段识别科技成果的创新性水平, 后者则主要使用同行专家评议方法, 通过专家对科技成果所含知识的创新性进行主观判断, 二者在对成果创新性进行识别方面具有各自的优势。目前关于创新性测度的研究大多以被引量、参考文献等客观数据进行量化为主, 但对专家对成果的评审数据挖掘力度不够, 也未将上述定量数据与定性数据相结合进行评价。除此之外, 随着时代的发展, 在有关科技评价的研究中, 有越来越多的学者支持将客观测度结果用于辅助同行评审决策的评价模式, 以改进同行评审人知识的局限和认知偏差问题, 保障评审结果的公平性和质量。从现有创新性测度的文献看, 研究成果总体处于研制指标和研发方法的阶段, 对于创新性测度结果的实践价值和应用价值缺乏明确的规划, 对于创新性测度结果与同行评审流程结合方式缺乏明确的路径, 可能直接影响到成果应用的可行性、应用领域和范围, 这些关乎方向性的关键问题亟需要加以明确, 以推进科技成果创新性测度研究的快速发展。
3 2 2 研究展望
1) 挖掘使用细粒度知识单元, 开发新型数据源。结合创新理论与知识单元理论, 创新主要来源于知识单元的增量重组和新知识单元的出现, 从新角度整合出新理论、发现新现象、使用新方法等皆可视为创新的表征[79] , 其中, 测度知识创新性的最小单元即微观知识元, 相对而言更加聚集于科技成果实际内容本身, 是量化其创新性的有力指标。而当前研究对细粒度知识单元的应用并不多, 致使测度结果可能会与实际创新程度存在偏差。为改进该问题, 本文认为, 应在现有研究基础上, 深入研究表征论文实际内容的知识单元, 进而对相应知识单元进行量化分析以客观测度科技成果创新性。如可在现有利用论文研究问题与方法等知识单元计算论文新颖程度的基础上[59] , 加入论文研究结论等指标, 综合主要研究内容和研究结果的多维视角衡量相关成果与已有研究的差异度, 从而避免由于使用浅层次知识单元产生的测度结果不准确、结果可信度低等问题。
2) 提高对有用性维度指标的关注度, 促进新颖性与有用性指标的有效结合。针对有用性指标应用不足的问题, 本文认为, 首先应提高对有用性指标的关注度, 除使用以被引量、被引频次为主体的度量指标外, 应增加对引用位置、引用动机、贡献度以及引用内容的考虑, 使基于引用特征的测度方法更为科学。针对社会影响力指标开发不足的问题, 可利用在科学计量学实践领域已被广泛探索运用且在测度科技成果有用性方面具有潜力的“使用数据” 进行测度, 具体而言, 使用数据包括用户在与学术系统交互后留下的收藏量、下载量、浏览量、阅读量、转发量、评论数等行为痕迹, 对这些数据在内涵清晰、可理解基础上进行采集清洗和综合利用, 将进一步实现创新性测度的准确性。除此之外, 也应当提高对科技成果在各类网络社交新媒体、学术型网站、学术型社交媒体上传播热议程度相关替代计量数据的关注, 基于文本内容, 将成果的学术影响力与上述社会影响力相关指标相结合, 从语义层面对论文创新影响力进行全面、深入、准确的评价[80] 。针对目前新颖性与有用性指标结合不足的问题, 可充分发挥二者的测度优势,前者聚焦于成果细粒度知识单元的测评结果, 后者综合测度成果的学术影响力与社会影响力, 将二者相结合实现对成果创新性的测度。
3) 充分利用专家评审数据, 提高与定量评价结果的结合度。首先, 科学交流体系的变革为科技成果评审提供了更加开放的环境和更为广阔的交流平台, 本文认为, 针对定性数据使用不足的问题,应当加强对开放同行评审平台中专家评审数据的利用, 使基于定性与定量数据的测度结果得以有效结合。科技成果的创新性评价活动具有较强的实践意义, 对于辅助科研管理部门决策以及同行评议评审而言具有重要参考价值。由于当前科技成果创新性测度相关研究依然处于探索上升的阶段, 根据现有研究, 其未充分与专家评审活动实现有效关联与融合。针对该问题, 未来研究应在关注计量相关定量方法与同行评审定性评价方法特点的基础上, 逐步厘清二者发挥作用的规律, 结合当前主流成果创新性测度方法的测评结果, 探索将其与专家评审流程相结合的有效路径。
参考文献
[1] 秦成磊, 章成志. 大数据环境下同行评议面临的问题与对策[J]. 情报理论与实践, 2021, 44 (4): 99-112.
[2] 罗卓然, 王玉琦, 钱佳佳, 等. 学术论文创新性评价研究综述[J]. 情报学报, 2021, 40 (7): 780-790.
[3] 李姗, 单磊, 崔雷. 学术论文新颖性评价方式[J]. 中华医学图书情报杂志, 2020, 29 (8): 71-74.
[4] 柴嘉琪, 陈仕吉. 论文新颖性测度研究综述[J]. 农业图书情报学报, 2020, 32 (10): 56-61.
[5] 魏绪秋, 申力旭. 学术论文创新性研究述评[J]. 图书情报知识, 2022, 39 (4): 68-79.
[6] 约瑟夫·熊彼特. 经济发展理论[M]. 郭武军, 吕阳, 译. 北京: 华夏出版社, 2015.
[7] Chen J, Zhu Z, Xie H Y. Measuring Intellectual Capital: A NewModel and Empirical Study [ J]. Journal of Intellectual Capital,2004, 5 (1): 195-212.
[8] Cavusgil S T, Calantone R J, Zhao Y. Tacit Knowledge Transferand Firm Innovation Capability [J]. Journal of Business & Indus?trial Marketing, 2003, 18 (1): 6-21.
[9] Keszey T. Boundary Spanners Knowledge Sharing for InnovationSuccess in Turbulent Times [J]. Journal of Knowledge Management,2018, 22 (5): 1061-1081.
[10] Rafols I, Meyer M. Diversity and Network Coherence as Indica⁃tors of Interdisciplinarity: Case Studies in Bionanoscience [ J].Scientometrics, 2009, 82 (2): 263-287.
[11] Popadiuk S, Choo C W. Innovation and Knowledge Creation:How Are These Concepts Related? [J]. International Journal of In⁃formation Management, 2006, 26 (4): 302-312.
[12] Cumming B S. Innovation Overview and Future Challenges [ J].European Journal of Innovation Management, 1998, 1 (1): 21-29.
[13] Badawy M K. How To Prevent Creativity Mismanagement [ J].Research Management, 1986, 29 (4): 28-35.
[14] Harkema S. A Complex Adaptive Perspective on Learning WithinInnovation Projects [ J]. The Learning Organization, 2003, 10(6): 340-346.
[15] Brachos D, Carrillo F J, Kostopoulos K, et al. Knowledge Ef?fectiveness, Social Context and Innovation [J]. Journal of Knowl⁃edge Management, 2007, 11 (5): 31-44.
[16] 赵红洲, 蒋国华. 知识单元与指数规律[ J]. 科学学与科学技术管理, 1984, (9): 39-41.
[17] 姜春林, 张立伟, 谷丽, 等. 知识单元视角下学术论文评价研究[J]. 情报杂志, 2014, 33 (4): 29-34.
[18] 索传军, 戎军涛. 知识元理论研究述评[J]. 图书情报工作,2021, 65 (11): 133-142.
[19] 徐荣生. 知识单元初论[J]. 图书馆杂志, 2001, (7): 2-5.
[20] 文庭孝. 知识单元的演变及其评价研究[J]. 图书情报工作,2007, (10): 72-76.
[21] 文庭孝, 罗贤春, 刘晓英, 等. 知识单元研究述评[ J]. 中国图书馆学报, 2011, 37 (5): 75-86.
[22] Mishra S, Torvik V I. Quantifying Conceptual Novelty in the Bio⁃medical Literature [ J]. D-Lib Magazine: The Magazine of theDigital Library Forum, 2016, 22 (9-10): 1-21.
[23] 杨京, 王芳, 白如江. 基于研究水平的单篇学术论文创新力评价研究———以碳纳米管材料领域为例[ J]. 情报理论与实践, 2017, 40 (9): 105-111, 76.
[24] Dirk L. A Measure of Originality: The Elements of Science [ J].Social Studies of Science, 1999, 29 (5): 765-776.
[25] Gerken J M, Moehrle M G. A New Instrument for Technology Mo⁃nitoring: Novelty in Patents Measured By Semantic Patent Analysis[J]. Scientometrics, 2012, 91 (3): 645-670.
[26] Uddin S, Khan A. The Impact of Author-selected Keywords onCitation Counts [ J]. Journal of Informetrics, 2016, 10 ( 4):1166-1177.
[27] Zhang X, Xie Q, Song M. Measuring the Impact of Novelty,Bibliometric, and Academic-network Factors on Citation Count U⁃sing a Neural Network [ J]. Journal of Informetrics, 2021, 15(2): 1-17.
[28] Yan Y, Tian S, Zhang J. The Impact of a Papers New Combina⁃tions and New Components on Its Citation [ J]. Scientometrics,2020, 122 (2): 895-913.
[29] Bornmann L, Tekles A, Zhang H H, et al. Do We MeasureNovelty When We Analyze Unusual Combinations of Cited Refer⁃ences? A Validation Study of Bibliometric Novelty Indicators Basedon F1000 Prime Data [ J]. Journal of Informetrics, 2019, 13(4): 1-15.
[30] Shin H, Kim K, Kogler D F. Scientific Collaboration, ResearchFunding, and Novelty in Scientific Knowledge [ J]. Plos One,2022, 17 (7): 1-22.
[31] 楊建林, 钱玲飞. 基于关键词对逆文档频率的主题新颖度度量方法[J]. 情报理论与实践, 2013, 26 (3): 99-102.
[32] Lee Y N, Walsh J P, Wang J. Creativity in Scientific Teams:Unpacking Novelty and Impact [ J]. Research Policy, 2015, 44(3): 684-697.
[33] Carayol N, Lahatte A, Llopis Córcoles Ó. Novelty and AcademicImpact [J]. STI Conference, 2017.
[34] Lee C, Kang B, Shin J. Novelty-focused Patent Mapping forTechnology Opportunity Analysis [ J]. Technological Forecastingand Social Change, 2015, 90: 355-365.
[35] 冯立杰, 尤鸿宇, 王金凤. 专利技术创新路径识别及其新颖性评价研究[J]. 情报学报, 2021, 40 (5): 513-522.
[36] Tsai F S, Zhang Y. D2S: Document-to-Sentence Framework forNovelty Detection [J]. Knowledge and Information Systems, 2011,29 (2): 419-433.
[37] Sendhilkumar S, Nandhini N S, Mahalakshmi G S. Novelty De⁃tection Via Topic Modeling in Research Articles [ J]. ComputerScience & Information Technology, 2013: 401-410.
[38] 索传军, 盖双双, 周志超. 认知计算———单篇学术论文评价的新视角[J]. 中国图书馆学报, 2018, 44 (1): 50-61.
[39] 晁珍珍. 基于关键词提取的专利新颖性分析技术研究[ D].南京: 南京邮电大学, 2020.
[40] Wang Z, Wang K, Liu J, et al. Measuring the Innovation ofMethod Knowledge Elements in Scientific Literature [ J]. Sciento⁃metrics, 2022, 127 (5): 2803-2827.
[41] 章成志, 李铮. 基于学术论文全文的创新研究评价句抽取研究[J]. 数据分析与知识发现, 2019, 3 (10): 12-19.
[42] 曹树金, 曹茹烨. 情报学论文创新性评价研究———LDA 和SVM 融合方法的应用[ J]. 图书情报知识, 2022, 39 ( 4):56-67.
[43] Boudreau K J, Guinan E C, Lakhani K R, et al. Looking Acrossand Looking Beyond the Knowledge Frontier: Intellectual Distance,Novelty, and Resource Allocation in Science [J]. Management Sci⁃ence, 2016, 62 (10): 2765-2783.
[44] 李姗, 单磊, 崔雷. 不同被引频次论文主题词组合特征及其与论文新颖性关系的研究———以免疫学ESI 指标为例[J]. 情报理论与实践, 2021, 44 (1): 162-167.
[45] 任海英, 王德营, 王菲菲. 主题词组合新颖性与论文学术影响力的关系研究[J]. 图书情报工作, 2017, 61 (9): 87-93.
[46] 逯万辉, 谭宗颖. 学术成果主题新颖性测度方法研究———基于Doc2Vec 和HMM 算法[ J]. 数据分析与知识发现, 2018,2 (3): 22-29.
[47] 任海英, 邵文, 李欣. 基于专利内容新颖性和常规性的突破性发明影响因素和研发策略分析[ J]. 情报杂志, 2019, 38(2): 56-63.
[48] Dahlin K B, Behrens D M. When is an Invention Really Radical?Defining and Measuring Technological Radicalness [ J]. ResearchPolicy, 2005, 34 (5): 717-737.
[49] Uzzi B, Mukherjee S, Stringer M, et al. Atypical Combinationsand Scientific Impact [J]. Science, 2013, 342 ( 6157): 468-472.
[ 50] Wagner C S, Cai X, Mukherjee S. Chinas Scholarship Shows Atypi⁃cal Referencing Patterns [ J]. Scientometrics, 2020, 124 ( 3):2457-2468.
[51] Kim D, Cerigo D B, Jeong H, et al. Technological Novelty Pro?file and Inventions Future Impact [J]. EPJ Data Science, 2016,5 (1): 1-15.
[52] Lin Y, Evans J A, Wu L. New Directions in Science Emerge fromDisconnection and Discord [J]. Journal of Informetrics, 2022, 16(1): 101234.
[53] Boyack K, Klavans R. Atypical Combinations Are Confounded ByDisciplinary Effects [ C] / /19th International Conference on Sci⁃ence and Technology Indicators, 2014.
[54] Wang J, Veugelers R, Stephan P. Bias Against Novelty in Sci⁃ence: A Cautionary Tale for Users of Bibliometric Indicators [ J].Research Policy, 2017, 46 (8): 1416-1436.
[55] Tahamtan I, Bornmann L. Creativity in Science and the Link toCited References: Is the Creative Potential of Papers Reflected inTheir Cited References? [ J]. Journal of Informetrics, 2018, 12(3): 906-930.
[56] Shibayama S, Yin D, Matsumoto K. Measuring Novelty in Sciencewith Word Embedding [J]. Plos One, 2021, 16 (7): 1-16.
[57] Luo Z, Lu W, He J, et al. Combination of Research Questionsand Methods: A New Measurement of Scientific Novelty [ J].Journal of Informetrics, 2022, 16 (2): 111282.
[58] 罗卓然, 陆伟, 蔡乐, 等. 学术文本词汇功能识别———在论文新颖性度量上的应用[J]. 情报学报, 2022, 41 (7): 720-732.
[59] 钱佳佳, 罗卓然, 陆伟. 基于问题-方法组合的科技论文新颖性度量与创新类型识别[J]. 图书情报工作, 2021, 65 (14):82-89.
[60] Verhoeven D, Bakker J, Veugelers R. Measuring TechnologicalNovelty with Patent-based Indicators [J]. Research Policy, 2016,45 (3): 707-723.
[61] 吴菲菲, 栾静静, 黄鲁成, 等. 基于新颖性和领域交叉性的知识前沿性专利识别———以老年福祉技术为例[ J]. 情报杂志, 2016, 35 (5): 85-90.
[62] Amplayo R K, Hong S L, Song M. Network-based Approach toDetect Novelty of Scholarly Literature [ J]. Information Sciences,2018, 422: 542-557.
[63] 秦岩, 代君, 廖莹驰. 学术会议论文新颖性测度研究———以计算机学科人工智能领域为例[ J]. 情报科学, 2021, 39 (1):104-110.
[64] Amplayo R K, Hwang S, Song M. Evaluating Research NoveltyDetection: Counterfactual Approaches [ C] / / Proceedings of theThirteenth Workshop on Graph - Based Methods for Natural Lan⁃guage Processing, 2019: 124-133.
[65] Wang S, Mao J, Ma Y. The Correlation Between Content Noveltyand Scientific Impact [C] / / EEKE JCDL. 2021: 66-68.
[66] Liu M, Bu Y, Chen C, et al. Pandemics Are Catalysts of Scien⁃tific Novelty: Evidence from COVID-19 [J]. Journal of the Asso⁃ciation for Information Science and Technology, 2022, 73 ( 8):1065-1078.
[67] Leydesdorff L, Bornmann L, Comins J A, et al. Citations: In⁃dicators of Quality? The Impact Fallacy [J]. Frontiers in ResearchMetrics and Analytics, 2016, 1 (1): 1-15.
[68] Min C, Bu Y, Sun J, et al. Is Scientific Novelty Reflected inCitation Patterns? [J]. Proceedings of the Association for Informa⁃tion Science and Technology, 2018, 55 (1): 875-876.
[69] Shibayama S, Wang J. Measuring Originality in Science [ J].Scientometrics, 2020, 122 (1): 409-427.
[70] Wu L, Wang D, Evans J A. Large Teams Develop and SmallTeams Disrupt Science and Technology [ J]. Nature, 2019, 566(7744): 378-382.
[71] Wu S J, Wu Q. A Confusing Definition of Disruption [EB/ OL].https: / / doi.org/10.31235/ osf.io/ d3wpk, 2022-06-07.
[72] Osório A, Bornmann L. On the Disruptive Power of Small-teamsResearch [J]. Scientometrics, 2021, 126: 117-133.
[73] Bornmann L, Tekles A. Disruptive Papers Published in Sciento?metrics [J]. Scientometrics, 2019, 120 (1): 331-336.
[74] Wang S, Ma Y, Mao J, et al. Quantifying Scientific Break⁃throughs By a Novel Disruption Indicator Based on Knowledge Enti⁃ties [ J]. Journal of the Association for Information Science andTechnology, 2022, 74 (2): 150-167.
[75] 谢珍, 马建霞, 胡文静. 面向代表作评价的学术论文创新性测度方法[J]. 情报理论与实践, 2022, 45 (7): 81-88.
[76] Matsumoto K, Shibayama S, Kang B, et al. Introducing a Nov⁃elty Indicator for Scientific Research: Validating the KnowledgebasedCombinatorial Approach [ J]. Scientometrics, 2021, 126(8): 6891-6915.
[77] Ding J, Shen Z, Ahlgren P, et al. The Link Between Ethnic Di⁃versity and Scientific Impact: The Mediating Effect of Novelty andAudience Diversity [J]. Scientometrics, 2021, 126 (9): 7759-7810.
[78] Lyu D, Gong K, Ruan X, et al. Does Research Collaboration In⁃fluence the “Disruption” of Articles? Evidence from Neurosciences[J]. Scientometrics, 2021, 126 (1): 287-303.
[79] Heinze T, Shapira P, Rogers J D, et al. Organizational and In⁃stitutional Influences on Creativity in Scientific Research [J]. Re⁃search Policy, 2009, 38 (4): 610-623.
[80] 杨思洛, 聂颖. 结合全文本分析的论文影响力评价模型研究[J]. 现代情报, 2022, 42 (3): 133-146.
(责任编辑: 郭沫含)