新兴主题识别方法研究综述

2023-12-18 14:30柴文越刘小平梁爽
现代情报 2023年12期
关键词:文本挖掘文献计量综述

柴文越 刘小平 梁爽

关键词: 新兴主题; 主题识别; 文献计量; 引文分析; 文本挖掘; 综述

DOI:10.3969 / j.issn.1008-0821.2023.12.014

〔中图分类号〕G250.2 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 12-0164-14

随着科技的发展, 越来越多的新目标、新方向、新方法、新成果喷涌而出, 如何快速把握国际科技新形势, 了解各国(地区)科技创新的攻关重点, 及时准确地追踪新兴研究趋势与前沿热点, 以谋划科技发展战略布局, 是提高国家科技实力的重要环节。《中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》中提出, 国家应面向世界科技前沿, 实施具有前瞻性、战略性的科技项目, 强化国家的战略科技力量[1] 。因此, 通过设计快速高效的识别方法, 发现各学科的最新研究动向, 能为科研工作者规划其后续的研究方向提供参考、为研究机构合理分配资源提供便利、为国家制定科技战略提供数据支持, 具有十分重要的现实意义。因此, 面向新兴主题识别的整个研究流程,对研究的现状与进展进行全面的梳理和述评, 能够发现研究存在的局限, 找到需要深入研究的问题,为后续研究提供参考。

现已有部分学者对新兴主题识别相关研究展开述评, 为进一步开展新兴主题识别提供了重要参考。如卢超等[2] 、刘小玲等[3] 分别对新兴研究话题和新兴技术主题的概念、主题提取方法、探测指标构建和结果验证方法进行归纳; 杨金庆等[4] 从数据特征的视角入手, 梳理了新兴主题识别的方法。然而, 相关研究对新兴主题概念界定的视角关注较少;对数据源的选择, 尤其是多源数据融合方面存在的问题关注不够充分; 对新兴主题的内在属性以及各学者所关注的特性总结不够全面; 最新发表的成果尚待梳理, 所以相关工作还待进一步剖析。因此,本文首先对相关概念进行辨析, 并对新兴主题的起源与内涵和新兴主题识别的研究视角进行梳理; 其次, 面向新兴主题识别的流程, 本文将分别对新兴主题识别研究选取的数据源与分析对象、面向分析对象的主题识别及表征方法, 以及用于筛选新兴主题的属性与指标进行述评, 并对比不同方法间的优劣; 最后, 本文将综合目前的研究现状对新兴主题识别领域的研究进行归纳总结, 发现研究存在的局限, 指出未来研究的方向, 以期为后续研究提供参考。

1新兴主题的概念与辨析

1.1相关概念辨析

与“新兴主题” 经常一起出现的概念为“前沿主题”, 二者因具有类似的特性而经常被混淆。1965年, 学者Price D J D[5] 提出的“研究前沿”, 被认为是某领域近期发表的被引频率较高的参考文献集合, 以表征一个研究领域的前沿思想。研究早期,学者对研究前沿的定义通常为方法性描述, 主要通过引文分析方法, 利用高被引文献集、高被引文献集的施引文献、共被引中的核心文献等来表征前沿主题[6-7] 。随着研究的深入, 学者对研究前沿的定义更强调主题的特性, 认为前沿主题是受到高度关注, 具有较高影响力、较大发展潜力、较高水平的研究问题, 代表了当前研究的热点与难点[8] 。

总的来说, 二者都是具备一定创新性和影响力的主题, 存在交叉但又各有侧重。“新兴主题” 也被称为新兴研究话题、新兴研究趋势, 主要强调时间维度上的“新”, 以及发展维度上的“兴”, 是受到新技术出现或环境变化等影响, 在近期出现或得到一定关注但尚未被广泛研究的主题, 这类主题具有一定的发展潜力, 正在快速兴起。而“前沿主题” 主要强调研究水平的“高”, 研究难度的“大”, 以及研究质量的“优”, 代表了某一领域的最高水平和最新成果。这类主题的研究价值往往已经被充分认可, 但仍然需要深入探索和挖掘, 研究存在一定的挑战。而随着研究的愈发深入, 一部分新兴研究主题将成长为前沿主题, 其他主题将成为非前沿性热点主题或衰老主题。

1.2新兴主题的起源与内涵

新兴主题(Emerging Topics) 这一概念最早由Matsumura N 等[9] 于2002 年提出, 被认为是新出现且重要的主题。根据这一定义, Matsumura N 等基于社会进化的视角, 在社区网络上进行实验, 证明了新兴主题是与多个强链接社区存在弱链接关系的主题。时至今日, 已有不少学者进行了新兴主题识别的相关研究, 但“新兴主题” 的概念和其基本属性仍然没有较为明确和被公认的定义。

通过阅读发现, 国内外学者对新兴主题概念的界定通常从3 个角度入手: ①新兴主题的外部表现:根据生命周期理论, 一个主题从诞生到衰落通常会经历4 个阶段: 萌芽期、快速发展期、成熟期、衰落或转型期, 根据主题的外部表现, 新兴主题通常被定义为处于快速发展期的主题; ②新兴主题的外部表现与未来趋势: 在新兴主题现有表现的基础上,强调新兴主题的未来发展趋势、影响与效应, 认为新兴主题具有更强的影响力和较大的发展潜力; ③新兴主题的外部表现与产生机制: 即在新兴主题现有表现的基础上, 从主题的产生机制或成因入手,对新兴主题进行定义与识别。有关新兴主题概念的描述, 如表1 所示。

综上发现, 目前学界对新兴主题的概念并没有达成共识, 且各研究关注的特性也不同。然而, 无论是从外部表现还是从产生机制入手, 几乎所有学者都认同新兴主题的新颖性和成长性, 并以“新”和“興” 作为基础属性为“新兴主题” 赋予定义。笔者根据以往的研究, 尝试在学术场景下对新兴主题作出如下定义: 新兴主题是一类新颖的、发展速度较快的、具有一定创新性和持久性并且具有一定影响力的研究主题。

2新兴主题识别方法研究进展

通过阅读相关文献发现, 在研究前期, 学者们通常立足于回顾的视角, 基于历史数据对新兴研究主题进行识别。随着机器学习技术的进步以及相关研究的愈发深入, 越来越多的学者立足于对未来趋势进行洞察与探测, 利用文本挖掘与神经网络等技术对新兴主题进行预测。在此基础上, 本文选定CNKI 和Web of Science 核心合集分别作为中英文文献数据来源, 在CNKI 上以检索式SU = (“新兴主题”+“新兴研究” +“新兴技术主题” +“新兴趋势”) AND SU=(“识别”+“探测”+“预测”)对中文文献进行检索;在Web of Science 核心合集中,以检索式TS = ((“emerg? theme? ” or “emerg? topic? ”or“theme? emerg?” or “topic? emerg?” or “emerg?of theme?” or “emerg? of topic? ” or (“emerg? re?search” and “trend”)) and (“identif? ” or“recog?ni?” or “forecast? ” or“detect? ”))对英文文献进行检索, 限制索引=(SCI-Expanded, SSCI), 并根据专家建议将WOS 类别限定为计算机科学、信息科学相关的7 个WOS 类别。在阅读过程中, 笔者将未被检索到的相关被引文献等纳入文献集内, 最终得到符合研究内容的重要文献。本文将梳理上述文献, 以对新兴主题识别方法进行总结与分析。

2.1数据源与分析对象

选择数据源与分析对象是新兴主题识别的首要环节, 能够决定研究适用的方法, 影响研究结果的呈现。通过文献调研发现, 新兴主题识别的数据源主要可以分为单源数据和多源数据, 而对于不同的研究阶段, 学者选取的研究对象也存在差异。如图1 所示, 在主题挖掘阶段, 学者常用文献标题、摘要、关键词、参考文献、引文内容等最能反映研究重点的内容数据作为语料来源进行主题挖掘。在主题新兴与否的判别阶段, 学者常用科技文献发表年份、被引或下载情况等能够反映文献新颖性、关注度特性的外部数据进行新兴主题识别。

2.1.1基于单源数据的新兴主题识别

单源数据即研究的数据集来自单一数据源, 学者通常选择一类数据如期刊论文[15] 、专利文献[18] 、基金项目数据[19] 、政策报告[20] 等进行新兴主题的识别。单源数据因其数据结构统一、分类方式一致、内容获取便捷等优势被学者广泛应用于新兴主题的识别研究。然而, 各类科技文献的研究内容、重点与研究方法不同, 单凭一种数据源可能难以真实反映复杂的科研主题, 因此不少学者试图通过多类数据对新兴研究主题进行全面识别。

2.1.2基于多源数据的新兴主题识别

多源数据即研究的数据集来自多种数据源, 为了弥补单源数据对科学研究现状反映能力不足等问题, 学者们开始使用多源数据对研究问题进行分析,以保证对学科领域进行更为全面的认知[21-23] 。通过调研发现, 新兴主题识别研究使用多源数据的方式主要分为3 类, 如图2 所示。

1) 先融合研究, 即先将不同数据集进行合并,再对合并后的多源数据集进行主题识别。如邱悦文[24] 将论文的标题与摘要、专利的说明书内容、基金数据的标题与结项摘要、政策的标题等数据进行融合, 利用LDA 主题模型与构建的判别指标实现新兴技术主题识别。先融合方法将多类数据看作一个整体, 简化了数据匹配和结果解读的难度, 提升了研究效率。但由于对不同数据源选取的分析对象不同、各数据源之间存在时滞等原因[25] , 先融合方法存在一定的局限, 且难以分析不同数据源在主题表现情况上的差异。

2) 后融合研究, 即首先分别对不同的数据集进行主题识别, 再根据识别结果将不同数据源得到的主题进行融合, 进而识别新兴主题。如白如江等[26] 选择科技规划文本、基金项目数据以及期刊论文为数据源, 分别对3 类数据进行主题识别, 在此基础上对主题进行相似度计算, 将相似度超过阈值的主题进行融合, 进而识别新兴主题。后融合研究方法能够全局性地观测不同数据源上主题的表现情况, 但时滞问题仍未得到解决, 决定主题是否相似的阈值设置比较主观, 识别结果容易受到人为因素影响。

3) 各数据源独立, 即对不同数据分别进行新兴主题识别研究。如Tu T N 等[10] 分别识别了期刊论文和会议论文的新兴主题, 并得到同一领域下期刊主题更加趋同、会议主题更加分散, 且新主题在会议论文中出现时间更早等结论。该方法虽然考虑到了不同数据间的差异, 但无法综合代表复杂的科研主题。

多源数据分析能够更全面地反映科研内容, 但也存在一定的局限: 由于产出模式与研究目的不同,多源数据间存在时间维度上的差异, 若对在同一时段内发表的不同文档进行简单的融合, 会出现“主题不对齐” 等问题[27-28] , 在一定程度上会对主题新颖性等特性的测度造成干扰。目前, 少有研究考虑到不同数据源之间的差异, 结合数据源的特点以及各数据源之间的联系进行更为精准的新兴主题识别。而在先前的研究中, 已有学者对不同科技文献主题间的时滞差异进行了分析[29-30] , 学者可以进行相关研究并根据研究结果对不同数据进行提前或滞后等操作, 进而实现主题对齐, 并依据主题相似度等指标实现更为精准的多源数据融合。

2.2主题识别方法研究现状

实现科研主题的识别与表征是识别新兴主题的基础, 本文根据研究实体的不同, 将国内外学者用于识别新兴主题的方法分为基于关键词汇的主题识别、基于传统引文分析的主题识别、基于文本挖掘的主题识别方法, 如图3 所示。

2.2.1基于关键词汇的主题识别

自1949 年齐普夫发现了文章内词汇的出现频率存在一定的规律后, 基于关键词的分析成为图书情报领域专家研究的热点之一[31] 。在新興主题识别的研究前期, 学者通常利用突变检测方法以及共词分析与社会网络分析相结合的方法进行新兴主题的识别。

突变检测(Burst Detection) 算法最早由Klein?berg 教授于2002 年提出, 该算法通过找到频率急剧上升的实体来发现新出现的主题。突变检测算法能够反映关键词汇的增长性, 并且不要求该词是一个高频词汇, 因此被部分学者用于新兴主题的识别。如Katsurai M 等[32] 提出了名为TrendNets 的能够反映共词网络中边权重快速变化的可视化方法, 通过计算连续时段内词语共现频率的差异, 得到突然被大量讨论的新兴主题。而部分学者认为, 孤立的词汇难以准确表达一个研究主题, 研究主题应由一组具有强文本表示功能的关键词集表征[10,33] 。因此,也有研究开始利用共词分析与社交网络分析相结合的方法实现关键词汇的聚类, 并由各类间词频最高的词汇、共词网络中的核心词汇或根据词汇的语义对主题进行规范命名来表征主题。如冯佳等[34] 对持续出现且词频呈增长趋势的高频词汇进行共现分析, 并将词汇聚类成为8 个类团, 每一个类团代表一个新兴主题。而由于一般词汇缺乏一致性、准确性和专业性, 因此利用更加权威的主题词或关键术语进行主题识别逐渐成为一种趋势。如Ohniwa R L等[16] 先根据PubMed 数据库中出现的MeSH 术语在不同时段下频率的增量筛选出“新兴关键词”, 再对新兴关键词形成的共现网络进行聚类分析, 进而识别新兴主题。

基于关键词汇的主题识别方法不需要构建复杂模型, 操作较为简单, 指标计算相对容易。文章一经发表便可以得到其中的关键词汇, 因此有利于及时发现新兴主题。然而该方法对语义和语境的关注不足, 难以解决一词多义造成的主题识别不精确等问题, 也难以揭示文档与主题、主题与词汇间的隐含关系和语义联系。由于突变检测更注重关键术语在短期内“增长性” 的测度、共词聚类方法也多强调词频的数量, 这导致该方法对新兴主题其他属性的关注度不足。最后, 突变检测与聚类方法都是基于回顾的视角进行的主题识别, 因此该方法难以预测未来的新兴主题。

2.2.2基于传统引文分析的主题识别

引文分析是对科技期刊、专利文献等分析对象的引证和被引证情况进行分析, 以揭示知识流动规律的文献计量手段[35] 。一篇文献往往会引用与其研究主题相同的文献, 因此通过构建引文网络, 并对文献进行聚类是识别研究主题的方法之一。在新兴主题识别研究中, 学者主要通过直接引文网络分析、共被引网络分析、文献耦合网络分析3 种方法进行主题识别。

文献共被引(Co-citation)这一概念于1973 年被美国学者Small H[35] 提出, 表示两篇或多篇文献被同一篇或多篇文献共同引证。如Chen C M[36] 开发并利用新版本的CiteSpace, 将突变检测算法与共被引分析方法相结合, 对共被引文献及施引文献的关键术语构成的异质网络进行分析, 进而发现新兴主题。文献耦合的概念(Bibliographic Coupling)于1963 年被美国学者Kessler M M 提出, 表示两篇或多篇文献引用了同一篇或多篇文献[37-38] 。由于共被引分析主要关注的是高被引文献, 而文献耦合分析主要关注的是施引文献, 因此, 文献耦合分析更具时效性, 也被部分学者认为更适用于新兴主题的识别研究[39-40] 。如Gl?nzel W 等[41] 利用文献耦合分析与文本相似性分析得到了文档集合的核心文献, 并将文献集的异常增长、文献集的新生、文献集研究内容的转移视作新兴主题诞生的3 种范式,以4 个学科为例证明了方法的有效性。直接引用网络能够揭示文献间的直接关联关系, 相比共被引和耦合关系更易形成, 且文献一经发表, 直接引用关系将不再变化, 因此直接引用分析更具时效性和选择性, 更容易发现大型和新颖的文献集群。但直接引用分析方法也存在同一类别内文献的相似性较小、类内文献的聚集性相较于文献共被引和文献耦合分析较弱等劣势[42-43] 。如Shibata N 等[44] 考虑到研究時效性等问题, 选择构建直接引文网络, 利用网络分析方法和时间序列分析方法对“氮化镓” 和“复杂网络” 领域的文献进行分析, 发现了新兴研究趋势并实现了研究结果的可视化呈现。

由于文献的引用现象是普遍存在的, 并且分析引文时不要求过高的先决和辅助条件, 研究的深度和广度也可以由学者自行调节, 所以引文分析具有简单易用和广泛适用的优点[45] 。此外, 文献间具有单向且清晰的引证关系, 因此基于引用网络聚类得到的研究主题也更容易被解释。然而, 受期刊论文发表周期以及专利审查周期等限制, 文章从完成到被引用需要经历较长的时间周期, 因此基于引文分析的主题识别方法具有较为明显的时滞问题, 不利于新兴主题的早期发现。其次, 引文数据库无法收集所有的引证信息, 且只有当文献被引次数达到一定的数量时, 才会得到关注, 因此基于引文分析的主题识别方法很难做到研究主题的全面覆盖, 容易忽略最新的研究主题。此外, 由于引文无法直观地表征主题, 因此往往需要对文献集进行进一步的处理, 来得到主题词以表征主题。最后, 基于被引频次的传统引文分析方法忽视了引用动机、引用情感、引用内容及引文重要程度, 将所有的引文同等看待, 不利于准确识别主题。基于以上分析, 可以发现基于传统引文分析的新兴主题识别方法仍然存在一定的缺陷, 发表时滞、引用时滞、引证数据的全面性、引用情境的多样性等问题可能会对新兴主题识别结果产生影响。

2.2.3基于文本挖掘的主题识别

文本挖掘是从大量半结构或非结构化的文本信息中提取未知的、潜在的、可理解的知识或数据模式的过程[46-47] 。与关键词和传统引文分析不同的是, 文本挖掘方法能够自动挖掘非结构化文本中的语义信息, 并实现主题识别。通过调研发现, 目前用于新兴主题识别的文本挖掘方法主要分为主题模型和文本聚类两种方法。

作为机器学习领域热门的文本分析方法之一,主题模型能够自动地从大规模文本集中发现和提炼隐含的主题信息[48] 。LDA 作为经典的主题模型被广泛应用于舆情监测、社区发现、研究热点探测等文本分析领域, 但其仍存在着在短文本上的表现一般、对文本的语境信息考虑不足、无法反映主题的动态变化等局限。因此随着机器学习技术的进步,学者针对更具象的领域, 扩展出更加有针对性的主题挖掘方法, 如动态主题模型、相关主题模型、作者主题模型、有监督主题模型、贝叶斯非参数模型等[49] 。而在新兴主题识别领域, 学者仍然多利用LDA 及其扩展模型, 搭配时间序列分析或主题演化分析方法进行主题识别。如Xu M 等[50] 利用LDA模型生成主题并计算每个时间片下的主题概率, 接着利用主题概率的突变情况识别新兴主题, 最后利用关联规则挖掘和词汇相似度计算来表征主题。由于LDA 主题模型存在前文所述的局限, 不少学者开始利用LDA 的扩展模型进行新兴主题识别。如范云满等[51] 、徐路路等[29] 、Zhou Y 等[52] 分别利用TNG、PLDA、Labeled-DMM 等模型实现新兴主题识别。目前有关主题模型的研究已经产生大量成果, 新兴主题识别研究也需要对更前沿的新模型进行深入探索与应用, 以提高新兴主题识别的效果。

文本聚类是利用机器学习等方法对大量文本内容进行聚类的方法, 该方法能够更好地考虑到文本间语义的相似程度, 实现更为精准的主题识别。学者多利用文档的句子结构或构建文本的向量化表示,结合聚类算法进行主题识别。如在句子结构或实体与关系表示方面, 黄鲁成等[53] 提取了突现文献的施引文献, 从文献摘要中提取SAO 结构, 并利用语义相似度计算程序和多维尺度分析方法实现新兴主题的聚类。在文本向量化表示方面, 任惠超等[54]使用TF-IDF 方法对每篇文档进行向量化表示, 并利用K-means++算法对文档进行聚类实现主题识别, 最后利用指标评估和突发检测方法筛选新兴主题; 郝雯柯等[55] 通过Sentence-BERT 和UMAP 算法对文本进行语义表示和向量降维, 利用HDBSCAN聚类算法进行文档聚类, 最后选择新颖度、成长性、影响力全部符合阈值的主题作为新兴主题。

随着开放获取模式的推广和文本挖掘技术的发展, 基于全文本的分析方法成为一种新的研究思路[56] 。因此, 除上述两种常用方法外, 基于引文內容分析和未来工作句子识别的全文本分析方法逐渐被用于新兴趋势发现或未来主题预测研究。

在施引文献中, 引文位置分布不均匀[57] , 各位置的引文重要程度不同[58] , 引文在文中的作用不同[59] , 不加区分地看待引文则无法准确反映施引与被引文献之间的关系和知识流动的情况。因此,在Garfield E[60] 开创了与引用行为相关的研究方向之后, 学者开始抽取施引文献的引文句和引文上下文, 并利用基于规则和基于机器学习的分类方法识别重要引文[61] , 在此基础上可以利用基于词频、聚类、主题模型等分析方法实现被引主题的识别与分析[62] 。如祝清松等[63] 利用C-value 算法对高被引文献在施引文献中的引用句进行主题识别, 得到核心主题。Jebari C 等[64] 利用DTM 动态主题模型对引用句进行主题识别, 发现了主题演化情况以及研究趋势。张金柱等[65] 利用K-means 算法对引用句及其前后句进行主题聚类, 并通过时序分析发现被引主题的变化与当下的新热点。引用内容是作者对被引文献主题的进一步总结, 能够实现对被引文献的语义补充[63,66] 。研究证明, 将引用内容引入主题识别, 能够增强主题识别结果, 反映知识的继承和发展情况。因此将时序分析与引文路径、引文主题分析相结合, 能够发现研究主题的迁移情况以及科技创新的发展路径, 有助于探测新兴主题。

未来工作句子(FWS)包含了作者对未来研究方向的构想。通过提取和分析未来工作句, 能够辅助预测未来的研究趋势[67] 。宋若璇等[68] 利用BERT 抽取未来工作句, 并结合文章关键词、相关关键短语和论文摘要等形成创新提要, 最后利用UniLM 文本生成模型生成创新构想话题。Zhang C Z 等[67] 将未来工作句分为方法、资源、评估、应用、问题和其他6 种类型, 利用SciBERT 和KeyBert 模型实现未来工作句的分类与解读, 从而对未来研究主题进行挖掘。当前学界对未来工作句子的研究还存在分类粒度不够细、识别效率不够高、预测结果不够准等问题, 在新兴主题的预测方面仍有较大的发展空间。

与传统的文献计量学方法相比, 文本挖掘法能够以全局视角对文本进行深层分析, 挖掘文档与主题、主题与词汇间的隐含关系。由于文本挖掘方法的特性, 该方法更容易实现新兴主题的预测, 更符合新兴主题识别的目标与需求, 因此成为近年来更为热门的新兴主题识别方法。然而, 多数主题模型在运行前需要确定主题数量, 聚类结果也对计算方法较为敏感, 因此对于不同的方法, 新兴主题识别的结果可能会有较大的差异; 引文内容分析在引文推荐、学科交叉文献识别、创新路径构建等领域发展较快, 但在对新兴主题识别方面应用不够, 对隐式句子的发现仍面临挑战; 有关未来工作句子的研究也需要进一步提升新兴主题预测的准确率。因此如何选择适用的文本挖掘方法, 需要结合实际应用场景进一步探讨。不同识别方法的特点与优劣如表2 所示。

2.3新兴主题识别的关注属性与测度指标

对主题进行筛选是识别新兴主题的最后一步,学者通常使用3 种方法对新兴主题进行识别: ①定性方法, 即德尔菲法, 领域专家依靠个人经验对新兴主题进行识别[69] ; ②定量方法, 即依靠一系列指标对主题进行测度。如Wang Q[70] 以激进的新颖性、快速的成长性、一定的连贯性、高科学影响力4 个一级指标通过设定阈值的方法识别新兴主题;③定性与定量相结合法, 该方法主要有两种应用模式, a. 先利用指标对主题进行初步筛选后, 再交由专家判定。如任智军等[71] 将识别的新兴主题下最相关的论文和专利提供给专家进行最终判定, 以识别新兴主题; b. 先由专家组确定候选主题名单,再依据指标对新兴主题进行识别[8] 。如Jang W 等[72]首先通过在线社区的帖子和报告收集专家意见, 再对技术文档进行主题建模, 最后利用候选技术的多样性和中心性指数得分进行模糊聚类, 以识别新兴主题。由于定性研究方法较为主观, 受限于专家个人的知识积累和评分偏好, 学者们更倾向于选择定量以及定性与定量相结合的方法来识别新兴主题。而关注特性及测度指标的合理与否直接影响了新兴主题的识别结果。因此有必要对国内外学者使用的评价指标进行述评, 以期总结出更为全面和规范的指标体系。

本文通过梳理文献, 总结了以下8 种用于识别新兴主题的主要特性, 每个属性涉及的主要测度指标及内涵如表3 所示。

1) 新颖性。该特性考虑的是主题出现的时间,一个主题出现的时间越晚, 其新颖程度越高, 是新兴主题的概率越高[73] 。针对该特性, 学者们分别从主题平均年龄和主题首次出现年份对主题新颖性进行测度。

2) 学科交叉性。学科交叉往往是新的科学生长点, 可能产生重大的科学突破, 并形成新的研究趋势。因此, 部分学者将学科交叉融合视为新兴主题形成的内驱动力之一, 并利用该属性进行新兴主题识别[17,74-75] 。如陈虹枢等[76] 提出学科多样性指标, 利用主题下文档的WOS 学科分类表征主题的学科交叉程度, 主题跨学科程度越高, 则越可能是新兴主题。

3) 未来不确定性。部分学者认为新兴主题处于主题发展前期, 其研究结果、影响力都未能充分体现, 具有一定的不确定性[77-78] , 研发具有更高的风险[79] 。许海云等[79] 构建了基于引文的主题共现网络, 在利用新颖度和增长率指标识别新兴主题后,通过观测主题在引文网络中的社区数量、强连通数量、弱连通数量的变化情况, 来测度主题的未来不确定性以及未来发展趋势。

4) 成长性。根据生命周期理论, 新知识在产生后的一段时间内关注度较低[80] , 随着时间的变化, 其关注度和影响力将不断提高, 主题开始发展。而新兴主题往往拥有更快的发展速度和较大的发展潜力, 更有可能解决科研难题, 因此新兴主题往往表现出高增长的特性[81] 。学者通常从主题发文数、主题引文量等多个角度衡量主题的成长性。如RanaeiS 等[82] 通过LDA 主题模型输出的文档—主题概率矩阵计算主题在每一年内的支持文档数量, 找到发文量随时间增长的主题, 以发现潜在的新兴主题。李雅倩等[83] 综合主题被引量、主题作者数量、主题学科数量、主题机构数量、主题强度指标计算主题的成长性, 以识别新兴主题。

5) 高主题强度。主题强度即主题热度、主题关注度, 部分学者指出, 新兴主题应该具备高关注度属性[84] , 代表着该领域的研究趋势, 因此主題强度也被经常用来识别新兴主题。

6) 高主题影响力。一个新的且发展速度较快的主题往往会具有较大的科学影响。测度影响力最普遍的做法是利用文献的被引数量来表征文章的影响力, 如果引文曲线持续攀升, 则更有可能产生突破性创新[85-86] 。如Wang Q[70] 利用出版物的被引次数来表征主题在一个时间间隔内的科学影响力,认为新颖、增长、具有高科学影响的连贯主题才是一个新兴主题。而由于论文从产出到被引用需要一定的时间, 并且期刊的出版周期较长, 不利于快速得到一篇文献的影响力, 借助社交媒体数据如Alt?metrics(替代计量学)指标对主题影响力进行测度的方法开始被学者使用。如段庆锋等[87] 利用Altmet?rics 指标和引文数据构建相对落差指标Rgap, 并用该指标识别新兴主题。此外, 还有学者基于社会网络理论, 通过测量主题的网络属性来寻找高影响力的主题。如黄璐等[88] 、孙蒙鸽等[89] 选取PageRank指标并结合邻居节点的数量及影响力来计算主题影响力, 并选取新颖性强和影响力高的主题为新兴技术主题。

7) 突变性。突变原指DNA 分子的变异, 用于描述基因的表述失调[90-91] , 在文献计量领域被用于描述随着主题的出现, 某些特征的频率急剧上升等情况[92] 。主题突变往往能够代表一个主题的新兴趋势, 因此突变性被部分学者用于检测新兴主题。如Guo H N 等[93] 将关键词的突发、新作者的突然出现以及跨学科参考文献的增加看作是新兴领域的诞生标志。

8) 持续性。持续性是指一个主题随时间的推移而持续存在的特性。许海云等[94] 提出, 新兴研究主题是创新路径上可以持续发展的主题; PorterA L 等[95] 认为, 该特性是与新颖性存在“拉扯”的特性, 新颖性要求主题出现时间较短, 而持续性反映的是一个主题持续存在、持续增长、与其他主题存在较为紧密的联系的性质。因此, 如何综合考虑主题的新颖性和持续性是识别新兴主题的难点之一。白敬毅等[14] 通过融合主题强度与主题新颖度构建了新兴主题探测指标ETD, 并通过某一年份主题的ETD 减去平均ETD 构建主题演化偏离度指标TEDD, 如果某主题的TEDD 超过4 年持续增长,则符合持续性特征, 可被视为新兴主题。该研究综合考虑了主题新颖性与持久性, 对同时具备持续发展特性和新颖程度高的新兴主题进行了识别。

通过文献调研可以发现, 用于筛选新兴主题的特性与指标较为丰富, 学者们分别从主题的外部表现、研究内容、未来影响等多个方面对主题进行测度。然而, 目前尚未形成学者公认的用来识别新兴主题的指标体系, 各研究存在关注维度不全、各维度之间联系不紧密等情况。多数研究在测度新兴主题时, 孤立地看待各个维度与指标, 并筛选符合全部指标的主题作为新兴主题, 这可能会导致某一特征不明显的新兴主题被遗漏的情况。同时在设置判别指标时, 多利用事先设定阈值与权重的方法去判断主题新兴程度, 这种设置方法比较主观, 理论支撑不足。因此, 如何更精准地筛选新兴主题尚需进一步深入研究。

3总结与展望

通过对新兴主题概念和新兴主题识别方法进行梳理和分析可以发现, 新兴主题识别研究日趋完善。然而该领域仍然存在不足之处, 本文提出以下局限并对未来工作进行展望:

3.1研究局限

1) 理论支撑不足, 对新兴主题的定义尚不明确。目前学界对新兴主题的概念并没有达成共识,因此用来衡量主题是否为新兴主题的指标各异, 导致评估方式多样, 评估结果说服力不强。

2) 在数据集构建方面, 数据源的选择与融合有待完善。目前新兴主题识别研究使用的数据源仍以单一数据源为主, 该方法可操作性较高, 但难以真实反映复杂的科研主题。因此, 部分学者开始尝试用多源数据进行新兴主题识别。然而异类数据间内容、结构以及时间上的差异较大, 如何克服差异实现更为精准的融合是需要攻克的难题。

3) 在主题识别方面, 研究方法时滞性较强,识别结果粒度较大, 对语义关注和解释不足, 且研究多为面向过去的回顾式发现而非面向未来的前瞻性预测, 对未来研究的导向性不足。

4) 在筛选新兴主题方面, 缺乏客观完整的评价体系, 主观性较强。由于新兴主题的定义尚不明确, 学者用于筛选新兴主题的属性各异, 各指标的测度方法与标准具有较强的主观性和孤立性。并且在制定筛选规则时, 现多用依赖于数据的阈值方法,指标难被广泛应用。此外, 学者对主题的动态变化情况关注不足, 难以及时发现从现有主题中分化出的新主题, 不利于新兴主题的早期识别。

5) 研究各环节人工参与程度较高, 反馈实时性较差。目前数据的采集和清洗往往需要人工参与,识别方法多数为有监督学习, 标注数据集短缺, 需要投入大量人力成本进行标注。这些因素共同导致新兴主题识别的结果难以实现实时反馈, 使其在实际应用中受到了限制。

3.2未来工作展望

1) 重视理论基础, 完善新兴主题理论框架。在研究过程中, 应充分学习生命周期理论、传播动力学等相关理论基础, 理解新兴主题的内涵和形成机制, 明确与其类似概念间的异同。此外, 在撰写相关文章时对新兴主题概念进行明确定义, 也有利于进一步完善新兴主题识别的相关理论与方法框架。

2) 提高多源数据融合与多模态分析精度, 优化新兴主题识别性能。未来研究可以通过分析不同数据源之间主题的时滞差异, 对不同数据进行提前或滞后等操作, 进而实现主题对齐, 避免对不同数据进行简单合并处理。同时, 应着力探索多模态数据融合方式, 综合利用文本、图片、表格、音视频等数据, 实现不同模态间语义的相互补充印证, 以提升新兴主题识别性能。

3) 面向全文本分析, 提高语料质量。未来研究应重视全文本分析, 从全文本中挖掘重要功能句,如利用深度学习模型提炼文章创新句、未来工作句、引用句等能够反映文章创新性、前瞻性的重要功能句, 排除大量无关内容, 进而提高语料的质量。同时后续研究应结合语言模型, 更深入地挖掘主题、文档、术语间的隐含关系和语义联系, 弥补语义表达层面的不足, 提高新兴主题识别的准确性。

4) 加强新兴主题探索性研究, 实现从回顾向预测转型。新兴主题识别研究应选择时效性更强的方法作为主要的主题识别方法, 以捕捉新兴主题的早期弱信号。并利用时间序列分析、复杂网络分析等方法对未来新兴主题进行预测, 提高研究的前瞻性和实用性。

5) 探索半监督或无监督学习方法, 推动新兴主题识别的自动化和可视化。未来研究应积极开发半监督、自监督或无监督方法, 以减少人工标注数据的需求和成本, 提升模型的准确性和泛化能力。此外, 开发新兴主题识别的自动化和可视化工具有助于及时探测新兴主题, 具有更高的普适性和研究价值。

猜你喜欢
文本挖掘文献计量综述
SEBS改性沥青综述
NBA新赛季综述
数据挖掘技术在电站设备故障分析中的应用
我国医学数字图书馆研究的文献计量分析
基于LDA模型的95598热点业务工单挖掘分析
国内外智库研究态势知识图谱对比分析
国内外政府信息公开研究的脉络、流派与趋势
从《远程教育》35年载文看远程教育研究趋势
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
慧眼识璞玉,妙手炼浑金