多维指标融合的主题突变检测研究

2022-07-02 07:18彭国超孔泳欣王玉文
情报学报 2022年6期
关键词:融合度词频力度

彭国超,孔泳欣,王玉文

(中山大学信息管理学院,广州 510006)

突变词检测在学科领域主题研究中具有前沿性、及时性和情报意义。突变词是指在某一时刻频次发生显著变化,呈现突然上升或突然下降趋势的关键词[1]。词频量较低但增长势头不断增强的关键词,表明其在学科领域不断聚集力量,受到越来越多学者的关注,未来发展为研究热点的概率较大[2]。突变词检测,有助于挖掘学科研究前沿,及时发现潜在新兴主题,能极大地提高学者及时应对科技发展及变化的能力。

目前主题突变检测主要从单一指标视角出发,仅运用词频分析、词频变化分析或共词分析等单一方法,无法有效挖掘出具有发展潜力的突变词。因此,本文提出构建包含无序性、增长性、突变度、知识融合度、影响力度的多维指标融合的主题突变检测方法,探讨突变词的形成、发展现状和未来趋势这三个状态,挖掘出未来更可能成为研究前沿和研究热点的主题。

1 相关文献述评

突变词具有三个特征。一是词频特征,即某一主题的频次发生显著变化,呈现突然上升或下降的现象[3]。根据持续时间的不同,突变词可分为突发性突变词和持续性突变词[4]。前者普遍表现为长时间的低频状态后骤增,后者通常表现为足够强度的突发且最后达到平稳持续的状态[5]。二是主题演化特征,即主题呈现出突现、突增、消失、融合和分化等现象,反映出知识新生、扩张、消亡、交叉和衍生等一系列知识演化历程[6]。三是科研人员行为特征,即吸引科研人员的关注[7],表现为科研人员引用和下载量在短时间内发生明显变化[8]。

突变词检测的经典算法是Kleinberg 算法[5],即基于概率机对词频进行建模,进而计算出词的突发权重,判断当前是否处于突发状态,以及状态持续时间。Kleinberg 算法的基本假设是新条目连续进入数据集[9];然而与新闻报道不同,科学论文是分批发行的,因此需要增加文献的突发词所设置的时间间隔,如由秒变为年[10]。学界广泛运用Kleinberg 算法来发现突变主题[11-12]。其中,陈超美教授基于Kleinberg 算法开发出CiteSpace II 的突变检测功能,其主要原理是基于从题目、摘要、系统检索词和文献记录的标识符中提取出的突变专业术语[13]。不少学者运用CiteSpace II 的突变词时区视图、突变词共现网络视图及突变词权重排序功能探测突变词,根据突变词出现频次的时间变化趋势,将主题突变分成上升、下降、稳定等多个类型[4,7-8]。这一方法有助于挖掘高突变率低频次的主题,但是忽略了低突变率高频次的主题。杨选辉等[14]结合突变检测和共词分析,同时关注高突变率低频词和低突变率高频词的探测。尚晓倩[15]基于CiteSpace II 的突变检测结果,进一步分析高突变率主题的来源文献,更准确地把握其发展趋势。此外,知识图谱工具Sci2(science of science)也基于Kleinberg 算法来探测突发词,有的学者选择Sci2 来识别突变词[3,16]。

基于词频变化率分析的Kleinberg 算法及其应用工具忽略了词义信息和上下文语境[17],为此,学者将共词分析技术集成到突变词挖掘中,为突变词的演化过程、与其他主题的结合情况提供线索[16]。例如,Mane 等[18]利用Kleinberg 的突发检测算法、共词分析和图形布局技术来生成1982—2001 年《美国国家科学院院刊》刊载文献的突变词。刘敏娟等[1]基于共词分析和知识图谱的学科主题演化方法进行集成和改进,通过主题类型划分、对特征主题词定量分析来识别突变词。隗玲等[3]将突发监测结果与强共现网络结果结合起来进行对比,以验证突变主题的学科交叉性,并指出突变词检测在交叉主题发现上具有优势。值得关注的是,部分学者引入关联理论,结合共词分析和突变词检测技术,构建关键词与突发项的关联规则挖掘模型,以更有效地识别出具有发展前景的突变词[19-21]。其中,张金柱等[6]结合战略坐标图和改进的主题关联度计算方法,分析各时间段关键词共现网络的主题中心度、密度和主题规模的变化,以分析主题演变和主题突变。

随着突发词检测研究越来越深入,当前学者从不同角度改进突发词检测算法,发展出了一些新的算法[21]。张金柱等[22]以不同时间段引用科学论文的关键词(或学科分类)的差异程度表示突变程度。王莉亚[23]将信息熵变化原理和有序聚类方法相结合,识别关键词突变点,并基于突变点数量划分出不同发展阶段。钟辉新[24]认为,随着Altmetrics 的兴起,用户行为数据将成为新兴趋势探测的重要支撑。洪娜等[25]设计了基于能量的潜在爆发词探测模型,分析词在其发展过程中的生命周期、能量积累与衰减以及能量趋势变化。考虑到主题的语义信息,Wu 等[10]提出基于知识组织系统(knowledge or‐ganization system,KOS)的k 状态自动机突发检测模型,有效去除噪声概念,提高突发概念识别的准确性。Qi 等[26]引入LDA(latent Dirichlet allocation),提出了一种新的主题模型Burst-LDA,通过一阶马尔可夫链确定每个主题的突发状态,并运用Logis‐tic 回归方法生成文档主题比例,以揭示主题的突发。此外,部分学者借鉴其他领域的理论进行文献的突发词检测。He 等[27]利用物理动力学的质量和速度概念,把突变看作一种动态现象,并基于动量、加速度和力三类指标检测突变词。Tattershall等[9]引入股票分析的趋势检测算法,将文献的标题和摘要中提取的主题的流行率当作股票价格来处理,构建历史数据分类器,预测未来的流行趋势。

在突变词检测指标构建上,目前的研究趋势由单一指标探测逐步向多指标探测发展。奉国和等[2]基于科技文献突发词的多维度特征来建立突发词探测模型,辅助滑动时间窗口对结果进行验证,并与CiteSpace 突发词探测结果对照。洪娜等[28]通过突发词的13 个维度,提出基于决策树的潜在突变词探测方法。逯万辉等[29]基于条件随机场模型提取突变词的特征,并设计了频次、频率和词频文档比三个指标。

综上所述,突变词检测主要聚焦在词频变化、词共现的关键词维度,部分研究涉及引文或替代计量的单一维度,缺乏多维度分析,难以从深层次挖掘主题的形成、发展动力和未来趋势。因此,本文综合关键词的熵变、变化率、词共现情况、被引量、下载量,分析关键词的无序性、增长性、知识融合度、影响力度,深入有效地挖掘出具有发展前景和未来更可能成为研究前沿和研究热点的关键词。

2 研究思路

本文提出的多维指标融合的主题突变检测研究思路如图1 所示。

图1 多维指标融合的主题突变检测研究思路

2.1 数据获取与预处理

从CNKI (China National Knowledge Infrastruc‐ture) 获取特定学科领域的CSSCI (Chinese Social Sciences Citation Index)收录的核心期刊文献信息,包括关键词、出版年份、被引量、下载量等字段。数据预处理工作主要是去除非学术类期刊文献。由于非学术类期刊文献也在期刊上刊载,但其不是与学科领域知识相关的,筛除非学术类期刊文献能够提高关键词数据集的有效性,增强突变词识别的准确性。

2.2 突变词检测多维指标体系

2.2.1 突变特征指标

1)无序性(random)

随着时间的推移,突变主题可能成为研究热点,或者趋弱为普通主题甚至消逝。主题突变越强烈,其成为未来研究热点的概率越大。信息熵作为衡量系统不确定性、稳定程度和信息量的尺度[30],其值越大,反映数据越无序。基于此原理,本文利用信息熵值判断关键词的出现频次的不确定性,以反映其突变程度。

设第j 年关键词i 的词频为f (i,j),可得其词频贡献率p(i,j),确定关键词熵值ei,并计算关键词i的熵权wi,具体计算公式为

2)增长性(growth)

其定义域为(-∞, + ∞),变化趋势下降时变化值为(0,1),无变化波动时变化值为1,变化趋势上升时变化值为(1, + ∞),既反映出变化趋势,也保证值为正数。基于变化值归一化处理得到变化率ci,具体计算公式为

3)突变度

结合主题无序性和主题增长性,测量关键词突变值,具体计算公式为

2.2.2 知识融合度指标

主题演化过程中,若主题不断与其他主题共同出现,则表明它不断与其他知识进行交叉、融合,即该主题的知识融合度不断增强,未来发展为研究热点或研究前沿的概率较大。本文通过计算平均共现率来测量主题的知识融合度,具体计算公式为

其中,oi是关键词i 与其他关键词的共现次数;qi是关键词i 的共现词个数。

2.2.3 影响力度指标

用SPSS20.0统计学软件分析研究数据,t用于检验计量资料,即(±s),χ2用于检验计数资料,即[n(%)],P<0.05差异有统计学意义。

从行为特征分析,科研人员对相关主题文献的下载和引用较多,表示该主题更能吸引科研人员的关注[7],其在学科领域的影响力不断累积,更具有前沿热点价值。由于关键词在不同文献中具有不同的重要性,需要对不同文献的关键词进行加权处理,进而计算关键词的影响力度,计算公式为

其中,Cij是文献j 的被引量;Dij是文献j 的下载量;Bij是关键词i 在文献j 中的权重,关键词在不同文献中的重要性通过其排名可体现出来,因此,基于关键词在该文献中的排名,对第1、2、3、…、n 位关键词分别赋予n∶n-1∶n-2∶…∶1的权重比例,每篇文献的关键词总权重为1;k是总文献量;Rij是文献j的关键词总量;Xij是关键词i 在文献j 中的排名。

2.3 多类型突变词检测方法

基于K-means 聚类算法对关键词突变信息进行分类,以客观准确地划分突变类型,并有效揭示关键词未来发展为研究热点的概率。K-means 算法作为典型的分割式分群算法,主要应用于从大量高纬度的数据点中找出最有代表性的数据点,并以各数据点与聚类中心点的距离为依据进行分类。

(1) 构建无序性-增长性(random-growth) 矩阵,并进行K-means 聚类。

(2) 绘制簇内误差平方和(sum of squared er‐ror,SSE)折线图,确定K 值。

(3)根据聚类中心点的数值大小进行分类,分成三个突变类型,即突现型、强突型和弱突型(图2)。突现型关键词(突现词)是指该主题的相关文献在某年度突然出现,其他年度又突然消失,其特点是无序性和增长性均较高。强突型关键词(强突词)是指突变程度较高的关键词,即该主题一直处于低频状态,但在某一阶段显著波动,其特点是无序性高但增长性低。弱突型关键词(弱突词)是指突变程度较低的关键词,表现为存在多个峰值或持续高频的数值特征,其特点是无序性和增长性均较低。

图2 基于聚类中心点划分的突变类型

(4)综合各突变类型关键词的突变度、知识融合度、影响力度进行分析,得到不同发展形态的突变词,揭示具有发展潜力的突变词。

3 实证分析

3.1 数据准备

本文以图书情报学科领域为例,对其展开突变词检测研究。本文在CNKI 上下载2016—2020 年5年间的CSSCI 收录的18 种图情领域核心期刊出版的文献信息,人工去除无作者、通讯稿、征文稿、期刊导语等非学术类期刊文献,经统计、去重得到18634 篇文献。使用Excel 统计,最终得到79387 个关键词。为减少高频词的计算结果过高覆盖有效突变词的识别,以及消除超低频词的长尾效应,本文选取词频大于等于5 且小于等于50 的关键词(共2340 个)进行突变词检测,以更好地识别出具有发展潜力的突变词。

3.2 突变特征指标计算

构建关键词-年份的词频矩阵,利用2.2.1 节中的公式计算关键词的无序性、增长性、突变度三个突变特征指标。本文重点分析与图情领域直接相关的关键词,其他关键词不在本文结果中呈现。表1显示了突变度排名前20 位的关键词结果。

表1 突变度前20位的关键词词频及突变特征指标

3.3 突变类型识别

以无序性和增长性两个维度对关键词的突变情况进行分类,运用SPSS 对无序性-增长性(randomgrowth)矩阵进行K-means 聚类分析,绘制簇内误差平方和(SSE)折线图(图3),可得K=6 时,SSE出现明显拐点,因此本文确定聚类数为6。

图3 SSE折线图

K-means 聚类结果如图4 所示。每个类的数据点数和中心点坐标(random,growth)如表2 所示。根据聚类结果(图4)可得,类1 和类3 为突现词,类5和类6 为强突词,类2 和类4 为弱突词。

图4 K-means聚类结果

表2 突变度前20位的关键词词频及突变特征指标

3.4 知识融合度、影响力度指标计算

根据2.2.2 节和2.2.3 节公式计算各类突变词的知识融合度和影响力度。表3 显示了高突变度(突变度大于10-20)的突现词、强突词、弱突词的知识融合度和影响力度结果。

表3 高突变度的突现词、强突词、弱突词的多维指标计算结果

续表

3.5 突变词检测结果分析

3.5.1 突现词

本文选取高突变度的突现词进行分析(突变度大于10-20),基于知识融合度和影响力度两个维度,划分出两类突现词,结果如图5 所示。

图5 突现词(类3)分布情况

知识融合度低-影响力度低的突现词(Ⅲ区)主要为新概念、热门新闻事件。首先,该类突现词的知识融合度较低,表现为共现词较多,但平均共现率低,表明该主题处于初期发展阶段,知识融合的强度和广度均较弱。其次,该类突现词的影响力度较低,主要表现为下载量较低,表明该主题仅被小范围的学者关注,尚未形成明显的影响力。Ⅲ区突现词包括主题图书馆、东莞图书馆、循证社会科学、文科建设。其中,2019 年出版的《主题图书馆的杭州模式》、农民工吴桂春先生在东莞图书馆的留言、2020 年教育部发布的《新文科建设宣言》等新闻事件引发了图情学界的关注和思考。主题图书馆、循证社会科学等新概念被提出,并逐步发展。

知识融合度高-影响力度低的突现词(Ⅳ区)主要为政策导向的主题词,响应国家政策,紧跟国家需求。首先,该类突现词的知识融合度较高,表现为共现词少但平均共现率高,表明该主题的扩散方向较为固定且融合强度较大。其次,该类突现词的影响力度较低,表现为被引量和下载量均较小,表明该主题在部分学者的引领下逐渐发展。Ⅳ区突现词包括数据要素、数据供给、图情档学科建设。2020 年中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》①http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm,将数据资源作为新型生产要素,学者结合数据要素市场化配置和图情档学科建设开展研究。

3.5.2 强突词

本文选取高突变度的强突词进行分析(突变度大于10-20),基于知识融合度和影响力度两个维度,划分出四类突现词,结果如图6 所示。

图6 强突词(类5和类6)分布情况

知识融合度低-影响力度高的强突词(Ⅰ区)主要为政策法规、国家举措,以及图情领域基础研究。首先,该类强突词的知识融合度较低,表现为共现词较多,但共现次数不多。其次,该类突现词的影响力度较高,表现为高被引量和高下载量,表明学者积极响应国家政策。Ⅰ区强突词包括:①关于政策法规的《中华人民共和国公共图书馆法》、公共文化服务保障法。2016 年和2017 年分别通过的《中华人民共和国公共文化服务保障法》和《中华人民共和国公共图书馆法》,开启了新时代我国公共文化服务和公共图书馆事业的新篇章,成为图情领域的重要研究课题。②关于国家举措的文旅融合。随着2018 年文化和旅游部正式挂牌成立,文旅融合的探索成为图情领域的一大课题,学者聚焦于文旅融合时代下公共图书馆的作用、服务、发展等一系列的问题。③关于图情领域基础研究的情报感知、虚拟学术社区、应急服务等。例如,情报感知是情报工作的核心内容,由于当前突发事件、科技安全等重要问题的出现,学界不断探索并利用情报感知作为问题解决的利器。

知识融合度高-影响力度高的强突词(Ⅱ区)主要为新时代下的基础研究的新发展,其紧跟新时代需求,焕发新机。首先,该类强突词的知识融合度较高,表现为共现词数较少但平均共现率高,表明学者朝着相似的发展方向开展研究,并不断强化这一发展路径。其次,该类突现词的影响力度较高,表现为被引量和下载量均较高,表明该主题符合新时代的需求。Ⅱ区强突词包括科学大数据、新型智库建设。数据资源是新时代重要的要素资源,在互联网+、共享经济等思维的影响下,科学大数据成为国家科技创新的重要战略资源,新型智库建设是智力资源数据的最佳应用场景。

知识融合度低-影响力度低的强突词(Ⅲ区)主要为基础研究导向和实践导向的主题。该类强突词的共现词数、次数、被引量、下载量均较低,表明该主题处于初步发展阶段,尚未产生大范围的影响。Ⅲ区强突词包括:①基础研究导向的职业胜任力、安全信息、灰色文献等主题;②实践成果导向的社会信用体系、玩具图书馆、区域图书馆联盟,映射出图书馆实践新成果。

知识融合度高-影响力度低的强突词(Ⅳ区)主要为优秀实践成果。该类强突词的平均共现率和被引量较大,表明该成果得到了学界的认可和学习。Ⅳ区强突词为杭州图书馆,杭州图书馆的主题图书馆的实践、信用服务的实践等多个方面均有显著的成果。

3.5.3 弱突词

本文选取高突变度的弱突词进行分析(突变度大于10-20),基于知识融合度和影响力度两个维度,弱突词类型为知识融合度低-影响力度高(Ⅰ区),结果如图7 所示。

图7 弱突词(类2和类4)分布情况

Ⅰ区弱突词主要为逐渐发展成熟的研究主题,未来需要结合不同应用情境进一步细化研究,或者与其他知识领域开展交叉研究。首先,该类弱突词的知识融合度较低,表现为共现词数较多但平均共现率低,表明该主题正在扩散,与多个主题进行交叉融合,但是扩散方向尚未固定,融合强度较弱。其次,该类弱突词的影响力度较高,表现为高被引量和高下载量,表明该主题有一定的研究基础,获得不少学者的关注。Ⅰ区弱突词包括数据治理、词向量等,例如,面对突发公共事件,学者针对数据发布、传播等数据治理相关主题开展广泛的讨论和研究,以解决数据孤岛、数据安全、数据质量等问题。

3.6 讨 论

基于突变词类型,结合知识融合度和影响力度,分析主题的形成、发展和未来趋势,具体如表4 所示。从突变度出发,高突变度的突现词在初始形成阶段能获得更多的关注,形成更大的影响力。从知识融合度出发,突变词的知识融合度高,表明其交叉融合的广度和强度均较高,未来更可能发展成为研究热点;从影响力度出发,突变词的影响力度高,表明其受到广泛的关注,已形成一定的研究基础,未来更可能发展为研究前沿。

表4 各类突变词的形成、发展和未来趋势情况分析

4 结 论

围绕主题突变检测这一研究主题,本文构建突变词检测多维指标体系,包含无序性、增长性、突变度三个突变特征指标,以及知识融合度指标和影响力度指标。接着,基于无序性和增长性两个维度,运用K-means 聚类划分出突现词、强突词、弱突词三类突变词。最后,结合各类突变词的突变度、知识融合度、影响力度,识别不同发展形态的突变词,挖掘出未来更可能成为研究前沿和研究热点的关键词。

本文提出的多维指标融合的主题突变检测方法,在传统的词频分析法上,更加关注突变词的科研人员行为特征和主题演化特征,有助于准确分析突变词的形成、发展和未来趋势。通过不同发展阶段的深入分析,更有效地把握具有发展潜力的主题词,为学者和相关科技管理部门在进行研究热点和研究前沿研判时提供一定的支持和启示,促进学科领域的创新发展。

猜你喜欢
融合度词频力度
佛山市城乡融合发展水平研究
加大电商帮扶力度巩固拓展脱贫成果
加大建设推进力度 确保按时建成达效
李克强:对排污违法行为要加大处罚力度
加大授权力度中科院先行一步
一线城市流动人口社会融合度及影响因素的研究
一线城市流动人口社会融合度及影响因素的研究
湖南省品牌农产品与电商平台融合度测评研究
湖南省品牌农产品与电商平台融合度测评研究
词汇习得中的词频效应研究