基于关键词价值细分的高价值热点主题识别方法研究

2022-03-07 08:29孙佳佳李雅静
情报学报 2022年2期
关键词:细分热点权重

孙佳佳,李雅静

(武汉大学信息管理学院,武汉 430072)

1 引言

近年来,关键词的相关研究一直是各学科领域关注的热点。关键词是研究成果的高度概括性表达,体现了其核心思想或重点内容。研究关键词分布情况、演化趋势等规律,有助于揭示学科发展动态和领域前沿。当前,已有研究大多是运用共词分析[1]、词频分析[2]或知识图谱[3]等方法,揭示某个领域内、某个时期内的学科热点或主题演化,这些方法的本质是关键词频次及其共现次数的研究,鲜有学者在同时考虑关键词的价值属性和生存周期的基础上,研究热点主题的识别。关键词是文献主题的外在体现,在某个研究领域内,其频次的累计反映该主题的热点程度,并未反映出该主题的价值高低,且随着时间的推移,频次不断地发生变化[4],呈现出一定的生命周期[5]。因此,对关键词进行价值细分,并考虑关键词生命周期,有助于发现高价值热点主题。本文所论述的关键词,皆指作者关键词,即在撰写文献过程中,由作者提炼或标注出来的一系列关键词汇[6]。

价值细分在客户营销领域一直是研究重点,指以客户价值为细分指标,根据客户价值的大小,将所有客户分为具有不同价值的客户群体[7]。企业或者机构以此为依据,制定最优的客户管理策略。当前,价值细分已被广泛应用于工商管理、信息科学以及社会科学等多个领域,在图书情报与档案管理领域(下文简称“图情档领域”)也有学者开始关注,特别是RFM(recency,frequency,monetary)模型,在图书馆用户与精准服务[8]、情报学用户与知识共享[9]等研究领域已经有了相应的研究。

生存分析(survival analysis)起源于生物医学研究领域,将事件出现终点所经历的时间(即sur‐vival time,生存时间)作为标准,分析各种影响因素的现代统计方法,也称为风险模型或者持续模型(hazard model/duration model)[10]。生存分析在分析过程中考虑了研究目标的生命周期,可以深刻地反映一段时期内各种因素对研究目标的影响程度,因此,在医药卫生科技、工程科技及信息科技等学科领域,生存分析都得到了广泛的关注和应用。生存分析方法基于生命周期的核心理念,在图情档领域的主题识别[11]、文献老化[12]等方面都有所应用。

本文将营销领域的客户价值细分RFM模型和医学领域广泛使用的生存分析方法结合起来,引入到图情档领域,形成跨学科研究方法,深入探讨该方法的适用性和合理性,将客户价值细分的研究对象迁移到关键词,形成多方位、多角度的关键词价值细分结果,对学科领域的高价值研究热点进行识别,以期为图情档领域关键词和主题的相关研究提供一种新的方法和思路。

2 相关研究

本文将两个不同领域的研究方法结合起来,以作者关键词为研究对象,探讨高价值热点主题的识别方法。因此,本文主要梳理图情档领域价值细分、生存分析以及热点主题发现相关的研究。

2.1 价值细分相关研究

价值细分在客户管理工作中具有重要作用,具体表现在客户识别、客户策略制定及客户忠诚度分析等方面。在图情档领域,研究者主要运用价值细分的理论和方法,来解决图书馆评价体系、大数据服务平台建设、用户信息行为分析等问题。在图书馆评价体系方面,陈宇奇等[13]将RFM模型进行适用性改进,应用到图书馆图书评价体系的研究中,对完善图书评价体系和提高图书馆用户服务具有重要意义;张海营[14]引入RFM模型探索构建图书评价系统;在用户及用户行为方面,乐承毅等[15]构建改进RFM模型,为高校图书馆用户构建画像,深入研究了高校图书馆用户行为和偏好;赵洪波[16]将RFM模型应用于高校图书馆的精准服务,以期为用户提供更加优质的服务;在大数据服务平台建设方面,邢海龙等[17]将价值细分模型应用到大数据服务平台,构建改进RFM模型对用户进行价值识别;李杭[18]将RFM模型应用于图书质量评价系统的实现中,是较为新颖的研究思路。从上述研究可以看出,RFM模型在价值细分研究方法中应用较为广泛,且在图情档领域也有较多应用。

2.2 生存分析相关研究

在生物医学领域,生存分析方法已经得到非常广泛的应用,特别是在分析患有某种疾病人群的生存率及影响因素方面[19],有相当多的研究成果。生存分析方法的优势在于考虑了目标客体的某事件结束的时间因素及周期性,这使得揭示影响因素时可以进行多组对比。近年来,在工程学、社会科学等领域也有研究者关注并使用该方法。在图情档领域,生存分析主要应用于引文分析、专利研究及互联网用户数据分析等方面。例如,张中文等[20]将生存分析方法引入论文被引次数的研究,提出了学术论文生存被引次数的概念;宋爽等[21]探讨了生存分析应用于专利维持研究的适用性和有效性;郑为益[22]使用生存分析方法构建了客户流失模型,为客户流失问题提供了一种新的解决方案;赖院根等[23]在考虑信息服务特点的基础上,使用生存分析方法对用户生存状况和影响因素进行了研究。

2.3 热点主题识别相关研究

热点主题识别(hot topic detection,HTD)指将一系列文档按照其主题分组以后,找到一段时间内频繁出现的主题集[24]。热点主题反映某个学科或者研究领域在某个时间段内,研究者们关注的重点内容。热点主题识别立足于生命周期理论,对于揭示研究热点和进展具有重要作用。国内外对于热点主题识别的研究主要集中于计算机算法设计和具体应用上。在算法设计方面,Sun等[25]针对短信的文本特征,提出了一种基于特征关联分析的短信热点提取算法;Zhu等[26]对TF-IDF(term frequency-inverse document frequency)算法进行改进,提出了一种基于时间分布和用户关注度的热点主题识别算法TA TF-IDF;张申旭等[27]通过情感分析和LDA(latent Dirichlet allocation)构建模型,提出了基于多特征的微博热点主题发现算法,并通过实验验证了该算法的有效性;陆蓓等[28]将对蚁群聚类算法进行改进,并提出了类别关注度(category attention degree,CAD)的概念,实现了热点主题集的抽取工作。在具体应用方面,研究者们着重将已有研究方法应用于互联网信息平台以及学术研究领域。例如,王林等[29]通过构造基于兴趣的论坛用户网络,将社区结构发现的理论和方法应用于社区论坛的热点主题发现研究中,获得了较好的实验效果;唐果等[30]将热点主题发现作为一种方法,应用于BBS(bulletin board system)文本聚类的研究中;吴立峰[31]将复杂网络的自相似性应用于BBS兴趣网络,通过仿真实验将其运用于BBS网络中的热点主题发现,验证了方法的有效性。

综上所述,热点主题识别研究一直是国内外研究者关注的重点,其识别结果是由一系列表达文档核心含义且在一段时间内被高频关注的关键词所组成的主题集合。已有研究大多聚焦于算法设计和理论方法应用等方面,鲜有研究从细粒度的角度,对关键词的价值进行研究,实现高价值热点主题的识别。从第2.1节可知,价值细分在图情档领域已经有较多研究成果,且RFM模型是广泛应用的模型之一;从第2.2节可知,生存分析方法在应用时重点关注事物的生命周期,这与热点主题识别立足于生命周期理论的出发点是相同的。鉴于上述因素,本文从细粒度的角度,提出动态权重的RFM模型,对关键词进行价值细分,并在此基础上对不同价值层次的关键词进行生存分析,通过Logrank检验,确定最优的价值细分结果,依据帕累托法则[32]确定热点关键词集合,通过聚类算法实现具有价值区分度的热点主题识别。

3 基于关键词价值细分的学科热点主题识别方法

3.1 识别方法概述

本文在构建关键词RFM模型的基础上,充分考虑近度、频度、值度三个指标的权重,实现动态权重,在多次实验的情况下,结合生存分析函数(survival function)和Logrank检验,确定最优的权重参数,实现关键词价值细分,识别高价值关键词,具体构建流程如图1所示。

图1 识别方法构建流程

数据是可行性研究的基础,足够准确的数据是研究工作得出科学可靠的研究结论的前提。秉承上述原则,在数据层中,凡是涉及数据处理的操作,全部使用Python语言编写程序,实现数据的自动化处理,避免人工处理可能造成的数据失真。其中,数据搜集环节对目标数据源数据进行搜集与存储;数据预处理环节对所采集到的数据进行结构化处理,去除不满足实验要求的条目;提取特征环节针对本文模型和方法的要求,将隐性信息提取为显性特征数据。

核心层是整个实验的关键环节,经过对R、F、M三个指标进行动态权重实验,在计算RFM评分的基础上,结合生存分析函数,确定出最为合适的权重值,从而得到价值细分层次。

识别层的功能是高价值热点主题的识别。在RFM模型的设计原则中,价值细分层次的最上层为高价值层次,据此得到高价值关键词。将该层中的关键词按照频次进行降序排序,依据帕累托法则,20%的成员贡献了80%的价值,本文选取排序结果中前20%的关键词作为热点关键词,计算关键词的相似度矩阵,通过K-means++算法进行主题聚类,识别出高价值热点主题。

3.2 识别关键技术

3.2.1 构建关键词RFM模型

1)关键词价值及价值细分的定义

目前,国内外关键词价值的相关研究较少,还未形成统一的定义。Nishikido等[33]对关键词的动态演化进行了研究,提出了关键词价值主要体现在其在网络中的关系上,并在实验中验证了关键词价值随着时间和网络关系的变化而变化。在信息检索研究领域,关键词价值研究主要在搜索引擎推广方面。例如,Byers等[34]提出,在搜索引擎的广告活动中,关键词价值主要体现在货币价值上;Hou等[35]使用贝叶斯网络设计了关键词竞标价值预测模型,考虑了关键词的出价、点击次数和时间等维度。从上述研究中可以得到启示,关键词价值与时间、频次、价格及网络关系密切相关。此外,李剑锋[36]认为,价值是指客体能够满足主体需要的那些功能和属性。基于此,本文对关键词价值的概念进行阐述:关键词价值是指关键词的时间、频次及经济效益等属性对主体或使用者的有效性和有益性。

Kamakura等[37]认为,价值细分是对群体进行划分,从而识别出具有正向意义和经济意义的部分。结合关键词价值的概念,关键词的价值细分是指通过对关键词的时间、频次、经济效益等属性进行综合考虑,按照一定的规则和方法,对关键词集合进行划分,从而识别出影响力、有效性或有益性更大的部分。秦嘉杭[38]认为,学术价值是国家社科基金项目的研究成果(论文、专著等形式)的特征之一,而关键词表达了研究成果的核心内容,因此,关键词具有一定的学术价值。本文立足于中文社会科学引文索引(Chinese Social Sciences Citation In‐dex,CSSCI)期刊论文的关键词数据,通过综合考虑频次、时间以及基金项目次数,识别出对研究者进行项目申请选题、把握学科动态具有指导意义的关键词集合,可以看出,关键词的价值是对使用者和研究者的价值。

2)关键词RFM模型定义

传统RFM模型由Hughes[39]于1994年提出,是企业根据顾客数据库中的交易信息记录对顾客价值进行识别和评估的模型,包括三种指标:近度(R)、频率(F)和额度(M)。其中,R表示最近一次购买时间离样本数据截止日的时间距离,F表示研究期限内(样本的时间跨度)的购买次数,M表示购买总金额[39]。本文的研究目的与该模型相似,将关键词视为“顾客”,识别其价值能够预测出未来相应主题的发展方向,因此,采用该模型具有合理性。相应地,本文将R用关键词最近出现离实验数据截止的时间距离表示;F用实验数据时间跨度内出现的总频次表示;M则用关键词所在文献获基金资助的频次表示。一般来说,基金项目是由国家部署实施的科技创新驱动规划方针,往往代表前瞻性和探索性,有利于情报跟踪和推动学科研究,也有较多研究从基金项目的角度出发,研究主题的识别。例如,杨辰毓妍等[40]基于国家社会科学基金和国家自然科学基金项目,用科学计量的方法研究了图情档学科的知识结构和主题;张蒙等[41]对国家社会科学基金项目的图书馆、情报与文献学学科进行了热点可视化分析;王效岳等[42]从基金项目和论文数据出发,在考虑项目资助因素的情况下,提出了一种前瞻性和更高价值主题识别方法。因此,本文认为获得的基金资助次数越多的文献,其关键词的价值越高。最终,得到关键词RFM模型指标体系,如表1所示。为了综合衡量关键词的价值程度,引入加权平均数的计算思想,给出RFM score的计算方法,即

表1 关键词R、F和M特征的定义与影响

其中,R、F、M分别为关键词的近度、频度和值度;wr、wf、wm分别为R、F、M的权重,取值范围为(0,1),且满足wr+wf+wm=1。三个特征分数的计算公式为

其中,X表示指标R、F、M;L表示价值细分总层次数,本文中L=5;N为排序等分后,关键词所在的层次数。

RFM模型每个指标得分实现步骤:①计算每个作者关键词的R、F和M的特征值;②对所有作者关键词分别按照R、F、M特征值进行排序;③本文的指标赋值标准依据Hughes的五等分思想,将三个指标分别进行排序,按照公式(2)得到每个关键词的R、F、M指标得分;④依据公式(1)计算每个关键词的价值得分(RFM score)。

3)关键词价值层次定义

在对关键词划分层次以后,需要在理论上对关键词价值层次进行定义。Ha等[43]提出自组织特征映射网络(self-organizing feature map,SOM)对客户RFM指标进行分类,将客户的价值划分为重要和一般价值客户、重要发展和保持客户、一般发展和保持客户、重要和一般挽留客户共8种价值类型。该分类方法更加适用于以客户为研究对象的领域,本文以关键词为研究对象,对该方法进行适用性改进。参考杨琳等[44]的细分方法,结合本文的5等分思想,将关键词的价值层次分为5层,其定义如表2所示。

表2 关键词价值层次定义

3.2.2 最优RFM指标权重确定方法

为了对关键词进行价值细分更具有区分度,需要确定最优RFM权重。具体过程分为三个步骤:①动态调整RFM模型每个指标的权重值,计算RFM score,共37种组合;②对每一种结果依据RFM score降序排序,划分为5等份,得到关键词价值细分层次;③引入生存分析方法,考量不同价值层中关键词的生存函数,画出Kaplan-Meier曲线,采用观察法和对比法进行筛选,利用Logrank检验验证结果,得到最优RFM权重,确定最优价值细分层次。下文将对以上步骤的实现方法进行详细叙述。

1)计算关键词RFM score

在大多数RFM模型应用中,识别客户价值时认为各指标权重相同,也有学者质疑三个权重同样重要的假定,认为学者应根据研究目的弹性设定指标权重[45]。因此,为了解决三个指标所占权重不一致问题,学者一般采用的价值权重设置原则是R、F、M三个指标的权重相加等于1[46],即wr+wf+wm=1。需要说明的是,当前确定权重采取的方法主要是主观赋值法[47]和层次分析法[48];也有学者结合其他方法确定权重,如熵权法[49];较少有学者采用枚举法。由于当前缺乏可参考的文献,且枚举法求取最优解具有较高的效率和较大的准确性,因此,本文采用枚举法,遍历所有可能存在的情况。令wr、wf、wm在(0,1)的范围内取值,开区间保证三个指标同时存在,分别枚举三个权重的值,得到多组权重组合,依据公式(1)和公式(2),计算每个作者关键词的RFM score。

2)确定最优RFM权重与关键词价值细分层次

在计算每个作者关键词的RFM score以后,按照得分从高到低进行排序,然后对排序列表进行5等分,得到作者关键词价值细分结果。该过程动态调整RFM权重,得到多组实验结果,考虑到时间因素影响,如果某关键词最近出现的时间较近,次数却不高,那么可能会影响识别结果。在图情档领域,已有学者使用生存分析函数分析作者关键词的生存状况以及衡量关键词的生命周期[19],因此,为了排除关键词时间因素的影响,本文引入生存分析方法,对价值细分层次绘制Kaplan-Meier曲线,使用Logrank验证来确定最优的RFM权重和价值细分层次。Kaplan-Meier曲线是对Kaplan-Meier估计量[50](也称为乘积极限估计量)的图形化表达,该估计量是一种非参数统计量,用于从具有生命周期的数据集中估计生存函数。在医学领域研究中,经常被用来测量患病人在治疗后一定时间内的存活率,近年来也被广泛应用在其他领域,例如,衡量人们失业后处于失业状态的时间长度[51]。生存函数Ka‐plan-Meier估计量的数学表达式为

其中,ti表示发生终点事件的时间;di表示在时间点ti发生终点事件的个体数量;ni表示已知存活到时间ti的个体总数。

Logrank验证也称为对数秩检验,是一种统计分析测试方法,用于比较两个或者多个组别之间的生存函数是否具有显著差异性,该检验的原假设为各组别的生存函数之间没有显著差异性,在检测结果中,如果P<0.005,则拒绝原假设,表明各个组别的生存函数具有显著性差异。

对各个价值细分组别的生存曲线可视化以后,本文采用观察法和对比法筛选出曲线划分最为明显的实验结果,并使用Logrank检验各个组别生存函数是否具有显著性差异,从而确定最优的价值细分结果以及对应的RFM权重。

4 实证研究

4.1 数据源

本文选取中文社会科学引文索引(CSSCI)作为数据源,以期刊名称为检索对象,将检索条件设置为精确匹配,检索1998—2019年共22年的文献题录数据。期刊名称来源于《CSSCI来源期刊(2019—2020)目录》,“图书馆、情报与文献学”学科上榜的20种期刊。数据搜集下载时间为2020/04/13—2020/04/14,共搜集到83369条题录数据,共包含关键词321020个,去重合并后共86344个。图2是文章数目、作者数目、关键词数目随着时间变化的趋势。由图2可以看出,1998—2009年,文章数目逐年升高,2009年达到顶峰;之后文章数目虽呈下降趋势但较为平稳。一般来说,一篇文章对应若干个作者和关键词,因此,作者数目、关键词数目的趋势由文章数目的趋势决定,这也符合上述描述。

图2 数据集变化趋势

4.2 数据处理

按照第3.1节中的识别方法概述,本文需要对所搜集的数据进行特征提取。CSSCI题录数据是以文章为单位,将其处理为以关键词为单位的数据形式,仅保留实验过程需要的数据,以JSON格式保存,所包含的具体字段如表3所示。其中,status字段表示该关键词是否出现终点事件,即若其最后出现的年份小于数据集时间年份2019,则用1表示出现终点事件,反之,则用0表示未出现终点事件。

表3 作者关键词字段示例

4.3 实验过程

4.3.1 计算RFM score

依据第3.2.1节中的方法,计算作者关键词对应的R、F和M;按照第3.2.2节中的方法,对三个维度指标的权重进行调节,计算RFM score。为了保证适量的实验次数,同时保证后续实验易于分析和观察,本文将每个特征权重的小数位数设置为1。动态权重的RFM score计算过程如图3所示,首先令wr在(0,1)的范围内依次取值,然后分别枚举wf、wm的值,并确保三个权重的和为1,得到36种权重值组合;考虑到wr=wf=wm的情况,共37种权重值组合,使用公式(1)计算每个关键词的RFM score。

图3 动态权重RFM score计算过程

4.3.2 确定最优RFM权重和价值细分层次

依据RFM score进行关键词价值细分,按照降序对其排序,并划分为5等份,每个关键词价值细分层次称为RFM level。RFM模型考虑了关键词的近度,但忽略了生命周期对关键词的影响,因此,使用Python语言编写程序,对37种权重组合分别绘制Kaplan-Meier曲线图,用于考量关键词的生命周期,将生命周期的长短因素纳入到价值细分层次划分中,但鉴于篇幅所限,本文挑选出wr在[0.1,0.2,…,0.8]中取值时,每种权重组合情况下,层次最为明显的曲线图,如图4所示;三个权重值相等情况下的曲线图,如图5所示。从图4中可以清晰地看出,在权重值wr、wf和wm分别为0.8、0.1和0.1时,关键词价值细分层次的区分最为明显,且较为均匀;而其他权重值组合下,均不满足价值细分均匀的条件;在图5中,三个权重值相等时,RFM level为1的线条在第1年全部出现终点事件,即该层次下,作者关键词存在时间过短,因此,排除此种情况。

图4 动态权重价值细分的Kaplan-Meier曲线图(部分)(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

图5 3个权重值相等情况下价值细分的Kaplan-Meier曲线图(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

在初步获取最优RFM权重以后,还需要使用Logrank检验进行显著性验证,目的是确定各个价值细分层次的关键词生命周期具有显著性差异,验证结果如表4所示。可以发现,各个层次之间的P值均小于0.005,拒绝原假设(各层次没有显著性差异),这说明,在R、F、M三个指标的权重分别为0.8、0.1、0.1时,各个作者关键词价值细分层次之间具有显著性差异。也就是说,最终得到关键词RFM模型最优指标权重如表5所示。

表4 Logrank检验结果

表5 关键词RFM模型最优指标权重

4.3.3 高价值热点主题识别

在得到关键词的最优RFM权重及价值细分层次以后,本文将每个层次中的关键词按照频次进行降序排列,依据帕累托法则——20%的成员贡献了80%的价值,从每个价值层次中提取前20%作为热点关键词。对热点关键词构建共现矩阵,并计算相似度矩阵,使用K-means++算法进行聚类,聚类数目的确定方法是,使用枚举法在[2,30]范围内多次实验,依据Silhouette Coefficient(即轮廓系数)和SSE(the sum of squares due to error,误差平方和)评价指标确定最合适的聚类数目。根据高频特征词对聚类所得的各个类别进行主题概念概括。表6展示了每个价值层次所提取的热点主题及其基金支持平均值。其中,位于高价值层次的热点主题,是本文识别出的高价值热点主题。

表6 热点主题识别结果

4.4 实验结果与分析

本节对高价值热点主题识别结果进行对比分析和总结。为了说明实验的效果,本文增加了基于频次排序的分类方法作为实验对照组。首先,从总体上进行分析,说明应用本文识别方法是有效的;其次,与实验对照组进行对比分析,来说明本文识别出来的热点主题是具有高价值的,证明有效性;最后,归纳总结各个价值层次的主题特征。

4.4.1 识别方法的有效性

在第4.3节中,本文通过使用动态权重的RFM模型对关键词进行了价值细分,同时,为了考虑生命周期对关键词价值细分的影响,引入生存分析Kaplan-Meier曲线对多组实验结果进行筛选,最终识别出高价值热点关键词,通过聚类算法得到高价值热点主题。为了对第4.3.3节中的结果加以解释和说明,本文再次对数据集中的关键词进行处理,采用传统的基于词频提取重要关键词的方法,对关键词降序排列,分为5等份,称为频次分类。对比价值细分和频次细分两组实验结果,如图6所示,可以看出,与频次分类方法相比,价值细分方法在考虑了关键词的近度和值度特征后,有31%的关键词层级升高,16%的关键词层级降低。其中,有6%的关键词降低了1个层级,1%降低了4个层级。可以得出结论,关键词的近度和值度对价值的衡量存在影响,本文提出的识别方法具有有效性。

图6 对比实验下关键词等级变化情况

4.4.2 关键词参数对比分析

为了进一步说明本文提出的高价值热点关键词识别方法的优势,本文将其与传统的频次细分方法进行对比实验,分析两组实验下关键词相关参数的变化情况(表7),表中每个参数值是该层次下关键词参数的平均值。以下从对比分析和整体效果分析两个角度进行分析。

表7 对比实验下关键词相关参数变化情况

(1)对比分析角度。采用本文价值细分方法后,相较于传统频次细分方法可以发现以下规律:①对于最高层次5,除了基金项目参数平均值出现小幅上升,各项参数平均值均出现小幅下降,究其原因,主要有两点:其一,频次细分方法并未考虑基金项目对关键词的影响,在纳入指标M后,出现小幅上升,证明本文的识别方法在识别热点关键词过程中较好地考虑了价值因素,为关键词赋予了价值属性;其二,其余参数平均值下降,说明引入RFM模型以后,将某些依赖于频次较高而划分到高层次的关键词被降权,说明对关键词引入近度和值度指标以后,能够更全面地衡量关键词。②除了层次5以外,各项参数平均值均出现了上升,说明本文的识别方法具有较高的区分度和调节作用。③频次细分实验对照组中,层次3、2和1中出现多个1.000参数值,说明在这些层次中,传统的频次细分方法已经不具有较好的区分度,而本文提出的价值细分方法,参数在每个层次上的平均值呈相对平稳的下降趋势,说明层次区分度较好。

(2)整体效果分析角度。本文基于价值细分的识别方法,得到的关键词价值层次更具有区分度,符合关键词RFM模型的定义,即重要价值关键词、一般价值关键词、重要发展关键词、一般发展关键词和低价值关键词。

4.4.3 高价值热点关键词分析

本节对每个层次下识别出的高价值关键词进行分析。如图6所示,部分关键词在不同识别方法下,所处细分层次发生变化。举例分析识别出来的每个层次中的高价值热点关键词的层次变化情况,对说明本文提出的识别方法的思想具有较大的意义。在实验过程中,本文计算了每个高价值热点关键词的基于频次的层级(count level)和基于RFM模型的层级(RFM level),下文针对层级发生变化的高价值热点关键词进行分析,如表8所示,变化情况是指关键词的RFM level相对于count level升高或者降低,由于篇幅所限,仅举例分析。示例中,升高情况下,多数关键词的频次较低,因此在划分层级的时候,划分为4;但在使用本文的识别方法中,由于充分考虑了最后年份(近度)、基金项目数目(值度)和终点事件(用于生存分析)三个参数以后,这些关键词的层级从count level为4提升到RFM level为5,分析发现该类关键词符合两个特征:①近几年被作者最新提到或者使用;②虽然存在生命周期较短和频次较少的现象,但被基金项目支持的次数较高,价值量较大。以上两个特征,表明该类关键词较为新颖,且价值量较大,未来可能成长为新的高价值热点关键词。降低情况下,该类关键词的重要特征是其最后年份(近度)在数据截止年份(2019年年底)已经超过3年,本文在第4.3.2节中得到的最优RFM权重中,近度所占权重为0.8,因此,该类关键词在使用本文识别方法后,所处层级降低,表明其属于重要发展关键词,若未来在较长一段时间仍然没有被再次关注或使用,则可能不再是学科关注或研究的重点主题。

表8 高价值热点关键词层级变化举例(部分)

4.4.4 高价值热点主题识别结果验证

鉴于热点主题识别方法目前没有统一的验证标准,本节采用资料验证法和数据对比分析方法,对实验设计进行验证。

(1)资料验证法。本文对目前我国图情档领域研究主题分类的文献进行深入调研,发现本文高价值热点主题的识别结果与已有研究成果具有一致性。例如,宋娜等[52]通过基金项目名称检索相关学术论文成果,采用内容分析法分析了1991—2019年的论文关键词,识别出的热点主题;赵蓉英等[53]以2001—2012年国家科学基金为演技视角,透视图书情报档案学科的研究主题。与上述研究对比来看,本文提取的主题基本覆盖了上述研究中提到的主题,证明了本文提出的识别方法具有准确性和合理性。

(2)数据对比分析法。将价值细分方法和频次细分方法提取的热点主题进行对比,计算每个主题下关键词基金项目数的平均值,再从大到小进行排序,如图7所示。由图7可知,从主题数量来看,两种识别方法一致,但主题排序有所变动。两者结合分析发现,相较于频次细分方法,价值细分方法更能识别出国家高度重视的主题。例如,“图书馆”是国家基金长期重点支持的研究主题,排名第一;大数据作为一门新兴技术主题,排名第二。这充分说明了大数据主题也是我国基金项目的资助重点,同时反映了图情档是一个交叉学科,大数据是研究的一个重要组成部分。此外,在新兴主题识别上,本文价值细分方法能识别出当前热点主题,如价值细分方法识别出大数据、社交网络、网络舆情是热点主题,在价值上高于频次细分方法识别出的相应主题,为研究者的科研选题和研究方向提供了新的依据。

图7 识别结果验证

5 总结与展望

本文所实现的高价值热点关键词识别方法,考虑了关键词的多个维度的属性,包括时间维度、频次维度和价值维度。在实现过程中,时间维度重点探索两个属性:关键词最近一次出现的时间和关键词的生命周期。关键词的高价值主要体现在基金项目的支持频次,热点主要体现在生命周期内被使用的频次。相较于传统的热点主题识别方法大多只考虑关键词的频次,缺少层次划分和价值体现,本文提出的识别方法弥补了上述不足。同时,本文也存在一定的不足之处,如使用基金项目支持频次作为价值尺度是一个较为粗粒度的角度,未来使用基金项目资助金额可以进一步完善价值衡量标准。由于篇幅所限,本文仅探索了高价值热点主题的识别方法,没有对主题演化做进一步探索,在未来的研究中,将结合知识图谱对高价值热点主题的演化进行研究。

猜你喜欢
细分热点权重
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
权重常思“浮名轻”
深耕环保细分领域,维尔利为环保注入新动力
热点
为党督政勤履职 代民行权重担当
结合热点做演讲
权重涨个股跌 持有白马蓝筹
1~7月,我国货车各细分市场均有增长
整体低迷难掩细分市场亮点
热点