基于主题模型和时间序列分析的新兴主题识别与特征关联研究

2022-08-02 02:11李雅倩孙玉玲赵婉雨
知识管理论坛 2022年3期
关键词:强度特征指标

李雅倩 孙玉玲 赵婉雨

1. 中国科学院文献情报中心 北京 100090

2. 中国科学院大学经济与管理学院图书情报与档案管理系 北京 100049

1 引言

随着科学研究第四范式的兴起,数据驱动下的科学研究正从知识层下沉到数据层,制定科技发展计划和相关政策需要紧随科研动态。文献作为知识流动的重要载体,是识别学科主题的重要数据来源。面对海量文本数据,如何科学有效地从中发掘新兴研究主题,是科研管理者和科研人员研究方向布局和调整的重要参考依据[1]。同时,学科主题发展具有“惯性”与“相关性/延续性”,即学科主题时间序列变化发展具有延续性并且是相互联系的,一定时期内存在可预测的发展变化规律。新兴主题的识别和趋势预测,有助于科研工作者了解研究动态,有利于基金资助组织和决策者优化创新资源分配,进一步促进有发展潜力的研究方向的发展。

与新兴主题相似的概念较多,诸如热点主题、前沿主题和颠覆式主题等,并由此演化出一般创新主题、新兴前沿主题和科学前沿等概念,在研究和应用中容易出现概念边界的模糊不清[2]。H. Xu等计量“新兴主题”相关概念族群的研究热度和发展趋势,指出族群概念间存在差异和交叉,相比于前沿主题和颠覆式主题等,学者们对于新兴主题的研究兴趣增长更快[3]。新兴主题相关概念的差别主要体现在时间维度和创新维度,热点主题、新兴主题和前沿主题在时间指向上,分别表征过去、现在和未来的重要研究主题,其创新程度随时间发展逐渐增强,预测难度也逐渐增大[4]。

在新兴主题的识别方法上,学者们主要利用共词分析[5]、引文分析[6]和文本挖掘分析[7]等相关技术方法,从科学文献中提取和识别新兴主题。近几年,针对新兴主题特征的讨论越来越多,大多数学者聚焦于文献的外部历史性特征,如文本主题的历史演化和引用情况等,而对于未来发展趋势的考虑较少[8]。王山[2]认为,新兴主题代表着研究领域的未来趋势,对其趋势的分析解读尤为重要。随着相关研究热度持续增长,识别方法也日益多元化和科学化,但是在新兴研究主题的明确概念定义与拟定的可操作性指标之间仍然缺乏良好的联系[9]。因此,如何挖掘新兴主题与特征之间的关联关系,采取有效的特征方案,通过构建科学严谨的预测模型和使用合适的分析方法进而提取长期关联变量,可以为新兴主题识别提供一些参考。笔者从新兴主题的全面特征出发,利用自然语言处理和时间序列趋势模型方法,综合分析文本和特征数据,进行新兴主题识别及特征关联分析。

2 相关研究与主要进展

新兴主题识别可以及时跟踪科学发展动态,尽早捕捉相关领域未来的发展契机和可能的变化趋势[10]。梳理新兴主题概念和识别方法研究,相关进展大致可分为3类:面向新兴主题定义及其特征的研究讨论、面向新兴主题识别方法的融合创新和面向主题趋势分析的综合运用。

2.1 新兴主题概念及特征

1965年,D. J. De Solla Price[11]开创性地定义了研究前沿,认为这是一种处于正在成长阶段的新颖性研究。新兴主题起源于对研究前沿的关注[12],在新兴主题完整概念提出前,主题特征识别处在萌芽阶段,主要表现为采用多指标计量进行特征识别,如R. L. Ohniwa等[12]认为主题词增长性和丰富性是表征新兴主题的重要信息;Y. N. Tu等[13]认为新颖性和研究热度是新兴主题最显著的特征。

2015年,D. Rotolo等[14]对新兴技术主题提出了全面的特征定义,考虑到技术和科学的差异性,Q. Wang[15]对新兴主题进行了定义,即新兴主题是具有新颖性和一定连贯性、能产生较大科学影响力且发展速度相对较快的主题,其4个主要的特征分别为:新颖性、增长性、一致连贯性和科学影响力。伴随完整概念的提出,新兴主题特征分析迈入新阶段。H. Xu等[3]提出针对新兴主题的多维科学计量指标评价方案,其中,新颖性和增长被认为是新兴主题的最重要指标,这两个指标被视为阈值指标,在确保新颖性和增长的前提下,考虑了对社会和经济以及对社区网络结构的显著影响的潜力。新兴主题的研究价值来源于其未来的增长潜力或科学影响潜力[2]。S. Xu等关注新兴主题的未来趋势,通过分析主题特征走势并预见新兴的研究主题[9]。新兴主题特征定义被提出后,新兴主题研究取得了新的进展,一方面有关学者不断探索新的定义以及新的识别方法,另一方面一些学者致力于开发一系列的识别指标[3]。

2.2 新兴主题识别方法

经过不断发展和创新,新兴主题识别方法经历由单一方法到机器学习、文本挖掘等多元化方法的融合。H. Small[16]首次提出利用共引识别新兴主题,C. Chen[17]将引文与词法分析结合,联合引文分析和爆破检测识别新兴主题。文本挖掘可以细粒度地挖掘大规模语料库中的文本关系特征[18],M. Blei等先后提出的主题模型[19]和动态影响模型[20]等,可根据概率突发和关联规则识别领域新兴主题[21],获得了较为广泛的使用。

近年来,学者们在文本挖掘方法的基础上,探索基于新兴主题特征的多维特征的识别方法。李静等根据内外部文本特征构建新兴主题综合识别公式[22];白敬毅等[23]将主题新颖性、增长性、影响力等特征指标依次赋权叠加,利用多维尺度绘制主题分布矩阵识别新兴主题;S. Xu等[9]利用动态影响模型提取主题结构及增长性和影响力等指标,使用多任务最小二乘支持向量机区分不同主题的特征表现等。如能融合多维特征构建综合识别方案,将有助于更好地实现新兴主题识别。

2.3 主题趋势预测

在新兴主题识别的研究中,越来越多的学者关注到主题的趋势特征。A. Kontostathis等[24]观测词频趋势判定新兴主题;C. Lee等[25]使用多层神经网络来捕获一定时段内关联指标间的非线性关系,开发了两个衡量主题趋势的定量指标。针对主题时间序列数据,岳丽欣等利用 ARIMA(Autoregressive Integrated Moving Average model)模型分别预测了热点主题[26]和主要研究主题[27]的未来趋势;刘自强等[28]运用ARDL模型度量主题趋势和扩散滞后效应,可见,时间序列分析方法已经取得了一些应用。

目前新兴主题概念及特征已经较为清晰,虽然不少学者考虑到趋势因素,但主要为了对研究现状进行分析解读,而对未来趋势变化的预测稍显不足。在新兴主题识别中,普遍采用综合识别公式等方法,一定程度上压缩了主题特征,对主题特征的动态变化过程有待进一步研究。笔者在Q. Wang等[15]提出的新兴主题基本定义的基础上,加入时间序列分析对主题趋势进行预测,作为潜在高成长性特征,结合全局主成分分析,从全领域视角分析各个主题的特征水平,系统地构建影响力和增长性的综合评价指标体系,结合时间序列方法进一步分析主题成分的动态特征,以对相关领域主题的特征表现情况及其深层次的关系进行剖析。

3 新兴主题识别方法框架

笔者提出的新兴主题识别与分析框架主要分为4个部分(见图1)。针对文本数据,利用LDA主题识别生成主题时间序列,结合ARIMA模型和全局主成分量化主题特征,构建新兴主题识别方案。在新兴主题识别的基础上,综合采用面板协整分析和格兰杰因果推断,挖掘观测变量间的长期关系和关联效应,分析新兴主题及其特征的长期关联关系。

图1 研究技术路线

3.1 主题识别和数据提取

笔者主要使用python语言进行摘要文本数据分词、清洗和词形还原,在与作者关键词、文章关键词合并去重后,通过LDA主题模型获取主题概率分布。选择主题数量为1-175个的模型,经一致性比较和人工核验,确定最优主题数量。根据主题模型导出分布结果,计算主题各维度数据。

3.2 基于多维指标的新兴主题识别体系构建

目标领域主题的发展存在多种多样的外在体现,笔者从新兴主题定义出发,确定了基于新兴主题特征的量化指标识别体系,即在一致连贯性和新颖性指数基础上,采用ARIMA模型对主题未来成长潜力的预测结果,联合影响力和增长性特征时序立体表进行创新的全局主成分分析,刻画主题发展的动态特征与综合表现,综合各维度特征完成新兴主题的识别,如图2所示:

图2 新兴主题多维特征识别体系

3.2.1 未来高成长性

未来高成长性是指主题在未来具有良好的发展潜力。本文主要采用ARIMA模型,从主题强度数据出发预测其未来趋势。ARIMA(p,d,q)模型包括AR过程、MA过程和差分整合过程,内含3个主要参数分别为:p为自回归项数,d为平稳差分阶数,q为滑动平均项数[31]。ARIMA模型可以表示为:

在公式(1)中,L是滞后算子,d∈整数,d>0。

3.2.2 新颖性

新颖性的度量是新颖主题识别的关键部分。Y. N. Tu等[13]利用发文时间测算新颖性指数。白敬毅等[23]增加主题生命周期理论,定义新颖性,如公式(2)所示:

其中,t为主题生命周期,FY为主题初次出现年份。考虑到湿地领域存在长生命周期主题,为保证区分度采用主题平均年龄,计算公式为:

3.2.3 一致连贯性

一致连贯性是指主题已经出现一段时间,且拥有持续稳定发展的趋势。Q. Wang等[15]将主题连贯性定义为主题链接的松散程度,通过领域内引文数与发文数量之比(一致性指数)来测量,并将阈值取为1。S. Xu[9]认为连贯性取决于主题提取方法是否可以确保提取的主题足够连贯。白如江等[29]认为,可以通过时间切片,在连续时间区间达到设定标准的主题,即为满足连贯性要求。本文综合采用相邻时间划片以及一致性指数计算方法,度量一致连贯性特征。

3.2.4 科学影响力及增长性

科学影响力评估范式包括数量、质量和效果论,涉及研究成果产生条件、呈现载体和传播3个维度,以及研究强度、研究绩效、研究支撑能力、研究机构多样化程度和研究成果的传播能力等指标[30]。对于新兴主题科学影响力的分析存在单一和多种指标的情况,如Q. Wang等[15]利用主题被引次数计算科学影响力;G.González-Alcaide等[31]分析研究主题领域文献发布情况、合作者特征(作者、机构和国家)和施引文献等影响传播特征,评估研究成果在研究领域的影响。本研究立足于科学影响典型评价范式,选择引文数量、作者数量、机构规模以及学科丰富性等作为科学影响力的综合观测指标。

主题增长是一个增量的概念,可以从多个角度来衡量,如Q. Wang等[15]采用发文数量增长,H. Guo等[32]分析突发关键词、作者数量以及跨学科性等特征变化。结合相关研究内容,兼顾指标的实用性和可获得情况,笔者围绕主题影响力和增长性两方面的内涵,主要选择能够体现主题使用热度、研究参与热度、研究关注热度和研究增长情况方面的指标,在通过全局主成分分析的适宜性检验后,最终选取主题强度、主题引用、主题作者、主题机构和学科数量5项主题影响力评价指标,以及主题增长评价的5个增量指标,包括主题强度增长率,主题文献引用增长率、作者增长率、机构增长率和学科增长率,通过时序全局主成分分析得到评价综合影响力和综合增长性的两个主成分。针对主题特征的综合分析涉及多维面板数据的处理。全局主成分分析在处理此类数据上可以保留主题的动态特征,更具稳健性和代表性[33]。

具体指标计算方法如下:

(1)主题引用指标。笔者认为,主题引用指标(Topic Citation,TCI)可以反映主题所拥有的关注度和传播热度,计算公式如下:

(2)主题作者数量指标。主题作者数量(Topic Author index ,TAT)指标测量的是某特定年份下,参与某个主题研究的学者的规模,也能在一定程度上反映出主题的热度。计算公式如下:

(3)主题学科数量指标。主题学科数量(Topic Category index,TCG)可以反映出主题学科跨度和学科交叉程度,笔者在增长性等指标设计上增加学科交差性等指标。计算公式如下:

(4)主题机构数量指标。主题机构数量(Topic Institution index,TIS)可以反映出学术机构对该领域的参与度,这也能反映出机构的研究方向选择和支持力度。该指标越大说明科研机构中在该主题下的布局越多。计算公式如下:

(5)主题强度指标。主题强度(Topic Indensity,TI)反映科技文献数据的研究热度,由各个文档的主题及其权重分布计算得到。B.Chen等[34]研究发现,研究主题k在t时间的主题强度TIk,t,计算公式为:

(6)增长性的度量。增长性体现在引文增长、作者增长、机构规模扩大TI以及不同学科的汇集等方面,其度量方式为相邻时间数据的变化。通过计算,得到TI-G、TIS-G、TCI-G、TCG-G和TAT-G,分别表征相应特征的增长。以主题强度增长为例,度量公式为:

增长性的计算方案如图3所示:

图3 主题强度增长计算演示

3.3 主题特征关联分析

为了深度挖掘目标领域新兴主题发展的内在发展规律,本研究采用主题特征关联分析方法。2003年诺贝尔获奖者C. W. J. Granger提出基于“预测”的协整分析与格兰杰因果检验方法,对变量间的长期作用关系提出统计学上的检验,判断变量间的因果关联关系[35]。对于包含截面个体特征与时间维度变化特征的面板数据,C. W. Kao等提出面板协整检验的方法[36],E. I. Dumitrescu和C. Hurlin[37]拓展了面板数据格兰杰因果关系的检验方法,从而可以更好地分析自变量与被解释变量的关联效用作用机制。针对新兴主题特征关联效应的分析,本研究主要采用上述方法。

4 新兴主题识别实证分析

4.1 数据来源

笔者利用“湿地”领域研究论文数据开展实证分析,在Web of Science平台核心合集的SCIE数据库(SCI-Expanded)和SSCI数据库(Social Sciences Citation Index)中进行检索。梳理湿地的不同类型和表达,并利用相关关键词设计检索策略,将标题、摘要、作者关键字和关键字作为识别字段,以TI=((wetlands or wetland or “wet land” or “wet lands” or marsh or swamp* or peatland* or “peat land*”or bog or bogs or mire or mires or fen or fens or everglade* or mangrove*)) not TS=(“swamp crayfish*” or “marsh sandpiper” or “marsh mallow” or “marsh harbour”)作为检索式进行主题检索,检索年代范围限制在2000年1月1日到2020年12月31日,检索时间为2020年9月,选取文献类型为“article”和“review”的文章,共计检索得到湿地领域相关文献24 449篇。论文年度分布情况见图4,态势发展良好,增量稳步上升。

图4 湿地领域文献数据

4.2 主题探测

笔者利用python进行主题识别,选择主题数量为1-175个的模型,综合比较困惑度(perplexity)和一致性的表现。其中,困惑度是利用概率计算某个主题模型在测试集上的表现,其值越低,则说明这个主题模型越好。困惑度分析结果表明,困惑度指标区分度不显著。C_v、U_mass、C_npmi和 C_uci coherence 均为一致性指标,衡量主题内词语之间是否为相互支撑关系,在一致性指标结果中,主题数目为26个时最优,见图5。

图5 主题一致性可视化

通过分词和主题模型等自然语言处理后导出主题—关键词分布,得到湿地领域的26个研究主题(见表1)。结合人工判读并翻译,湿地领域包括人工湿地再生、湿地生态监测、环境气候变化响应、湿地污染成分分析、湿地生物多样性保护、湿地气体排放通量模型与监测、退化湿地系统恢复、湿地循环系统分析、区域湿地管理、湿地恢复标准技术和湿地生态防护等主题。

表1 湿地领域研究主题—关键词列表

续表1

4.3 新兴主题识别分析

4.3.1 一致连贯性分析

为了检测湿地领域主题的一致连贯性,通过时间划片并计算2016-2020年和2011-2015年的主题一致性指数,结果见图6。主题一致连贯性指数的横坐标代表主题序号,纵坐标代表主题一致性指数计算结果。相邻时间区间内主题一致性指数均远高于设定阈值,说明利用主题模型确定的26个研究主题连接紧密,满足一致连贯性要求。

图6 主题一致连贯性指数

4.3.2 潜在高成长力分析

针对潜在高成长力,笔者通过构建ARIMA模型来预测主题未来趋势。为避免潜在的自相关和异方差问题,预先对数据进行对数化处理,然后进行平稳性检验。检验类型上,分为趋势截距(c,t)、无趋势有截距(c,0)和无趋势无截距(0,0)3种类型,根据显著性确定检验类型,平稳性检验结果见表2。在主题强度序列中,进行差分处理后,主题1、5、6、12、21和23序列稳定,其余均为平稳序列,因此可以建模。

表2 主体强度序列检验结果

经过单位根检验,PCF图、PACF图定阶,结合信息准则(即AIC、SC和HQ最小个数最多原则)和参数比较,确定了ARIMA模型形式。由于建模期间过程数据较多,下面仅以表3展示最终模型参数定阶结果,并以主题5为例,展示建模流程。

表3 ARIMA时间序列模型搭建

如图7所示,主题5自相关图3阶截尾,偏自相关图1阶截尾,模型参数p应取0-3阶,参数q应取0-1,可能存在8种可能的组合。通过信息准则比较,确定了模型的最优形式(见图8)。据此展开主题趋势拟合和预测分析,图9左侧为基于ARIMA模型拟合的2000-2018年主题强度走势,呈现增长;右侧为Topic5未来5年主题走势预测结果,表现平稳。

图7 主题5建模PAC和PACF图

图8 主题5模型信息准则及参数

图9 主题5基于ARIMA的趋势拟合预测

4.3.3 影响力和增长性分析

时序全局主成分分析利用综合变量来取代原有的全局变量,能抓住主要影响特征[38]。通过计算2001-2018各年度度量指标,得到260×18的时序数据表,共4 680条数据,指标间存在相关性(见图10)。为消除量纲的影响,采取标准化处理,巴特利球度检验统计量为9 135.283,p值接近0,KMO检验值大于0.7,适合主成分分析。

图10 影响力和增长性各成分相关性分析

计算全局主成分分析的初始解及因子解情况,依据特征值大于1的原则,选取主成分F1和F2,二者分别携带43.375%和32.519%的原始数据信息。第一主成分中5项影响力指标均为正值且有较大的载荷,构成影响力综合因子。第二主成分更多地反映了主题增长性情况,构成增长性因子。

利用成分得分系数得到两类主成分的解析表达式,如下所示:

根据累计贡献度归一化处理,计算综合评价指标权重,可以进一步得到新兴主题影响力和增长性综合评价的表达式,如下所示:

为了更好地解释主成分的现实意义,可以通过数据标准化和各主成分得分计算观察主题二维分布情况,如图11所示。主题7、13、16、23、24、25和26等呈现出高增长与高影响的协同发展效应,表现高增长新兴主题可以取得更多的科学影响力;主题1、2、4、5、6、10、11、12、14、18、19和21等,其增长性和影响力呈现出一定的替代效应;主题3、8、9、12和15等分布接近原点,影响力和增长性特征发展较为稳定。

图11 湿地领域主题增长性及影响力因子动态分布

4.3.4 新兴主题识别结果

综合湿地领域主题各维度的特征,可以发现:①通过主题模型计算得到的26个主题均满足一致连贯性特征的要求。②潜在高成长性分析结果显示,在2000-2018年里,主题强度大部分呈现平稳或上升的态势;在未来5年中,主 题 5、6、7、9、13、14、15、16、17、18、22、23、25和26拥有显著的潜在高成长力,预计发展态势向好。③新颖度方面表现良好的主题包括主题 2、7、9、11、12、13、15、16、17、23和25。④联合分析增长性和影响力,主题 3、7、13、16、17、23、24、25和 26拥 有具有较好的特征表现。

新兴主题多维识别结果如图12所示,结果表明,在湿地领域符合新兴主题定义的主题为主题7、13、15、16、17和25,即退化湿地系统恢复、湿地微生物基因研究、湿地物质平衡/湿地生态补偿、湿地定量勘查研究、湿地菌群系统治理分析和湿地生态对气候变化响应分析。

图12 新兴主题特征维度分析

5 新兴主题特征关联分析

新兴主题具有发展成为未来热点主题的趋势[39],是前沿主题孵化的基床[40]。在新兴主题识别的基础上,深度挖掘新兴主题关联特征的长期关系,可以更好地认识新兴主题,具有一定的现实意义。

本文立足于科学评价体系,选取能反映研究强度、研究绩效、研究机构多样化程度和成果传播能力的主要计量指标,针对新兴主题组成的面板数据,进行主题特征(包括引文特征、作者特征、机构规模以及学科丰富性等)关联分析。为规避可能存在的异方差情况,对数据进行对数化处理后,完成LLC平稳性检验,其中,主题多学科特征存在单位根过程,即一阶单整,其余变量均为零阶单整。

5.1 长期均衡分析:协整分析

由于采用的数据并非同阶单整,需要经协整检验确定长期稳定关系。在Kao-test协整检验中,原假设为主题强度与主题特征数据不存在协整关系。根据DF和调整的ADF等5个检验统计量的显著性比较,结论均为拒绝原假设(见表4),即存在协整关系,主题强度序列与主题各维度外部特征之间存在长期稳定关系,可以对观测变量进行进一步的因果关系分析诊断。

表4 Kao-test协整检验

根据协整方程可得:主题机构的增长、主题作者数量的增长和主题被引频次的增加,与主题强度在长呈现正向的均衡关系;主题学科丰富性的增加与主题强度在长期呈现负向的均衡关系,如表5所示:

表5 协整方程

5.2 格兰杰因果关系检验

格兰杰因果检验是一种预测能力的检验,其基本原理为:假设变量甲和乙间存在互相影响,如果甲的滞后期变量对乙有显著影响,那么甲是乙的格兰杰原因,反之则反[41]。确认主题强度与各维度特征之间存在协整关系后,由于作用方向不明,笔者首先利用Pvar模型确定最优滞后阶数为3,接着采用A. Juodis等[42]提出的格兰杰因果检验方法对变量的外生性进行检验,确定主题各维度特征对主题强度是否拥有解释能力,若无则需调整。

原假设为被解释变量主题联合维度特征对主题强度无显著性影响,检验结果见表6,机构、作者、引用和学科丰富性对主题强度的三阶滞后项对主题强度的影响显著性水平有所差异,但其联合作用的临界值小于0.05,说明4个变量的联合变化是主题强度变化的内生因素。为研究变量之间具体的因果关系,笔者进行进一步的格兰杰因果检验,结果见表7。

表6 格兰杰外生性检验

表7 Granger因果关系检验结果

分析表7Granger因果关系检验结果,可得出如下结论:

(1)对于湿地领域的新兴主题而言,主题强度和主题机构数量、主题作者数量之间存在双向的格兰杰因果关系。这说明,领域内研究学者的增长促进了领域新兴主题的发展,主题强度的增长也吸引了新的一批学者展开相关的研究,结果验证了集群效应,说明人才发展与主题发展属于相辅相成的主动模式。这从侧面反映出湿地领域相关研究支持机构制定研究激励政策的有效性,在未来发展学科主题时应考虑项目为先、人才为本的执行思路。

(2)在湿地领域中,主题强度和主题学科丰富性数量、主题引用间存在单向的因果关系,即主题强度的良好发展是主题学科丰富性的原因,但学科丰富性不是主题强度良好发展的原因;主题强度增长是主题引用频次增加的原因,而主题引用频次增加是主题强度变化的原因。其现实含义为,主题强度对主题丰富性有着单方面作用,主题强度随着时间发展而不断扩张,促进了湿地领域学科的多元化发展;然而,湿地领域学科丰富性的发展并没有明显优化主题强度的增长,这说明,通过促进学科丰富性的增加并不能够直接地促进该领域主题强度的良性发展,在湿地领域内盲目追求学科丰富性,可能导致主题分散化较为严重,难以做到“大而精”。此外,引用情况在一定程度上代表着主题关注度的转移,主题强度增长对于引用的拉动作用在短期内因果关系不显著,反观主题引用频次对主题强度发展的影响,可以发现,引用频次增加对主题强度发展的促进效果显著,是该领域主题强度发展的“风向标”。

6 讨论

从论文数据中,笔者提出了一套基于新兴主题特征的识别与关联分析方法。在特征提取方面,结合新兴主题相关理论与实践,在新颖性等方面做出了改良,加入潜在高成长性指标,并针对影响力和增长性选取了较为全面的特征考量方案。本研究通过主题模型提取研究主题与主题分布,采用趋势预测模型与分析方法分析主题未来趋势,结合全局主成成分析刻画主题增长性和影响力动态发展路径,根据主题综合表现情况完成新兴主题的识别。为更好地识别新兴主题,笔者利用协整分析和格兰杰因果检验,针对新兴主题的特征关联关系进行挖掘,研究发现,主题强度与机构数量、作者规模间存在双向的关联效应,主题引用频次对主题发展存在正向的影响,主题强度对主题多样性产生单向的促进作用,由此,笔者提出应坚持项目为先、人才为本的创新政策执行思路,以及关于如何发展新兴主题的一些思考。笔者在特征科学性和识别全面性上进行了反复考量,综合选用自然语言处理、多元统计分析和时间序列分析方法,确定了新兴主题识别与特征分析方法,该方法对于客观认识领域内研究主题动态、展开科研布局决策等具有一定的参考价值。

笔者提出的新兴主题识别分析方法主要从科学文献角度展开,由于新兴主题是一个领域内研究内容的全面特征,其研究价值体现在科技、政策和经济等各个方面,而文献只是反映研究主题创新变化的一个重要对象,除科学文献外,还包括政策文本和专利数据等研究对象。因此,未来研究可以尝试将多源文本融合进行综合的新兴主题识别研究。

猜你喜欢
强度特征指标
一类带临界指标的非自治Kirchhoff型方程非平凡解的存在性
如何表达“特征”
不忠诚的四个特征
最新引用指标
莫让指标改变初衷
Vortex Rossby Waves in Asymmetric Basic Flow of Typhoons
抓住特征巧观察
地埋管绝热措施下的换热强度
Double图的Kirchhoff指标
基于DEFORM-3D的300M超高强度钢切削性能的比较