基于趋势演化分析的技术预测研究

2021-01-23 05:26
科技管理研究 2020年24期
关键词:高频词词频趋势

(华东理工大学科技信息研究所,上海 200237)

随着科学技术的发展和经济全球化进程的加快,获取关键技术优势成为提升国家和产业竞争力的重要手段,技术预测受到越来越多国家的重视,美国、日本、英国等国家开始纷纷加强对科技发展趋势的预测及研究工作[1-2]。作为世界各国政府决策的基础与前提,技术预测是遴选可能产生最大经济效益与社会效益的战略研究领域和通用新技术的手段。技术是随时间而进化,绝大多数的技术都是渐进发展的,绝非凭空建立起来的[3],技术预测也应是一个随时间推移而逐渐演变的过程,因此,构建客观、全面、合理且具操作性的技术预测模型,提升预测模型的精准性具有重要的理论价值和现实意义。

1 文献综述

随着技术预测研究和实践的开展,用于技术预测的方法也日趋丰富。传统的技术预测方法主要以基于专家意见的定性预测法为主,包括德尔菲法、情景分析法以及技术路线图等[4-6]。20 世纪90 年代,定量研究方法开始在技术预测中得到应用,比如,1998 年Chakravarti 等[7]将数理统计学方面的知识嵌套进德尔菲法,分别对短、中、长期的技术预测需求进行了方法上的微调。为提高技术预测质量和效果,越来越多的研究者将定量方法应用于技术预测中,以试图改善技术预测方法体系,弥补定性方法易产生主观偏误性、全面性不足、颗粒度不一致等问题[8-9]。进入21 世纪初期,技术预测研究的内容则进一步深入到新兴热点技术和未来能源技术预测等特定领域[10-11]。而后,一些学者和机构引入文献计量、专利分析作为技术预测的重要工具,出现了以数据分析为基础的技术预测方法和以科学地图为基础的技术预测方法等等[12-13],如Chen 等[14]利用逻辑增长曲线模型描绘燃料电池行业的技术发展趋势;Schaeffer 等[15]基于文献数据分析识别技术关注度;Sitarz 等[16]利用聚类分析识别技术主题;Cocci 等[17]通过文献发表量和引用网络分析识别新兴研究领域的技术发展轨迹,将专家调查数据与文献和专利数据相结合,利用文献计量识别技术发展动力模式和发展趋势。

随着大数据时代的到来,越来越多的研究者选择采用组合方法并通过构建模型来进行技术预测研究,如Momeni 等[18]利用专利分析识别技术发展路径,结合K 核分析和主题模型(topic modeling)分析技术发展趋势;Jun 等[19]利用专利矩阵地图和基于支持向量机的K-Medoids 聚类算法(KM-SVC)识别技术空白点;Trappey 等[20]提出基于时间序列扩展的逻辑模型;Lee 等[21]利用随机专利引用分析和负二项分布模型动态评估未来技术的影响力;陈伟等[22]则结合隐含狄利克雷分布(LDA)和隐马尔可夫过程(HMM),通过LDA 模型对海量异构专利文献数据进行主题建模,预测技术趋势;胡吉明等[23]对LDA 模型进行了改进,通过改进的Gibbs 抽样估计提高主题挖掘模型的准确性;董放等[24]提出了一种基于机器学习(LDA 模型、SVM 模型)和时间序列预测(ARIMA)的新兴技术预测方法,用以预测特定技术未来发展趋势。

上述研究多是基于统计的主题模型揭示主题演化,这类方法虽涉及了知识创新演化分析的重点,如新主题的演化及时间周期的引入,但由于在进行主题提取时指标过于单一,且过于强调对现有主题趋势变化的研究,而忽略了对于发现新主题概念的研究;另一方面,基于技术主题的预测模型大都偏向于静态模型,而现实的技术发展都随时间变化不断演化,基于静态的主题模型方法很难发掘技术演变过程及趋势变化,极易忽略新技术的出现与演化,更有对微观信息的挖掘不够深入,也将在理解、认识复杂创新网络时具有明显的不足。总之,单一的技术预测方法往往各有自身的局限性,如何在技术预测方法中提高基于客观数据的定量研究的比重,构建系统有效的技术预测模型成为未来技术预测方法学研究的重点。为了更加有效地提升预测的可靠性,克服单一研究方法的缺陷,有效地扩展趋势演化模型的全面性,本研究将在对技术预测的基础上进行主题演化模型分析,进一步通过技术主题清洗和引入时间窗研究技术,将技术主题演化通过相应递进操作步骤,构建更为客观、全面、合理和更具操作性的趋势演化模型。

2 基于趋势演化分析的技术预测研究思路与流程

《美国联邦政府技术预测工具应用现状与潜在应用》研究报告将技术预测定义为:在特定的时间窗口内对技术未来特征或应用的预测[25]。Porter 等[26]指出,技术预测是描述在未来一段时间内技术的出现、性能、功能或影响的系统过程。刘育新[27]则认为技术预测就是一个综合考虑未来科技、经济和社会发展的趋势和需要、选择战略研究领域和新兴技术,以期产生最大的经济和社会效益的过程,其中过程性和导向性是技术预测最典型的特征。目前,对于技术预测缺乏统一的定义,但技术预测包含新技术发现和新技术发展状态两方面内容已取得共识。为了更好地开展研究,本研究将技术预测研究定义为某一时间状态下的新技术出现和新技术发展的动态变化趋势,并进行技术趋势演化探索。基于此,本研究将以文献数据源为技术预测数据源,从新技术发现和领域技术发展态势两个方向进行趋势演化模型的技术预测探索与研究,即不仅从现有文献中探索新的技术出现,而且也将现有技术发展趋势作为研究目标。基于趋势演化的技术预测模型框架如图1 所示。

图1 基于趋势演化的技术预测模型框架

由图1 可见,趋势演化模型分为3 个模块:领域技术主题筛选与处理模块、领域新技术主题清洗模块、领域技术主题时序演化趋势模块,每个模块之间的递进分别给出测度条件,并定义相应的测度方法和分析工具,构造合理的模型。领域技术主题筛选与处理模块采用文献分析和数学模型的构建方法,以BICOMBII 和Python 为分析工具;领域新技术主题清洗模块采用聚类分析法、数学模型的构建以及文献计量学的方法,用Python 为分析工具;领域技术主题时序演化趋势模块采用图谱法,用Python 为分析工具。

2.1 领域技术主题筛选与处理

首先以Python 为工具建立词库,然后利用BICOMBII 对相关文献的关键词、高频词以及共词等进行提取和词频统计。论文中的关键词反映研究的技术主题,即所属领域的专业术语,词频随时间的变化可以反映研究的技术主题变化,为了避免因词频统计中不相关词以及命名不规范关键词的存在而影响分析结果,研究将从相关文献中提取关键词,并进行主题规范化处理,利用Python 进行统计,形成技术概念词集Ki。高频词是指概念词集相对高频的技术主题,高频概念词随时间的变化可以反映研究关注主题的变化,因此将数据集中的主题按照词频从高到低进行排列,取词频高的主题概念形成高频数据集Hi。单一的主题概念以及高频词的变化尚不能全面描述技术主题的变化,因而利用词共现描述发现的技术主题、词共现的时序动态变化可以较为全面反映技术主题的变化,通过关键词进行两两或者三三共词分析得到词共现矩阵,从而得到数据集Ci。

2.2 领域新技术主题清洗

新主题概念词是指在一定的时间区间(n年)内,按照一定的算法得到筛选出年度新呈现的主题概念。新主题概念词的算法为:

式(1)中:n为研究选取的时间区间;NKi为第i+1 年的主题概念词;Ki为第i年的主题概念词。

新技术主题高频词是指在一定的时间区间(n年)内,按照一定的算法得到的新高频主题概念词。新技术主题高频词的算法为:

式(2)中:NHi为第i+1 年的新高频主题概念词;Hi为第i年的高频主题概念词。

新技术主题共现是指在一定的时间区间(n年)内,按照一定的算法得到的新主题概念词共词。新技术主题共词的算法为:

式(3)中:NCi为第i+1 年的共词新词;Ci为第i年的共词。

经过领域新技术主题清洗模块得到的新主题概念词、新技术主题高频词以及新技术主题共词,共同形成了新主题集。新主题集公式为:

式(4)中:n为研究选取的时间区间;NSi为第i+1 年的新主题集。

2.3 领域技术主题时序演化趋势

经过上述两个模块得到的新主题集进入到领域技术主题时序演化趋势模块,通过对主题概念和新主题的词频进行分析、新主题的词清洗以及对新主题的识别,得到具有潜力的技术主题范围,绘制每个技术主题的时序演化曲线,从而得到技术主题的发展趋势以及发现新技术主题。如,对研究时间区间(n年)内的每个新主题概念词在每一年出现的情况进行分析,即出现在NKi中的新主题概念词在NKi+1,NKi+2,… ,NKn-1年的新主题概念词中的出现频度及其词频,依据频度值及研究时间区间设定阈值最大值,由于研究技术主题趋势变化,则阈值最小值为3,将未达到阈值的新主题概念词舍去,形成新的有效数据集。在新的有效数据集的基础上对词共现进行统计,探索技术主题相关性。新主题概念词共现在每一年出现的情况,即出现在NCi年的共词是否在NCi+1,NCi+2,… ,NCn-1中持续出现,采用相同的方法设定阈值,将未达到阈值的新主题概念词舍去,形成新的有效数据集。依据不同数据分析处理后形成新的有效数据集,绘制技术主题时序演化趋势的技术主题概念的时序演化图表。

2.4 模型的趋势分析

由不同模块生成不同数据集,分析处理后形成新的有效数据集,依据绘制技术主题时序演化趋势的技术主题概念的时序演化图表,对模型流程中呈现的众多图表作技术趋势解读分析。

2.4.1 词频趋势解读分析

分析每个技术主题概念在每一年出现的状态,即出现在NHi的技术主题概念词是否在NHi+1,NHi+2,…,NHn-1年的连续出现,对状态演化结果进行分析和处理。根据选取时间区间的长度,从BICOMBII 得到的高频词词频表中查找得到技术主题概念词对应的词频,形成技术主题概念词及对应的词频表,通过对主题概念词频统计分析得到数据集,绘制每个技术主题概念词绘制时序演化的词频图表。观察技术主题概念词频的变化趋势图,分析变化趋势的3 种不同状态:第1 类是技术主题概念词频有稳定趋势方向,如已形成稳定的增长趋势或下降趋势;第2 类是技术主题概念词频尚未出现稳定趋势,就是曲线波动;第3 类是技术主题概念词频变化尚未有趋势,就是未形成连续时序曲线。对于有稳定趋势的技术主题概念高频词,有望成为关注程度高的技术主题,作为技术主题的发展态势分析基础。

2.4.2 新主题概念解读分析

根据上述新主题概念模块对技术主题概念新词及其词频统计分析得到的新主题概念词,及其对应的词频表形成新主题概念新词时序演化趋势图。该技术主题概念词频的变化趋势图同样存在3 种不同状态:第1 类是技术主题概念词频有稳定趋势方向,如已形成稳定的增长趋势或下降趋势;第2 类是技术主题概念词频尚未出现稳定趋势,就是曲线波动;第3 类是技术主题概念词频变化尚未有趋势,就是未形成连续时序曲线。可将有稳定趋势的技术主题概念词变化趋势解读为:新技术主题概念时序趋势成持续向上线性分布,说明新技术主题概念已形成稳定趋势;新技术主题概念时序趋势曲线平行分布,说明新技术主题概念出现,具发展潜力;对于有稳定趋势的新技术主题概念,可认为有新技术出现的迹象,有望成为新的技术领域的技术主题;对于词频在连续几年都有出现但无稳定趋势的新技术主题概念词,可供专家进一步分析,作为备选的新技术主题;对于词频变化不成趋势的新技术主题概念,呈点状出现,将不作为新技术主题概念。

2.4.3 词共现趋势分析

在新的有效数据集基础上统计词共现探索技术主题相关性,分析数据集中词共现现象,即每一年出现状态,出现在NCi年的词共现是否在NCi+1,NCi+2,… ,NCn-1中出现。对统计结果进行分析和处理,选取特定时间区间的长度,通过BICOMBII 得到的共词词频表对应的词频,生成词共现趋势分析图。

通过词共现技术主题概念词的时序演化图表,解读词共现技术主题概念词变化趋势。从变化趋势有稳定发展的技术主题概念得到不同粒度的技术主题概念,以及解读交叉领域有新技术出现的迹象,有利于锁定新的技术领域和关注程度高的技术主题。

3 实验过程

为验证上述分析构建的模型的可操作性,本研究以挥发性有机物(VOCs)治理技术领域为例开展实证研究。

3.1 数据采集

以Scopus 数据库为数据源,采集到2010—2017年挥发性有机物治理技术领域相关文献34 146 篇,提取索引关键词共211 407 个。其中,各年提取关键词的个数分别为25 268、27 883、27 873、25 842、23 854、25 753、27 599、27 335。对关键词进行筛选,得到待分析数据集。以2017 年部分关键词及词频为例,如表1 所示。表1 中“human(人类)”属于无关词,“titanium dioxide(二氧化钛)”和“titania(二氧化钛)”为同义词,说明待分析数据集中存在无关词和同义词。

表1 2017 年挥发性有机物治理技术领域待分析数据集中的关键词及词频 单位:次

3.2 领域技术主题筛选与处理

由于待分析数据集是基础数据,在领域技术主题筛选与处理模块从专业术语、高频词及词共现3 个维度对待分析数据集进行删除无关词和合并同义词的处理,得到术语集。2010—2017 年挥发性有机物治理技术领域的术语集中关键词的个数分别为538、1 110、973、1 024、1 656、2 665、4 717、3 241。以术语集中2017 年部分关键词及词频为例,如表2 所示。

表2 2017 年挥发性有机物治理技术领域术语集中部分关键词及词频 单位:次

当得到的专业术语、高频词和词共现的关键词同时满足以下两个条件时,则可进入第二模块领域新技术主题清洗模块:条件一,专业术语、高频词、词共现的关键词集不包含任何无关关键词;条件二,专业术语、高频词、词共现的关键词的同义词已全部找出且同义词的词频已累加求和。

3.3 领域新技术主题清洗

在模型的领域新技术主题清洗模块中,从新主题概念词、新技术主题高频词和新技术主题共词3 个维度,对术语集按照领域新技术主题清洗模块的算法得到新主题集。以第一年为参考日期,则2011—2017 年会出现新主题概念词,将连续3 年出现的新主题概念词称为连续发展的新主题概念词,并将其作为研究对象,预测新技术及发展态势。得到2011—2015 年连续发展的新主题概念词,如表3 所示。表3 中,2011 年列举的新主题概念词“montmorillonite(蒙脱石)”为挥发性有机物催化及催化剂应用研究领域;2012 年列举的新主题概念词“pressurized liquid extraction(加压液相萃取)”和“successive ionic layer adsorption and reaction(连续的离子层吸附和反应)”为挥发性有机物治理设备及工艺研究领域;2013 年列举的新主题概念词“reduced graphene oxides(还原石墨烯氧化)”和“halide perovskites(卤化物钙钛矿)”属于挥发性有机物治理设备及工艺研究领域;2014 年列举的新主题概念词“vis absorptionspectroscopy (吸收光谱)”和“functionalized multi-walled carbon nanotubes (功能化多壁碳纳米管)”属于污染源检测/监测研究领域;2015 年列举的新主题概念词“perovskite thin films (钙钛矿薄膜)”为挥发性有机物治理设备及工艺研究领域。

表3 2011—2015 年挥发性有机物治理技术领域连续发展的新主题概念词

当每年的新主题概念词NKi、新技术主题高频词NHi、新技术主题共词NCi都包含其对应的新主题概念词、高频词新技术主题和新技术交叉主题时,则可进入第三模块,即领域技术主题时序演化趋势模块。

3.4 领域技术主题时序演化趋势分析

在领域技术主题时序演化趋势模块中,采用追溯法对新技术主题的发现和领域技术发展态势进行研究,发现新主题词的变化呈现3 种趋势,分别为词频呈现稳定变化趋势、词频有连续出现但无稳定变化趋势和词频未呈现变化趋势。

(1)词频呈现稳定变化趋势。以2017 年为起始年份,按照2017 年、2016 年 2010 年的顺序进行追溯式查找,词频呈现稳定变化趋势的特征为主题词词频连续出现,并且每年呈现均匀增长或者平稳的状态,即属于第1 类。部分主题词词频从2010 年进入前50(50 为高频词阈值)的行列,且每年连续出现并一直保持在前50 的位置,其词频趋势变化曲线如图2 所示。高频词的阈值是指关键词成为高频词时词频要达到的值。统计分析发现,样本文献量随时间呈不断上升趋势,则提取得到的关键词词频同样随时间不断上升。选取固定的词频值作为阈值不能满足词频动态变化的需求,将关键词按照降序排列,选取前50 个词作为高频词,第50 个词对应的词频作为高频词阈值。从图2 可以发现,这11 个主题词在2010—2017 年每年都有进入前50并且呈现增长或者平稳的趋势,说明这些主题词是在处理VOCs 技术领域一直高度备受关注,揭示了领域技术发展态势。

图2 2010—2017 年挥发性有机物治理技术领域新主题词变化趋势

(2)词频有连续出现但无稳定变化趋势。以2017 年为起始年份,按照2017 年、2016 年 2010 年的顺序进行追溯式查找,词频有连续出现但无稳定变化趋势的特征为主题词词频在2010—2015年可能没有出现,在2016 年、2017 年出现且呈现增长的趋势。即属于第2 类。

(3)词频未呈现变化趋势。以2017 年为起始年份,按照2017 年、2016 年 2010 年的顺序进行追溯式查找,词频未呈现变化趋势的特征为只在2017 年出现在前50 新主题词中,而在2010—2016年都没有出现。此类主题词呈现散点式分布,并不能够形成趋势变化图,即属于第3 类。此类主题词可扩展研究的时间段做进一步的研究,作为后续研究的一个方向。

3.5 新技术发现及领域技术发展态势

通过运用趋势演化的技术预测模型得到主题词趋势变化曲线,根据技术主题的趋势变化确定技术主题,并预测技术主题所属领域。以新主题概念词“zinc oxide nanoparticles”为例,如图3 所示。由图3 可见,氧化锌纳米粒子(zinc oxide nanoparticles)是2014 年出现的新主题概念词,新主题概念词的出现意味着新技术的出现。其中,在2014—2017 年氧化锌纳米粒子词频基本呈现上升趋势,可以推测这是今后值得关注的新技术。

图3 2014—2017 年氧化锌纳米粒子技术主题概念词趋势变化

综合上述,经过3 个模块的层层递进,得到反映新技术的关键词。本研究对新主题集中的关键词结合其趋势变化进行总结,预测了挥发性有机物处理技术主要集中于5 个领域:(1)挥发性有机物催化及催化剂应用研究领域;(2)光催化研究领域;(3)挥发性有机物治理设备及工艺研究领域;(4)污染源控制研究领域;(5)污染源检测/监测研究领域。

4 结论

本研究综合运用了文本分析、共现分析和图谱法,以BICOMBII 和Python 为分析工具进行数学模型的构建,且从新技术发现和领域技术发展态势两方面提出了一种基于趋势演化分析的技术预测研究框架,并以Scopus 文献数据库为数据源,以挥发性有机化合物处理技术领域为例进行了实证研究,筛选出VOCs 领域待选的新技术主题以及技术趋势。研究所采用的数据全部采集于文献数据库,数据采集和分析过程可重复、可追溯,研究中受主观因素的影响较少,所以结论比较客观、真实。

本研究提出的模型由领域技术主题筛选与处理、领域新技术主题清洗、领域技术主题时序演化趋势3 个模块构成,各模块之间存在递进关系。模型一方面从系统化和定量化优化了技术预测方法,另一方面基于文献内容特征的多要素指标进行技术主题的提取,数据源更为丰富全面,便于更深入地挖掘微观信息。可以说,综合、动态的文献计量分析范式对于其他科学主题进行研究前沿筛选和研究技术演化模式的探索,也具有一定的参考价值和推广借鉴意义。

猜你喜欢
高频词词频趋势
30份政府工作报告中的高频词
省级两会上的高频词
基于词频比的改进Jaccard系数文本相似度计算
趋势
28份政府工作报告中的高频词
省级两会上的高频词
词汇习得中的词频效应研究
初秋唇妆趋势
SPINEXPO™2017春夏流行趋势
词频,一部隐秘的历史