基于主题强度突变检测的颠覆性技术识别*

2023-12-23 03:51李牧南赖华鹏李燕冰
情报杂志 2023年12期
关键词:专利工业强度

李牧南 赖华鹏 王 良 李燕冰

(1.华南理工大学工商管理学院 广州 510641;2.广东省创新方法与决策管理系统重点实验室 广州 510641)

0 引 言

颠覆性技术由于显著的新颖性和潜在的颠覆性对于开辟新领域新赛道,塑造创新驱动发展的新动能和新优势具有重要的支撑意义。早期对于颠覆性技术(disruptive technologies)的定义认为,颠覆性技术是与维持性或渐进性技术(sustainable technologies)不同,是对传统技术系统或市场划分的某种颠覆,而这种颠覆尽管有时甚至是从低端(low-end)介入到已有的主流市场[1]。2000年以后,更多的学者开始研究颠覆性技术和颠覆性创新(disruptive innovation)之间的联系时候发现,技术并不是实现颠覆性创新的唯一因素,商业模式创新和服务基础设施的变革也可能是造就颠覆性创新的关键因素[2]。

当前针对颠覆性技术识别的研究主要集中在引文网络、专利分析和知识图谱等领域[3-4],基于专题文本主题强度的研究还不多见。专利文本的主题强度变化可有效表征某项技术的动态演进过程,可用于技术热点和发展趋势分析。本文将专利文本主题强度的时间序列作为分析对象,并集成了水文和气象监测领域的BUT(Buishand U test)方法用于突变模式检测,从而构建了一个集成专利文本主题强度演进和BUT方法的颠覆性技术分析框架,并应用于工业互联网的颠覆性技术识别,得到了一些具有一定决策参考价值的分析结果。

1 研究综述

考虑到技术不一定是实现颠覆性创新的唯一因素,Christense将颠覆性技术归入到颠覆性创新的统一框架[5]。Danneels从企业竞争视角认为颠覆性技术是能为产品嵌入新性能,通过提升竞争绩效指标来改变企业竞争基础的技术[6]。Schmidt和Druehl提出颠覆性技术也可从高端市场入侵,提供与主流技术不一样的性能,高端模式对当前市场的影响是直接和显著的[7]。黄鲁成等认为颠覆性技术是通过自下而上的产品或服务性能提升,在市场机制的拉动下替代现有技术和改变企业竞争态势[2]。于光辉等结合技术和市场两方面认为颠覆性技术与现有技术内容不同,能对当前技术市场格局形成挑战,形成新的市场格局[8]。颠覆性技术相关研究本质上依然属于技术预测和技术预见研究领域的一个分支[9]。但是,迄今国内外关于颠覆性技术的定义并不统一,不少研究文献将颠覆性技术与传统意义的突破性技术(breakthrough technologies)概念相互融合,提出通过技术的新颖性、先进性和影响力等维度开展识别和预测分析,也产生了一批具有重要学术价值的研究成果[8-9]。回顾近十年围绕颠覆性技术和颠覆性创新的主要研究,中文期刊(核心& CSSCI期刊)和外文期刊(SSCI收录期刊)发表的相关文献在研究视角和学科属性等方面存在一定差异,如表1所示。

表1 颠覆性技术相关研究在中外文期刊的发文比较*

从表1可以看出,国内重要期刊发表的有关颠覆性技术研究主要集中在科学学与科技管理、工商管理、图书情报、国民经济和工业经济等学科;而国际期刊发文则主要集中在商业管理(技术和创新管理),图书情报学科发文占比不高,反而是环境科学领域有一定发文比重。

近年来,除了探究颠覆性技术创新的组织、关键路径和实施机制之外,如何进一步识别、评估颠覆性技术和预测颠覆性技术涌现也是国内外学者关注的热点问题之一[4]。王超等[10]认为颠覆性技术识别与预测方法存在较大拓展空间,相关识别研究方法均围绕颠覆性技术的外部影响或内在特征中某一方面,将二者有机结合的研究还不多。苏鹏等[11]认为颠覆性技术和研究者的学科背景联系紧密,可以大致划分为图书情报、工程管理、经济研究和克里斯滕森理论等几类识别方法或研究视角,存在过度依赖专家、识别标准针对性不足和超前识别效果不佳等问题。因此,如何更为有效结合定性和定量方法是改进目前有关颠覆性技术识别和评价的重要途经。针对萌芽期颠覆性技术识别问题,黄鲁成等[12]提出基于技术生命周期分析理论,可以运用创新性和独创性特征衡量潜在颠覆性,通过排除渐进性技术干扰,运用功能分析方法研究技术新功能对未来市场的影响。

与此同时,围绕颠覆性技术识别,基于专利和论文的定量分析和内容挖掘逐渐成为一种主流范式。有研究者基于专利数据,从技术融合性、新颖性、扩张性和影响力四个维度,运用熵权法和模糊一致性矩阵方法,构建颠覆性技术识别模型[13]。王海军等[14]则基于创新性、扩散性和转轨性三个维度,构建了一种搜索路径统计数算法,并应用于专利吸收率和专利扩散率测度,进一步增强颠覆性技术识别。王康和陈悦也从专利数据出发,基于技术融合视角,通过构建影响力、相似性和新颖性指标筛选出跨技术融合的重要专利,继而通过技术战略坐标挖掘具有潜在颠覆性的技术[15]。考虑到颠覆性技术与技术不连续发展密切相关,近年围绕技术突变的识别方法得到学术界较多关注。例如,侯广辉等提出了技术突变等级模型,并根据构建的技术、市场与外部环境的评估指标体系,搜集专家评估数据展开颠覆性技术识别的实证研究[16]。李乾瑞等[17]则通过引入主题-时序分析和专利引文网络,提出了基于“突变-融合”视角的颠覆性技术分析模型。陈育新等从技术基础性、影响力、突变性三个维度分别采用时序分析方法,并且结合“核心-边缘”理论与专利引文分析相结合识别特定领域的潜在颠覆性技术[18]。马铭等[19]提出将社会网络分析与突变理论相结合,基于社区网络结构和颠覆性技术特征,利用突变理论模型识别易突变社区,然后进行主题词突发监测和词频异常监测识别颠覆性技术。

从目前国内外有关颠覆性技术识别的研究现状看,关于颠覆性技术特征和识别维度依然存在一定争议,部分代表性观点如表2所示。

表2 颠覆性技术特征和识别维度的代表性观点和文献

表2中的部分代表性观点也存在一定差异,但关于颠覆性技术应当具备新颖性(创新性)和突变性(不连续、快速增长或无序扩散)还是得到了大多数研究者的认同。由于国内外部分研究,尤其是自然科学研究领域的论文对于颠覆性技术和突破性技术没有严格予以区分;因此,这里将文献综述适度拓展,部分有关突破性技术和突破性创新识别的研究成果如表3所示。

表3 突破性技术或突破性创新识别方法

从表3可以发现,当前对于突破性技术或突破性创新的识别方法较多,包括通过管理决策理论进行分析,对现有技术的发展演化进行评估,以及文献计量和文本挖掘的方法进行跟踪和分析等。

总体而言,当前国内外围绕颠覆性技术(或突破性技术)特征和识别方法还没有达成普遍共识,但是基于技术生命周期、技术不连续、战略生态位、扎根和突变等不同理论,通过引入文献计量、专利文本挖掘、专利引文网络和专利引文时间序列等定量化方法,结合领域专家的评估和经验,开展了富有成效的探究,也产生了一批具有重要借鉴意义的研究成果。在已有研究基础上,本文认为关于颠覆性技术特征和识别维度在不同研究者之间存在一定差异,甚至存在一些相互冲突的地方,与达成广泛共识还存在一段距离;此外,尽管专利文本挖掘、主题强度和突变检测方法等在当前国内外相关研究文献中有所体现,但如何进一步区分专利文本的主题强度演进模式,以及突变模式检测新方法的引入等相关科学问题依然存在一定的拓展空间。

2 研究设计

2.1 研究框架构建

考虑到当前基于突变和技术不连续理论的颠覆性技术识别更多采用专家评估和专利引文时间序列分析[4,9],而基于专利文本主题强度演进分析和突变模式检测进行颠覆性技术识别的研究还不多见;因此,为了进一步拓展当前颠覆性技术识别的方法体系,本文的研究框架设计如下。

首先,基于Innography数据库进行专利数据检索和采集,并利用Python完成数据清洗和预处理工作;其次,通过LDA(Latent Dirichlet Allocation)方法对专利数据进行主题提取,并根据主题强度的定义刻画出各个主题随时间的强度演化趋势;最后,结合主题强度的突变性检测,识别潜在颠覆性技术主题,具体的分析流程和框架如图1所示。

图1 基于专利文本主题强度演进和突破检测的研究框架设计

从图1可以看出,本文重点探究专利文本主题强度演进和主题强度突变对于颠覆性技术识别的影响和作用,从进一步丰富颠覆性技术识别相关的概念和方法体系。

2.2 数据采集与处理

a.通过Innography专利数据库,构建相关领域专利检索式进行专利数据的采集,并根据专利数据PN号进行同族专利去重。

b.使用Python中NLTK(Natural Language Toolkit)工具包进行数据读取、数据预处理(去除异常标点符号、分词操作、停用词处理、词性还原等),最终生成建模所需的文本语料库。

2.3 基于LDA的技术主题挖掘

利用Python中的Gensim工具包进行LDA主题建模,并通过一致性指标确定最优主题数。由于LDA属于无监督的学习模型,需要预先定义主题数量,这里引入主题一致性指标。主题一致性通过计算不同主题之间形似度对主题建模结果进行评估,经常用于确定LDA主题建模的主题数量[33]。

2.4 主题强度演化分析

基于专利文本的主题建模,为了进一步探究各文本主题强度随时间变化的演进趋势,这里导入主题强度定义,具体如式(1)-(4)所示。根据文本主题在不同文档中的强度权重,可以求出每个主题在不同时间下的强度分布,在进行数据归一化处理后,就可以构建以年份为时间轴的“主题强度-年份”时间序列。其中Xi表示给定年份下第i个主题的主题强度,θm,k表示第m篇文档在第k个主题下的权重分布,wm表示各个文档的权重,对所有文档进行求和得到主题强度,这里将文档进行了年份划分,因此得到的是不同年份下的主题强度。

(1)

(2)

wm=1-

(3)

(4)

公式(1)-(4)旨在通过文本主题强度演化规律和趋势来进一步挖掘相关技术领域中有潜力的细分主题,例如:某个技术主题长期保持较为平稳的增长,且幅度不大,则体现出一定的维持性特征;反之,如果某个技术主题发展一直平稳,但是在近期突然呈现爆发式增长,则认为其存在一定的颠覆性潜力。

2.5 主题强度突变检测

技术主题的强度演化趋势能够从总体上体现某个主题在一段时间内的研究热度或发展前景,而对于其强度的突变点检测则可以部分表征某个主题在特定时间点成为了前沿热点或颠覆性技术。因此,本文提出从突变点检测(Change-point detection)的视角切入,对技术主题的强度演化时间序列进行突变检测,并且对发生突变的技术主题进行分析,从而发现潜在的颠覆性技术主题。BUT是一种基于假设检验思想的突变点检测算法,常用于完整周期的时间序列数据(例如:水文、气象和温度等数据监测等)[34],其定义和计算如公式(5)-(7)所示。

S[K]=∑(x[i]-xmean)(1≤i≤n)

(5)

(6)

(7)

其中,经过调整后的求和值为S[k],Dx为计算样本的标准差,最终的检验统计量U,通常使用某个特定常数作为为蒙特卡罗模拟的临界值从而制成检验统计量U的表格进行检验。BUT常用于水文和大气监测(hydrologic &meteorological monitoring)相关研究领域[34],具有以下个优点:a.不受数据分布假设的限制,可以在数据分布不确定情形下使用;b.计算过程较为简洁且易于理解,不需要过多的参数和复杂的模型选择,具有较高的可解释性和可操作性;c.针对一般时间序列数据,可有效地检测序列中的突变点,在水文观测分析实践中得到广泛应用。考虑到专利文本主题演进本质上也是一种大粒度的时间序列,其波动模式与水文监测对象存在一定的相似度,且数据的前验概率分布也存在不确定性,因此这里引入BUT方法用于突变检测。

3 实证分析

3.1 数据采集与处理

以Innography专利数据库为数据来源,检索时间范围是2012年1月1日-2022年9月1日,检索范围、检索关键词和相关参考文献如表4所示。

表4 工业互联网专利数据检索式

基于表4的专利检索式,可以得到工业互联网专利数据4 432条。笔者对采集到的数据进行重要字段缺失值处理、同族专利去重处理,共得到有效专利3,631条。转换成csv统一格式,然后使用Python进行数据读取、数据预处理(去除异常标点符号、分词操作、停用词处理、词性还原等),从而构建了围绕工业互联网的技术语料库,其中专用语料为27 316个。通过对近十年工业互联网领域专利数量变化的指数拟合与可视化,可以发现工业互联网相关专利数量呈现明显增长趋势,如图2所示。

从图2可以看出,工业互联网相关专利近3年实现了较快增长,这和当前工业4.0、智能制造、增强现实和数字孪生等技术发展存在密切关联[38]。一般而言,工业互联网(国外文献倾向于工业物联网)是高速、低时延和稳定的互联网技术在现代制造业的应用,是数字经济时代重要的基础设施之一。

3.2 LDA技术主题挖掘

通过Python将主题数与困惑度和主题一致性指标进行计算,基于LDA的工业互联网专利文本主题建模结果如表5所示。

表5 主题数与一致性指标得分一览

由表5可知,选择主题数量为9是LDA方法的相对最优主题数,运行后的LDA主题识别结果如表6所示。

表6 工业互联网相关技术的主题-特征词分布表

从表6的工业互联网专利主题建模结果看,边缘计算、区块链、图像和目标识别、传感器和网络安全等技术是当前工业互联网的主要热点和关键领域。

3.3 主题强度演化强度演进分析

在上文的LDA主题建模基础上,还可以通过主题强度演化规律和趋势进一步分析工业互联网相关领域中有颠覆性潜力的技术主题;为此,我们对表6的9个工业互联网热点技术主题进行了“主题强度-时间序列”的线性拟合,并发现主题强度随着时间变化呈现不同的演进模式,具体如表7所示。

表7 工业互联网相关技术主题的演变趋势分类

表7的主题强度演进趋势图是根据上文的计算公式(1)-(4)求解得到的结果,其中主题强度大致呈现持续上升(Type I)的技术主题只有Topic1和Topic8,而没有强度持续下降(Type V)的主题,这说明工业互联网相关技术发展依然处于一个上升期。根据本文关于颠覆性技术的识别两个主要维度:新颖性(创新性)和突变性(扩散和成长),笔者认为专利文本主题强度的持续上升和下降-上升可以部分表征该技术主题的创新性和成长性,而针对这些主题强度的突变检测则可以进一步反映突变的强弱或等级。

3.4 专利文本主题强度突变检测分析

根据表7的工业互联网相关技术主题演变趋势分类,笔者进一步分析了这些潜在候选技术主题的强度演进模式,结果如图3所示。

图3 工业互联网潜在颠覆性技术的主题强度演进(2013-2022)

从图3可以看出,Topic8与Topic9作为两个在工业互联网领域较为基础性的技术主题,其总体的主题强度要高于其他3个相对新兴的技术。根据上文计算主题强度突变公式(5)-(7),可以得到5个主题的强度突变时间点,由于时间序列较短(只有10年),因此每个技术主题的强度突变点只检测到1个,如表8所示。

表8 工业互联网领域潜在的颠覆性技术主题

为了进一步校验上述颠覆性技术识别方法的有效性,笔者依然根据表4提供的工业互联网关键词进行检索,检索时间为2022年9月1日至2023年3月1日,共获取相关专利数据1 410条,依然使用LDA方法对于专利数据的“标题”“摘要”以及“权利声明”进行主题建模并计算主题强度,相关结果如表9所示。

表9 工业互联网相关专利热点主题的校验

从表9可以看出,在工业互联网最新的1 400多条相关专利中,表8所列出的潜在颠覆性主题依然属于技术热点。尤其是表8中的Topic3、Topic8和Topic9的专利主题强度指标较为显著;而表8中的Topic1和Topic2有关边缘计算和区块链的专利文本主题强度则保持平稳,这也和表2的突变检测结果基本一致。表9中的“主题1-工业生产监控与管理”和“主题8-工业通信与控制平台”也没有出现潜在颠覆性技术识别的列表中,符合直觉和常识。此外,表9中的“主题5-物联网与智能管理”在专利文本主题强度指标计算中也较为显著,则有可能是新的技术热点和潜在的颠覆性技术主题。

4 结论与展望

近年来,国内外学者围绕颠覆性技术特征,识别和测量维度开展了积极而富有成效的探究,也产生了一批具有显著学术影响力和政策启示意义的成果。但是,关于颠覆性技术特性和识别方法依然存在一定争议,尚未完全达成广泛共识。本文在前人研究基础上,提出了颠覆性技术的新颖性(创新性)和突变性两个特征维度,并在此基础上提出了基于专利文本主题强度演进和BUT突变分析的颠覆性技术识别方法,并应用到了工业互联网的颠覆性技术主题分析。

工业互联网已经成为当前数字经济时代重要的基础设施之一,是工业4.0和智能制造的重要支撑。近年来,美国和德国在工业互联网关键领域抓紧布局,需要引起我们相关决策部门的高度重视[38]。工业互联网已经成为我国企业数智转型的新引擎,但影响工业互联网平台发展的管理模式、组织机制、协同模式和平台生态化治理等方面亟待建构和完善[39]。从科技政策角度看,我国现阶段需要围绕边缘计算、区块链、工业目标识别、新一代无线网络和工业智能终端等工业互联网相关的潜在颠覆性技术开展前瞻性的战略规划和产业布局。此外,国家和地方政府也需因地制宜,结合区域经济、科技和产业发展实践,制定或进一步完善工业互联网发展相关的科技政策和管理规范。

总体而言,本文提出的颠覆性技术特征和识别维度进一步整合了当前国内外的主流观点,并且引入水文观测领域的BUT方法作为专利主题强度时间序列的突变检测手段,进一步丰富了当前专利文本挖掘和颠覆性技术分析的方法体系。当然,本文研究也存在一定局限性:一是颠覆性技术特征维度可能依然存在争议,普遍共识达成还需时间;二是关于颠覆性技术识别的主题强度突变检测方法也需要在后续研究中进一步校验和完善;三是案例分析部分的工业互联网本身就是一个新兴领域,专利文本的数据规模较小,在大规模专利文本环境下,本文所提出的颠覆性技术识别框架是否依然适应还需进一步校验。

猜你喜欢
专利工业强度
专利
低强度自密实混凝土在房建中的应用
发明与专利
工业人
Vortex Rossby Waves in Asymmetric Basic Flow of Typhoons
地埋管绝热措施下的换热强度
掌握4大工业元素,一秒变工业风!
“工业4.0”之思考
基于DEFORM-3D的300M超高强度钢切削性能的比较
专利