基于数据挖掘的产业技术演化路径识别方法研究

2022-09-02 10:14和志强王梦雪刘院英
河北省科学院学报 2022年4期
关键词:概率分布代表性文档

和志强,王梦雪,马 宁,刘院英

(河北经贸大学信息技术学院,河北 石家庄 050061)

0 引言

在复杂的国际环境大背景及全球疫情挑战下,我国产业升级蹄疾步稳,制造业向中高端迈进,装备制造业增加值比上年增长12.9%,占规模以上工业比重达32.4%[1]。在取得瞩目成绩的同时,我国区域发展的不平衡依然是一个长期性问题。为进一步提高区域经济发展水平,更好地把握区域产业技术发展态势,明确产业技术创新发展方向,促进区域经济良性发展,识别分析产业技术演化路径就显得尤为重要。

目前,技术演化路径识别方法主要分为基于进化原理的TRIZ法[2]、基于专家经验归纳的德尔菲法[3]和基于引证关系的专利引文分析法[4],它们大都过于依赖人工,缺乏对专利文献信息的深度挖掘。因此本文在运用主题模型对专利文献内容进行分析的基础上,提出了一种产业技术演化路径识别方法。该方法通过结合TextRank算法[5]的主题模型提取技术主题与技术关键词,根据主题概率抽取出技术的代表性专利,并利用相似度矩阵发现技术间关联关系,实现技术演化路径识别。

1 方法总体概述

本方法流程如图1所示。首先构建专利数据集,包括数据清洗、分词、去停用词、向量化表示等预处理操作;之后利用结合Text Rank算法的主题模型获取同一国际专利分类(IPC)内专利文献的技术主题与主题关键词,并根据主题概率分布矩阵得到该技术主题的代表性专利;最后依据专利间相似度识别其关联关系,得到技术的演化路径。

图1 方法流程图

2 方法具体流程

2.1 预处理

本文以塑料包装产业技术领域为研究对象,用塑料薄膜生产相关IPC分类号检索1985年至2021年约13000条发明专利组成原始数据集。提取专利文献中的专利文献号、专利名称、专利说明书摘要和专利所属IPC分类,按IPC分类号对专利数据进行划分,并采用jieba分词模型对所有专利说明书摘要进行分词与去停用词处理,对处理完成的数据利用Word2Vec模型[6]将其向量化表示。数据样例如表1所示。

表1 专利数据样例表

2.2 主题抽取

大量文本数据通常存在一些共性主题,将具有相似内容的文本聚合后抽取其中的共性主题是主题抽取的主要任务。结合TextRank算法的主题模型是在运用隐含狄利克雷分布(LDA)模型[7-8]抽取得到文本隐含主题与代表性数据的基础上,利用TextRank算法获取隐含主题对应的关键词,来有效表示文本主题内容。

LDA模型将一篇文档的产生过程视为通过概率分布来选取词汇的过程。同类专利数据中通常包含多个隐含的技术主题,利用LDA主题模型对这些隐含主题进行识别,首先需要确定隐含的主题数量。在实际操作中一般依据先验知识来确定主题个数[9],针对本文面临的众多塑料包装专利文本中隐含主题个数未知的情况,这里采用计算模型困惑度的方式来确定模型主题个数。困惑度是判定一个模型生成能力的评价指标,其公式如式(1)所示,其中Nd为文档内词的个数,p(w)为每个词出现的概率,计算如式(2)所示,p(z|d)表示每个主题z在文档d中出现的概率,p(w|z)为每个词w在某个主题z中出现的概率,由此可得,当困惑度越小时,模型对文档所属主题判定越准确。主题数的判定如式(3)所示。

(1)

p(w)=p(z|d)·p(w|z)

(2)

(3)

在通过困惑度判定最优主题数k后,再利用LDA模型的Gibbs采样[10]生成文档——主题的概率分布矩阵,Gibbs采样工作流程是首先从Dirichlet分布中采样,再随机为每个文档中的每个词分配一个主题,并计算每个词的主题概率分布,再从主题概率分布中采样得到该词的新主题,重复采样计算直至所有词收敛,得到了文档——主题的概率分布矩阵。

依据文档——主题概率分布矩阵PD×T来生成与隐含主题最为相关的m个数据如式(4)所示,取得与k个隐含主题最相关的k×m个数据,其中f(·)表示取概率排序的最高k个值的数据,得到该专利聚簇k个隐藏主题下的代表性数据,概率排序最高的即为代表性技术。

(4)

对得到的代表性数据利用TextRank算法抽取隐含主题对应的关键词,TextRank算法是依据词与词之间的共现信息排序来抽取关键词,它认为当一个词出现在很多词之后,说明这个词较为重要。TextRank算法以句子为单位将句子中各词看作是一个节点,每个节点由其关联节点表示。以一个词为中心,设定共现窗口大小为K,则将其用前后各K个词权重进行表示,通过滑动窗口不断迭代计算句子中每个词的权重表示。在迭代结束后,依据词的权重进行排序,并取最高权重词作为关键词。

由此可见,TextRank算法在抽取关键词的过程中存在倾向于将高频词作为关键词而忽略了低频词的问题。专利说明书摘要的简单概括性导致其内部专业性词汇频率较低,采用原始的关键词抽取方法容易忽略重要信息,因此本文提出了一种关键词抽取策略来对这一问题进行优化,首先分别对多个专利单独抽取关键词生成关键词文档,再多次将其中n个专利进行随机组合链接为长文本来抽取关键词生成关键词文档,由此得到了多个候选关键词文档WTR。

考虑到TextRank算法原理,抽取得到的候选关键词文档中大多数为高频词,通过组合数据来提高低频词权重的策略虽然在一定程度上改善了这一情况。但高频词权重并未改变,为了判断高频词对文档的重要性,文本采用计算词的IDF值对其权重进行更新,计算公式如式(5)所示,其中|D|表示所有文档数量,|j:wi∈dj|表示包含词wi的文档数量。

(5)

对更新权重后的词进行重新排序,再依据新的排序抽取关键词,剔除对文档重要性低的词,从而得到能够描述隐含主题的关键词。

2.3 关联关系识别

文本中词关联关系的构建主要基于文本语义信息,文本的语义特征依赖于语义编码表示。在技术演化路径识别中通过抽取多个文本的主题来表示该技术,是技术路径识别中路径构建的基本依据。因此技术间关联关系识别是在抽取技术主题的基础上,通过计算各技术主题间相似度来识别技术间关联关系[11-12]。

技术主题间相似度通过计算各技术主题的代表性专利的摘要向量表示间余弦相似性获得,技术演化路径的识别则是结合周期性与时序信息来描绘技术的演化方向,识别流程如下:

(1)数据准备。抽取同分类专利的主题与关键词,识别各技术主题的代表性专利。

(2)文本表示。将代表性专利的摘要进行向量化表示。

(3)相似度计算。分别计算技术分支下各节点间相似度,构建相似度矩阵S,并以各节点与其他相关节点的相似度均值为阈值来构建两节点之间的边,各节点之间的余弦相似度如式(6),其中ni和nj分别为节点i与节点j的向量化表示,相似度矩阵S如式(7)所示,m为该技术分支内的节点数。

sij=fcos(ni,nj)

(6)

(7)

(4)节点连接。依据得到的相似度矩阵对相邻时间的节点进行连接,得到技术节点的演化路径。

3 实证研究

3.1 实验设计

实验通过对专利文献进行分析处理来识别各技术分支下的技术节点与技术间关联关系,从而形成技术演化路径。为验证本文方法的有效性与可行性,将以我国塑料包装产业内IPC分类为塑料的加工(B29)类的相关专利数据为对象进行实例分析,构建技术演化网络。构建流程如下:

(1)将相关专利数据按IPC分类号进行切分。

(2)利用本文提出的方法抽取各类专利数据的技术主题与技术关键词。

(3)根据主题概率分布矩阵抽取代表性专利。

(4)依据代表性专利建立技术节点,并计算专利间相似度来识别关联关系,再依据关联关系与时序信息来生成该节点的技术演化路径。

(5)将各类别技术演化路径进行整合,最终得到产业技术演化网络。

3.2 结果分析

本文选定塑料加工领域为研究对象,识别其技术演化路径。根据专利分类号得到21个专利类别,以B29C70分类为例抽取其技术主题。首先确定主题个数,根据技术分支内部数据量设置初始主题数取值范围为[2,18],在主题数范围内取值分别训练主题模型并计算困惑度,困惑度随主题数变化如图2所示。

图2 困惑度随主题数变化趋势图

由图2可以看出,当主题数大于10时,困惑度趋于平稳。因此,取10为主题数,抽取得到的部分主题词与各主题词对应代表性技术见表2。

依据抽取出的代表性技术节点识别技术分支下其他节点关联关系,并按时序信息进行连接,形成各技术节点之间的演化网络如图3所示。

表2 代表性技术节点表

图3 技术节点演化网络图

以其中的技术节点1为例,所表示的复合膜技术分支下的制药工艺用膜材的技术演化路径如图4所示。

由技术节点的专利信息可得,制药工艺用膜材的技术演化主要分为5个节点,从一般塑料制品至高透光率的荧光透明薄膜、高透明度的高强度PE膜、多层复合薄膜、高透明度的高强度BOPP薄膜,最终演化为高强度耐穿刺的复合七层共挤薄膜。由此可见,制药工艺用膜材的技术演化方向为高透明度向高强度转变。

图4 技术节点1的技术演化路径图

4 结论

提出了一种基于专利文献数据挖掘的产业技术演化路径识别方法,能够有效抽取产业内部技术主题与技术关键词,识别技术间关联关系与演化路径。该方法采用LDA模型抽取技术主题与技术关键词,并根据概率分布得到技术对应代表性专利,通过计算专利间相似度识别技术节点之间的关联关系,结合时序信息得到产业技术演化路径。通过对塑料包装产业相关专利进行实证研究,证明了方法的有效性。

猜你喜欢
概率分布代表性文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
非物质文化遗产代表性传承人
——呼光华
一类摸球问题及其解法
漳州市非物质文化遗产代表性项目代表性传承人名录
致敬经典
弹性水击情况下随机非线性水轮机的概率分布控制
关于概率分布函数定义的辨析
Word文档 高效分合有高招
风速概率分布对风电齿轮