基于主题模型和专利数据的技术创新评价研究

2019-02-25 11:42余本功陈杨楠杨颖
现代情报 2019年1期
关键词:熵值法

余本功 陈杨楠 杨颖

摘要:[目的/意义]专利是企业技术创新活动的重要成果,对专利数据进行分析,有利于客观评价企业技术创新能力。[方法/过程]从计量的角度对企业专利数据进行分析的同时,结合机器学习的方法,通过LDA模型对专利摘要文本进行内容挖掘,构建基于专利文本内容的评价指标,建立由专利数量、专利趋势和专利内容三方面指标组成的技术创新评价体系。[结果/结论]采用熵值法确定各项指标对企业技术创新的影响权重,并通过实验对国内自主品牌制造企业进行技术创新评价,说明了评价方法的现实意义。

关键词:主题模型;专利数据;LDA;内容挖掘;熵值法;技术创新评价

DOI:10.3969/j.issn.1008-0821.2019.01.014

[中图分类号]G306 [文献标识码]A [文章编号]1008-0821(2019)01-0111-07

创新是驱动企业发展的原动力,对于一家制造企业来说,技术能力是公司内部进行资源调度与配置,提高生产力并实现战略目标的重要技能和素质,而只有拥有特定资源和特殊特征能力的公司才能获得竞争优势。

企业的技术创新能力是其在制造领域的影响力的重要体现,企业的技术创新又会受到诸多因素影响,从企业进行技术创新活动时所需支持要素考虑,会受到企业的科研经费投入、研发人员比例、研究机构的数量等因素影响;从企业创新活动过程中的各个环节出发,会受到市场机会反应速度、主要产品更新周期等因素影响;从企业的技术创新产出成果方面分析,新产品销售收入、企业专利数量等也都是技术创新的重要影响因素。对企业技术创新能力进行系统分析和综合评价,有利于企业科学认识自身的技术创新状态,采取有效的技术创新战略,增强企业竞争力,从而获得最佳的经济效益和社会效益。

专利数据作为反映企业技术创新能力的综合性指标,是科技创新活动的最主要和最直接的产出重要成果之一,和企业的创新活动密切相关,是全面评价企业技术创新的一个关键因素,而企业的专利数据所包含的信息是大规模的、多维度的,仅从数量层面去评价企业技术创新能力是不全面的。为此,应从多视角对企业技术创新开展评价,以计量的角度分析专利数据的同时,也需要对专利内容加以分析。主题模型是一类用来发现文本抽象主题的无监督模型,能够从主题层面对专利文本进行挖掘,将主题模型方法和统计方法相结合对专利数据进行分析,能够更加全面反映企业的创新活动,更好地对企业技术创新做出评价。

1相关研究

多年来,企业技术创新评价的研究日渐丰富,如利用层次分析法将影响技术创新的因素间的相互关联及隶属关系按不同层次聚合,形成目标层、准则层、指标层3个层次的评价体系,考虑到不同层次的元素和元素组内部的关联关系,提出的指标层具有网络结构的基于网络层次分析法的评价体系;使用因子分析法将众多评价指标浓缩成几个关键的影响因素并计算它们的影响程度来评价企业的技术创新能力,以及使用数据包络分析和两阶段DEA的方法,从技术创新投入和产出两方面构建评价体系,还有TRIZ理论、模糊评价、BP神经网络以及密切值法等理论方法的应用,使得评价结果更加客观公正。

专利数量是反映企业技术创新产出的一项重要指标,但数量只是企业创新活动产出的一个方面。因此,孙斌等基于生产视角分解科技创新各环节,构建了包含专利创造能力、专利运用能力和专利支持环境的区域科技创新评价指标体系;郑佳从专利的数量与质量、绝对与相对、自主研发与国际合作3个层次建立了基于专利指标的技术创新能力评价体系;曹明等在已有的基于专利的评价指标体系基础上,引入协同创新能力等指标,综合宏观(地区)、中观(行业)和微观(企业)3个层面构建多维度、立体的技术竞争力评价体系;梁晓捷等从创新方向、创新效率、创新质量3方面选取指标评价企业技术创新能力。这些文献都没有深入到专利文本内容,而专利文本中相当一部分信息是某个技术领域的相对较新的内容,所以专利文本的内容挖掘是了解企业乃至整个领域技术创新的发展趋势和核心要素的一种重要方式。

LDA模型是主题模型中的典型代表,假设每个文档由多个抽象主题组成,基于文档中词语的共现关系将词聚合在一个主题下,生成主题一词概率分布,词概率的大小反映了该词与这个抽象主题之间的关联关系的强弱。根据文档中词的主题分布情况可以获得文本一主题概率分布。借助LDA模型可以发现热门话题,对不同时间段的文档集进行建模,还可以获得主题的演化关系。

本文提出一种结合LDA模型和专利数据的技术创新评价方法,从计量和内容两个维度展开,一方面,对制造企业的专利数量、专利趋势等指标进行分析;另一方面,利用LDA模型发现企业专利中的领域核心关键词并计算企业创新核心值,构建起基于专利内容的评价指标,再利用熵值法确定各指标对技术创新能力的影响权重,进而对企业技术创新能力进行评价。

2基于专利数据的技术创新能力评价框架

文章从专利数量、专利趋势和专利内容3方面选取下述7项指标构建技术创新能力评价框架,由浅入深,具有很好的泛化性。

2.1主要指标及说明

2.1.1专利数量指标

数量指标是反映企业技术创新产出成果的一个直接指标,本文选取的数量指标主要包括发明专利数量X1、实用新型专利数量墨和授权发明专利数量X3

1)发明专利数量:发明分为产品发明和方法发明两大类型,对于企业来说,新产品的问世、新生产方法的上线以及实验方案的改进等都是企业技术创新活动的重要成果。

2)实用新型数量:相比于发明专利,实用新型专利更多体现出实用性,且必须为具体的、有一定形状的产品,而不能是抽象的理论。例如,汽车的真空助力器带制动主缸装置、放气可控式轮胎装置等都是帮助企业在行业内获得领先的技术创新产出。

3)發明授权专利数:为保护企业的自主知识产权,国家知识产权局会对符合专利要求的专利技术方案严格审查,并对其中一部分发明专利和实用新型专利进行授权,而这部分专利必须具备新颖性、创造性和实用性。

2.1.2专利趋势指标

趋势指标反映出了企业技术创新产出的变化态势及发展方向,本文选取的趋势指标包括专利年申请量X4和技术分布趋势X5

1)年申请量变化率:每一条专利都是企业长时间技术投入和技术创新的成果,每年的专利申请数量从一定角度上反映了企业的研发效率以及创新成果转化率,年申请量的变化则说明了企业研发效率及创新成果转化率的起伏。

2)技术分布变化率:根据《国际专利分类表》(IPC分类)发明专利和实用新型专利被分入8部,而每个制造领域都会有与该领域相关度很高的专利类型。企业在相应分部里的专利占比在一定程度上反映了企业技术创新的集中程度,技术分布的变化则反应了企业创新集成状况的变化。

2.1.3专利内容指标

专利的内容关系到制造领域技术创新的关键和核心要素,本文选取的内容指标是核心关键词数X6和创新核心值X7

1)核心关键词数:专利内容涉及领域内方方面面,但其中热门词汇一定是领域中关注的重点,涉及到技术创新活动的对象或者过程。因此,企业专利中包含领域核心关键词的数量反映出了该企业与行业发展方向的一致性。

2)创新核心值:创新要素在领域内有重要性的差异,核心关键词也会有热度的区别。关键词热度越高,则该关键词所涉及的内容越是受到行业重视。创新核心值是核心关键词在企业专利内容中受重视程度的数值表现,也说明了企业在制造领域对核心要素的把握情况。

综上所述,可得企业技术创新能力评价指标体系,如图1所示。

2.2基于LDA模型的专利内容指标说明

企业的领域核心关键词数和创新核心值指标不同于其他5项指标,不能直接通过企业的专利数据统计获得,需要通过LDA模型对企业专利摘要文本进行关键词的提取,统计各家企业所包含的领域核心关键词数并计算各企业的创新核心值。本节将对LDA模型进行简单介绍,并详细说明核心关键词数和创新核心值的获取过程。

2.2.1 LDA主题模型

LDA主题模型是一个3层贝叶斯概率模型,主要包括文档、主题和词3层结构,认为每个文档是由多个主题的混合,每个主题是由一系列词组成。其模型如图2所示:

3实证分析

3.1实验对象及数据统计

以国内自主品牌汽车企业为例,选择的实验对象为北京汽车股份有限公司(北汽集团)、重庆长安汽车股份有限公司(长安汽车)、长城汽车股份有限公司(长城汽车)、奇瑞汽车股份有限公司(奇瑞汽车)、安徽江淮汽车股份有限公司(江淮汽车)、浙江吉利控股集团有限公司(吉利汽车)6家国产自主品牌汽车专利数据。根据中国汽车工业协会公布的《2017年1~10月中国品牌汽车分车型前10家生产企业销量排名》,这些公司占据榜单中的6席,并且拥有很大数量的中国汽车专利。因此,这6家自主品牌汽车公司是具有代表性的自主品牌汽车公司。

专利数量指标选择的是公开日期为2012年1月1日-2016年12月31日的6家企业的中国发明专利数、实用新型专利数和授权发明专利数;专利趋势指标选择的是申请日期为2012年1月1日-2016年12月31日的6家企业的中国专利年申请量变化量平均值,B部、F部和G部专利所占比例的平均值;专利内容指标选取公开日期为2012年1月1日-2016年12月31日的6家企业的实用新型和发明专利摘要文本。数据来源于中国知网专利数据库及佰腾专利网,专利情况统计如表1所示。

3.2专利内容指标获取

获得6家企业和领域核心关键词数及创新核心值,首先要对所有的专利摘要文本进行下述预处理过程:

1)每条专利摘要看作是一个文档,去除文档长度低于100字的数据;

2)将文档里所有大写英文字母转化成小写字母:

3)使用jieba模块对数据进行分词,使用停用词词典去除标点和停用词,并进行词性标注,引入百度百科汽车术语建立用户词典。

经过预处理获得29916个专利文档,建立起包括318个汽车术语的用户词典,选择文档集困惑度较小的主题数30,即K=30。经过LDA建模和进一步的TF-IDF计算,每个主题保留权重最高的10个主题词,即h=10,并从这些主题词中选取汽车领域核心关键词。限于篇幅,图3仅展示了主题11~主题13和主题20~主题22的主题词及其概率分布。

我们从这些主题词中选取汽车领域核心关键词时将服从以下原则:

选取汽车领域核心关键词时将遵守以下几条原则:

1)去除名词中,例如“板”、“螺杆”、“齿轮”、“芯片”、“盖”、“软管”、“硬管”等无法确定具体所指对象的通用词;

2)去除“方法”、“功能”、“接口”和“导向”等单独出现时无意义的名词;

3)合并例如“座椅”和“汽车座椅”,“减震器”、“避震器”和“减振器”等表征相同意义的名词。

通过上述原则筛选,我们最终获得90个领域核心关键词,其中包括和发动机系统相关的“温度传感器”、“水泵”、“油管”、“进气歧管”、“气缸”等关键词;和底盘系统相关的“转向器”、“转向管柱”、“刹车”、“减震器”等关键词;和车身系统相关的“保险杠”、“仪表盘”、“遮阳板”、“后视镜”等关键词;和空调系统相关的“滤清器”、“空气压缩机”等关键词;和电子系统及电器设备系统相关的“蓄电池”、“尾灯”、“传感器”等关键词。统计每个主题下的关键词数,并根据公式(1)计算每个关键词的重要值。

在获得汽车领域的核心关键词后,我们单独对各家企业的发明和实用新型专利文本进行LDA建模,主题数设置为20,即k=20,获得每家企业的主题一主题词分布,统计每家企业包含的领域核心关键词数,并通过公式(2)计算每家企业的领域创新核心值。结果如表2所示:

3.3技术创新评价

将表1及表2中数据进行标准0~1变换处理,如表3,再运用熵值法计算各项指标的熵值ej进而确定各项指标的权重,如表4所示。

由表4可得汽车企业的专利数量指标权重为0.57,专利趋势指标权重为0.17,专利内容指标权重为0.26。

根据公式(6)可获得各企业技术创新能力评价值,并进行排名,如表5。

观察表5的结果,我们发现江淮公司虽然专利总数不是最多的,却获得了最高的技术创新评价值,吉利汽车公司虽然专利数最多,但因为近5年内申请专利数量下降较快,排列第2位,奇瑞位列第3位,北汽集团排列最后一位,并与其他公司差距较为明显。总结来说,2012年1月1日-2016年

12月31日期间,江淮、吉利公司技术创新能力属于第1梯队,奇瑞、长城公司属于第2梯队,长安和北汽公司属于第3梯队。

对比实验结果和2017年12月汽车评价研究院发布的《汽车行业安亭指数排行榜》和《乘用车发明专利排行榜》,我们发现实验结果虽存在微小偏差,但结论基本一致,出现偏差的原因是本文提出的技术创新评价体系是从专利数据的3个维度出发,选取的专利指标跨越的时间范围更长,涉及专利数据的维度更宽泛,和汽车研究院发布的车型排行榜产生一点偏差.而文中提出的方法是面向企业进行的技术创新评价。因此,文中提出的基于主题模型和专利文本的技术创新评价方法具有一定的实际意义。

4结论

文章通过对企业专利数据的统计和内容挖掘,构建了基于专利数量指标、專利趋势指标和专利内容指标的技术创新评价方法。经过实验证明,LDA在对数量较多、文本长度较长、领域性较强的汽车专利文本进行建模时,提取领域关键词效果良好,利用此框架不仅可以从专利的数量、趋势以及内容3个角度评价汽车企业的技术创新能力强弱,同时也可以发掘出汽车领域的一些创新热点。

猜你喜欢
熵值法
城市综合承载力研究
基于GRA—TOPSIS的中小物流企业融资效率评价