专利技术创新路径识别及其新颖性评价研究

2021-06-14 02:13:00冯立杰尤鸿宇王金凤
情报学报 2021年5期
关键词:新颖性潜水机会

冯立杰,尤鸿宇,王金凤

(1.郑州大学管理工程学院,郑州 450001;2.上海海事大学经济管理学院,上海 201306)

1 引 言

精准识别技术创新机会,是企业乃至国家获得竞争优势、以不断提升核心竞争力的重要手段[1]。在技术创新机会识别中,专利作为一种重要的信息来源被人们广泛运用,但囿于承载专利信息的专利文献数据量庞大,如何在海量专利文献中快速、准确地识别技术创新机会显得尤为重要。

传统的基于专家经验的专利文献分析主要侧重于定性方法,但随着科技创新不断向纵深发展,受专家的知识、经验及其占有资料所限,难以保证分析结果的客观性和准确性,导致识别的技术创新机会受专家主观影响较大的弊端日益凸显[2]。因此,有些学者尝试结合定量分析方法,基于大数据驱动开展技术创新机会的识别。例如,Park等[3]借助IPC国际专利分类号计算了不同企业的技术组合得分,进而用于识别具有较高实用性和发展潜力的技术创新机会;Rodriguez等[4]和Kim等[5]提出了基于专利引文网络离群值识别高价值专利,并获取潜在的技术创新机会;Yoon等[6]运用SAO语义及技术功能相似度分析法,研究了如何从已有产品或技术中获取技术创新机会;王金凤等[7]在融合专利挖掘和形态分析方法建立的形态矩阵基础上,构建了技术创新机会识别路径。由此可见,国内外学者已提出了诸多较为成熟的定量识别技术创新机会方法,为本文从专利信息驱动下的技术创新机会识别路径的研究提供了重要的参考思路,但存在以下两个问题:第一,虽然部分研究虽然解决了如何量化技术创新机会识别的问题,但需要相关专家事先参与并进行大量的专利信息筛选,由此可能增加企业的技术创新成本,而且受主观因素影响较大;第二,现有针对具体领域的技术创新机会识别问题的研究,大多采用较为单一的分析评价方法,缺乏客观数据的支撑,难以指导企业精准开展具象的技术创新活动。

专利作为寻求技术创新机会的一种重要载体,承载着大量的高价值信息[8]。其中,专利的新颖性在表征技术创新机会的同时,经由人们普遍的认可和推广,能够为企业带来普适性的技术创新机会[9]。企业可在计算技术创新方案新颖性的基础上,得到各潜在创新机会的排序,为企业高效开展技术创新活动提供科学的决策依据。Lee等[10]结合文本挖掘和局部异常因子算法,应用专利文献数量和专利引文数量衡量专利的新颖程度;Wang等[11]通过计算各专利文献的异常因子,衡量专利的新颖性;吴菲菲等[12]综合考虑专利和科技文献的时间特征,以引用时间衡量专利的新颖性;任海英等[13]在对专利标题和摘要构建的专利知识网络基础上,进行了文本相似度分析,以此测量专利的新颖性。不难看出,目前对专利新颖性评价的文献多聚焦于专利引文的角度开展相关研究。

有鉴于此,本文提出了在海量的专利信息驱动下,融合多维技术创新图谱、LDA(latent Dirichlet allocation,LDA)主题模型与TextRank-IDF专利新颖性评价的技术创新机会识别路径。本文通过专利信息检索及预处理,运用LDA模型从海量的专利文献中提取技术创新要素及主题,利用多维技术创新图谱探究潜在的技术创新机会,进而运用Tex‐tRank-IDF新颖性评价指标对潜在的技术创新方案进行新颖性排序,识别出具有较高创新价值的创新路径,实现最大限度地减少因专家人工筛选大量专利信息所带来的效率和准确性问题,为企业科学选择创新方案、不断提升创新效率提供有益的参考。

2 研究基础

2.1 多维技术创新图谱

多维技术创新图谱是借助多个创新维度进行创新要素提取并归类,结合多个创新法则对创新维度进行迭代变换,以构建技术创新方案的一种创新方法。其实质是一种基于9类创新元素的分类与获取,并运用9种创新法则变换重组,从而形成创新方案的技术创新方法。9个创新维度和9种创新法则的列表,分别如表1和表2所示[14]。

表1 创新维度表[14]

截至目前,多维技术创新图谱已经在软件产品研发、智能手机、煤层气、潜水电泵等多领域得到了广泛应用,并验证了该方法的可行性,能够有效提升技术创新的效率和效果[14-15]。

表2 创新法则表[14]

2.2 LDA主题模型

LDA主题模型在专利挖掘领域中已得到广泛运用,众多学者运用LDA模型提取海量专利文献的关键词,实现自动识别专利文本主题[16-17]。然而,LDA算法在面对海量专利文本信息时,存在主题及主题词难以解释的缺陷[17]。因此,本研究将利用多维技术创新图谱理论,通过具象的创新维度对主题词进行二次归类,以构建具有实用价值的创新路径。

LDA主题模型是一种基于三层贝叶斯结构的文本分析模型,包括文档、主题和词项三层结构。其中,文档是各主题词项的集合,核心是利用狄利克雷分布,从文档生成主题并抽取词项,对高维向量空间表示的文档降维表达,以实现对文档和词项的高效聚类。利用LDA模型生成文档的具体流程如下:

(1)假设每篇专利文献d的主题生成过程相互独立,文档d主题生成服从狄利克雷先验分布θd~Dir(α),生成各专利文献d中的第i个词项主题Zdi~Multinomial(θd),则可构建文档-主题矩阵。

(2)对各主题k生成对应的词项分布φk~Dir(β),即从该分布中采样生成专利文献d中的第i个词项wdi~Multinomial(φzdi),此阶段对应的主题-词项矩阵。

反复进行上述过程,直至生成所有文档的主题及主题词。其中,LDA模型的联合概率分布为[18]

为保障更好的分类效果,LDA主题模型的核心是设置主题数量参数[19]。Blei将表述某个主题不确定性程度的困惑度(perplexity)作为模型的评价指标。一般而言,随着主题数K的增加,该指标会相应降低。低困惑度模型能够达到更好的聚类效果,针对M个文本数据集的困惑度值计算公式为:

其中,Nd表示文本d所有词项的总数;p(wd)表示文本集中各文档的产生概率。

2.3 潜在技术创新机会评价方法

本文提出了一种改进TextRank-IDF方法来衡量技术创新机会在一定范围文本集的新颖性。Tex‐tRank算法是在对文本去除停用词后,根据文本N中词项间的共现关系,将文本中词项作为图中节点,以链入节点数量决定各词项的权重,通过公式

计算词图网络的各节点权重,迭代至稳定后权重较高的词项,即关键词。其中,W为初始权重;Vi为入链集合;Vj为出链集合;S表示TextRank的重;Wji表示第j行、第i列对应的权重;k表示第i列之前的列数。本文设置阻尼系数d表示跳转到词图网络其他节点的概率,防止权重计算的值为0。

传统的TF-IDF算法作为一种常用的特征提取方法被广泛运用,其中逆文本频率IDF的主要思路是分布在少量文本中的特征词更重要,即在文本集中包含词项w的文档越少,IDF的值就越大。

因此,本文提出了计算潜在技术创新方案新颖性指标的TextRank-IDF算法。

(1)运用TextRank算法对某个潜在技术方案(potential technical opportunity,PTO)PTOi提取关键词,继而得到关键词w集合:S={w1,…,wq},其中q为关键词个数。

(2)用IDF值评价关键词w在专利文本库中的重要程度,其中n(w)为专利文本集中包含关键词w的专利数,N为专利文本总数,则有

(3)以IDF(pto)值表示技术方案在专利文本库中的重要程度,IDF(pto)值越高,表示技术方案的新颖性越强,有

最终可得到各潜在技术创新机会新颖性的排序,为企业开展技术创新提供科学决策依据。

3 研究路径

本文将基于海量专利信息的驱动,依托多维技术创新图谱,通过专利信息检索及预处理、技术创新机会生成模型构建、潜在技术创新方案评价等步骤,探究技术创新机会识别路径。其中,除确定主题数、主题筛选及多维技术创新图谱构建环节需要专家筛选外,其余工作均可通过计算机Python编程来实现,以最大限度地减少识别技术创新机会受主观因素影响的弊端。具体研究路径如图1所示。

图1 潜水电机技术创新机会识别研究路径

3.1 专利信息检索及预处理

专利信息检索及预处理主要包括:首先,确定与技术创新对象有关的检索关键词,开展专利检索并提取专利信息摘要;其次,为提高中文的分词效果,需通过查阅具体研究领域的特定术语,构建对应技术创新领域的用户词典,并滤除专利信息中的噪声信息,去除停用词;最后,基于分词后各词项的词频,采用清洗后的专利信息摘要构建专利的文档-词项分布矩阵,使专利文本向量化。

3.2 技术创新机会生成模型构建

技术创新机会生成模型构建流程主要包括:首先,确定LDA主题模型的主题数和迭代次数;其次,运行LDA主题模型探究技术创新领域关键词的主题分布,并筛除与技术创新无关的主题;再次,利用多维技术创新图谱将关键词进行维度划分,对各创新维度重组,以获得新的关键词组合;最后,与相关创新法则耦合,构建多维技术创新图谱,生成系列潜在技术创新方案。

3.3 潜在技术创新方案评价

潜在技术创新方案评价阶段主要包括:首先,参照现有专利形式,标准化表达潜在技术创新方案;其次,运用TextRank算法提取技术创新方案中的关键词,并计算各关键词的IDF值;最后,根据技术创新方案新颖性计算公式,得出各潜在技术创新机会的新颖性排序,为企业开展技术创新活动提供科学的决策参考依据。

4 应用分析

潜水电机在影响国民经济发展的一些重要领域,如井下或江河湖泊取水、井工矿井排水、农田灌溉及矿山抢险救灾等领域,均得到了广泛应用,在我国国民经济发展中发挥着不可替代的作用[20]。但工作环境的特殊性使得潜水电机对绝缘、冷却散热、密封等性能有较高的要求,亟需开展技术创新机会识别,以找出具体的创新路径指导相关企业开展创新活动。

4.1 潜水电机专利检索及预处理

4.1.1 潜水电机专利信息的检索

本研究的专利信息来源于国家知识产权局专利检索及分析平台(http://pss-system.cnipa.gov.cn)。在进行专利信息检索前,需要首先对专家访谈以确定检索的表达式,如表3所示。

表3 潜水电机专利检索表达式

通过检索获得与潜水电机有关的专利信息5560条,初步去重后剩余4873条。

4.1.2 潜水电机专利信息的预处理

在LDA主题模型运行之前,本研究应对专利信息进行中文分词和文档向量化处理。

首先,为提高分词效果,防止错误划分技术术语,一般需要对多位该领域相关专家进行访谈,结合查阅的相关文献资料,确定潜水电机的特有专业技术术语,构建用户自定义词典。

其次,应用正则表达式滤除非文字符号,同时导入常用停用词表,去除量词、语气词、低质量文本等噪声信息。在对专利进行文本处理后,使用Python的jieba工具包分词。

最后,基于词项、词频进行特征提取,构建文档-词项分布矩阵。

4.2 潜水电机技术创新机会生成模型构建

4.2.1 潜水电机LDA模型的参数设定

在潜水电机LDA模型运行前需要进行参数设定,其中重要参数包括超参数α和β,以及主题数K。超参数α和β可设定为0.01[18]。通过计算主题数由2到50模型的困惑度值可得,当主题数取值36时,困惑度值最小,但此时存在大量的无意义主题。除去主题数36,模型得到最小困惑度的主题数可取值19,为使主题间的技术边界更加清晰兼具代表性,本研究将主题数确定为19,如图2所示。

另外,迭代次数同样是影响模型学习效果的重要因素之一[21]。如图3所示,但当迭代次数增加至400次后,模型的效果提升有限,故本研究将迭代次数定为400。

4.2.2 潜水电机LDA模型的运行结果分析

本文利用Python的scikit-learn库进行LDA主题模型计算,得到潜水电机的主题和关键词分布信息。

根据关键词分词结果,结合相关技术领域的专家意见,在滤除包含水下养殖、船舶技术、水下清淤等潜水电机延伸应用领域的9个主题聚类后,得到筛选的10个技术领域。各主题代表的技术领域清晰,有较好的聚类效果,故可根据各主题关键词内容进行命名,具体如表4所示。

图2 潜水电机主题数对应的困惑度值

图3 迭代次数对模型效果的影响

表4 潜水电机主题和关键词列表

基于LDA创新元素提取得到的分类结果,不仅体现了潜水电机设计和制造的关键点(即技术创新的“痛点”),而且聚焦了相关技术领域的常用改进手段,故以此来整合现有技术的关键要素能够满足企业识别关键技术创新机会的需要。

4.2.3 潜水电机的多维技术创新图谱构建

将上述关键词进行创新元素归类并划分维度,应用多维技术创新图谱可以构建技术创新机会识别路径,具体包括创新维度划分、多维技术创新图谱构建和技术创新机会识别三方面内容。

1)创新维度的划分

根据多维技术创新图谱对创新维度的定义,结合专家给出的具体意见,将制约潜水电机创新的要素按维度划分为功能维、结构维、机理维和材料维四类,具体如表5所示。其中,功能维是从满足潜水电机各项技术性能要求角度提取的创新要素,包含潜水电机正常运转所需的各方面具象技术(如控制、检测、过滤等);结构维是创新要素中涉及潜水电机技术的构件(如电机、壳体、叶轮等);机理维是从实现潜水电机各具体功能基本原理角度提取的创新要素(如密封、驱动、导流等);而材料维则是考虑潜水电机部件的材料构成及相态等的创新要素(如树脂、刚性、聚酰亚胺等)。

2)多维技术创新图谱构建

通过对创新要素的归类,潜水电机的关键技术要素聚焦在功能维、结构维、机理维和材料维等4个维度。创新的目的是满足某些特定的功能需求,那么功能维就是识别潜水电机技术创新机会的主要导向,并且潜水电机技术需求的实现与其构件密切相关,故本文选取功能维和结构维作为识别技术创新机会的主要导向。在确定创新维度后,依次将每个维度与多维技术创新图谱的创新法则迭代耦合,即可构建潜水电机的技术创新地图,从而得到多个技术创新方案。

表5 潜水电机创新维度表

3)技术创新机会识别

首先,本研究聚焦于功能维、结构维和机理维3个维度,依次与各创新法则迭代耦合,并保留能够通过耦合得到技术创新方案的创新法则。将上述3个创新维度和组合与集成、局部优化、自服务等创新法则构建多维技术创新图谱,识别潜在的技术创新机会,并进行规范化表达,如图4所示。

①内水循环冷却系统技术创新机会确定。冷却系统是潜水电机正常运转的基本保证,合理的冷却结构设计能够延长电机的使用寿命[22]。在传统设计中,潜水电机运行产生的热量由冷却液在电机内腔与外导管之间循环流动散发,外导管的设置不仅增加了成本和空间,电机定子的散热效果也不够理想。因此,运用组合与集成、局部优化法则,考虑定子结构的局部优化及转子结构的组合与集成分析发现,可采用内水循环冷却系统技术创新(表6)。

②增设自动保护技术系统的技术创新机会确定。潜水电机的工作环境大多较为恶劣,必要的自动保护技术至关重要。常见故障中,电机内缺水会导致导轴承、推力轴承严重损坏,需要增设贫水传感器;绕组过热烧毁需要实时进行温度检测[23];占比较大的绝缘失效[24],同样需要对潜水电机的绝缘监测实施自动保护技术。因此,运用组合与集成、自服务创新法则分析发现,可采用增设贫水保护装置、温度检测保护装置以及电阻检测绝缘检测装置,以实现潜水电机的智能控制和自我保护(表6)。

③增设甩砂结构的技术创新机会确定。潜水电机长期在恶劣的环境运行,单纯的机械密封无法满足较差水质和大含砂量条件下的密封需求[25]。因此,运用局部优化法则分析发现,在潜水电机机械密封基础上增设甩砂结构,能够有效防止轴承和轴瓦结构的磨损(表6)。

另外,以材料维要素替换机理维要素,考虑功能维、结构维和材料维等3个维度的创新要素,进而与智慧化、自服务和局部优化等法则耦合,同时进行规范化表达,同样可挖掘潜在的技术创新机会。

④在轴承座底端过滤器增设磁性吸附装置的技术创新机会确定。潜水电机的内部以铁为基础的杂质占65%以上,且多为硬颗粒,由此容易造成潜水电机轴承的磨损。对此,运用局部优化法则和智慧化法则分析发现,在轴承座底端过滤器增设磁性吸附装置,能够实现过滤装置的局部优化和智慧化(表7)。

⑤改变潜水电机推力轴承承磨材料配对的技术创新机会确定。潜水电机推力轴承受到热交变影响会产生推力轴承盘碎裂、龟裂等严重故障[26]。为保障潜水电机的长期可靠运行,运用局部优化法则分析发现,改变潜水电机推力轴承承磨材料的配对,能够改善轴承材料的刚性以减少系列相关故障(表7)。

图4 潜水电机多维技术创新图谱

⑥采用F102润滑轴承和特殊轴瓦材料的技术创新机会确定。潜水电机常用的设备运行方式包含立式、斜式和卧式运行,以适于不同的工作环境。开发立卧两用潜水电机能提高产品的复用性以满足不同的工况要求,但潜水电机卧式运行易受轴向力影响引起轴瓦结构磨损从而导致电机无法运转[27]。考虑机理维的刚性要素,运用自服务法则分析发现,采用F102润滑轴承和特殊轴瓦材料能够保障材料的刚性(表7)。

表7 结合材料维的潜水电机潜在技术创新机会

4.3 潜水电机的潜在技术方案评价

4.3.1 潜水电机技术创新机会的新颖性评价

为了对上述标准化表达的潜在技术创新机会做出初步评价,应通过潜水电机的技术新颖性指标计算并排序,辅助企业进行创新机会抉择。具体步骤如下:

(1)提取潜水电机的技术创新机会关键词。借助jieba工具包对所得技术方案结果进行分词和词性标注处理,引入本研究建立的潜水电机技术领域用户词典,滤除对技术创新机会代表性较低的关键词,仅保留其中的动词与名词部分,采用TextRank算法对各潜在技术创新机会方案提取出关键词,具体如表8所示。

(2)计算潜水电机技术创新方案的技术新颖性评价值。根据公式(4)计算上述各关键词的IDF值,然后根据公式(5)计算潜水电机的技术创新方案新颖性,得到每个方案的评价指标值。

表8 潜水电机潜在技术创新机会技术新颖性指标

由表8可知,技术方案新颖性指标值的比较结果为⑥>⑤>②>③>①>④。即采用F102润滑轴承和特殊轴瓦材料的技术创新机会>改变潜水电机推力轴承承磨材料配对的技术创新机会>增设自动保护技术系统的技术创新机会>增设甩砂结构的技术创新机会>内水循环冷却系统技术创新机会>在轴承座底端过滤器增设磁性吸附装置的技术创新机会。

4.3.2 潜水电机技术创新方案分析结果验证

为验证上述结果的有效性,本文将上述各技术创新方案所对应创新维度的创新元素作为专利检索的关键词,由潜水电机领域的专家对检索结果进行筛选,剔除与潜水电机技术无关的专利信息,专利信息库中对应的专利数量越少,表明该技术创新方案的新颖性越高[28]。本次专利检索平台为国家知识产权局的专利检索及分析平台(http://pss-system.cni‐pa.gov.cn),检索时间为2019年11月25日。

检索结果表明(表9),本文提出的各技术创新方案的新颖性从高到低的排序依次为⑥、⑤、②、③、①、④,这与实际专利信息库中的分布趋势相符,从而验证了该技术创新机会识别路径的有效性。

5 结论与展望

本文首先利用LDA主题模型进行了专利挖掘,以快速提取关键技术创新要素;其次,在此基础上,结合多维技术创新图谱,构建了从海量专利信息中获取技术创新方案的路径;再次,通过Tex‐tRank-IDF专利新颖性指标,对提出的技术创新方案进行了创新机会识别评价;最后,以潜水电机的技术创新为例,验证了该技术创新机会识别路径的可行性,为企业高效开展技术创新活动提供了科学的决策依据。

本文的学术贡献主要体现在以下两个层面。

一是在技术创新机会识别阶段。本文将LDA主题模型与多维技术创新图谱有机融合,能够快速在海量专利信息中通过主题聚类提取影响技术创新的关键要素,从而与创新法则迭代变换以识别潜在的技术创新机会。这不仅解决了以往主要依赖专家进行海量专利筛选受主观因素影响较大的弊端以及效率较低等问题,而且弥补了单一使用LDA主题模型难以深入挖掘技术创新机会的不足。

二是在技术创新机会评价阶段。本文提出了基于新颖性的技术创新机会评价方法,综合应用Tex‐tRank-IDF新颖性评价方法,对标准化表达后的潜在技术创新机会的新颖性排序,验证了本文构建评价方法的有效性,为企业更加客观地开展技术创新活动提供了有益的参考和启发。

然而,本文以潜水电机为例构建的技术创新机会识别路径存在以下局限。

第一,有待于更为全面地考虑技术关键词的选取问题。科学技术的日新月异使得各具体技术领域的细分日趋繁杂,急需领域专家构建对应的用户词典,建立更加完善的领域特征词表,以避免遗漏专业术语(技术关键词)现象的发生。因此,未来研究需要在更为完整的语料库进行,以不断提高研究结论的准确性。

第二,有待于更为全面地考虑技术创新机会的评价指标问题。虽然专利的新颖性是技术创造性和实用性的基础,但并非衡量专利价值的唯一指标。因此,构建技术创新机会评价指标不能仅局限于新颖性,后续研究还应结合专利引文网络分析,从实用性和经济性等角度探究衡量潜在技术创新机会的系列指标。

表9 潜水电机创新要素检索和相关专利

猜你喜欢
新颖性潜水机会
潜水者
中外文摘(2022年19期)2022-12-17 09:44:20
外观新颖性对消费者购买意愿的影响:自我建构与产品类型的调节效应
心理学报(2020年11期)2020-11-13 05:41:28
给进步一个机会
海峡姐妹(2020年3期)2020-04-21 09:27:40
最后的机会
NBA特刊(2018年17期)2018-11-24 02:45:44
给彼此多一次相爱的机会
海峡姐妹(2018年6期)2018-06-26 07:27:20
没机会下手
日本计划将新颖性宽限期延长至12个月
快乐潜水
潜水去
鲸鱼会得潜水病吗?