武玉英 才久然 何喜军
( 北京工业大学经济与管理学院 北京 100124 )
随着现代经济向知识密集型转变,专利已成为衡量国家或企业技术水平、创新能力的最重要指标之一。《2018年深入实施国家知识产权战略加快建设知识产权强国推进计划》中明确强调,大力培育高价值核心专利。从宏观角度看,培育高价值专利的基础是专利价值评估。从微观角度看,专利价值评估是企业通过专利交易获得竞争优势的前提。然而,专利价值具有不确定性及模糊性等特点使得专利价值评估成为一项艰巨的任务[1]。Zhang等[2]认为专利作为一种具有多重价值的可转让资产,价值更高的专利更易交易。据此,Ko等[3]首次提出专利可转让性(Patent Transferability Evaluation,PTE)的概念,即通过交易实现专利潜力的可能性,并从可转让性角度定量评价专利,为专利价值评估提供新思路,对技术交易推荐具有重要意义。但如何评价专利可转让性,目前还未得到科技主体的广泛关注。随着信息技术的进步和数据的组织规模变大,对大规模有效专利数据的分析与评价也提出了新挑战,而发展迅速的机器学习能够有效应对挑战。已有研究基于深度神经网络的思路为专利可转让性评价提供了方法支撑,而结合高阶神经元后,可以进一步模拟专利的各项指标与专利可转让性间复杂的非线性关系。本文将基于专利可转让性角度分析专利,选取与设计专利可转让性评价相关指标,建立适用于大规模数据的专利可转让性评价模型进而评估专利价值,为后续智能化评估专利价值的研究提供参考。
1.1专利价值评估与专利可转让性评价国内外学者从不同角度开展专利价值评估研究。王浩[4]从劳动价值论角度讨论专利的价值和使用价值,提出专利价值的评价客体为专利的使用价值。Zhang等[2]从专利引证角度衡量专利价值,并选择前向引用指标评价专利价值。传统的专利价值研究主要包括技术价值、法律价值、经济价值三个方面。Lanjouw等[5]实证评估计算机、制药等四个技术领域的专利维持价值和潜在专利诉讼的法律保护价值。杨思思等[6]结合技术发展现状和产业特点,选取先进性、成熟度等8类指标评价特定专利的技术价值度。随后又选取市场应用情况、专利申请规模等7类指标评价特定专利的经济价值度[7]。而Ko等[3]提出的专利可转让性是通过交易实现专利潜力的可能性,专利可转让性评价与上述研究有所区别。第一,专利可转让性评价是基于交易视角的二分类问题,即专利是否发生转让。第二,专利可转让性评价是基于可量化指标的研究,克服传统专利价值评估中指标简易加权求和的不足。第三,专利可转让性评价能够识别具有高可转让性的专利,侧面评估专利价值和筛选可交易的高价值专利。
1.2专利价值评估指标与专利可转让性评价指标国内外专利价值评估体系主要包括以下几种:a.专利价值度(Patent Value Degree,PVD)[8],包括法律、技术和经济三个维度,共18项指标。b.CHI公司指标体系。源于《华尔街日报》的专利计分卡,包括质量、数量、科学和速度四个维度,共6项指标。c.IEEE专利实力计分卡。考虑数量和技术价值,包括5个指标。现有研究通过扩展或改进上述指标体系评估专利价值,但存在以下不足:一方面,忽略指标之间的复杂相关性,另一方面,部分指标难以量化而不得不依靠主观人为判断,上述原因导致评价结果不理想。对于专利可转让性评价指标,Ko等基于国际专利分类号(IPC)衍生出三项新指标,即IPC规模、IPC活动和IPC申请人,分别定义为相关IPC的专利总数、过去5年的专利数量和申请者数量[3]。然而,上述研究的评价指标存在一定局限:一是根据专利自身属性选取的指标较少,二是未考虑专利权人特征。因此,本文基于专利价值评估指标,从技术和法律两个维度选取专利可转让性评价内部指标,基于交易视角中专利权人特征设计专利可转让性评价外部指标,全面客观地开展评价,为后续模型建立奠定基础。
1.3专利价值评估与专利可转让性评价方法国内外学者采用多种方法评估专利价值,包括层次分析法、模糊综合评价法、灰色关联分析等[9-10]。但上述方法难以应用于大规模数据,需要探索更为智能化的方法。随着大数据分析方法的兴起,许多学者利用机器学习方法分析评价专利,如协同过滤[11]、支持向量机[12]等。近来,深度神经网络(DNN),即具有多个隐藏层的神经网络,能够提取更多高维特征而在处理复杂任务中表现出良好的性能[13]。由于专利可转让性评价指标多样且指标间存在多种复杂相关性,奠定了本文采用DNN开展评价的方法基础。高阶神经网络(High-Order Neural Network)由Giles和Maxwell提出[14],包括求和神经元和求积神经元,具有收敛速度快、存储能力强的优点,并且极大增强网络处理非线性映射问题的能力。Nguyen[15]等提出一种新的高阶神经元用于泡沫混凝土抗压强度预测,结果表明高阶模型性能优于具有线性神经元的人工神经元网络模型(C-ANN)。受上述方法启发,本文尝试结合高阶神经元将深度神经网络方法用于专利可转让性评价并建立模型。
综上,本文从专利可转让性角度分析专利,基于专利价值评估指标,从技术和法律两个维度选取专利可转让性评价内部指标,基于交易视角中专利权人特征设计专利可转让性评价外部指标,结合高阶神经元将深度神经网络方法用于专利可转让性评价并建立模型,进行专利价值评估并区分可交易的高价值专利,为后续智能化评估专利价值的研究提供参考。
近年来,以计算机、通信、软件产业为主的信息产业已经成为国家经济支柱型产业,因此,本文针对电子信息领域专利开展可转让性评价,构建指标体系原则如下:a.科学性。将可转让性评价指标体系分为内部和外部指标,并划分不同维度来细分。b.可行性。尽量选取可量化指标,保证评价过程的可计算性。
本文基于专利价值评估指标,从技术和法律两个维度选取专利可转让性评价内部指标。由于专利所属外部环境的特征对专利交易活动具有重要意义,仅考虑专利自身属性的内部指标无法体现专利技术环境的特点,因此,基于交易视角中专利权人特征设计专利可转让性评价外部指标。
2.1专利可转让性评价内部指标选取专利可转让性评价内部指标如下:
2.1.1 专利技术价值源于专利技术自身的性能 技术维度指标选取如下:a.技术新颖性。指该专利相比其他专利具有技术优势,本文基于专利摘要相似度测度专利技术新颖度[16]。b.科学关联度[17]。指专利技术与科技发展的关联程度,通过专利引用科技文献的数量表示。c.技术覆盖范围[18]。指专利所涉及的技术领域,通过国际专利分类号(IPC)的数量表示。d.技术影响力[19]。反映专利在该技术领域受重视程度,通过被引证次数表示。e.发明人数量[20]。反映专利的创造水平。f.申请人数量[21]。反映专利申请的复杂性。
2.1.2 专利法律价值源于专利法律制度的保护 法律维度指标选取如下:a.专利保护范围[22]。反映申请人的技术创新能力,通过权利要求数量表示。b.专利文件质量[23]。一般指专利文件的详细程度,本文采用专利说明书页数表示。c.同族专利数量[24]。由至少一个共同优先权联系的一组专利文献,称一个专利族(Patent Family),同一专利族中每件专利互为同族专利。d.专利涉及诉讼情况[25]。采用专利诉讼当事人、复审请求人、无效请求人的统计数量表示。
2.2专利可转让性评价外部指标设计专利可转让性评价外部指标如下:
2.2.1 专利权人类型 通过对电子信息领域专利交易主体分析发现,企业间交易是专利交易的主要形式,高校及科研院所专利技术交易行为较少。由于企业专利转化能力更强,转化条件完善,更易实现专利商用化[26]。该指标计算方式为:分别将企业、高校、科研院所、个人的专利转化能力得分记为3,2,2,1。
2.2.2 专利权人能力 从企业规模看,大型企业担当新技术传播者的角色,承担着新发明商业化的风险[27],其专利可转让性高于小型企业。该指标计算方式为:分别将大型企业和小型企业的实力得分记为2,1;分别将985高校和其他高校实力得分记为2,1。
2.2.3 专利权人-IPC竞争力 由于电子信息领域技术更新迅速,专利对企业竞争发挥关键作用,具有更强竞争力的专利可转让性更高。为了体现专利在该技术领域的竞争强度及专利权人在该技术领域的竞争水平[28],设计两个专利权人-IPC竞争力指标:专利权人-IPC种类数量,即专利权人拥有专利IPC种类的个数;专利权人-IPC数量,即专利权人拥有专利IPC的个数。
综上,选取设计电子信息领域专利可转让性评价指标共14个,如表1所示。
表1 电子信息领域专利可转让性评价指标
3.1HO-DNN-PTE模型建立模型的单个神经元结构如图1所示。
图1 模型单个神经元结构
第l层加权输入替换输入向量和可训练参数的匹配加权向量的内积,如式(1)所示,从而将一阶神经元升为高阶,增强单个神经元能力,优化神经网络。σ1、σ2、σ3为激活函数,解释输入激活的组件间的非线性关系进而建立复杂模型。
(1)
为解决神经网络学习减速问题,选择交叉熵(Cross-entropy)函数作为损失函数,如式(2)所示。
(2)
模型最后一层L的误差如式(3)所示。
(3)
为了加快收敛速度,模型使用tanh作为激活函数如式(4)所示。
(4)
由于tanh函数输出小于0,ReLU不适用于最后一层L的激活函数,因此,选择sigmoid做二分类输出效果较好,如式(5)所示。
(5)
为提高计算效率,使用Adam优化器优化梯度下降法训练所提出的模型。当循环训练数据后,一轮训练过程完成,并以新一轮开始,当达到预定的最大次数时,模型的训练过程完成。
3.2模型性能评价采用accuracy、precision、recall和F1共4个指标评估模型性能,计算方法如下:
其中,M表示测试集中预测结果正确的数目,N表示测试集总数目,Mp表示发生转让的专利中被预测正确的数目,Np表示预测可能发生转让的数目,Nc表示实际发生过转让的数目。
4.1数据来源及处理基于IncoPat专利数据库检索2014-2018年中国电子信息领域有效发明授权专利数据,共检索到专利42 790个。在此专利集合中,统计发生转让的专利共5 780个。为避免数据集中分布不平衡,对未发生转让的专利样本进行欠采样,随机去掉样本,最后筛选得到10 937个发明专利为数据集。使用python处理数据,过程如下:
a.转让记录拆分:根据专利库中唯一标识码“公开号”,对单次转让记录中多主体进行拆分,得到专利转受让人一一对应的关系。
b.专利技术新颖度计算:使用gensim库对专利摘要计算专利相似度,并计算相似水平为0.2的技术新颖度。
c.专利权人拆分与识别:根据专利库中唯一标识码“公开号”,拆分多个专利权人,并利用模糊匹配结合人工筛选的方式分别识别各专利权人类型和实力并赋值,最后将每个专利的专利权人类型和实力分别合并。
d.专利权人-IPC对应:取专利IPC号的前四类作为分类标识,统计专利权人的全部专利涉及的IPC数量及IPC种类数量,并同当前专利匹配,最后将IPC数量及IPC种类数量分别合并。
e.统计其他指标:分别统计每个专利引用科技文献的数量、IPC的数量、被引证次数、发明人数量、申请人数量、权利要求数量、说明书页数、同族专利数量、诉讼当事人、复审请求人、无效请求人的数量。
将上述处理后得到的14个指标用下式进行标准化处理:
(6)
4.2HO-DNN-PTE模型参数设计将处理后的数据集随机划分75%为训练集,25%为测试集。基于高阶神经元的深度神经网络的专利可转让性评价模型输入层维度为14,即上述14个指标,隐含层为四层,每层神经元个数为30,通过试错法确定。输出层维度为1,即专利转让。模型参数设计如表2所示。
表2 HO-DNN-PTE模型参数
图2 不同学习率下训练集预测精度的变化曲线
不断调整学习率,不同学习率下训练集预测精度的变化曲线如图2所示。由图2可得,学习率为0.01时,训练集预测精度最高,适用于本文所提出的专利可转让性评价模型,因此,采用0.01的学习率训练模型。
4.3HO-DNN-PTE模型性能评价根据3.2节公式评价模型性能,为检验方法的稳健性,随机进行5折交叉验证,重复训练测试过程并计算测试集中的平均性能,并与传统BP神经网络方法和仅使用高阶神经元的方法作对比,如表3所示。
表3 模型精度对比
通过表3可得,HO-PTE及HO-DNN-PTE模型精度均高于BP-PTE,说明使用高阶神经元评价专利可转让性的方法具有可行性。其中,HO-DNN-PTE性能最好,准确率比BP-PTE提高4.67%,比HO-PTE提高1.68%。HO-DNN-PTE的精确率和召回率均较高,考虑精确率和召回率的综合指标F1,HO-DNN-PTE的效果最佳,达到86.72%,验证了模型具有效性且稳健性较好。
4.4HO-DNN-PTE模型结果分析为了验证HO-DNN-PTE模型在大规模专利可转让性评价中的适用性,随机评估42 484个专利,以模型输出概率将专利划分为A、B、C三个级别,并确定实际转让专利的百分比如表4所示。
表4 专利级别及转让率
由表4可得,A级别专利转让率最高,其次是B级别,C级别最低。上述结果说明模型能够识别具有高可转让性的专利,评价级别越高,实际转让专利的比例越高,即高价值专利更易交易。其中:10 069项A级别专利实际转让2 766项,专利转让率为27.47%。由于个别企业并不转让这类优势技术,而是将其用于研发,表明该模型能够区分通过交易实现价值的潜在专利,有助于企业监测专利潜力,进而将其实际应用于企业专利战略。
专利作为一种知识产权,蕴含丰富的信息,本文从专利可转让性角度分析专利,基于专利价值评估指标,从技术和法律两个维度选取专利可转让性评价内部指标,基于交易视角中专利权人特征设计专利可转让性评价外部指标,针对电子信息领域专利数据,将结合高阶神经元的深度神经网络方法用于专利可转让性评价并建立模型(HO-DNN-PTE),实际应用于大规模专利可转让性评价。本研究具有以下三个优点:
第一,从专利可转让性角度分析专利,基于专利价值评估指标及交易视角中专利权人特征划分内外部指标,且选取设计的指标均可量化,从而全面客观地开展评价,为模型建立奠定基础。
第二,专利可转让性评价模型(HO-DNN-PTE)准确率为84.90%,F1值达到86.72%,相比传统BP神经网络方法和仅使用高阶神经元的方法性能较好,验证了模型的有效性。
第三,与传统的评价模型相比,本文提出的智能化专利评价模型在大规模专利可转让性评价实际应用中具有适用性,能够区分通过交易实现价值的潜在专利,为企业监测专利潜力、构建专利战略提供有效方法。
研究也存在一些不足:专利可转让性评价指标影响模型复杂度及计算时间,因此指标的选取设计有待进一步完善;模型通过试错法确定个别参数,因此模型性能有待进一步提高。未来可以利用更多有效专利信息,有机融合多种评价方法,提高专利可转让性评价的准确性。