谢 祥,马晓雅,卢 彤,张 婧
(1.北京交通大学经济管理学院;2.国铁物资有限公司,北京 100044)
近年来,得益于中国政府对知识产权工作的高度重视,中国的发明专利数量取得了跨越式的发展。高校作为国家科学技术研究的重要前沿阵地,是国家创新体系中的重要组成部分,是国内科技创新的重要力量,其申请的专利数量和质量一直备受各界关注。高校专利的质量对于整个专利领域的质量发展存在着一定的引导作用,对专利的长远发展也起着重要的推动作用。然而,目前我国高校不足50%的专利维持年限高于5 年,这一数据远低于国外高校专利维持时间的平均水平[1],且高校的有效专利实施率、产业化率、许可率和转让率等数据远低于企业。
随着专利申请数量爆发式增长带来了诸多的专利质量问题,因而学者们逐渐将研究目光聚焦到专利质量的评估上。但是在发明专利质量的评估和分类方面,大量工作和研究人员仍然应用传统的评估和分类方法来对专利质量进行评估和研究。综合国内外研究者对专利质量评估的方法,可分为基于专利引文、质量评价指标以及文本挖掘三大类方法。Mariani 等[2]基于专利引文,提出了一种改进的专利引文计算和PageRank 算法,降低了专利发布时间对评估重要专利的偏差性影响,根据专利发布t 年后的平均排名位置来评估专利质量;孙冰等[3]基于手机芯片的专利引文数据,依据网络拓扑参数来确定专利引文网络中的核心专利,进而来判定专利质量;Huang 等[4]为了简单有效地评价专利质量,建立了11 个指标体系,提出了基于熵权法和改进TOPSIS的专利质量评价模型;Yoon 等[5]建立专利质量系统层次结构,运用层次分析法结合文本挖掘、多元线性回归来开发专利质量评价模型;Lee 等[6]提出结合专利指标和机器学习,选取18 个输入指标和3个输出指标,利用前馈多层神经网络来捕获输入和输出指标之间复杂的非线性关系,从而评估新申请专利的质量水平;Liu 等[7]提出了一种可量化的度量专利质量的模型,基于已有的专家测量专利质量的指标,运用机器学习来提取前向引用多、法院判决为“有效”的专利相关特征,并基于贝叶斯模型挖掘现有专利质量,同时验证了该模型可以客观度量处于专利生命周期各个阶段的专利质量;Lin 等[8]基于专利引用网络的属性网络表征模型和基于注意力机制的卷积神经网络模型构建了专利质量的评估模型,从专利文本材料中提取语义表示,然后将他们的输出连接起来以预测新专利质量。
通过对这三类方法的文献研读,基于研究专利引文的方式来评估专利质量存在着严重的时间滞后性问题,在专利发布早期甚至是专利申请阶段,无法通过专利的被引量来评估早期的专利质量[2,9];基于评价指标的方法主观性较强,专利质量评价结果很大程度上取决于专家的经验与知识,忽略了专利文本内容本身隐含的一些客观信息[5,10];而第3种基于传统的文本挖掘方法,容易忽视专利文本的上下文信息之间的联系,也无法对序列进行处理,且忽略了专利的一些重要数据特征信息[6]。
2006 年,Hinton 等人[11]提出深度学习的概念,随着计算机性能的不断提升和深度学习算法的不断优化,深度学习在短时间内得到了快速发展,出现了许多深度学习模型及框架,并广泛地应用于各个行业。深度学习的快速发展与应用,为高质量发明专利评估、发明专利质量分类问题提出了新的解决方法和思路。Rao 等[12]将词嵌入和长短期记忆网络(LSTM)应用于政策文本分类问题中,解决依靠上下文信息进行文本分类的问题。李超[13]对传统的卷积神经网络模型进行改进,采取结合LSTM 网络模型的方法提升词序语义学习和特征挖掘的能力。研究人员对LSTM 网络进行简化,提出了一种新的网络结构GRU(Gated Recurrent Unit)[14]。但是由于GRU 分类无法体现每个隐层输出重要程度的问题,孙明敏[15]在GRU的基础上,加入了注意力(Attention)机制,设计了GRU-Attention 分类模型,并验证了该模型对分类效果的提升。学者Chen 等[16]将注意力函数引入GRU 中,提出GRUA 模型,从正在进行的对话中提取客户行为的重要隐藏特征,以了解客户意图,提高产品推荐的准确性。Rush 等[17]提出了一种基于注意力机制的双向GRU 网络的识别模型,通过两个相互独立的GRU 网络来进行特征提取,同时通过注意力机制自适应地对各时刻隐层特征赋予不同的权值,最后根据加权求和后的隐层特征进行目标的识别与分类。
综合现有的研究方法、研究技术及专利数据的特点,本文研究思路是在构建初始的基于GRUAttention 机制的高校发明专利质量分类模型的基础上,引入高校发明专利质量关键指标及权重,将其与Attention 机制在GRU 隐层输出的特征及权重相融合,对Attention 机制进行优化,并利用实际数据对优化后的基于GRU-Attention 机制的高校发明专利质量分类模型的有效性和分类效果进行了验证。
GRU 神经网络属于循环神经网络(RNN),RNN 的提出是为了解决训练过程中的记忆依赖和梯度问题,它借鉴人类思考问题的行为,对于处理序列数据有很好的效果,随着研究的不断深入,RNN在序列化数据的领域应用越来越广泛,也取得了良好的成效。传统的神经网络基于孤立元素假设,但事实上元素之间并不是孤立存在的,在数据训练中元素之间的依赖性也很重要,循环神经网络可以考虑到元素之间的关系,也就是增加了记忆功能,将节点的输入和输出和上一个节点联系起来,更加符合人类思维行为。简单加入记忆功能后人们发现在时间轴上RNN 出现了梯度消失无法解决长期依赖的问题,为了解决RNN 存在的这些问题,研究者提出了多种RNN 的变体模型。
LSTM(长短期记忆网络)就是RNN 变体中一种广泛应用的经典变体。在实际操作中,RNN 无法成功学习到长环境中词之间的相关信息,也无法对间隔比较长的词进行有效预测。因而,出现了可以解决这一问题的特殊RNN 模型——LSTM。和原始循环神经网络不同,长短期记忆网络要控制隐藏状态和神经单元状态的向量,通过输入门、遗忘门、输出门控制更新,以此来解决RNN 面对长序列问题的缺陷。但LSTM 网络存在一些缺点,即神经网络内部机制复杂,有很多参数要控制,而且在训练过程中往往花费大量的时间。
为了进一步改进这些缺陷,Cho 等人[18]在2014 年提出了更为简单的LSTM 变体模型——GRU(门控循环单元),将LSTM 的忘记门和输入门合成了一个单一的更新门、同时还混合了细胞状态和隐藏状态,加诸其他一些改动。GRU 模型由更新门和重置门两个门组成,结构简单、容易理解,需要控制的参数少,而且有较好的收敛性。其简单的模型结构如图1 所示。
图1 GRU 简单模型结构图
较多的实验表明,GRU 相比于传统的RNN 模型,训练效果相似,但由于其参数较少,收敛快,因此相对容易训练,且GRU 在过拟合问题上表现优异,较少表现出过拟合现象。因此,GRU 训练的计算开销更小,速度更快,适用性更强,广泛地应用在自然语言处理的领域。
一般的深度学习过程在提取文本特征的时候是无差别的,这样就会造成一些重要信息权重的丧失,为了解决这个问题,研究者提出了注意力机制(Attention Mechanism)来提高对重要信息的识别能力。注意力机制的思想是对于输入信息赋予不同的权重,使模型更加注重有用信息而减弱无用信息的影响,该模型目前在不同类型的任务中得到了广泛的应用,且通过对比发现应用效果明显比不应用此机制的效果优秀。目前,常见的注意力机制主要分为3 种:全局注意力机制、局部注意力机制和自注意力机制。
全局注意力类似于传统的注意力,上下文数据信息的权重会基于编码的所有隐藏状态。全局注意力的模型如图2 所示。全局注意力需要在序列中所有的时间步上进行计算,计算代价较高,开销较大。
相比于全局注意力机制的高开销,局部注意力机制用固定窗口大小去减少计算力,其模型如图3所示。尽管局部注意力机制计算代价相对较低,但是局部注意力可能会受到预测向量的影响而降低准确率。因此,实际应用中全局注意力机制更为普遍。
自注意力机制区别于传统的注意力机制,它不必依赖外界信息源,通过自学习更新参数,机制为自身对自身的权重。而传统的注意力机制是靠外部信息与内部经验相互对齐,机制为输入对输出的权重。其机制计算方式大致为三阶段:第一,计算元素与关键字(key)的相似度;第二,标准化之前的得分值;第三,加权求和特征权重系数。
图2 全局注意力模型示意图
图3 局部注意力模型示意图
由于发明专利数据是由一系列可表达专利信息内容的外部特征与内容特征构成的,这些特征信息用结构化数据或者非结构化数据以文本或图像的形式表达,在通过一般的机器学习进行文本分类时,需要去创建复杂的特征工程去提取文本特征。而基于深度学习自动获取特征表达,解决了人工特征工程的问题,操作简单,人工依赖度低,得到了广泛应用。
由于GRU 模型可以很好地处理长期记忆、通过保留长期记忆信息更准确的进行预测,且模型参数设置简单,训练速度较快,符合高校发明专利数据特征,同时专利文本有很强时效性,上下文信息也有很强的关联性,这些特点使专利文本分类的特征较难提取,且影响高校发明专利质量的一些重要的结构化数据也对专利的质量分类有举足轻重的影响,也需要被重点关注,因此,本研究引入注意力机制来解决这一问题。
图4 GRU 结构图
在GRU 网络模型中,词向量之间具有一定的联系,依靠这种注意力机制训练词向量可以将文本中重要性不同的词识别出来,通过Attention 机制的作用,可以找出专利数据中的重要信息。构建的GRU-Attention 模型的结构如图5 所示。
图5 GRU-Attention 模型结构
在上文构建的GRU-Attention 网络算法中存在某些专利评估结果置信度偏小的情况,因此本文引入专利质量关键指标的权重信息,在机器分类的基础上,结合专家知识,来改善分类结果置信度偏小的情况。
国际上现有的衡量专利质量的关键指标体系主要分为3 种:CHI 指标、Ernst 专利质量指标和中国国家知识产权局专利质量指标体系。分析发明专利质量的影响要素,参考现有的评估体系,综合考虑发明专利在初始的申请阶段指标数据获取、使用和后续专利质量分类模型的可操作性,本文以评估高校发明专利质量为目标,构建了技术质量、法律质量和实用性质量3 个准则层指标,并将每个准则层指标继续分解得到科学关联度、引用专利文献数量等共计11 个方案层指标。
同时利用层次分析法依据构建的高校发明专利质量评估关键指标体系,设计了关键指标调查问卷,邀请吉林大学、山东大学、中国科学院大学和北京交通大学等科研机构中专利研究领域的42 位专家进行调查问卷填写,从而处理计算得出各指标的权重,为模型的改进提供理论和数据支撑。具体的汇总结果见表1。
表1 高校发明专利质量关键指标权重
当评估结果置信度小于某个阈值或该文本拥有最大和次大分类可能性的差别较小时,重新生成注意力分布概率的语义编码和特征向量,具体流程如下:
(1)构建GRU-Attention 算法。利用上文的GRU-Attention 模型,首先进行词嵌入操作,将输入的信息变为二维特征矩阵,然后基于Attention 机制进一步提取强化高级特征。
(2)计算注意力分布概率的语义编码,公式如下。
(3)计算Attention 语义编码和特征向量,隐藏层状态值与注意力概率权重合并计算得到语义编码C,再将历史节点的语义编码和文本向量作为输入得到的当前节点的隐藏层状态值,此时的就是包含历史节点权重信息的特征向量。
(4)训练好GRU-Attention 网络模型,通过计算待分类文本的各项分类结果的可能性,最终根据计算的可能性值输出待分类文本的预测类别:
专利的法律状态分为有效、失效和审中3 种,有效专利是指专利在获得授权后,现仍处于有效状态的专利,失效专利是指由于各类主、客观原因而丧失或者未获得专利权的专利,而审中专利是指目前处于审查和审批暂未获得专利权的专利。由于有效专利和失效专利经过了完整的专利审查流程,而审中的专利由于暂未完成专利授权流程,大量研究证明,涉及诉讼、转让或者获奖的专利通常比其他专利具有更高的价值,但由于获奖专利数据获取比较困难,因此,本研究将涉及诉讼和转让的专利界定义为“高质量专利”。如果专利因未通过专利授权、或已授权又被宣告无效、或因其他各种原因而失去专利保护权,从专利的法律稳定性、技术创新性和实际应用性方面,这类专利都存在明显不足,因此,可以将其认定为“低质量专利”。而获得专利授权却并未发生转让或诉讼的专利则被认定为“普通质量专利”。
采用此分类方式,对高校发明专利数据库中的21 万条专利数据进行标注,由于审中专利尚未完成专利授权流程没法标注,所以,只能对有效专利和无效专利进行标注,则将非审中专利分为4 个类别——“诉讼”“转让”“有效”和“无效”,其中标注为“诉讼”和“转让”的有效专利类别表示高质量的专利,标注为“有效”的有效专利类别表示普通质量专利,而标注为“失效”的失效专利类别表示低质量的专利。
因此,对模型进行验证的实验从有标注的专利数据中按照不同类别的比例随机抽取了23 000 条专利数据构成实验数据集,再按照大概10:1:2 的比例从实验数据集中随机抽取专利,形成训练集(17 300条)、验证集(2 000 条)和测试集(2 700 条)。然后按class-content 即类别-内容规则对整个数据集进行切分,专利文本的每一行都为该专利的文本和标注信息。
数据准备好后,先使用训练集和验证集的数据对所构建的GRU-Attention 机制模型与改进的GRU-Attention 机制模型进行迭代训练,训练环境为DeepLearning 框架TensorFlow 1.8.0,待验证集分类的准确率不再提升之时,意味着模型训练完毕。最后使用测试集的数据来验证训练之后的两个模型对专利质量类别识别的有效性。
(1)词向量维度:在衡量词向量语言特征时,维度设置的太小对于充分表达文本特性存在着一定的困难,就此情况而言,词向量维度设置的越大越好,然而诸多试验表明过大的词向量维度会大大增加计算量,从而影响模型整体的训练速度,本实验根据计算性能和具体任务设置的词向量维度为64 维,
(2)dropout 参数:dropout 可以有效降低模型训练过程中出现的过拟合现象对结果的影响,dropout 反映的是在DeepLearning 的训练中,按照一定的概率将一些神经网络单元暂时丢弃,本模型设置的dropout 参数为0.5。
(3)隐藏层神经单元:确定训练集后,输入和输出层的神经单元节点数随之也能确定,但是隐层数和隐层节点数却很难定下来。如果隐层节点比较少,那么神经网络不能具有较好的信息处理及学习能力,隐层节点过多又会导致网络复杂度增加,使训练的速度极大降低。本实验最终设置隐层神经单元数为128。
(4)batch_size:batch_size设置的太大可以提高训练速度,但会占用很高的内存率也可能降低训练准确率,设置的太小会造成训练速度很慢。因此一般选取32~256 之间的数值,本试验选取的batch_size 为64,指的是一次性将64 个数据输入到模型中对模型进行训练,进而完成一次模型参数计算和参数更新。
深度学习中对分类算法的性能评价指标主要有准确率、精确率、召回率及F1 值等。
(1)准确率是性能评价中最直观、最普遍的一个指标,指的是预测正确的样本数占总样本数的比例,见式(17)。
(2)精确率指在预测样本中实际的正样本数占所有的正样本数的比例,见式(18)。
(3)召回率指预测为正样本的数占所有实际为正样的比例,见式(19)。
(4)F1 值是精确率和召回率的调和值,见式(20)。
其中TP(True Positive)指的是预测和实际都为正;
FP(False Positive)指的是误报,匹配不正确。预测为正、实际却是负;
FN(False Negative)指的是漏报,没有正确查找出匹配,预测是负、实际却是正;
TN(True Negative)指的是预测为负、实际也为负。
针对高校发明专利质量的类别,本文进行了GRU-Attention 机制和改进的GRU-Attention 机制的对比实验,并对结果在精确率、召回率等方面进行评价。
使用训练集和验证集对GRU-Attention 机制模型进行训练,第4 次迭代训练后(如图8 所示),验证集分类的准确率就不再增加,最终准确率维持在75%左右,训练中最佳效果为77%。然后对测试集中的2 700 条专利数据进行类别识别,结果如图6 所示,可知测试集专利类别识别的准确率为77.41%。但是模型对于“有效”类别的识别结果欠佳,召回率和F1 值偏低,其余3 个类别的识别效果较好。
图6 GRU-Attention 机制模型的实验结果
使用训练集和验证集对改进GRU-Attention 机制模型进行训练,在保持GRU 模型其他参数不变的情况下,将衡量高校发明专利质量的关键指标权重信息添加到向量中,改进后GRU-Attention 机制模型的实验效果如图7 所示,在第八次迭代后停止优化(如图8 所示),改进后的模型对测试集专利类别识别的准确率为86.84%,比初始GRU-Attention 机制模型准确率提高了9%。
图7 改进GRU-Attention 机制模型的实验结果
图8 模型的性能和稳定性对比示意图
本文首先分析了高校发明专利质量的现实问题,即高校发明专利数量发展迅速,质量发展却差强人意,整体水平较低,明确了快速准确识别高校发明专利质量的现实需要。在对现有解决方案和技术研究进行梳理和综述的基础上,提出了基于GRUAttention 机制来评估高校专利质量的新方案。
在分析专利数据特征的基础上,构建了GRUAttention 机制模型来评估高校发明专利质量,同时引入衡量高校发明专利质量的关键指标及权重信息来对模型进行改进,通过专家知识改进GRUAttention 机制。利用高校非审中专利数据对改进前后的模型的性能进行验证。验证结果是,改进后的模型在迭代训练中表现出更好的稳定性和准确率,对测试集识别的准确率由77.41%提升至86.84%,可见,改进后的GRU-Attention 模型在高校发明专利质量识别方面具有更高的有效性。
因此,本文充分结合专利的文档信息和结构化数据信息,综合专家知识,主客观相结合,构建了改进的基于GRU-Attention 机制的高校发明专利质量评估模型,为发明专利质量评估和预测提供了一种新的思路和方法,为各科研单位、企业甚至于国家在专利布局上提供一定的理论和实践的支撑。