基于内容理解与指标融合的高价值专利识别*

2024-04-25 01:50:08张星星汪满容

情报杂志 2024年4期

唐恒张星星汪满容

(1.江苏大学知识产权学院镇江 212013;2.江苏大学科技信息研究所镇江 212013)

0 引言

随着中国经济步入高质量发展阶段,创新成为关键驱动力。创新实力的重要体现就是专利,其中高价值专利对高质量发展作用不断凸显,它不仅代表着技术创新的高度,更是推动经济和社会高质量发展的核心因素。多项研究显示,专利价值呈现显著的偏态分布[1],只有约10%的专利具有较高的价值[2],这些高价值专利承载着重要的创新和技术突破,对于企业和社会的发展具有巨大影响。因此,科学、客观和精确地识别这些高价值的专利,是政府及创新主体开展高价值专利培育和布局工作的基础,对推动我国知识产权高质量发展和知识产权强国建设具有重要意义。在当前机器学习算法支撑下,学者们已研发出了一套完善的发明专利价值自动识别方案进行专利价值评估[3-5]。然而,这些方法还存在一定的局限性。大部分方法主要依赖于专利指标来识别高价值专利,较少探讨专利文本对高价值专利的影响。因此,除研究发明专利指标特征外,还需要进一步挖掘和提炼专利文本中与价值相关的特征。本文结合数据驱动理论和深度学习技术,旨在设计一种能挖掘专利文本特征的价值评估方法,通过将文本特征与专利指标特征融合,从多个维度更准确地评估专利价值,进而增强高价值专利的识别精准性。

1 相关研究

随着技术创新和机器智能的进步,使用机器学习和人工智能评估专利价值已成趋势,此类方法不仅能快速准确评价专利的市场价值与发展潜力,还能克服主观性的缺陷。王思培等[14]选择用于潜在高价值专利预测的指标,构建了基于随机森林算法的潜在高价值专利预测模型。Jie等[15]基于卷积神经网络构建了英文机械专利分类模型。Choi等[16]提出一种利用前馈神经网络来评估单个专利的商业潜力的方法。上述研究仅采用机器学习对专利指标进行模型构建和评估,忽略了专利文本内容对专利价值的影响。Lim等[17]提出了一种基于多项式朴素贝叶斯方法,将专利文档中的技术部分和背景部分转换为术语-文档矩阵进行多标签IPC分类,模型精度达到了87.2%。Zhu F等[18]提出了一种根据用户定义的分类法对专利进行分类的方法。根据本领域专家预设的标签,对系统芯片上(SoC)专利进行分类,将专利标题和摘要转换为术语矩阵,并将其作为分类模型的输入,证明与专利指标(如反向引用)相比,使用文本数据可以更好地提高专利分类的性能。此外,将现有的专利指标和专利文本数据结合使用,可以更好地提高分类问题的性能。

文本分类方法同样适用于专利高价值识别,专利文本包含丰富的信息,反映专利价值相关的诸多特征,包括技术创新性、实用性、保护范围和法律稳定性等,体现在文本中的明确技术领域、详细的技术方案描述、明确的权利要求和实施例等方面。在理解专利背景、评估创新性和实用性,及衡量法律保护力度的基础上,可以利用文本分类方法有效地对专利进行高价值识别。大多数研究者在使用文本数据时,通常会选取专利标题、摘要、权利要求等内容作为研究对象,但提取的特征仅基于特定词语的存在或频率,缺乏对其语义和上下文意义的深入分析[19]。因此,为确保专利价值评价能够基于对技术内容的深入理解进行,进而提高分类预测的准确性,有必要获取表明专利文本上下文意义的特征。

2 研究设计与研究方法

2.1 高价值专利界定

目前,学术界尚无高价值专利的统一定义或权威说法。学者们指出高价值专利有狭义与广义之分,狭义的高价值专利是指具备高经济价值的专利,广义的高价值专利除高经济价值外,还包括高市场价值、战略价值、技术价值和法律价值[20-22]。也有学者认为高价值专利特征为有用性和有益性[23],是众多因素综合作用的结果,不仅对企业和社会有经济发展贡献,还能带来预期收益和额外回报[24-25]。还有学者认为高价值专利的高价值指的是具备较高的使用价值、交换价值和附加价值,能够为专利权人、其他主体、国家乃至社会带来积极效果[26]。综上可以发现,关于高价值专利的研究,大都涉及技术、法律、市场、战略和经济五个价值维度。其中,高经济价值是显著特征,高技术价值和高法律价值是必要条件,实现高市场价值和高战略价值,方可最终成为高价值专利。本文所述的高价值专利为广义概念,指具有良好文本质量,集较高的技术创新、稳定的法律保障、较大的市场潜力、战略竞争力及经济效益于一体的专利,不仅具有技术的深度与广度,还具有法律上的坚固地位,可满足并驱动市场需求,为持有者确立长期的战略优势,并带来显著的经济效益。

2.2 专利指标选取

专利价值具有不确定性、时效性以及模糊性[27],且影响专利价值的因素众多,故需要科学选取高价值专利评估指标,从而准确、高效识别高价值专利。学者们基于不同视角构建了多种高价值专利评估体系[28-32],例如技术和市场、技术和经济、技术和法律等二维评估体系,法律、技术和市场/经济等三维评估体系,技术、法律、市场和战略/竞争/风险等四位评估体系以及技术、法律、市场、战略、经济/应用等的五维评估体系。为全面反映专利的价值,提取专利的特征,本文根据高价值内涵及前人研究,从五个维度选取了12项计量指标,指标名称及含义如表1所示。

表1 高价值专利评估指标

2.3 基于BERT-BiLSTM-XGBoost模型的高价值专利识别

专利文本的丰富性和复杂性为专利价值评估带来挑战。本文的高价值专利评估模型,如图1所示,利用深度学习理解专利文本的专业术语和逻辑结构,提取专利价值的关键信息,结合其他专利指标数据,如引用量和权项数等,模型构建了一个全面评估专利技术、商业和法律价值的体系,有效处理复杂的专利文本,提供科学、客观和精准的评估工具。具体而言,本研究的模型包含四个主要部分。首先,利用BERT模型对专利文本进行预训练,然后将每段文本送入预训练后的BERT模型中,实现特征提取。其次,将经过表征的文本按照顺序(即摘要、权利要求1、权利要求2、……、权利要求k)输入到基于BiLSTM的文本分类模型中,进行进一步的特征提取。随后,将上一步所提取的特征作为专利文本的内容理解特征,并与专利指标特征进行融合。最后,将融合后的特征输入到XGBoost模型中,实现高价值专利的分类任务。

图1 BERT-BiLSTM-XGBoost的模型结构

本文整合了BERT、BiLSTM和XGBoost技术,基于各组件在信息处理方面的特性,构建了一个多层次的模型,旨在精确地识别高价值专利。BERT具有深度双向特性,在多种NLP任务中已展现出优异的预训练和特征捕获能力,为深入解析专利文本的语义提供了有力支持。BiLSTM在捕获文本的长序列关系具有明显的优势,特别适合处理结构化的专利文档。XGBoost作为一种高效的梯度增强算法,保证了在融合多种特征后模型能够达到最佳的分类效果。通过这三种技术的结合,该模型不仅能够深度解读文本中的关键信息,还可以充分利用多样的专利指标,极大提高了对高价值专利的识别准确性。专利的文本特征主要反映其技术内容、创新程度和法律保护范围,而指标特征则展示其在市场上的表现、被引频次及专利家族等信息,两种特征互为补充,满足了本文定义的高价值专利内涵,二者的结合可以实现对专利真实价值和市场地位更为全面的综合评估。

2.3.1基于BERT-BiLSTM的文本分类模型

专利的权利要求部分详细描述了其核心技术内容,确保专利的独特性和技术特点得到保护。本文针对该关键部分,结合BERT与BiLSTM的特点进行深入的文本信息抽取,确保专利文本的深度语义特征得到了精确的抽取,为高价值专利的分类构建了坚实的特征基础。

公共英语课程作为学生在校期间的必修课，教学应当遵循“实用为主，够用为度”的原则，以就业岗位所需为目标，培养学生目标岗位的综合能力。既要重基础，也要重需求——强调职业需求的牵引作用。例如，在文秘专业学生的公共英语教学上，除了让学生掌握基础英语知识，培养基本英语素养，还应该在各个学习模块中补充相关行业礼仪等知识。

首先,利用BERT[33]模型,特别是其为中文设计的BERT-base-Chinese版本,为每一段摘要和权利要求生成768维的特征向量。这些向量不仅反映了文本的局部信息,还融入了全文的上下文信息,从而提供了语义丰富的基础。针对文本的逻辑和顺序关系,BiLSTM的引入变得尤为关键。与传统LSTM的单向信息捕获不同,BiLSTM从两个方向上获取上下文信息。如图2所示,BERT输出的特征向量被输入到BiLSTM中,进一步强化了摘要与权利要求的双向上下文关系。这对于揭示权利要求的逻辑和顺序尤为重要。模型的后续部分包括全连接层Fc1和分类层Fc2。Fc1层旨在降维并平衡文本与专利指标特征的数量差异,以防止模型在处理时过度偏重某一特征。经过训练后,全连接层和分类层的特征通过concat拼接,得到综合文本特征,为下游模型提供了丰富的信息。

图2 BiLSTM文本分类模型结构

2.3.2基于特征融合的高价值专利分类

为更全面地利用专利文本的语义信息与具体的专利指标,本文采纳了一种综合的特征融合方法。首先,从BiLSTM模型中得到了一个18维的特征向量,该向量捕获了专利文本中的高级语义特征。此外,还有一个12维的向量代表从五大维度(技术、法律、市场、战略和经济价值)提炼的专利指标。为了在模型中同时考虑这两种信息,本文选择直接串联这两组特征,形成一个30维的特征向量。然而,由于这两组特征来自不同的数据源,尺度和分布可能会有所不同。为确保模型能够平等地考虑每个特征,对整个30维的特征向量进行了Z-score归一化处理,使其均值为0,标准差为1。在完成特征融合和处理后选择了XGBoost作为分类器,该分类器是一个高效的梯度提升决策树模型,可以计算出每个特征的重要性分数,处理冗余和不重要的特征[34],特别适用于本文的特征融合策略。

通过这种综合的特征融合策略,本文模型不仅捕获了专利文本的细致语义信息,还确保了五大维度的专利指标得到充分考虑。此方法提供了一个均衡且信息丰富的特征空间,进一步增强了模型在专利价值分类上的判断力,为未来相关领域的研究提供了新的思路和方向。

3 实验过程与结果分析

3.1 数据来源

本文数据库为壹专利(Patyee)数据库,其依托于奥凯专利大数据中心,涵盖全球159个国家的1.65亿多条专利数据,检索性能高效,搜索引擎稳定,检索结果精准。当下我国明确将获得国家科学技术奖或中国专利奖的发明专利纳入高价值发明专利拥有量统计范围。故本研究采用获得中国专利奖(专利类型为发明授权)作为高价值专利的正样本,近五届中国专利奖(专利类型为发明授权)的获奖情况如表2所示。

表2 中国专利奖近五届获奖情况(发明授权)

通过表2的数据可以得知,在所有IPC分类中,电学(H)领域获奖个数最多增幅最大,这表明国家在电学领域,尤其是基本电气原件(H01)和电通信技术(H04)方面,给予了相对更多的支持和重视。基本电气原件和电通信技术的创新技术发展有助于国家解决“卡脖子”技术难题,对推动国家自主创新,促进国家经济高质量发展和保障国家安全具有重要意义[35]。本研究专注于研究基本电气元件和电通信领域的专利,这些专利不仅代表了技术的前沿,而且在促进产业升级和社会经济发展方面具有实际的应用价值。实验选取H01和H04这两个大类里近五届中国专利奖的302件专利作为高价值专利正样本,另外随机选取相同IPC内3000件没有获奖的专利作为负样本。从壹专利数据库下载需要的专利数据作为数据集,其中包含专利的摘要、权利要求书以及各项专利指标等信息。在构建好包含专利文本和专利指标的数据集后,将其按照8∶1∶1的比例划分为训练集,验证集和测试集来用于模型的训练和测试。

3.2 模型评价指标

根据真实标签与预测标签可以得到如表3所示的混淆矩阵。其中TP表示真正例、FP表示假正例、TN表示真反例、FN表示假反例。

表3 分类结果混淆矩阵

本文根据数据集类别不均衡特性选择精确度P(Precision)、召回率R(Recall)和F1值(F1-Score)这3个指标对实验模型进行评估。根据混淆矩阵,各个评价指标的计算方式分别为:

P=TP/(TP+FP)

(1)

R=TP/(TP+FN)

(2)

F1=(2×P×R)/(P+R)

(3)

3.3 文本特征提取对比实验

本文所有实验平台的处理器为i7-10875H,内存为16G,模型搭建框架为PyTorch,GPU为RTX2060S,以Bert-base-Chinese作为BERT预训练模型。BERT-BiLSTM专利文本特征提取模型包含两个阶段,第一阶段为BERT在专利数据集进行预训练,第二阶段为使用预训练的BERT表征文本后送入基于BiLSTM的文本分类模型进行专利价值二分类。模型参数如表4所示。

表4 特征提取模型参数设置

选择TextCNN、TextRNN和BERT-CNN[36]与BERT-BiLSTM方法进行对比,对比模型训练参数与本文模型参数设置保持一致。为提高实验结果的可信度,采用五次重复实验,以减少偶然性和误差,并将五次实验的结果取平均值作为最终结果。实验结果如表5所示。

表5 文本特征提取对比实验结果

TextCNN:对输入文本进行卷积、池化操作,得到卷积特征图;再对多个卷积核得到的特征图进行池化操作,得到多通道池化特征图;将池化特征图通过全连接层映射到分类标签空间,使用Softmax函数得到最终的分类结果。

TextRNN:对输入文本进行循环神经网络处理,得到每个时间步的隐状态;对隐状态进行池化操作,得到池化特征向量;将池化特征向量通过全连接层映射到分类标签空间,使用softmax函数得到最终的分类结果。

BERT-CNN:使用预训练的BERT模型对输入文本进行编码,得到每个词的BERT向量表示;通过卷积和池化操作提取文本特征;将特征向量通过全连接层映射到分类标签空间,使用Softmax函数得到最终的分类结果。

根据表5的结果,TextCNN在本文中的数据集上体现优于TextRNN,精度提高了7.01%,但两种模式的精确度、召回率和F1值都相对较低。TextCNN和TextRNN在中文发明专利高价值分类问题上的体现不尽如人意,这说明中文发明专利文本与日常文章相比存在显著差异,其中专有名词和新造词语较多,句子相互之间的逻辑性和联系更加密切,而且内容上对价值的体现也更加抽象。因此,模型提炼文章中词与词、句与句相互联系特点的能力所需更高。BERT-CNN模型在中文专利文本高价值分类方面表现出色,其准确率远超TextCNN和TextRNN,表明BERT模型即便处理综合性较强、逻辑性较严密的文字,亦能获得良好的语义表征效果。使用BiLSTM取代CNN进行分类任务后,本文提出的BERT-BiLSTM的分类精度显著提高,达到72.41%,比传统的BERT-CNN提升了8%以上,而且召回率和F1值也都超过了70%,主要源于BiLSTM是一种时间序列数据的网络架构,它的“记忆”功能在提取专利文本上下文信息的中发挥了重要作用。此外,从表5中也可以看出同时使用摘要和权利要求书比单独使用摘要或权利要求书效果更好,并且权利要求书中包含更多能反映专利价值的特征。

3.4 分类器对比实验

为验证本文基于内容理解与指标融合方法的有效性和优越性,选取多层感知机(MLP)、支持向量机(SVM)作为XGBoost的对比模型,通过实验尝试获得这3个机器学习模型的最佳参数。MLP配置包含四个隐藏层,每层由64个神经元组成,优化策略采用随机梯度下降,损失函数选择交叉熵损失函数,而迭代次数则设定为100次。SVM惩罚系数定为1,选用径向基函数作为核函数,同时设定gamma值为0.2。对于XGBoost模型,选择gbtree作为基模型,学习率定为0.1,设定树的最大深度为6,且n_estimators参数设定为100。实验结果如图3所示,图中N代表仅使用专利指标进行分类,而未使用BERT-BiLSTM提取文本特征,Y代表使用BERT-BiLSTM提取专利文本特征并融合了专利指标特征。

(a)P(精确度)

由上述结果可知,本文提出的BERT-BiLSTM-XGBoost方法精确度达到了74.19%,召回率达到了76.66%,F1值达到了75.4%。在仅使用专利指标特征的模型中,XGBoost模型效果最好,准确率达到70%。不论何种分类模型,在融合专利文本特征后,精确率,召回率和F1值都得到较大提升。以精确率为例,提升最小的是SVM模型增加了10.14%,提升最大的是XGBoost模型增加了16.13%,平均增加13.82%。本文提出的模型在中文专利高价值分类这一任务上的表现优于其他对比模型,将专利文本内容特征和指标特征进行融合能够有效提升专利高价值分类精度、召回率和F1值。

4 结语

本文使用专利文本与指标,以高价值专利识别为目标,采用基于特征融合的方法构建了高价值专利识别模型。本文模型能够提取专利的文本特征并与专利指标特征进行融合,然后通过树模型自动化地进行高价值专利识别。具体而言,该方法先使用BERT-BiLSTM模型学习专利的摘要和权利要求书的内容来挖掘出专利文本的上下文、顺序特征和逻辑特征,然后与专利指标特征进行融合,最后使用XGBoost进行高价值分类。本文以基本电气原件和电通信技术这两个大类里近五届中国专利奖的专利作为样本进行实证分析,验证了模型的有效性和可靠性。研究结果表明:

a.本文提出的基于内容理解与指标融合的高价值专利识别方法,可以很好地对高价值专利进行识别。该方法优越性主要在于专利的文本特征揭示了专利的技术细节、创新水平以及法律保障的边界等信息,指标特征体现了专利在市场上的表现、被引用的状况以及专利家族的相关信息。这两种特征相辅相成,将其融合能更有效地挖掘出专利的潜在价值和市场竞争力,有效改善了仅依赖指标特征而忽视深层次的信息导致评价不准确的问题。

b.BERT-BiLSTM结构能够有效的提取专利的文本特征。在处理专利文本时,BERT 可以提供强大的上下文感知能力,而 BiLSTM 可以帮助捕捉文本中的序列信息。故BERT-BiLSTM 结构可以有效地提取专利的文本特征。此外,在对专利文本特征进行提取时,综合使用摘要和权利要求书通常会带来效果更好。摘要反映了专利的核心思想,权利要求书包含了关于专利具体内容和保护范围的深入信息,结合使用不仅能为专利分析提供更全面视角,还能更准确地反映专利的真正价值和重要性。

c.在特征融合分类器方面,本文共构建了多层感知机、支持向量机、梯度提升决策树三种机器学习模型,研究发现梯度提升决策树模型,在处理文本和指标特征的拼接时表现出显著优势。其树结构算法能够适应不同数据域的异构性,尤其对高维文本特征展现出稳健性,在高价值专利识别方面具有较好的鲁棒性和准确性。

本文的贡献主要为基于专利文本和指标的视角,构建出了融合文本特征和指标特征的高价值专利识别方法,为专利高价值评估探索了新的理论视角,深化了专利文本特征提取的理论基础,为企业、学术界和政府部门在高价值专利筛选与培育中提供了有力的技术支持。实验结果表明该方法能够有效提升高价值专利分类的准确性,为进一步识别高价值专利奠定了理论和方法基础。然而,本研究仍存在局限与不足。一方面,文本特征和指标特征选用的完备性仍不够,未来研究中将考虑融合更多的文本信息,挖掘出更多能表明专利价值的指标,进一步提升模型的适用性和分类准确性。另一方面,本文模型采取了BERT-BiLSTM的深度学习模型和XGBoost模型结合的方案,其算法时间复杂度和计算复杂度较高,未来研究可以考虑轻量化网络结构,对模型进行剪枝、量化和知识蒸馏。