李嘉茜 张丽玮
摘要:目前,专利数量快速增长,单纯依靠人工进行专利查阅,很难及时获取专利中的创新资源。实体作为知识的一种,是目前最能直接体现专利的知识。实体识别除了专利独有的技术词、功效词抽取,还有在其他领域通用的命名实体等信息的提取。并且随着计算机技术的创新,大量学者将现代科学技术方法投入到专利文本知识挖掘中。因此,如何从海量专利文本中挖掘有价值的知识成为专利领域研究的新契机。旨在总结专利文本实体种类以及其抽取方法,并从研究对象、技术过程等角度来阐述现状,探索专利文本实体识别工作的新方向。
关键词:专利文本;实体识别;深度学习
一、前言
随着知识产权在企业人心中地位的上升,人人更加注重知识产权保护,所以大量的专利信息充斥着网络。据知识产权局的统计,2022年上半年我国实用新型专利就达到了147万。除了数量的庞大,专利数据也因其更易获取、专业权威而被选中作为知识库来源。因此,有关人员需要花费大量时间阅读和分析专利文献,获取专利中蕴藏的知识[1],这与如今快节奏时代的高效率目标存在矛盾。所以面对大量的专利文本,如何更高效的获取专利中的知识信息是一个值得关注的问题。
实体识别是知识抽取的一种,也是关系抽取,领域词典构建的前提。并且专利文本中的实体是专利的显著标识,可以快速锁定研究领域。随着计算机的发展,实体识别技术也多样化,目前多数研究都是使用机器自主学习的方法来提取专利实体。专利实体的提取,不仅可以提高阅读者获取知识的效率,还可以在当前专业领域构建知识图谱。本文将分析、利用现有文章,对现有论文进行梳理与总结,并按照专利实体研究对象和技术实现方法这两个维度进行分析。
二、实体识别研究对象
专利类的实体知识可以分为通用实体和专业实体。通用实体是指在专利领域中通用的实体知识,不具备领域特性。比如董文斌[2]在开放领域的实体识别包括公开号、申请人、分类号、发明人等实体。专业实体与之相反,包括:术语[3]、关键词[4]、命名实体。其中术语是专利中出现最多的词语,在不同领域的专利文本中,术语是区分各个领域的标志。比如孙甜[5]在新能源领域提出的术语“新能源汽车车门、连接板”。除了术语实体,关键词抽取也常常作为知识进行研究。通过关键词可以快速获取文本主题,方便读者检索与理解。文献[7]利用专利文本构建领域背景,利用计算机去学习背景知识,从而做到可以自动识别关键词的效果。除了上述几种专业实体,命名实体类也是重点研究对象。在专利领域中需要考虑所需的处理任务来分析实体种类,比如董文斌[2]专利中将实体分为:零部件名、形状构造和功效词。本文将上述实体进行分类,如表1所示。
三、实体识别关键技术
但随着大数据时代的到来,传统以规则提取的方法在实际应用中的通用性差,目前只用来辅助主流方法来提高整体的准确率。因此本文将以基于统计学习和机器学习这两种技术进行分析。
(一)基于统计学习
除了最早的人工提取规则方法,更为先进的是使用统计学方法C-value,该方法主要依靠词频特征来选择专利术语,但是对于词频低的专利术语不能做到很好的筛选。俞琰等人[6]在术语抽取的基础上,还加入了论文关键词知识的特征,将依靠词频的C-value方法准确度提高了26%[7]。还有研究者以文本外部的数据作为辅助来自动抽取专利文本中的知识。Yadav[8]利用TextRank算法,学习网站的标注标签功能,将标签作为外部知识引入到文本抽取中。此外,比较多的文章是利用维基百科里面的词条作为独立概念,再通过统计权重来链接各个知识概念,利用知识间的语义抽取关键词[9]。基于统计学习的方法通用性强,无需标注数据,但是准确率依赖目标语料库的规模和质量,需要进一步改进。
(二)基于机器学习
针对基于机器学习的实体识别技术,本文将按照特征提取、模型训练这两步进行分析。
1.特征抽取
特征抽取是将非结构化文本结构化的重要步骤,在模型训练前都需要对目标文本进行特征提取。根据文本特征的不同,可以结合词频特征、位置特征、词性特征等。除了按照词语粒度进行提取,针对于语句等级的特征提取也是很有必要的。如语句长度特征和语义特征:马建红[10]将语义角色标注作为一个提取有效特征的工具,借助Chinese PropBank(CPB)标注方式来对专利文本进行句法分析。上述特征的提取方式都是人工抽取,耗时也更依赖人工标注。而使用词向量不仅可以表示整个句子特征,还省去了人工提取特征的步骤。最初的词向量是基于计算机的随机抽取,尽管经模型训练可以较好地表达词义,但是不能与其他任务通用。因此,谷歌在2018年发明了BERT预训练模型[11]。使用预训练模型自动创建特征值,很好的保留了语义之间的关系,有更好的泛化能力[12]。由于特征是为了更好的将非结构化文本结构化,所以为了更好的表达专利文本,董文斌[2]提出了特征融合,即将BERT训练后的特征与句子特征、词语特征等信息按照对应权重相加,再投入到后续模型中。使得该方法在在实体识别中准确率提高了8个百分点[5]。虽然词向量省去人工标注的步骤,但是该特征的提取需要大量数据做准备,对于领域数据量低的文本不友好。
2.模型选择
在对非结构化的专利文本进行特征提取后,下一步就该应用到模型中进行训练。下面将模型训练分为统计机器学习模型和深度学习模型。
(1)统计机器学习模型:在机器学习算法中,赖鸿昌[13]使用了CRF模型(conditional random field,条件随机场)来识别专利中化合物和生物实体,组合了三种特征:字符特征、例模式特性、上下文特征。这一模型保留了隐马尔科夫模型的优点,也避免了最大熵马尔科夫模型的基本限制。基于统计机器学习的模型跨领域能力弱,目前还不成熟,需要进一步优化。
(2)深度学习模型:在当前知识抽取中,实体识别是使用深度学习最多的方向。它包括在一个词序列中检测指向一个预定义实体的词汇单位,从而确定它所指向的实体的类型。而深度学习方法就是对目标文本中的实体进行分类,并且克服了采用传统统计机器学习方法提取知识的缺点。在模型训练过程中,Lstm[14](长短期记忆网络)是研究者常用的神经网络模型。Bilstm(双向长短期记忆网络)是LSTM的变体,可以从前后两个方向进行记忆,对长句子有更好的表现。Deng[15]在LSTM基准模型的基础上,加入了CRF条件随机场模型,用于解决实体标注顺序的问题,取得了不错的效果。但是原之安等人[16]验证了BiLSTM对实体识别模型的负向影响:即在同样的CRF模型基础上使用Bilstm,会使得F1值降低。由此可见,面对不同的专利文本,应该使用有针对性的方法来提高模型效果,而不是简单的叠加。除此之外,Transformer模型作为自注意力机制的升级版,也对专利文本的实体识别起到积极作用:如王宇晖[17]在专利数据集上验证了Transformer模型相比BiLSTM模型准确率提高了4个百分点。基于深度学习的实体识别方法可以无需人工筛选实体特征,不仅降低了人工成本,还有助于将专利实体和上下文相结合。但该方法依赖于复杂的深度学习模型,需要非常大量的标注数据或标注句子以及较长的训练时间,且模型的跨领域泛化能力较弱。不过,总体而言,基于深度学习的抽取方法仍表现出了不错的性能,该方法将会成为接下来几年研究者的热点研究方向。
综上,表2 从实体识别技术分类、代表模型/算法、主要优缺点及适用情况等宏观角度对专利实体识别方法进行了对比分析。
四、结语
在技术方面,从特征众多的统计机器学习方法,再到特征自动抽取的深度学习方法,模型的效率、准确率也在进一步提高。但是目前的技术提升都是在特征提取堆积、模型叠加、规则纠正这几方面改进,学者很难跳出这个局限。而尤其针对专利文本,缺少一种针对专利文本特点而创新的方法[18]。毕竟专利文本在数量、格式、内容上与其他文本都有很大的不同,这一点也是本人在今后研究者需要探索的。
在应用方面,从整个数据信息来的角度看,专利文献作为众多科学技术文献类型的一种,拥有众多的领域分支,尽管实体识别在准确率上进一步提升,但是文本标注是不可避免的,每一个专利领域有不同的特点,所以在通用领域的应用值得进一步挖掘。在后续应用中,对关系知识的抽取以及如何将各领域等其他来源的知识与知识图谱融合起来,形成内容更为丰富、内涵更为深入、时效性更强的知识图谱是值得关注的一个研究方向。H
参考文献
[1]马建红,张明月,赵亚男.面向创新设计的专利知识抽取方法[J].计算机应用,2016,36(02):465-471.
[2]董文斌,战洪飞,余军合,等.机械产品专利知识的提取和应用[J].机械制造, 2021,59(08):1-8.
[3]俞琰,陈磊,姜金德,等.融合论文关键词知识的专利术语抽取方法[J].图书情报工作,2020,64(14):104-111.
[4]俞琰,朱晟忱.融入限定关系的专利关键词抽取方法[J].数据分析与知识发现,2022,6(10):57-67.
[5]孙甜,陈海涛,吕学强,等.新能源专利文本术语抽取研究[J].小型微型计算机系统,2022,43(05):950-956.
[6]张芳丛,秦秋莉,姜勇,等.基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究[J].数据分析与知识发现,2022,6(Z1):251-262.
[7]何阳宇,晏雷,易绵竹,李宏欣.融合CRF与规则的老挝语军事领域命名实体识别方法[J].计算机工程,2020,46(08):297-304.
[8]Yadav V, Bethard S. A Survey on Recent Advances in Named Entity Recognition from Deep Learning models[J].2019.
[9]Grineva M P, Grinev M N, Lizorkin D A. Extracting key terms from noisy and multitheme documents[C]// The Web Conference. ACM,2009.
[10]马建红,张明月,赵亚男.面向创新设计的专利知识抽取方法[J].计算机应用,2016,36(02):465-471.
[11]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].2018.
[12]李建,靖富营,刘军.基于改进BERT算法的专利实体抽取研究——以石墨烯为例[J].电子科技大学学报,2020,49(06):883-890.
[13]赖鸿昌,朱礼军,徐硕.面向专利的化合物和生物实体识别系统[J].情报工程,2015,1(04):95-103.
[14]Hochreiter, S. Schmidhuber, J.Long Short-Term Memory. Neural computation, 1997,9,1735-1780.
[15]Deng Na, Fu Hao, Chen Xu. Named Entity Recognition of Traditional Chinese Medicine Patents Based on BiLSTM-CRF[J].WIRELESS COMMUNICATIONS & MOBILE COMPUTING,2021.
[16]原之安,彭甫镕,谷波,等.面向标注数据稀缺专利文献的科技实体识别[J].郑州大学学报(理学版),2021,53(04):61-68.
[17]王宇晖,杜军平,邵蓥侠.基于Transformer与技术词信息的知识产权实体识别方法[J].智能系统学报,2023,18(01):186-193.
[18]Puccetti Giovanni, Chiarello Filippo, Fantoni Gualtiero . A simple and fast method for Named Entity context extraction from patents[J]. Expert Systems With Applications,2021,184.