南京市新一代信息技术领域专利检索关键词库构建

2023-03-31 06:17刘连政
科技与创新 2023年6期
关键词:预审分类号南京市

刘连政,唐 尧,笪 伟

(南京市知识产权保护中心,江苏 南京 210000)

2016 年国家知识产权局陆续开始在各地建设知识产权保护中心过程中提出专利申请预审业务,其作为知识产权保护中心核心业务职能,主要负责对特定区域创新主体符合特定领域的专利申请进行预先审查,对审查合格的案件准予进入快速审查通道。预审业务的开展一方面可以提高备案主体专利申请质量,另一方面也可大幅缩短专利申请授权周期。知识产权保护中心预审员主要针对备案主体提交的预审案件的新颖性和明显创造性进行检索,因此在整个专利申请预审机制中,专利申请文件的检索准确率和效率对整个预审业务的开展显得尤为重要。而在检索过程中,预审员输入的检索关键词对最终检索结果影响甚大。

目前预审员对于在预审案件审查中的关键词输入主要依靠预审员自我提取,预审员在阅读专利申请文件后提取出能体现专利申请技术方案发明点的关键词,然后通过预审员的审查经验进行关键词扩展,这种方式过多依赖预审员的个人经验,如果能辅助使用相关关键词词库自动扩展技术,将在一定程度上提升预审员的审查效率,而目前市场上并没有统一的针对新一代信息技术领域的专利检索词库帮助预审员对关键词进行有效的拓展。即使有可供部分预审员参照使用的也是不同的各类技术词典和互联网搜索碎片,也需要预审员花费时间精力去寻找类似关键词拓展资料,且该类资料并没有突出特定行政区域内的产业技术发展共性。因此有必要通过构建统一、全面、动态的针对南京市新一代信息技术这一特定领域的关键词库,使得预审员在检索关键词扩展的时候具有更有效、更便捷的参考,从而解决专利申请预审员在检索关键词扩展中的词条局限性和检索效率低下的问题。

1 相关理论

关键词提取技术随着自然语言处理技术发展而来,属于文本挖掘的一种,广泛应用于人工智能和语义识别等诸多领域。在现有应用中,关键词提取算法一般可以分为无监督和有监督2种关键词提取方法。

无监督关键词提取方法是指没有监督学习的过程,不需要进行人工语料标注,只需要利用某种规则对文本中比较重要的词进行提取即可形成主要关键词。根据提取过程中使用的规则,大致可以分为基于统计特征的关键词提取、基于词图模型的关键词提取和基于主题模型的关键词提取方法。基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;基于词图模型的关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语,这些短语就是文档的关键词;基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取[1],这一类关键词提取方法由于不需要进行大量的人工标注语料集合训练,使用过程更加便捷,多用于科研和实验环境中。

有监督关键词提取方法是运用二分类原理,简化关键词提取过程,训练关键词抽取分类器。对于新的待选文档,首先提取出所有的候选词,并利用训练好的关键词提取分类器,然后对每个候选词进行分类,最终生成具有关键词标签的候选词作为关键词[2]。此类关键词提取方法由于需要不断进行训练器训练,调节多种影响关键词提取的参数信息,因此提取效果要高于无监督关键词提取方法,但是由于训练过程需要花费高昂的人工成本,因此现有的文本关键词提取方法主要还是使用无监督关键词提取方法。

《同义词词林》是梅家驹等人于1983年编纂而成,时间久远,收录内容相对较少,对于目前的使用不太适合,哈尔滨工业大学实验室基于该词林进行扩展,构建了《同义词词林扩展版》,它按照树状的层次结构把所有收录的词条分成大、中、小3类,12 个大类分为人、物、时间和空间、抽象事物、特征、动作、心理活动、活动、现象与状态、关联、助语、敬语,共18 490 个词群,每个词群有1个8 位的编码,第8 位编码有3 种,分别是“=”“#”“@”,其中“=”表示本词群的所有词条在意义上相等或同义[3]。扩展后的词林相比于原先的词林,词条数从53 895 个扩展到77 343 个,编码层数从三层提高到了五层,前三层与1983 版的词林相同,而后两层中的第四层用大写英文字母表示,第五层使用二位十进制整数表示。具体编码规则如表1 所示。

表1 编码说明

2 构建过程

2.1 IPC 聚类与分组

构建南京市新一代信息技术关键词库的首要步骤是对符合该领域的专利申请文件中最常见的关键词进行聚类分析,在聚类前需要对南京市新一代信息技术领域专利申请文件进行分类号筛选,以便更精准筛选属于新一代信息技术领域的专利申请文件。

对分类号进行筛选的过程主要包括对照国民经济行业代码和专利IPC 分类号,选取与新一代信息技术领域最相关且申请量排名靠前的60 个新一代信息技术领域分类号作为南京市新一代信息技术领域关键词库基础分类号,并对该60 个分类号细分为10 个具体领域组,分别为半导体,测量,电机、电气装置、电能,电信,光学,基础通信程序,计算机技术,控制,数字通信和音像技术。分组后的部分分类号如表2 所示。最后通过使用incopat 商业专利检索网站,并根据该分组后的60 个IPC 分类号筛选出中国专利库中近五年该部分分类号内的南京市的全部专利申请文本。

表2 技术领域IPC 分类

2.2 关键词提取

关键词提取的步骤即为对在IPC 聚类与分组过程中筛选出的专利申请文本进行关键词提取,提取出的专利关键词应该是可以体现专利发明主要内容和主要发明点的词语。本文选取无监督关键词提取方法中的RAKE(Rapid Automatic Keyword Extraction)工具用来提取主要关键词,该工具的设计思路是首先使用标点符号将一篇文档分成若干分句,然后对于每一个分句,使用停用词作为分隔符,将分句分为若干作为最终关键词的候选词短语,最后利用词频等统计信息降序输出提取出的关键词。该关键词提取方法的优势在于算法简单高效而且能取得不错的效果,并且适用于提取一些较长的专业术语。

对每一个分类号下的专利申请文本提取关键词后,通过自动化软件自动摘选出在这些专利申请文本中出现频次排名靠前的主要关键词,并进行人工分类和组合,最终形成约15万条有效的关键词条原始数据,作为南京市新一代信息技术领域关键词库的基础标引词。

2.3 关键词扩展

在关键词提取步骤中对所有符合领域的专利申请文本进行关键词提取和筛选后,需要对基础标引词进行词义扩展,本文主要将关键词扩展词段分为技术领域、IPC 分类、英文词、上位词、下位词、同义词和相关词等部分。其中技术领域、IPC 分类和英文词主要通过人工标注的方式拓展,而对于其中的上位词、下位词、同义词和相关词主要通过同义词词林进行扩展。其同义扩展的主要步骤包括以前述关键词提取过程后形成的基础标引词的集合作为算法输入,在同义词词林中查找与基础标引词对应的词群,将该词群下的词语作为该关键词的同义词和相关词进行输出,重复上述步骤可完成关键词同义词和相关词扩展。

通过上述关键词提取和关键词扩展过程后,最终形成完整的南京市新一代信息技术领域专利检索关键词库。最终构建的关键词库中某条数据的示例如表3所示。

表3 关键词扩展示例

为解决构建的关键词库更新的问题,本文还建立了词库共享机制,在关键词库使用过程中预审员可以动态地对词库进行修改和补充,不断循环改进关键词库的内容。在具体的预审工作中,预审员可以通过专用平台系统录入检索词后,由专人进行分类后补充专利检索关键词库。

3 结束语

专利申请预审机制的关键在于通过检索在现有技术中找寻相关对比文件,而输入的检索关键词的准确度和全面性决定检索结果的查准率和查全率。因此本文针对专利申请预审员在专利检索过程中关键词扩展不全面的问题,利用专利主题分析、关键词聚类和同义词扩展技术构建针对南京市新一代信息技术领域的专利检索关键词库。该词库的构建可以使专利申请预审员在检索关键词的拓展中得到有效的参考,避免出现专利申请人通过规避检索的方式转换技术表述导致审查员检索结果查准率低的情况,该词库对于提高专利申请预审效率也具有重要的意义。下一步,笔者将把该特定领域关键词库融入专利智能检索开发过程中,完成关键词自动摘取、自动扩展、自动检索和自动排序的智能化检索系统的设计和实现。

猜你喜欢
预审分类号南京市
南京市集中“检视”三方评议
近代中国刑事预审制度考论
法国预审制度在司法改革中的角色变迁
南京市鼓楼区黑臭河道的治理
浅谈初步设计中建筑结构方案预审的要点
基于核心课程建设的预审学教学团队的构建——以广东警官学院预审学教学团队建设为例
Translation on Deixis in English and Chinese
南京市