管魏琪
摘要:技术在继承与创新中发展。专利检索为技术继承提供了便利,检索能够更快的了解某项技术同时还能避免重复的劳动;专利分析可以预测领域空白点为创新做指引。专利检索与分析使企业明晰世界專利的动态、避免重复开发与资金浪费,对企业而言功劳甚大。本文以钢铁、电力产业专利作为数据源构建专利数据检索与分析系统。
关键词:数据清洗;专利检索;专利分析;聚类分析
中图分类号:TP31 文献标识码:A
文章编号:1009-3044(2021)10-0040-03
Abstract: Technology is developed in inheritance and innovation. Patent search provides convenience for technology inheritance, which can quickly understand a certain technology while avoiding duplication of labor; patent analysis can predict gaps in the field and guide innovation. Patent search and analysis enable companies to clarify the dynamics of patents in the world, avoid repeated development and waste of funds, which is a great contribution to companies. This article uses the steel and electric power industry patents as data sources to construct a patent data retrieval and analysis system.
Key words: Data cleaning; patent search; patent analysis; cluster analysis
当科技的进步,伴随着技术的更新,专利数量的涌现。专利存在多种特性与特点。例如专利的复杂性表现为同族专利的复杂性与不同族专利的复杂性,同族专利的复杂性主要体现为同族不同专利会有多个不同优先权人,同族的不同专利又具有一个相同的优先权人,而不同族的复杂性就更好理解,它就为专利涉及多个领域多种方法[1];专利的结构化特点是专利的核心特点,这一特点主要是为了方便去进行专利检索;专利的抽象性是描绘了专利的本质特征,它是一种知识产权的体现不以人的五官触觉去认识,不占用任何空间,但是又能以一定的形式为人们所感知的智力创造成果;专利的唯一性主要是来维护自我或地域的智力成果的保障。这些特点使专利数据的检索方式与分析方法对传统文本的方式与方法发起了挑战,逐步转化为现代化的信息检索方式与智能化的分析方法[2]。
1 相关理论介绍
在本章中主要是对数据清洗工作以及专利数据信息的分析方法中所需要的理论支持进行描述与表达。
1.1 专利数据清洗
专利分析与检索系统的基础是充足和完备的数据量,本论文采用的是Mysql数据库,它的数据类型是结构化数据[3]。而本文的数据来源是德温特专利数据库中导出的文本数据,需要将文本数据类型转化为Mysql数据库中的结构化数据,并对转化过程中产生的“脏”数据进行数据完整性处理。
数据清洗(Data cleaning)是对数据进行去空、去错以及去重的过程,主要目的是实现数据的完整性,不因可去除的错误信息误导实验结果的正确性[4]。本文数据清洗的流程为:
(1)按照专利数据标引字段进行截取将文本数据转化为结构化数据如图1所示:
(2)一致性检查,就是对数据整体性以及局部各字段类型进行校验,具体过程是通过数据下各字段存在的合理取值范围和字段之间的相互关系,以此来检查数据是否存在不合理性,发现处于正常范围外、逻辑上下存在不合理或者相互矛盾的数据。
(3)数据中无效值和缺失值的处理,这一过程是通过前面两步确认数据中存在不合理的数据信息即存在一些无效值和缺失值,这时需要给他们进行适当的处理以此来保证数据的正确性。
1.2 专利数据分析
专利数据分析是通过对专利数据信息中各个专利信息字段的进行加工以及组合[5](例如:专利的地域字段、专利的申请人字段、专利技术主题字段等都可以和时间序与专利的申请量进行组合),并通过统计学的方法或者数据挖掘的处理手段来使这些信息具有纵览过去专利的全局情况以及预测未来可研发领域或者说可加大投入研发资金的领域的功能[6]。
专利数据信息分析可以使它们由普通的专利基本信息变成为能够为企业或者个人提供对专利资金研发的投入、专利未来的布局以及个人专利申请的研发方向。
2 系统设计
2.1 系统需求分析
对于个人而言,若在申请专利之前甚至可说在投入到专利技术研究方向之前,若是没有对于专利检索的系统,那么可能导致专利研究的方向冲突或者是专利已经被申请,对于企业而言,对于研究技术方向的投入每一份的资金都要去估算它的价值是否能够盈利或者说在未来公司长远立场上是否能起到举足轻重的地位,企业和个人都是该专利检索与分析系统的潜在用户。系统的研发意义都是从用户的角度出发,本文从使用者基本需求出发:
(1)用户的登录与注册
任何系统能被广泛地推广和使用首先也是最重要的是对于用户个人信息的保护,本文系统由于为了方便用户重复使用会保留用户搜索信息,所以用户需要一人一账户避免因为搜索信息的泄露造成别人关注和预测你接下来的研究方向。
(2)专利数据的检索
企业和个人想在某技术领域进行投入研究之前需要对该技术领域专利进行技术专利检索。本文在专利检索这个功能模块主要分为三部分。分别为智能检索、高级检索和分来检索,可以让用户根据自己需求来自我选择合适的检索模块。
(3)专利分析
对于专利信息的数据分析,可对于企业技术领域研究方向进行预测。在本文系统专利分析这一模块,进行多例专利分析,统筹分析更有效的对企业专利技术领域做出战略布局。主要有专利概况分析、申请人分析、主要机构分析、地域分析、发明人分析、技术领域分析、技术生命周期分析、聚类分析。
(4)生成分析报告
在这一模块中,主要实现的是对专利分析结果的可视化界面进行打印生成可视化专利数据的分析报告。
2.2 系统框架设计
通过本章开头所做的需求分析,本文将采用经典的三层构对专利数据检索与分析系统进行业务功能可划分为,如图2系统的三层结构设计图所示。
系统的表示层即为用户与系统的交互UI界面,采用Boostrap框架、Material Design语言进行界面美化和echart图标库进行可视化展示。
业务逻辑层是实现了专利检索与分析的功能模块的層。它负责接收前端的HTTP请求与相应的数据库中数据的提取回馈。
最后一层数据访问层是实现专利数据检索与分析系统的数据储存和数据被访问功能,在业务逻辑层得到前端请求响应向数据访问层提取数据进行响应,实现信息的交互。
2.3 系统模块设计
根据本文系统框架业务逻辑层,将专利检索与分析系统的模块组成进行划分,共分为4个模块,分别为登录注册模块、专利检索模块、专利分析模块和报告打印模块。系统的模块设计如图3所示。
2.4 数据库结构设计
一个专利由多条信息字段组成,把相同或者相近属性字段列为一张表,既保证了数据库表结构的清晰明了,又使在前端调用数据库信息时SQL语句的结构清晰表达明了。结构化规范式数据库不仅在录入数据时高效快捷,更能加强表间的级联,在数据量很大的情况下也能提高响应速度。
(1)专利与专利优先权信息存在一对一的关系,即一个专利对应着一个专利优先权信息,而同时一个专利优先权信息对应着一个专利。
(2)专利与引用专利信息存在多对多的关系,即一个专利可以引用多个专利,同时一个专利也可以被多个专利引用。
(3)专利与引用文献存在多对多的关系,即一个专利可以引用多个文献信息,而一个文献信息又可以被多个专利引用。
(4)专利与专利IPC分类信息存在多对一的关系,即一个专利对应着一个IPC分类号,而一个IPC分类号可以有多个专利。
(5)专利基本信息与专利权人信息存在多对一的关系,即一个专利对应着一个专利权人,而一个专利权人可以对应多个专利。
(6)专利和发明人存在多对多的关系,一个专利对应着多个发明人,而一个发明人也对应着多个专利。
(7)专利和专利入藏号存在一对一的关系,一个专利对应着一个入藏号,同时一个入藏号对应着一个专利。
2.5 系统实现
2.5.1 专利检索模块实现
专利检索模块主要是满足用户对专利检索的需求,在这一模块用三种检索方式,专利检索的流程如图4所示。
智能检索是通过搜索主题词,例如标题或摘要关键词等搜索有关技术领域专利,高级检索是用户自己填写专利的基本信息如标题、申请人等限制性的搜索专利,这样好处是能够快捷地搜索到用户指定的专利数据信息,而分类检索是按国家的不同搜索用户想要搜索的某国的相关技术领域的专利信息。实现界面如图5所示。
2.5.2 专利分析模块
专利分析模块是该系统的运转核心,检索的内容不加以分析还是无法对企业或个人做出研究技术领域的预测和指导。设计从满足用户的需求出发,本文在专利分析模块共实现了专利概况分析、申请人分析、主要机构分析、地域分析、发明人分析、技术领域分析、技术生命周期分析和聚类分析八个分析,共同来指导和预测用户所搜索的有关技术领域的专利,为用户在研究热点上提供预测或判断现研究方向上的成长空间。实现页面如图6所示。
2.6 系统测试
专利数据检索与分析系统的主要功能是为了方便申请专利个人或申请专利的企业提供方便、快捷及有效的专利技术领域检索以及检索内容的分析。测试将围绕系统的四大模块进行测试,分别是用户登录注册模块测试、专利信息检索模块测试、专利信息分析模块测试和专利分析报告打印模块测试。如表1所示。
3 结束语
随着互联网的快速发展,信息的涌现,交流和查阅信息变得快捷高效,研发人员在专利研究方面日益更新,如果在第一时间能够查询和分析出研究热点那么可以减少很多研究时间和研究费用。
本文系统为用户提供的服务还有可扩展的空间,未来可在系统上增加专利分析其他方法和专利检索功能更加快更加准确的方法,通过分析专利相关技术指标为用户提供技术战略布局和技术预测。
参考文献:
[1] Galhard H,Florescu D,Shasha D,et al.An extensible framework for data cleaning[C]//Proceedings of 16th International Conference on Data Engineering (Cat.No.00CB37073).February 29 - March 3,2000,San Diego,CA,USA.IEEE,2000:312.
[2] 李继东,王移芝.基于扩展词典与语义规则的中文微博情感分析[J].计算机与现代化,2018(2):89-95.
[3] 朱梦.基于机器学习的中文文本分类算法的研究与实现[D].北京:北京邮电大学,2019.
[4] 张林,钱冠群,樊卫国,等.轻型评论的情感分析研究[J].软件学报,2014,25(12):2790-2807.
[5] 李琼,陈利.一种改进的支持向量机文本分类方法[J].计算机技术与发展,2015,25(5):78-82.
[6] 朱相丽,谭宗颖.专利组合分析在评价企业技术竞争力中的应用——以储氢技术为例[J].情报杂志,2013,32(4):28-33.
【通联编辑:梁书】