林赞磊
摘 要:随着计算机技术和网络技术的迅猛发展以及人类管理与知识水平的提高,信息技术发展的瓶颈已不仅仅存在于数据的获取、存储与传输,而更受限于数据的加工、分析和利用。采用有效的人工智能技术从大数据中获取抽象信息并将其转换为有用的知识,是当前大数据分析所面临的核心问题之一。本文从我国现有专利审批现状入手,分析当前审批业务中存在的图像审查需求,阐述采用深度学习技术进行专利图像智能识别与分类的可行性。
关键词:深度学习;人工智能;审查质量
中图分类号:TP751 文献标志码:A
0 引言
最近几年,随着我国创新能力和创新水平的不断提高,我国专利申请量保持着快速增长的态势。按照当前的审批现状,申请文件需要经过人工加工,形成代码化数据后才能供审查员使用。随着越来越多的智能审查系统应用于专利审批工作,通过人工识别专利申请文件图像的方式已经无法支撑现有专利审批的智能审查体系,如何在提高审查效率的同时,保证审查质量,成为专利审批管理工作面临的问题。
1 深度学习技术
深度学习技术是新兴的机器学习研究领域,旨在研究如何从数据中自动提取多层特征表示,其核心思想是通过数据驱动的方式,采用一系列的非线性变换,从原始数据中提取由低层到高层、由具体到抽象、由一般到特定语义的特征。深度学习不仅改变着传统的机器学习方法,也影响着本文对人类感知的理解,迄今已在语音识别、图像理解、自然语言处理等应用领域引发了突破性的变革。
2 人工智能
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。
3 我国专利审批现状
3.1 专利审批业务现状
根据《专利审查指南》的审查要求规定,专利审查员需要对权利要求书、说明书这类申请文件中是否存在除化学式、数学式、表格之外的插图做出正确的判断。
2016年专利申请文件总量达2000多万件,其中,发明专利申请中含图像约60万张,而且图像种类繁多,经过统计,专利申请文件中至少存在12种可识别的图像种类,其中,仅化学式、数学式及表格3种类型的图像占比约20%。
3.2 专利审批系统现状
2010年2月电子审批系统的上线,专利局实现了全流程、无纸化审查,提升了工作效率,规范了信息流程。专利申请文件的递交存在两种方式,一种是通过离线客户端编辑并递交的电子申请方式,另一种是递交量较少的纸件申请。专利申请文件的递交类型主要包括XML结构化文件和PDF/WORD非结构化文件两种,其中,以XML结构化文件类型为主,2016年新申请文件中,XML文件类型占比约68%,PDF/WORD文件类别占比约32%。
4 专利申请文件图像审查存在的问题
4.1 专利申请文件图像种类繁多,缺乏辅助手段
专利文件中的对于图像的审查是审查工作的一项难点,由于专利文件中存在大量的插图,而且这些插图类别不同,常见的插图有表格、数学式、化学式和文档截图等,专利审批系统对于图像的处理分为图像加工和图像审查两部分,图像加工是通过人工的方式对图像进行识别并分类,图像审查是对图像的准确性和合理性进行审批,这两部分工作都缺乏相应的辅助手段,在当前专利审批智能化程度日益强化的形式下,专利申请文件图像处理技术相对落后,可能会影响到其他审查流程的处理效率,随着逐年专利申请量的不断递增,审查员的审查压力变得越来越大,为了有效提升审查效率,对于专利申请文件中图像的处理需要增加相应的辅助手段。
4.2 专利申请文件图像处理需要统一的数据标准
专利审批系统对于图像加工和图像审查都采用人工的方式进行,图像加工需要人工识别图像并对不同的图像进行分类,由于数据加工人员水平各异,数据加工标准分类比较粗,分类不够细化,导致数据加工存在加工分类不规范或错误的情况,加工周期也比较长,在审查员对图像进行审查时,需要对图像分类的准确性进一步进行核实,审查员和数据加工人员的工作重复工作,对于图像的审查严重影响了案件的审查效率,为了保证审查质量,专利申请文件图像处理需要建立统一的数据标准。
5 将深度学习技术应用于专利图像识别与分类的可行性
传统的图像识别技术主要应用于样本需求量小的领域,对于专利图像上万级的数据领域,传统图像识别技术已经不是很适用。
与传统的图像识别技术相比,采用深度学习技术,从专利申请文件中常见的图像入手,自动提取图像特征,增加了泛化性,采用归一化的方式,减少了过多的人为因素,通过CNN(卷积神经网络)和RNN(循环神经网络)方式,自行搭建网络,使用训练成功的分类模型,实现专利申请文件中图像的自动识别和自动分类,最终实现申请文件的中插图的自动比对审查,提高审查效率和审查质量。
5.1 图像识别结果精确,提高图像审查效率
深度学习技术采用神经网络对专利图像信息进行构型,进行图像特征的提取与对比,能够大幅提升机器对专利图像信息的辨识能力,面对海量专利图像信息时,使图像识别的结果更为精确,提高了数据加工及图像审查效率。例如:通过搭建RNN(循环神经网络)方式,识别专利申请文件中的一个表格,能够在申请文件中精确的确定表格的如下几类特征:
(1)仅包括水平直线且列之间排列整齐;
(2)包括全部的表格线;
(3)横排表格;
(4)表格边线不全、不连续;
(5)彩色边线;
(6)带灰度、渐变图像特征的表格;
(7)含viso、UI元素、表格的组合;
(8)带灰度渐变图像特征的表格。
5.2 形成图像分类标准,提高图像审查质量
通过采用卷积神经网络方式可以在专利图像分类方面取得很好的效果,准确的选择网络结构及参数对图像分类的效果和效率有很大的提高。专利申请文件中的图像种类繁多,目前仅有表格、化学式、数学式等主要类型,采用深度学习技术识别图像特征,可以根据图像特征形成图像分类的标准,经过理论分析及实际实验,采用卷积神经网络方式,专利申請文件按照图像特征分为12类图像种类,分别包括:表格、化学式、数学式、文字类的程序源代码、文档截屏或者序列表、电路图、机械图及零件图、流程图及框架图、示意图、图表、照片、UI界面等。
准确地对专利申请文件中的图像进行自动分类,形成专利领域的图像分类标准,在专利数据加工环节,纸件专利申请及WORD/PDF提交的专利数据可以按照约定标准加工复杂单元数据生成XML数据,供后端智能审查引擎使用,对比当前审查识别图像的现状,审查员对已经进行准确分类的图像做出的审查结论质量更高。
参考文献
[1]中华人民共和国专利法(2008年修订版)[S].
[2]中华人民共和国专利法实施细则(2010年修订版)[S].
[3]中华人民共和国国家知识产权局.专利审查指南(2010)[S].