人工智能热点算法之知识图谱相关专利申请保护现状及审查规则

2022-08-11 03:36
专利代理 2022年2期
关键词:三元组水电专利申请

李 晨

一、知识图谱的概念及发展

知识是智力的基础,人类的智力活动主要是获得并运用知识。计算机必须具有知识,才能使其具有智能,能够模拟人类的智力行为,知识需要用适当的模式表示出来才能存储到计算机中。传统的知识存储模式包括文本文档、结构化数据库等。但是,由于互联网信息暴增且杂乱无章,这就为知识的获取、存储和表达带来了挑战。

知识图谱是机器大脑中的知识库、人工智能应用的基础设施,旨在利用图结构建模知识,并实现识别、发现和推理事物、概念之间的复杂关系,是事物关系的可计算模型。构建知识图谱的核心任务之一是从海量资源中自动抽取新知识,并将它们与图谱中已有知识相融合。

知识图谱是随着语义网发展而衍生出的概念,作为一种表示结构化知识的描述框架,其组成元素包含具有明确语义信息的“实体”、实体的“属性”以及实体之间的“关系”。不同于语义网络,为了规范图谱构建和方便知识扩充,知识图谱不仅涵盖了具体的实例知识数据,还包括对知识数据统一的描述和定义,通常被称为知识体系(Schema )或者本体(Ontology)。知识图谱的另一个重要特点是其基础结构单元为三元组格式,能够以一种简洁的形式同时表示描述型数据和实例型数据,为计算机自动化、智能化地处理知识提供了有效支持。

为了进一步解释上述概念,可以换个角度,从实际应用的角度出发,简单地把知识图谱理解成多关系图(Multi-relational Graph)。图(Graph)是由节点(Vertex)和边(Edge)来构成,多关系图一般包含多种类型的节点和多种类型的边。实体(节点)指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系(边)则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等①CSDN 博主「越前浩波」博客,https://blog.csdn.net/weixin_44023658/article/details/112503294.。

知识图谱主要用于实现互联网中数据的知识化,必须具备两个先决条件:一是数据的语义化,二是语义的表示。常用的数据知识化方法有以下四种:人工方法、自动方法、融合方法和推理方法。知识图谱的主要特点是:(1)知识图谱是人工智能应用中最基础的知识资源;(2)知识图谱具有语义表达能力丰富的优点;(3)知识图谱具有表达简洁的优点;(4)知识图谱具有表示能力统一,便于不同知识间的重组与融合;(5)知识图谱的知识来自网络,来源单一、方便,容易大量获取;(6)知识图谱采用图结构方式,易于存储与检索,同时也有利于高效推理②徐洁磐,周海燕.人工智能导论[M],北京:中国铁道出版社,2021(1):177-180.。

2012 年谷歌公司首先推出知识图谱表示方法,接着在维基网站中利用它建立了维基百科(Wikipedia),自此以后,各类著名网站相继推出了各自的知识图谱。目前,微软公司和谷歌公司拥有全世界最大的通用知识图谱,脸书公司拥有全世界最大的社交知识图谱,而阿里巴巴和亚马逊公司则分别构建了商品知识图谱。

现阶段,知识图谱广泛应用于知识搜索、自动问答及自动推荐等多个领域,并且尚有更大的发展空间,例如,应用于决策支持系统等。这种应用组成了新一代专家系统,这种专家系统是新一代人工智能的重要组成部分。

二、专利申请及保护现状

基于国家知识产权局公开的专利数据,笔者选用“知识图谱”、“三元组”、“资源描述框架”、“本体”、“关系”等关键词的中英文形式及其缩写,结合IPC 分类号G06F16/、G06F17/30,在中国专利全文数据库(CNTXT)、世界专利文摘数据库(WPABS)中进行检索,并去噪后统计,最终获得涉及知识图谱的中国发明专利申请数量共10445 件,全球专利共14795 件(统计时间为2022 年4 月5 日)。需要说明的是,由于专利申请之后需要一段时间才被公开,因此,2020 年至今的部分专利申请处于尚未公开的状态从而无法体现在以下的分析图表中。

从图1 的知识图谱相关专利申请态势图可以看出,在2017 年以前,知识图谱相关专利申请处于起步阶段,呈缓慢增长态势;自2017 年至今,知识图谱相关专利申请量呈现明显增长态势(排除2020 年以后专利申请公开滞后的影响)。全球专利申请与中国专利申请增长趋势基本同步,且中国专利申请量在全球专利申请量中占据主体。七成以上的全球专利申请选择中国作为其申请目标国。

图1 知识图谱相关专利申请态势图

从图2 知识图谱相关专利申请的全球主要申请人分布可知,全球申请量位列前十位的申请人依次为:百度、国际商业机器(IBM)、平安、国家电网、腾讯、微软、浙江大学、阿里巴巴、北京明略软件和清华大学。其中有八个申请人是来源于中国或其经济活动主要在中国,只有国际商业机器(IBM)和微软两个申请人来源于美国。说明我国在该领域的研发上投入大,具有一定研发优势。申请量前十位申请人中,有两家高校,其余八家均为企业,说明该领域专利申请更多地集中在产业界,知识图谱和各行各业的深度融合,应用广泛。据统计,知识图谱在美国的已决申请中授权率大约为60%,略低于在中国的已决申请中授权率约为62%的授权率③利用HimmPat 检索分析平台统计得到。,两国授权率相差不大。

图2 知识图谱相关专利申请全球主要申请人分布

通过上述对知识图谱相关的专利申请数据的分析可知,我国在该领域的技术发展已经进入高速发展期,同时,包括企业和科研院所在内的众多创新主体十分重视知识图谱相关技术的知识产权保护。因此,更好的明确知识图谱相关专利申请的审查规则,有助于指导创新主体在该领域的申请以及对知识图谱相关技术给予更好地保护。

三、审查规则和典型疑问

(一)现有审查规定

我国目前没有专设针对知识图谱相关专利申请的审查规则,与该领域专利申请的客体审查相关的法条为:《专利法》第二十五条第一款第(二)项和专利法第二条第二款。相关审查规则还包括:

《专利审查指南》第二部分第一章规定:

在判断涉及智力活动的规则和方法的专利申请要求保护的主题是否属于可授予专利权的客体时,应当遵循以下原则:

(1)如果一项权利要求仅仅涉及智力活动的规则和方法,则不应当被授予专利权。

如果一项权利要求,除其主题名称以外,对其进行限定的全部内容均为智力活动的规则和方法,则该权利要求实质上仅仅涉及智力活动的规则和方法,也不应当被授予专利权。

(2)除了上述(1)所描述的情形之外,如果一项权利要求在对其进行限定的全部内容中既包含智力活动的规则和方法的内容,又包含技术特征,则该权利要求就整体而言并不是一种智力活动的规则和方法,不应当依据《专利法》第二十五条排除其获得专利权的可能性。

《专利审查指南》(2020 版)第二部分第九章规定:

如果权利要求中涉及算法的各个步骤体现出与所要解决的技术问题密切相关,如算法处理的数据是技术领域中具有确切技术含义的数据,算法的执行能直接体现出利用自然规律解决某一技术问题的过程,并且获得了技术效果,则通常该权利要求限定的解决方案属于《专利法》第二条第二款所述的技术方案。

(二)典型疑问

结合上述知识图谱的技术特点、我国现行相关审查规则和审查现状,笔者发现在知识图谱相关的专利的申请和审查规则方面,创新主体普遍存在以下疑问:

1.知识图谱是某类事物、某个领域知识的图形化表示,是否知识图谱的构建就属于《专利审查指南》中指出的“信息表述方法”,从而不符合专利保护客体的要求?

2.以何种方式撰写知识图谱构建方法的专利申请,才有可能属于专利保护的客体?

3.抽象的知识图谱构建方法,与具体领域的知识图谱的构建方法,在是否属于专利保护客体的审查标准上,有什么不同?

四、典型案例

以下将通过三个案例,尝试解答以上疑问,并以此来明晰有关知识图谱相关专利申请的审查规则。

(一)案例一:药品说明书的知识图谱构建方法

1.背景技术

药品说明书是临床医生和临床药师在为患者提供药物治疗方案时最重要的循证证据。随着医学信息化的发展,各大三甲医院广泛使用的处方前置审核系统不但可以方便查找药品说明书,还可以依据药品说明书的配伍禁忌、特殊人群、禁忌症、相互作用等自动提示临床医生和临床药师该患者处方的问题。这对保障患者的合理安全用药有非常重要的意义。

在目前,药品说明书内容是按照医院处方审核的要求,按照药品说明书的适应症、配伍禁忌、用法用量、年龄、人群、禁忌症、相互作用等不同字段存储在关系型数据库中的,在使用的过程中也是通过字段匹配来查找相应的内容的。通过患者处方上提供的性别、年龄、临床诊断、药品名称、用法用量等,寻找数据库中与查找内容完全相符的信息。

2.问题及效果

现有技术中,无法处理较为复杂的查询要求,查询效率低,只能发现患者处方不合理的问题,但无法提供解决方案。该申请提供的药品说明书的知识图谱构建方法,通过依据药品说明书数据库构建药品说明书知识图谱,对药品说明书进行多维度描述,更贴近临床医生和临床药师对药品说明书的理解方式,也提高了检索效率,为临床医生和临床药师提供了临床辅助决策,为患者提供更合理安全的用药方案。

3.权利要求

一种药品说明书知识图谱构建方法,其特征在于,药品说明书知识图谱的三元组形式为:<实体>,<关系>或<属性>,<实体>;

其中,实体的内容包括:药品名称、适应症名称、禁忌症名称、检验检查项、症状、不良反应和病史;

实体的关系包括:

映射关系,定义一种实体是另一个实体的一个实例;

分类关系,定义一个实体是一类实体的成员;

属性关系,定义一个实体与属性之间的关系;

聚合关系,定义一个实体与全部实体之间的关系;

时间关系,定义不同实体产生的先后顺序;

相近关系,定义不同实体药理近似的关系;

实体的属性包括详细描述实体的维度或者设定条件的维度,具体包括:药品的剂量、剂型、生产厂家、药品毒副作用、不良反应临床试验时间、不良反应发生率、不良反应处理和根据不良反应调整给药频次值。

4.案例分析

知识图谱三元组的定义和表达类似于数据结构的定义和表达。单纯的数据结构因属于信息表达的方法,从而属于智力活动的规则和方法,不能被授予专利权。

针对某个具体应用领域的知识图谱的三元组定义和表达,如果方案只涉及对三元组(实体、关系和属性)的定义,仍属于信息表述方法,无法获得专利保护。不会因为其方案有具体的应用领域、知识图谱的三元组的实体、属性有具体的参数含义,就使得其属于专利保护客体。

具体到该申请,方案虽然涉及药品说明书的知识图谱构建,但是仅仅是定义了实体的内容包括药品名称、适应症名称、禁忌症名称、检验检查项、症状、不良反应和病史;关系的内容包括映射、分类、属性、聚合、时间等;属性包括药品的剂量、剂型、生产厂家、药品毒副作用、不良反应临床试验时间、不良反应发生率等。显然,上述内容仅涉及对三元组本身的定义,仍属于信息的表述方法,因此,属于《专利法》第二十五条第一款第(二)项规定的智力活动的规则和方法,不属于专利保护的客体。

综上,对于有具体应用领域的知识图谱的解决方案,如果方案仅是构建了该领域的知识图谱,例如只包括三元组的定义和表达,那么该方案无法构成专利保护的客体。

(二)案例二:基于模糊理论的知识图谱优化方法

1.背景技术

知识图谱的初衷是为了阐述现实世界中各种存在的实体之间、关系之间以及实体与关系的属性的联系,其利用三元组中的关系来描述“头实体”和“尾实体”所具有的具体联系,其主要实现的目标是改进搜索引擎,使其搜索结果的准确性和用户搜索体验得到提高,其中涉及分类和预测等多种具体应用。目前的知识图谱算法大多数都是基于三元组(头实体,关系,尾实体)形式的,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。目前这种三元组的表达方式越来越流行,例如,万维网联盟发布的资源描述框架技术标准。特别是在谷歌提出知识图谱的概念后,这种表达形式更是被广泛接受。

现有的知识图谱技术大多基于深度学习算法构建,并且将其中的每个向量中每一维的数据都孤立地看待,这就使得想要构建效果更好的知识图谱的过程往往需要更多的训练时间和更大规模的训练集。

2.问题及效果

基于现有技术的缺陷,该申请引入模糊理论的思想,提出一种基于模糊逻辑和模糊向量的模型,使用模糊向量的运算方法来对各维训练数据进行运算,将模糊逻辑中赋予数据的语义信息与深度学习理论相结合,减少了训练的复杂程度,缩短了训练时间。

3.权利要求

一种基于模糊理论的知识图谱优化方法,其特征在于,具体步骤如下:

步骤1:获取训练集三元组数据,并对所有三元组数据预处理,包括步骤1.1~步骤1.2:

步骤1.1:获取训练集三元组数据,将所有三元组随机初始化,将三元组随机初始化成两组不同的向量,一组用来构建三元组本身,另一组用来构建在模糊空间的三元组模糊投影,具体过程如下:

设有p个三元组(hi,ri,ti,)i=1,2,...,p,hi表示头实体,ri表示关系,ti表示尾实体,(hi,ri,ti,)表示hi和ti具有ri关系,采用模糊矩阵的乘积的形式表示双重模糊集在模糊关系中的合成,即,对于模糊向量lt和fr,lt在fr上的投影表示为tfr=lt·fr=∨(lt∧fr),对于任意模糊变量a∈lt和b∈fr,设-1 ≤a≤b≤1 时有:

对于每一个三元组(h,r,t)所对应的向量分别初始化:h对应初始化为h和hm;r对应初始化为r和rm;t对应初始化为t和tm,其中,带有m下标的向量表示用来构建映射矩阵的元素,不带m下标的代表元素本身的向量;且h与hm均∈Rk,t与tm均∈Rk,r与rm均∈Rn,k和n分别表示实体向量和关系向量的维度,k=n,且h、hm、t、tm、r、rm均被设定为列向量;

步骤1.2:向量归一化;对h、hm、r、rm、t和tm分别进行归一化操作,归一化公式为:x=x/||x||,其中,X=h或hm或r或rm或t或tm,归一化后的h、hm、r、rm、t和tm数值范围如下:h≤1,hm≤1,r≤1,rm≤1,t≤1,tm≤1;

步骤2.基于模糊关系合成的知识图谱构建,获得知识图谱的模糊关系,包括步骤2.1~步骤2.2:

步骤2.1:模糊投影:将归一化后得到的hm和tm分别对rm进行模糊投影,得到两个模糊矩阵Fhr和Ftr,具体过程和原理如下:

将hm和tm分别对rm进行模糊投影,分别得到如下两个模糊矩阵Fhr和Ftr:

其中,hT为h的转置,X○Y形似模糊矩阵的乘积,这里X为rm,Y为hm或者tTm;

步骤2.2:模糊关系合成:将两个模糊矩阵Fhr和Ftr分别与hT和tT进行模糊关系合成,在得到投影空间之后,通过分别计算对头实体和尾实体的模糊空间Fhr和FTr的映射的方法来进行模糊关系合成,具体公式如下:

其中,lhr为模糊空间Fhr与hT的模糊关系,ltr为模糊空间Ftr与tT的模糊关系;

步骤3:基于损失函数,最小化目标优化函数,获得优化后的三元组向量,即为优化后的知识图谱的三元组集合。

4.案例分析

知识图谱通常基于三元组进行构建,实体是知识图谱中最基本元素,不同的实体间存在不同的关系。知识图谱最广泛的应用是搜索,即,增加搜索深度和广度,找到最想要的信息。知识图谱涉及对知识资源的挖掘、分析、构建、绘制和显示,融合了应用数学、图形学、信息可视化技术、信息科学等多门学科,涉及三元组构建的专利申请只是知识图谱相关专利申请中的一种,判断涉及知识图谱的专利申请的客体时,应结合具体案情,根据申请要解决的问题和记载的手段进行具体分析。

具体到该案,该案请求保护一种基于模糊理论的知识图谱优化方法。该方案利用两组不同的向量分别构建三元组本身和模糊空间下的三元组模糊投影,基于损失函数获得优化后的三元组集合。上述手段仅涉及对三元组结构的定义和依据设定规则的计算,其中算法特征的执行未体现出利用自然规律解决技术问题的过程,因而并非技术手段;所能解决的问题仅仅是三元组表达方式的优化,并非技术问题,优化三元组本身的表达获得的减少数据集训练时间的效果也并非技术效果。此外,虽然该申请声称“使用模糊向量的运算方法对各维训练数据进行运算,将模糊逻辑中赋予数据的语义信息与深度学习理论相结合”,但当前权利要求记载的手段中并未体现出对语义信息的利用和处理。因此,该申请请求保护的解决方案不构成《专利法》第二条第二款规定的技术方案,不属于专利保护的客体。

(三)案例三:基于融合特征的知识图谱的水电组故障诊断方法

1.背景技术

水轮发电机组的运行状态是否安全可靠,直接关系到水电站能否安全经济提供可靠的电力,也直接关系到水电站本身的安全。随着大型水轮发电机组在整个电力系统中的比重越来越大,对水电设备的可用率、机组运行安全性、可靠性与经济性提出了更高的要求,事故停机造成的经济损失可能会更为严重,给水电设备的运行管理带来更多的挑战。随着科技发展,水轮发电机组的故障诊断正由人工诊断到智能诊断、由离线诊断到在线诊断、由现场诊断到远程诊断逐渐发展。

故障诊断的核心是特征提取,通过特征提取后用分类器进行故障分类。目前,在水力发电机组振动故障诊断领域中得以研究和应用的重点方法主要有故障树故障诊断方法、模糊诊断方法、小波分析、深度学习和神经网络等。

2.问题及效果

水电机组试验报告、大修报告、巡检记录等非结构文本数据中蕴含大量高价值故障知识,合理抽取文本故障知识对提高水电机组故障诊断效果具有重要意义。对水电机组的故障诊断文本进行知识抽取的关键问题在于,从异构的文本非结构化数据中抽取出有效的结构化信息,目前,其研究的重点在于针对故障、特征等命名实体进行识别与实体关系抽取。知识图谱推理诊断的目的是根据已有的知识图谱和当前的状态特征找到对应的设备故障。

该申请通过同时提取非结构化的振动数据和结构化的诊断报告文本数据,并进行异构数据融合,以融合特征作为水电机组故障诊断的依据,解决了水电机组故障诊断时真实故障数据缺乏、故障诊断不够准确的技术问题。

3.权利要求

一种基于融合特征的知识图谱的水电机组故障诊断方法,其特征在于,该方法包括以下步骤:

S1.根据水电机组振动数据,提取水电机组的结构化振动数据特征;

S2.根据水电机组多种诊断报告,提取水电机组诊断报告的非结构化文本数据特征;

S3.将所述水电机组的结构化振动数据特征和所述水电机组诊断报告的非结构化文本数据特征进行异构知识融合,得到融合特征;

S4.根据所述融合特征,构建水电机组故障诊断知识图谱;

S5.根据所述水电机组故障诊断知识图谱和实时获取的水电机组当前状态特征,对水电机组当前状态进行推理诊断,推断出各种故障发生的可能性;

其中,振动数据包括振动位移、速度和加速度传感器采集的原始数据;结构化振动数据特征包括传统特征和深度特征。

其中步骤S5 具体为:

S501.通过深度学习模型与传统特征提取,得到与图谱中对应的特征实体和属性值;

S502.实时获取水电机组当前状态的数值数据、状态值和超限值;

S503.通过深度提取模型对所述数值数据进行特征提取得到深度特征,以深度特征、状态值和超限值为目标,在知识图谱模式层中检索其名称并提取出图谱中的相关实体和边构成关系子图;

S504.根据所述关系子图中节点和边的拓扑结构,建立贝叶斯概率网络模型,使用贝叶斯概率网络推导出故障的概率。

4.案例分析

该申请权利要求请求保护一种基于知识图谱的水电机组故障诊断方法,该方案通过对水电机组结构化振动数据和诊断报告的非结构化文本数据的特征提取和异构数据的知识融合,解决了水电机组故障诊断中存在的真实故障数据缺乏、故障诊断不够准确的技术问题;该方法中各步骤具体限定了处理的对象是有明确技术含义的数据,如,水电机组诊断报告的非结构化文本数据等;为解决上述技术问题,该申请所采用的手段并非仅仅是构建知识图谱本身,而是涉及具体领域的知识图谱构建及其应用方法。具体而言,该申请根据水电机组故障诊断知识图谱和实时获取的水电机组当前状态特征,对水电机组当前状态进行推理诊断,推断出各种故障发生的可能性,采用的手段是遵循自然规律的技术手段,据此获得了提高故障诊断准确性的技术效果。

因此,该申请权利要求的解决方案构成《专利法》第二条第二款规定的技术方案,属于专利保护的客体。

综上所述,知识图谱相关发明专利申请,并不因为其涉及知识图谱构建或应用就必然构成技术方案,而要看其方案在整体上是否采用了遵循自然规律的技术手段,并解决相应的技术问题、获得相应的技术效果。

五、结语

由以上三个案例的分析可知,对于涉及知识图谱的专利申请,判断其是否属于专利保护客体,需要根据《专利法》第二十五条第一款第(二)项和《专利法》第二条第二款两个法条来进行判断。

如果权利要求中仅记载知识图谱三元组的定义或表达的解决方案,则权利要求的方案实质上是一种单纯的信息表述方法,属于智力活动的规则和方法,不构成专利保护的客体。如果方案仅涉及知识图谱本身的优化,未采用技术手段解决技术问题以获得符合自然规律的技术效果,则不构成技术方案。如果方案中用三元组表达的处理对象是语义信息、文本数据等技术数据,体现出对技术数据的具体处理过程,那么,这样的解决方案有可能构成技术方案。如果方案采用了自然语言处理、异构数据融合等手段解决具体应用领域的技术问题,并获得了相应的技术效果,则该方案属于技术方案。

专家点评

“知识图谱”是人工智能的一个重要分支和研究领域,产业应用广泛、技术创新活跃、专利申请量较大。本文介绍了“知识图谱”的概念、全球专利申请态势及中美两局知识图谱领域的专利申请授权率分析,使读者能够直观了解“知识图谱”相关的专利申请态势和专利审查概况,进而通过三件典型专利申请的分析,梳理了“知识图谱”相关专利申请的客体审查规则,以期在一定程度上解答创新主体在“知识图谱”领域可能存在的疑问,助力创新主体更好地保护知识图谱相关技术创新成果,促进该领域专利申请质量的提升。

猜你喜欢
三元组水电专利申请
国际水电协会:2021年全球水电装机容量增长缓慢,难以满足实现2050年净零排放目标
从一件无效宣告请求案谈专利申请过程中的几点启示和建议
时序知识图谱的增量构建
高层建筑水电安装施工技术要点探讨
建筑水电安装工程造价的控制分析
水电安装工程中造价超预算的原因及解决办法
唑啉草酯中国专利申请分析
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
韩国AI内容专利申请数5年激增10倍