陈丽娜
随着人工智能与大数据技术的蓬勃发展,其已经被应用于各行各业中以解决各类问题,并且相关技术已经逐渐渗透到人类生活的方方面面中。在上述技术应用的过程中,越来越多的技术分支也应运而生,复杂网络就是目前备受关注的一个分支。
1998 年,由Watts 和Strogatz 首次提出了小世界(WS,Small World)网络的概念并建立了小世界模型,这标志着复杂网络研究的开始。复杂网络与传统定义中的规则网络不同,根据百度百科的定义,复杂网络是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。与规则网络相比,复杂网络在人类生活中有着更为丰富的应用场合,例如,由公交线路与各个公交站构成的公交网络、由人和人之间的关系组成的社交关系网络等。在“万物皆可联”的时代,随着社会媒体的快速发展,在线社交网络已经逐渐成为复杂网络研究的重要应用场景①李文政.基于粒子竞争的复杂网络社区发现[D].北京:中国人民公安大学,2021:1-7.,而其中涉及的社区发现算法也成为了研究的技术热点。
社区(Community),又名群或组(Group)、团或簇(Cluster),其概念最早由 Girvan 和 Newman 提出,目前对其较为准确的一种定义是:社区是指由现实世界中人与人之间构成的团体,并且同一团体成员之间的联系比不同团体成员之间的联系要频繁。在社区网络的概念中,个人通常被看做为网络中的每个节点,而人之间的关系则构成网络的边,也即,上述节点和边共同组成社区网络。在开放式社交网络(OSN)中,具有相同属性(如兴趣、职业、年龄)的用户之间的联系通常较为频繁,而具有不同属性的用户之间的联系则较为稀疏,所以开放式社交网络中也存在聚集性,即社区结构。在现实世界中,大部分网络都具有上述社区结构,而社区发现算法的目的则在于发现此类集合或者集群组成②贺超波,汤庸.在线社交网络挖掘典型问题研究[M].广州:中山大学出版社,2017:12-14.。
近年来,越来越多的企业和科研机构都在着手研究社区发现算法,其被用来解决多种社区网络相关的问题,例如,发掘相同属性的用户群体从而进行商品推荐、在社交网络中为用户识别潜在社交圈、识别虚假信息和机器人账号、依据社交信息预测股票及大选等信息、在互联网金融行业中进行反欺诈预测等。可见,社区发现算法在人工智能领域已经起到了举足轻重的作用,围绕该项技术的研究成果提出相关专利申请也成为较多企业和科研机构的一项专利布局策略。
那么,对于社区发现相关发明专利申请,目前的专利申请和保护现状如何?是否涉及社区发现的算法改进的解决方案都能够获得专利保护呢?
本文首先对社区发现算法相关发明专利申请的申请及保护现状进行梳理,然后以两个典型案例为例,解析该领域发明专利申请的客体审查思路,最后围绕社区发现算法相关专利申请的审查规则给出专利申请和撰写建议。
在全球专利数据库中针对社区发现算法相关的专利申请展开检索,选取关键词“社区”、“群”、“组”、“社团”、“簇”、“发现”、“划分”、“分割”、“社交”、“社会”、“关系”、“复杂”、“网络”,最终获得1,825 件专利申请。
以下基于这些专利申请文献,进行五局专利申请趋势对比、主要申请人分布、五局主要技术热点分布方面的分析。其中要说明的是,由于申请之后需要一段时间才能公开,因此,2020 至今的部分专利申请可能由于处于尚未公开的状态从而无法体现在以下的分析图表中。
图1 为五局(中国、美国、欧洲、日本、韩国)从2006 年至今的专利申请量趋势图。
图1 社区发现五局专利申请趋势图
从上述趋势图可以看出,在2006-2011 年期间,五局的申请量均处于起步阶段,虽然美局的申请数量稍多于其他四局,但是各局申请量之间的差异并不太大,可以认为这属于社区发现技术的发展初期;从2011 年开始,中国专利申请的数量相比较其它四局有了明显增长,并且这种增长的趋势一直持续至今,其中2017 年的申请量接近2016 年申请量的2 倍,也就是说,从2011 年之后,中国的社区发现相关技术的研究进入了高速发展期,而与此同时,其他四局的申请量仍然一直处于较为平稳的状态,部分局例如美局的申请量近几年来还出现了小幅的下降。
造成上述数据趋势的主要原因是,中国近十年来非常重视和鼓励电子商务、大数据、人工智能等技术的发展、应用以及上述技术与其它领域和行业的深度融合,采取了多项多种鼓励政策及支持手段,并且多次强调加强相关技术的知识产权保护,而美局近年来对客体判断的标准处于较为震荡的状态,从而在一定程度上影响了各创新主体在本领域的专利布局。
图2 为社区发现领域全球专利数据的主要申请人分布图。
图2 社区发现全球主要申请人分布
因为篇幅的原因,这里仅列出申请量排名前12位的申请人。
从主要申请人分布来看,中国申请人占到了多数,这体现出了中国创新主体在本领域具有一定的研发优势。在这些主要申请人中,企业类型的申请人主要包括腾讯、脸谱(facebook)、华为、国际商业机器(IBM)、阿里巴巴、尼尔森等,从这些企业的研发侧重点来看,上述申请人体现出了不同的技术关注点,有社区发现算法的技术研发,也有社区发现算法应用方面的研发,并且均占到了较大比重。
值得注意的是,在中国申请人中,主要涉及的创新主体类型为高校或科研机构,这说明中国创新主体在本领域基础算法的研究方面投入了较大的研发精力,并且这些高校或科研机构的申请量差异不大,说明各个高校或科研机构的研发水平相当。
图3 为社区发现相关的主要技术热点分布图。
图3 社区发现主要技术热点(IPC分类号)分布图
需要说明的是,IPC 分类号G06F17/30 在2019年1 月版本之后的IPC 分类表中,已经转入G06F16/00-G06F16/958。
从主要技术热点分布图来看,在整体的专利申请数据中,社区发现基础算法的研究相关的专利申请量占到了较大比重,具体表现为,主要集中在数据结构及存储结构方面的改进、对数据结构的各种分析处理方面的改进(如基于社交的搜索、可视化、聚类、分类、相关语义工具等)等方面。
除此之外,热点技术还涉及到了社区发现算法与其他技术的融合(例如神经网络算法、遗传算法等),以及社区发现过程中的数据传输等相关技术。从上述分析可以看出,在社区发现(关系网络相关)技术当前发展阶段,创新主体大多将研发焦点聚焦在社区发现基础算法的改进上,并且研发内容从数据结构本身的存储到数据的过滤再到数据的可视化,各个方面都有一定的研发投入,这也体现出了社区发现算法在创新主体中的受重视程度。
通过上述对社区发现相关的专利申请数据的分析可知,中国在本领域的技术发展已经进入高速发展期,并且在五局中体现出了明显的技术发展优势,同时,中国越来越多的创新主体开始重视本领域相关技术的知识产权保护,其中不仅包括企业类型的创新主体,更体现在多个高校及科研机构类型的创新主体。
在本领域的技术热点方面,中国创新主体将研发精力主要投入在了社区发现算法的数据结构及存储结构的改进、基于社交的搜索、可视化、聚类、分类、相关语义工具等方面,可以看出,与社区发现基础算法相关的技术研究是中国创新主体较为重视的热点技术,也是中国目前相比较于其他国家和地区的研发优势的体现所在。因此,更好的明确社区发现算法相关专利申请的审查规则,有助于更好地为我国相关技术的研究发展保驾护航。
《专利审查指南》第二部分第九章第6.1.2 节规定:
如果权利要求中涉及算法的各个步骤体现出与所要解决的技术问题密切相关,如算法处理的数据是技术领域中具有确切技术含义的数据,算法的执行能直接体现出利用自然规律解决某一技术问题的过程,并且获得了技术效果,则通常该权利要求限定的解决方案属于专利法第2 条第2 款所述的技术方案。
上述规定对于改进仅在于算法特征的申请如何可以构成专利保护的客体进行了规定。对于改进在于算法的解决方案,如果想要构成技术方案,那么方案中算法的各个步骤要体现出与该方案所要解决的技术问题密切相关,并且,权利要求中的算法各步骤要能体现出解决该技术问题的具体过程。
以下以两个本领域典型案例为切入点,对其涉及的方案是否属于专利保护客体进行研究探讨,以明晰本领域专利保护审查规则。
1.案例1:一种基于多网络模块度的社团发现方法
【方案概述】
该申请涉及一种多网络社团结构以及社团寻找方法。
多网络科学研究的是相互沟通的个体所组成系统的共同行为,探索复杂网络之间的共 性和处理他们的普适方法。在多网络科学中,需要对社团进行定量分析,提出大规模复杂网络的社团结构的有效挖掘算法。同时,当把一个社团挖掘算法应用于某个具体的实际网络分析时,就必须考虑具体网络的特征、社团所对应的实际意义以及位于多个社团重叠处节点的特殊功能等。近年常用的一种衡量社团划分质量的标准是模块度,其基本想法是把划分社团后的网络与相应的零模型进行比较,以衡量社团划分的质量。一个网络的模块度被定义为该网络的社团内部边数与相应的零模型的社团内部边数之差占整个网路边数的比例。
上述的模块度定义只适用于单网络的社团划分,而现实世界的网络关系经常是多维的。在复杂网络系统分析中,图常常是这类系统恰当的抽象表示。一般地,个体被表示为顶点,他们的相互关系被表示为连接顶点的边。网络科学的最新观点是把图中的边看作包含个体之间的各种类型的关系的集合。例如人与人之间有工作关系、同学关系、家庭关系等。现有的多网络社团发现算法的一般策略是提取出多网络的特点并把问题分解成熟知的表现形式。通过解决分解后的子问题推导多网络下的社团划分。因此大量多网络的社团划分算法依赖于已有的单网络社团检测算法。
从社团成员的角度划分一个社团是行之有效的。因此可以用社团中节点的冗余度作为多网络下社团划分结果的度量方式。近年来研究者们提出的根据网络多维度的特性来划分社团的方法,基于社团冗余度的多维网络社团划分,为多维网络的社团划分提供了一种新的方向,但此方法并没有区分多维关系的维度大小,或者说忽略了节点连接关系的维度大小带来的信息价值。
该申请为解决上述技术问题,提出了一种多网络社团结构以及基于该结构的社团发现方法,通过定义多网络的社团结构,并提出了基于多网络模块度最大化的异质网络社团发现算法,有效地发现了多网络中的社团结构。
【权利要求】
1.一种基于多网络模块度的社团发现方法,其特征在于,包括:
S1、计算多网络模块度,具体包括以下分步骤:
S11、采用多个邻接矩阵表示多网络,具体为:
MN ={A1,A2,…,Ai,…,AM},i ≤M;
其中,M 表示网络个数,Ai 表示第i 个网络的邻接矩阵;
S12、确定节点冗余度连接关系矩阵,将所有网络的邻接矩阵相加得到节点冗余度连接关系矩阵;表达式如下:
其中,W 表示节点冗余度连接关系矩阵,矩阵W 中的每一行或每一列表示与该节点相连的各条边在网络中出现的次数,i 表示邻接矩阵的序号,且i=1,2,…,M;
S13、根据步骤S12 确定的节点冗余度连接关系矩阵,计算节点冗余度;表达式如下:
其中,wjk为多网络节点冗余连接关系矩阵W 中的元素,表示节点k 与节点j 之间的连接边数,表示节点k 的m 阶冗余度;
S14、根据节点冗余度构建多网络1 阶零模型;
S15、根据步骤S14 构建的多网络1 阶零模型,计算多网络模块度;
S2、根据步骤S1 计算得到的多网络模块度对多网络中社团进行划分;具体包括以下分步骤:
S21、初始时将多网络中每个节点视为一个社团;
S22、遍历多网络中每个节点z,找出所有与之相连的节点,并对每个相连的接点计算节点z 加入该相连的节点所在社团的多网络模块度增量;
S23、找出多网络模块度增量最大值所在的社团,将节点z 添加至该社团;
S24、重复步骤S22 至步骤S23,直至社团个数不再变化;
S25、将由步骤S22 至步骤S24 划分出的社团看作新的节点,重复步骤S22 至步骤S24,直至所有新的节点的多网络模块度增量小于或等于0 时,结束。
【案例分析】
对于该申请是否属于专利保护的客体,存在以下两种观点:
观点1:该申请关于社区网络/关系网络的数据挖掘,其不涉及具体的应用领域,且对网络中的各个节点和节点间关系也没有限定,其本质是算法本身的改进,即便采用了自动化的实现手段,但是其所要解决的问题、采用的手段、实现的效果仍然在于数学方面,而非技术方面。因此,该方案不是技术方案,不属于专利法第2 条第2 款规定的技术方案。
观点2:该申请中的“社团”并非“社区”含义,结合说明书的记载,“社团”指“人员”,百度百科中也指出社团指具有某些共同特征、爱好的人相聚而成的互益组织,并且权利要求1 的S21 步骤还限定了“初始时将多网络中每个节点视为一个社团”,可见,该申请的网络中的各个节点及关系可明确出具体的含义,体现了与具体应用领域的结合,因此,该申请的方案属于专利法第2 条第2 款规定的技术方案。
实际上,观点2 的意见中,对于该申请中“社团”的理解还不够准确。在社区发现领域,“社区”有时也被成为“社团”,二者含义在本领域基本相同。虽然该申请中采用了“社团”的描述,但基于本领域技术人员的理解,社团发现与社区发现都指代community detection,其中的社团或社区可以表示社交网络,也可以表示其他具有网络关系的实体,如互联网、交通网、电力网等。另外,虽然该申请的方案中有“图”、“边”、“顶点”,但是此种结构图,例如知识图谱并非我们传统认为的图像领域,而是一种数据关系的表达,仍属于抽象的算法本身。
从该申请说明书及权利要求来看,其方案通过计算多网络模块度并根据得到的模块度对多网络中社团进行划分,从而实现社团发现,因此,其实质上仍然属于单纯的社区发现方法,其解决的是社区发现算法自身的问题,并非技术问题,采用的手段也是定义多网络的社团结构,属于社区发现算法本身的优化,并非利用自然规律的技术手段,获得的也不是技术效果,因此该申请权利要求要求保护的方案不属于专利法第2 条第2 款规定的技术方案。
2.案例2:关系网络构建方法及装置
【方案概述】
该申请涉及一种关系网络构建方法。
随着互联网技术的发展,基于互联网实现的社交平台、交易平台也越来越多。用户通过这些平台可以进行各种事件,例如查询事件、支付事件等,事件涉及到的主体可以是设备名称、用户账号、手机号、银行卡等。这些平台可以将用户、设备或其他介质关联起来,形成一个关系网络。在实际应用中,经常会利用该关系网络开发一些新的应用,例如对于社交平台,可以利用该关系网络创建推荐系统,以进行好友推荐等;又例如对于交易平台,可以利用该关系网络进行风险识别,以检查交易是否安全或交易信息是否被盗等。
在使用关系网络之前,需要首先构建关系网络。在现有技术中,主要是将事件涉及的主体进行两两关联,形成关系矢量,关系矢量之间相互关联从而形成关系网络。这种关系网络的结构比较庞大,使用效果较差。
基于上述问题,该申请的提出了一种关系网络构建方法及装置,用以构建结构合理的关系网络,提高关系网络的使用效果。
【权利要求】
1.一种关系网络构建方法,其特征在于,包括:
确定构建关系网络所需的事件及事件参数,所述事件参数包括所述事件的结果、所述事件中的主体及所述主体的类型;
执行以下处理以构建出所述关系网络:
当所述事件的结果属于预设的事件结果集合时,则将所述事件涉及的主体对映射到所述关系网络中的同一子网络,所述主体对包括所述事件中存在关联关系的主体;
当所述事件的结果不属于所述事件结果集合,且所述主体对中的所有主体的类型都属于预设的关键主体类型时,将所述主体对映射到所述关系网络中的同一子网络;
当所述事件的结果不属于所述事件结果集合,且所述主体对中部分主体的类型属于所述关键主体类型,则将第一部分主体映射到所述关系网络中的同一子网络,并用第二部分主体描述所述第一部分主体的行为属性,所述第一部分主体是指所述主体对中类型属于所述关键主体类型的部分主体,所述第二部分主体是指所述主体对中类型不属于所述关键主体类型的另一部分主体。
【案例分析】
该申请的关系网络构建方法要解决的问题是当前关系网络结构庞大、使用效果差的问题。其中,该方案中关系网络构建是通过对关系网络所需事件涉及的主体对的映射来实现关系网络的分割,进而构建结构合理的关系网络,这属于技术问题;权利要求请求保护的方案通过数据分析挖掘出不同的事件对应的主体之间的关系(如访问网站、在线支付等),与事件相关的信息包括事件的主体、主体的类型、事件的结果、事件的名称等,其涉及的事件、主体、主体类型并非为抽象概念,而对这些数据之间关联关系的挖掘和处理属于遵循自然规律的技术手段。最后,该申请构建的关系网络并不仅仅是一种抽象算法的数学运算结果,方案实施后通过主体和子网络的映射关系的改进,提高了关系网络的使用效果,属于技术效果。因此,上述方案属于专利法第2 条第2 款规定的技术方案。
社区发现算法实质上属于一种聚类算法。由于单纯的抽象算法本身属于专利法第25 条第1 款第(2)项规定的智力活动的规则和方法,不属于专利保护的客体。因此,对于单纯的涉及社区发现算法本身改进的解决方案来说,如果未能体现出方案能够解决某具体应用领域的技术问题,即,对于改进在于算法特征的申请,如果权利要求记载的方案无法体现出该社区发现算法具体应用于何领域,那么,这样的解决方案难以获得专利保护。
综上,对于改进在于社区发现算法的发明专利申请,如果能够成为专利保护的客体,那么,在撰写此类申请的申请文件时,除了在说明书的背景技术部分详细写明本申请对于社区发现算法的改进是为了解决其在某领域的应用过程中遇到的何种技术问题,实施该方案能够获得的技术效果之外,同时,还需围绕要解决的技术问题,在权利要求的方案中详细记载算法各步骤用于解决该技术问题的具体过程,即,算法的执行直接体现出利用自然规律解决某一技术问题的过程。
专家点评
该篇文章围绕“社区发现”这一人工智能领域的热点算法,从专利申请和保护的现状,特别是通过五局申请量的对比,让广大读者能够了解到国内外相关企业和机构,对于社区发现这一领域的研究热点和专利申请热点,也从申请量的对比分析中让读者直观感受到我国在社区发现算法研究领域的领跑地位。同时,面对该领域与日俱增的专利申请量,本文针对2020 年2 月《专利审查指南》新增专节6 中关于新领域、新业态的审查最新规定,围绕典型案例,给出正反两方面的客体判断思路,不仅对最新客体审查基准进行了案例诠释,同时围绕社区发现相关发明专利申请的特点给出了申请文件撰写建议,能够有效帮助读者了解审查相关规定,提升该领域专利申请的撰写质量。