邬少飞
武汉工程大学计算机科学与工程学院,湖北 武汉430205
专利挖掘的作用是帮助企业找到申请专利的创新点或技术方法,这些创新点和技术方法的来源可能是企业在日常技术研发中取得的成果[1],对于企业而言,专利挖掘技术可以为企业保护自身的技术提供一定的方便。专利挖掘技术一方面可以满足企业对专利保护范围的要求,另一方面也保证了权利要求中的法律稳定性。而且专利挖掘的优点是可以立体化地对企业中具有专利申请价值的技术进行搜索,进而避免企业及相关机构在专利保护时漏洞的产生,从而对企业研发出的成果进行全面、充分、有效的保护[2]。而从企业的视角来看,专利挖掘技术可以在一定程度上帮助企业发现自己的重要专利和次要专利,并把重要专利和次要专利结合起来,编织成为严密的专利网[3],帮助企业培育核心竞争力。从更深的层面来讲,专利挖掘作用也可以延伸到多个企业之间,专利挖掘可以帮助企业判断同类企业是否具有有威胁的专利,如果其他企业具有有威胁的专利,则帮助企业进行规避专利风险方案的设计,帮助企业尽可能的拥有法律权利和商业利益[4]。以挖掘目的的分类标准对数据挖掘进行分类,可以将其分为成果保护型数据挖掘和保围拦截型数据挖据。成果保护型数据挖掘是目前最常用的一类数据挖掘形式,其主要目的是对企业的技术研发成果进行有效保护,综上不难发现,专利挖掘是对一个企业技术创新力的有力保障。
目前国内在专利方面投入的成本比较大,但是在专利信息挖掘领域的研究还处于初级阶段,国内外只有较少的研究者对专利信息挖掘问题进行了研究,研究成果主要包含在专利地图、专利分析、专利引证等相关研究内容。为解决目前国内缺乏较为清晰的互联网公开专利情报挖掘等问题,本文以全新的视角,对2016年-2020年以来互联网公开专利情报挖掘领域的技术进展进行综述,旨在提供新的途径和方法,来为相关研究提供参考。
数据挖掘是一个过程,这个过程的主要工作是从海量的数据中找到带有人们事先不知道的,但事实上具有的潜在有用信息和知识的过程。数据挖掘不同于传统的数据分析,数据分析的对象是明确且已知的,而数据挖掘则是在前提假设不明的情况下对信息进行挖掘,对知识进行发现,且数据挖掘得到的信息具有3个特征,其分别为未知性,有效性和可实用性这些特征也和数据分析所得到的信息的特征不一致。而基于数据挖掘技术的专利情报分析的研究对象是专利数据及网络上的期刊,分析方法则是将专利情报的内容进行集成化,数据化的处理,再进行加工分析,并对其中有用的信息进行识别,使用此方法处理专利情报,易于综合地把握大量专利信息。
基于数据挖掘专利挖掘到的专利分析过程包括4个阶段,其中数据获取阶段一般使用网络上的公开数据作为信息源;数据的预处理阶段分为数据清洗、中文分词和数据转变。在数据重构阶段中,数据挖掘方法的数据重构不仅只注重数据的检索收益,而且还需要得到研究主题和概念间的联系等更深入的分析结构。
通过对专利挖掘领域的相关文献的研读,检索与归纳,将专利挖掘相关技术分为6个方面。分别为术语抽取,聚类,分类,网络理论,以时间为基础的数据挖掘,基于专利挖掘的技术研究。
术语抽取的含义是从技术专利中抽取关于技术的重要词语,术语抽取也是情报挖掘的基础。聚类技术被用于对专利申请人进行预测和评价。是术语抽取的后一步工作。专利文本分类则被用于分类任务、专利检索、信息分析有关的工作,也是专利挖掘中的重要工作之一。对专利文本进行分类后的工作是专利分析,社会网络分析技术和以时间为基础的方法均在专利分析中得到广泛的应用。
术语抽取的研究被分为一般性抽取方法研究,错误来源分析和矫正,生僻术语研究。从专利文件中抽取重要的技术短语或词汇被称为专利术语抽取,在一般性抽取方法研究问题上,俞琰等[5]对专利术语抽取时难以过滤及抽取特殊词语串的问题进行了改进,其选取候选术语的方法是将通用词作为选取符,再利用和候选术语有相同术语部件的相似候选术语信息,并对候选术语成为术语的可能性进行评估。阳萍等[6]利用改进的双向长短时记忆的标注序列网络模型,对输入文本进行自动化定义抽取。Chiarello等[7]提出一种算法,该算法能够自动检测和提取隐藏在专利中的实体。Jongchan等[8]提出了一种利用相关论文及其作者的关键词从单个专利文献中提取有效关键词的方法。近几年对错误抽取的研究较少,但根据以前的研究,错误主要来自于术语抽取时对术语的变化。生僻术语作为一种特殊的术语抽取研究对象,具有更高的抽取难度。研究者对生僻术语抽取的研究多停留在对用于信息检索与数据挖掘的常用加权技术(term frequency-inverse document frequency,TF-IDF)改进的基础,王丽客等[9]提出利用远程监督方法进行藏文实体关系抽取,其利用已经构建的藏文知识库与分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息,在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。
以术语抽取研究为例,算法构建只占术语抽取研究的一少半工作,更重要的工作是采用合适的实验对算法进行验证,例如构建标准答案的合集。但目前在术语抽取领域,针对生僻术语识别的标准答案合集非常少见。这导致了一部分有关偏僻术语抽取的研究不符合文本挖掘研究的规范,也成为了制约这一领域发展的重要因素之一。
聚类算法可以分为两个大的方向。一个方向为聚类方法,另一个方向为通过聚类对技术或专利申请人进行预测或评价。常用的聚类方法有层次聚类、k-means聚类最大最小模块化神经网络和自组织分析。本文以层次聚类和k-means聚类为代表来说明文中所提到的几种聚类方法的区别,kmeans聚类算法的工作流程是任意选取k个样本点作为k个簇的原始中心;计算每一样本点与k个中心的距离,并把它归入距离最小中心所在的簇。待所有的样本点归类完成后,重新计算k个簇中心;对上述的流程进行重复,直至簇不再变动。层次聚类法的原理更为简单,层次聚类法的基本过程可以分为3步,将每一个样本点视为一个簇,计算各个簇之间的距离,将距离最小的两个簇合成一个新簇。重复上述过程直至只有一簇。聚类方法常被用于建立工艺冲突矩阵,寻找工艺冲突,其工作流程的第一步是对工艺专利进行分类处理并建立工艺问题库和工艺问题解决方案库,然后利用特征词提取算法对专利文本进行工艺冲突参数的挖掘,再利用核聚类算法进行工艺冲突和工艺冲突解决原理的挖掘,建立工艺冲突矩阵。目前该领域的相关研究文献较少。
在通过聚类对技术或专利申请人进行预测或评价的研究方向上。艾楚涵等[10]利用文本挖掘的专利推荐方法帮助用户从数量庞大的专利中找到用户感兴趣的专利并进行推荐。陈伟等[11]提出了一种基于专利文献分析的关键共性技术识别框架,运用文本挖掘和技术演化分析方法,获取特定领域的关键共性技术,并在机器人和数控机床上验证了算法的可行性和有效性。聚类方法也可以用于建立功能矩阵,Yang等[12]提出了一种半自动化的方法来建立某个给定领域的功能矩阵,目的是提高构建功能矩阵的效率,降低人力成本和时间成本。
专利文本分类可以分为四大研究主题,其分别为:①分类器对《国际专利分法》的适应性问题;②与应用领域相结合的专利分类、专利检索和信息分析等任务;③由于专利的特征来源不同,因此存在着一定的效果差异,有目标性地对专利文本中的特征进行选择也是一项很重要的任务;④与发明问题解决理论(teoriya resheniya izobreatatelskikh zadatch,TRIZ)结合的分类问题。
针对信息增益算法只能考察特征对整个系统的贡献,忽略特征对单个类别信息贡献的问题上,胡云青等[13]针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法。Arts等[14]则建议采用文本匹配的方法来衡量专利间技术的相似性。Mun等[15]提出一种新的技术方法,该方法利用专利共分类和分类层次的特征,对技术领域(technological domain,TD)内的不同技术层次的子TD进行识别,并利用太阳能光伏技术领域的专利对算法进行检验,检验结果证明算法识别出的sub-TDs是有效的。在和实际应用相结合方面,在有目标性的对专利文本中的特征进行选择的研究问题中,马建红等[16]从大数据的角度提出一种专利挖掘与效应对关系的方法,其利用长短期记忆网络及带有Attention机制的Bi-LSTM相结合构成模型,并利用Soft max模型分类器进行分类并得到专利的专属效应。实验结果证明,模型准确有效。TRIZ是一种框架,用来解决发明问题。它和prior art search为基础的专利研究不太相同。在发明问题解决理论 结合的分类问题上,胡学钢等[17]提出了一种基于协同过滤的专利TRIZ分类方法来提高系统分类精度与效率。Liu[18]提出了一个基于经典TRIZ和专利文本的技术创新模型,来弥补装备研制方面缺乏理论和技术指导的不足。作者首先利用结构方程方法识别经典TRIZ与专利文本之间的耦合关系提出了一种基于经典TRIZ和专利文本的产品创新模型,并利用带冷却系统的大功率潜水泵模型进行了验证。
在专利挖掘领域的研究者中有一个普遍存在的问题,即重视应用方法,忽视提出问题,以分类研究为例,绝大多数的研究方法是将专利数据用在已经存在或稍微改动的算法上,得到一个实验结果即可。这种不明确解决问题的做法导致了相当多的研究仅停留在利用聚类算法或复杂神经网络来处理专利数据的层面上。在专利挖掘领域还存在一个常见的问题,即在解决复杂的课题时,例如在专利分类问题时,在复杂的分类情况出现时,现有技术下构造的分类器难以取得理想的效果。此外较多的深度学习算法也未被运用到专利挖掘领域中来。
以复杂网络为基础的专利分析方法在研究中得到广泛应用,Ampornphan和Tongngam[19]等利用k均值聚类、文本挖掘和关联规则挖掘方法与社会网络分析方法来获取新兴技术的知识,并从国际专利分类(international patent classiftcation,IPC)代码和专利标题数据中发现信息技术的发展趋势。Li等[20]提出了一种基于社会网络分析(social network analysis,SNA)和专利分析的定量比较方法来选择类比技术,并利用中心性和密度度量分析了复杂专利网络结构,以减少信息缺乏或不确定性的存在。作者以自动驾驶汽车(autonomous vehicles,AVs)为例,比较了3种基于目标技术相似性的候选技术,并用平均度和密度的分析来选择最佳候选技术。Hu等[21]根据我国造船和海洋工程装备产业的现状,将造船产业分为3类:通用造船产业、专用造船产业和海洋工程装备产业,并利用Patsnap专利搜索平台,分析了中国3种类型船舶工业的专利趋势、关键技术分支和关键申请人分布情况。根据分析结果,提出相应的政策策略,为企业准确把握未来发展方向,规避专利风险提供参考。Juhwan等[22]提出一种统计方法来分析人工智能技术的专利数据,便于研究者对人工智能领域可持续技术的理解。
以时间为基础的方法在专利分析的研究中得到广泛应用,梁凯桐等[23]以公开生物医药行业专利库作为数据库为研究对象,通过申请概况、主要申请人、合作申请这3个角度,分析化橘红中药专利及申请人申请现状。魏红芹等[24]提出关于一套结构化的技术融合分析方法。利用产业与专利的映射关系,构建不同技术领域间知识流动矩阵;从技术溢出、技术影响两个维度构建技术融合趋势图,刻画出4种不同的技术融合类型,并通过时间序列分析技术融合的动态过程。以国家知识产权局新能源汽车专利数据为例,验证了方法的可行性,发现技术融合过程存在明显的技术邻近性,并且技术融合角色呈现动态变化。
专利和技术存在密切的关系,一些研究者把关注点聚焦于通过专利挖掘的技术途径来研究技术发展的现状和未来可能会呈现的趋势[25]。针对这一问题,研究者通常采取的解决方法是采用共类构建网络的方法,构建专利组合,并将构建的专利组合用于检测竞争,技术评估和研发组合等相关技术问题上。Madani等[26]对Web of science数据库中抽取的143篇论文利用文献计量学进行分析,推演出专利分析与挖掘领域的发展历程,并对专利挖掘领域里的人才进行了研究。Lin等[27]利用新闻信息和专利文件提取信息来识别带有新兴技术专利的公司,来判断公司是否具有增长潜力。作者采用台湾18家汽车产业供应链公司作为研究对象,采用数据包络分析的生产率指数来评估其随时间的相对性能增长,实验结果验证了算法的准确性。专利的分析与使用算法出现年份图如图1所示。
图1 专利的分析与使用算法出现年份图Fig.1 Year chart of patent analysis and algorithm application
总体来说专利挖掘领域经过近20年的迅速发展,出现了多种有效的算法,但这些算法也存在着不完善的地方急需解决[28]。这些不完善的地方可以概括为4点:1)无充足的实验验证;2)研究问题的界限不明确;3)在复杂问题的研究中,算法的精确度不高;4)未将新颖度较高的人工神经网络用在专利挖掘领域中来。
对专利情报研究中的已有技术总结如下:
从专利分析和专利使用的角度对专利挖掘技术进行研究发现:在基础、确定性课题,描述、评估性课题,探索、预测性课题上的专利分析可以给专利使用以一定的支持。基础、确定性课题主要使用专利挖掘研究中一直重视的课题术语抽取和自动分类。这个方法也是专利挖掘问题的热点研究领域。聚类,以时间为基础的方法主要用于探索、预测性的课题的研究。目前专利分析的不同领域都有支持的专利挖掘技术,但这些专利挖掘技术也存在着一定的缺陷,仍需要对其进行改进。
对专利情报研究中的新技术发展趋势进行如下总结:
1)基于智能语义的专利文本检索。原始的专利检索过程常伴随着难检索,检索速度慢,无法阅读其他语言的问题,而人工智能技术构建的语义检索设备就能有效的解决以上问题。
2)基于多种数据融合的专利数据重构与处理。一般而言专利数据具有数据量大,数据类型杂,更新快的特点,而研究者正在利用云平台整合全球的专利数据资源,建立相应的分析中心,为未来开展更深层次的专利数据分析提供数据和计算基础。
3)基于关联分析、语义分析和预测分析的专利大数据挖掘。相比于数据分析而言,大数据具有先知性、有效性和可实用性的特点,未来可以借助大数据分析工具和数据挖据算法对专利数据,经济数据,互联网数据等多来源数据进行关联分析,实现对数据的深层解读,自动化生成各类专利报告。
相信在将来的专利情报分析工作中,会出现越来越多的数据分析工具,会出现专业的专利分析预警平台,一方面使得专利情报分析工作的自动化和智能化程度更高,另一方面降低专利分析的门槛,吸引更多非专业人员从事专利情报分析工作。