许学添 王鹏 陈志泽
摘要:专利情报是商业中的重要情报,但是专利数据较为庞大,搜索相关情报较为困难,传统的知识图谱方法在处理专利数据的过程中时间较长。基于数据挖掘的专利数据处理技术研究,使用聚类算法,对专利数据进行聚类分析,确立专利情报中的运算指标,通过词语与文档的关联性对于关键词语进行数据挖掘,并且根据关联规则进行数据分析,根据文本特征进行数据处理。通过实验论证分析,数据挖掘的专利数据处理方法对比传统的知识图谱方法数据处理效率更高。
关键词:情报;聚类分析;数据挖掘
中图分类号:TP311.52 文献标识码:A
文章编号:1009-3044(2020)34-0029-03
目前,专利情报是企业技术创新的主要信息源,而且具有数量巨大、内容广泛的特点。这些专利反映着目前科学技术的新水平。专利情报作为技术的载体之一,包含着大量的技术信息,充分利用专利信息,可以节约大量的经费和时间。专利情报是技术发展的方向,对企业来说是极为重要的指标,企业也可以根据专利情报的趋势研究,对于不同地区的某类产品的先进程度进行预测[1]。根据专利可以指导企业的技术开发以及产品的销售策略,从而避开盲目开发,也可以对竞争对手的产品以及技术等进行信息的收集。但专利信息较为复杂,想要获得有用的专利信息则需要对相关信息进行处理。国外对于该方面的研究起步较早,通常都建立了专利数据库,以及对于专利数据的引文索引的數据库[2]。而我国起步较晚,并且相关专利信息的分析仍然处于初期阶段。关于竞争情报以及专利信息的研究者较少,但随着对专利信息的重要性的认识的不断提高,对于专利信息处理的研究者也逐步增加,目前我国专利信息处理技术常常采用知识图谱的处理方法[3]。但是该方法在处理大量的数据时常显得捉襟见肘,虽然可以图像化地显示专利数据但是处理速度较慢。数据挖掘技术是在大量数据中通过算法搜索隐藏的信息的方法,可以直接地对于专利信息中需求的关键词、引文索引进行搜索,对比传统的知识图谱数据处理方法更加方便。
1 专利数据处理流程
1.1专利数据聚类分析
使用聚类分析作为动态的分类方法,帮助后续的挖掘进行,将相似的事物归入相应的类别中,并且使其中的事物相似。而进行聚类分析常常将常用的指标比作“距离”以及“相似系数”,并且将分析对象用“点”表示,并且将“距离”或者“相似系数”较大的点分为一类中,并且将较小的分布另一类,使用该方法可以进行多类的聚类分析。而常用的距离指标使用欧式距离,公式如下:
[DX,Y=iXi-Yi2][i=1,2,...s] (1)
在(1)式中将[X]和[Y]在这里表示空间中[n]个体中的两个点,如果聚类对象为变量,[X]和[Y]则表示在[k]个变量中的任意两个,并且维数为样本量[n]。而对于聚类分析中的相似度系数指标可以采用余弦相似度,余弦相似度的公式如下:
[SX,Y=iXiYiX2iY2i] (2)
其中[i=1,2,...s],通过计算余弦相似度也可以完成数据挖掘的聚类分析,而若是假设聚类的数据集合包括的n个数据对象,相关的数据对象可表达多种目标,对于内存的聚类算法可以选择数据矩阵,数据矩阵也被称为对象与变量矩阵,使用[p]个变量表现[n]个对象,根据数据关系表来表现,或者[n?m]维的矩阵来表示矩阵就是表示[n]个对象的[m]个属性,以此矩阵结构建立数据类型。聚类分析根本是帮助进行下一步的数据挖掘。
1.2 专利指标数拟定
专利信息因素较多,关于专利的指标计算较为困难,对于专利指标,主要包括几项,专利的有效期是专利受法律保护的期限,也可以作为数据挖掘时的指标之一,引文索引是相关专利所引用的专利数量,也可以作为指标[4]。而其中专利指标计算中较为重要的是专利的原创率,一项专利的原创率越高,则专利的创新价值就越高。技术生命周期,用来判断技术生命发展的阶段,技术周期时间用来衡量专利和专利改进后的时间,周期越短,表示技术进步越快,而专利的普遍性反映专利多样性,普遍率也高反映该专利的经济价值越高。选取四项专利指标,引文索引、专利原创率、专利普遍率、技术生命周期。并且运算这四项指标,并且进行数据离散分析,结果如表1所示。
关于专利数据的相关数据离散,使用数据挖掘来对于专利中的各指标进行处理。
1.3词语与文档关联性挖掘
数据挖掘技术,是从大量的、不完全的、模糊的各种数据中,提取那些具有潜在有用信息的过程。而相关数据挖掘技术的过程如下图所示。
首先是要对挖掘对象确定,并且进行采集、清洗、集成和交换。CHI统计方法是用来度量数据中的词语与文档之间的关联情况,在此方法下的词语文档间的一阶自由度[x2]的分布,采用此方法来对于专利数据进行处理,并且分析词语与文档分类间的关联性。CHI值的计算公式为:
[x2t,c=N×AD-CB2A+BB+DA+B+C+D] (3)
(3)公式用来计算词语与文档中的相关性,[x2]值越高则相关性也就越高,也表示词语对于该文档的类比更加重要。在这里[N]表示文档数据集中的文档总数,[c]表示一个文档的类别符号,[t]表示计算的词语,[A]表示在该文档中的[c]包含的词语[t]的频数,[B]表示并不属于文档[c]的文档里关于[t]词语的出现频数,[C]表示虽然属于文档[c]但并不包含的[t]的出现频数,[D]表示并不属于文档[c]也并不包含词语[t]的文档频数。挖掘专利数据中的词语与文档之间的关联性,以对其关联性进行规制分析。
1.4 关联规则分析
对于专利数据进行关规程的挖掘,采取Apriori算法,该算法也是对于研究关联规则中最具有代表性的算法之一。首先,要建立最小支持度,而支持度的计数是通过定义事物中出现的项的个数,表示为:
[δX=X?ti,ti∈T] (4)
公式(4)中,项集[X]是事务[ti]的子集,此时应称事务包括项集[X]。在包含的特定项数的事务上反映它的支持度计数,这里项集[X]的支持度计数为[δX]。目前的Apriori的算法使用了候选项目及的观念,先使用候选项目奖,当候选项目奖的支持度大于或等于最小支持度时,此候选项目集称为频繁项目集。而在后面,要读入所有的交易,以得出候选单项目集的支持度,再找出频繁单项目集,利用这些频繁但项目集的集合,产生新的候选项目集。利用新的候选项目集找到新的频繁项目集,然后利用新的频繁项目集找到第三个候选项目集。而Apriori的算法要通过反复进行上述操作,直到不再出现新的候选项目集为止。在完成关联规则的分析后,要对专利数据的文本特征进行处理。
1.5 文本特征处理
对于文本特征的表示是使用特征信息来代替原来的文本,而文本数据和传统数据的区别在于文本数据是非机构化的数据。当处理时准备用现有的结构化数据的分析技术去分析非结构化的文本数据,面对的问题就是文本信息的结构化问题。在信息处理的过程中,采取向量空间模型来表示,向量的空间模式是对于文本内容特征的表示,向量空间模型的方法是用向量[w1,w2,...,wn]对文本进行表达,在向量空间模型中[wi]的第[i]个特征项权重[5]。在此向量模型中分量的取值常常被定为0或1的形式,在此特征项中的对应分量值为1,出现如果未出现特征项则为0。但是此方法往往无法表达该特征项在文本中的重要程度,所以可以使用词语来作为特征项,而对于绝对词频的计算方法如下:
[Wid=tfdmaxTFt×logNDFt+0.01] (5)
在公式(5)中[tfdmaxTFt]代表词频,在词频中[tfd]代表单词[t]在文档[d]里出现的次数。[maxTFt]代表单词[t]在文档[d]里出现的最大次数,在该公式中,词频的值越大,表示单词在所在文档里的权重越高。[logNDFt+0.01]代表反文档频数,这里的[N]表示在文档集中的文档数,[DFt]表示单词[t]出现的文档个数。反文档频数表示的是单词的全局权重,当单词在文档中出现的次数变多,它的重要性也就降低。
2 实验论证分析
为了验证此数据处理技术的可行性,使用传统的数据处理技术进行对比实验,选用的数据为专利数据,而在IPC号上所有的现存的数据库中,都是以单个字段来存储一个专利的IPC分类号的,而每个分类号都是以“;”进行分隔,而每个专利号一般拥有4~10个左右的分类号,这也提高了数据分析的难度。使用同一个的专利文档,从原创率、普遍率、引文索引的三种处理方向进行数据处理,并且分析本文处理方法与传统的知识图谱数据处理方法的数据处理速度。实验结果如下:
从图2可得,本文使用的专利数据方法,对比传统方法处理速度更快。虽然数据挖掘技术运算量大容易出现处理速度慢的情况,但是专利数据较为复杂,运用数据挖掘技术对于此类型的数据处理更加方便,所以对比传统方法效率反而更高。但是本实验对比的仅仅是两者的处理速度,并为对其他方面进行对比,研究存在局限性。
3结束语
本文对于基于数据挖掘的专利数据处理技术进行研究,首先是对于专利数据进行聚类分析,然后确立专利指标,根据词语与文档的关联性进行数据挖掘,并且分析关联规则,反应文本的特征来完成数据处理,通过实验论证分析本文方法对比传统方法的数据处理效率更高。但是本研究的实验,仅仅针对两种数据处理方法的处理速度进行对比,并未对其他因素进行对比。研究仍有不完善的地方,仅供参考。
参考文献:
[1] 刘媛.美国自然语言处理技术专利情报分析及启示——基于1999-2018年专利数据[J].科技管理研究,2020,40(6):201-209.
[2] 段博睿,柯波,杨云帆,等.22省专利数据分析及影响因素研究——基于专利发明数据包数据研究[J].科技视界,2019(16):123-124.
[3] 武鵬飞,王爽.四川建筑职业技术学院专利数据分析[J].科技风,2018(29):221-223.
[4] 孔德婧,王坤.基于专利数据的技术投资预测——以快递物流领域为例[J].技术经济与管理研究,2018(8):14-20.
[5] 陈海宇.“大数据”时代背景下计算机信息处理技术的探讨[J].计算机产品与流通,2020(5):6.
【通联编辑:张薇】