齐丽花 张妮妮 秦晓梅
摘要:为分析隐含在专利数据中不易直接统计得出的信息,将数据挖掘技术应用到专利信息的分析中。本文选取经典的聚类算法对专利的文本信息进行聚类分析。主要针对专利的标题、摘要等文本进行聚类,首先将专利的文本信息进行预处理,再利用TF-IDF权值计算法将专利文本信息向量化,然后采用K-means算法对向量化的数据进行聚类分析。最后选取钢铁产业链中最具创新性环节节能减排主题的部分国内外专利数据,采用Python语言进行编程验证,对聚类结果进行阐述。
关键词:专利文本聚类;数据挖掘;K-means;Python;钢铁行业
中图分类号:TP312 文献标识码:A 文章编号:1009-3044(2018)22-0206-02
Abstract: In order to analyze the information hidden in the patent data, the data mining technology is applied to the analysis of patent information. In this paper, the classical clustering algorithm is used to cluster the text information of patents. This paper mainly focuses on the clustering of title and abstract text of patents. Firstly, the text information of the patent is preprocessed, and then TF-IDF weight calculation method is used to quantify the text information of the patent, and then k-means algorithm is used to cluster and analyze the vectorized data. Finally, the paper selects some domestic and foreign patent data of the most innovative link in the steel industry chain, and uses the Python language to carry out the programming verification, and elaborates the clustering results.
Key words: Patent text clustering; Data mining; K-means; Python; iron and steel industry
1 引言
眾所周知,专利信息是人类智慧的结晶,是最全面、最新的技术情报源。但如此巨大的信息资源却远未被人们充分利用。如何从浩如烟海的专利信息海洋中发现有价值的专利知识,并使之转化为有效的竞争情报,是很有研究意义的。显然,由于专利数量的急剧增长以及需要对具体专利文献的技术内容分析,一般的数理统计方法无法满足我们的要求。将数据挖掘技术应用于专利信息分析,从大量专利信息中提取隐含在其中的、人们事先不知道、但又潜在有用、用户感兴趣的知识,具有非常重要的现实意义[1]。目前,国内的专利分析平台对于专利的统计分析和专利的引文分析这两个功能的设计实现比较成熟,但对于专利的深入挖掘功能明显涉及不足。深度的专利挖掘功能仍需要借助计算机编程语言[2]。针对上述研究现状,本文对专利的文本内容进行简单分析。本文在对文本聚类及专利信息分析的相关理论和方法进行深入研究的基础上,选用K-means算法,从专利的名称、摘要等入手,进行专利文本的聚类,用Python语言实现。最后选取了钢铁行业节能减排相关技术的专利数据进行实例验证,并对聚类结果进行分析和阐述。
2 专利文本聚类方法
专利数据聚类分析是采用数据挖掘中的聚类分析手段对专利数据进行分析的方法。聚类分析有助于分析隐含在专利数据中不易直接统计得出的信息,特别适合挖掘数据中的趋势、模式等特征。因此,聚类分析使得专利数据分析的手段更为高效,角度更为完善。此外,文本聚类分析是一种无监督的机器学习方法,由于文本聚类过程不需要训练过程,而且也不需要预先对要进行聚类的文档手动进行分类,使得聚类分析的结果突破了现有的知识框架,避免了仅凭经验和专利知识进行分类导致的局限和误区,更多地摆脱了主观局限性[5]。因此,聚类分析使得专利数据分析的结果更为客观、准确。文本聚类分析是对专利的文本信息(标题、摘要、权利要求书、说明书等)进行聚类分析的方法。是最主要的专利数据聚类分析手段。文本聚类作为聚类分析的一个应用分支,同样是依据著名的聚类假设:同类的文档尽可能得相似,不同类的文档尽可能得不相似。文本聚类可以采用聚类分析的经典算法,但是由于文本信息涉及分词等独特的问题,经典的聚类分析算法往往不能直接适用,需要进行调整和改进。文本聚类可划分为文本的向量化表示和聚类算法两大过程。一般情况下,首先对文本进行预处理,文本预处理包括文本的分词、词性标注、去除停用词等操作; 然后对预处理后的文本数据进行向量化表示,计算余弦距离,构建相似度矩阵。而文本聚类算法的主要工作是对向量化的文本数据进行聚类操作,完成聚类分析[3]。
流程:第一步,文本预处理,即对文本进行分词并提取关键词。(1)分词、去停用词。(2)去掉字长过短的词。(3)提取关键词。第二步,将预处理得到的文本关键词进行建模,创建VSM模型。VSM可用矩阵的形式表示,其中通过预处理后得到的所有关键词的数目就是VSM模型的维度,且关键词的权重表示向量的大小。对于关键词的权重,本文采用的是TFIDF方法。第三步,采用文本聚类算法对上述的向量化数据进行聚类。向量空间模型创建完成后,采用K-means算法对VSM模型中的向量点进行聚类处理。
3 实证研究
3.1 数据采集及预处理
选择权威的专利数据库和正确的检索式,对于全面准确的分析研究钢铁产业专利状况非常重要[4]。本文采用的数据源主要来自Derwent的创新索引(Derwent Innovation Index),通过钢铁行业节能减排技术对应的检索式进行数据的初步筛选,得到数据集。选取部分专利数据进行文本聚类验证。表1是选取的7条专利数据进行聚类实验,为方便展示,只列出德温特入藏号和标题等基本信息,在实际的专利聚类分析应用中对标题和摘要进行计算。
3.2 数据向量化表示
本文采用Python编程语言来实现聚类过程。随着大数据时代的到来,Python越来越凸显它的优势。Python丰富的工具包让它在科学计算、文件处理、数据处理、数据可视化、人工智能、自动化控制等领域越来越凸显其价值 [6]。本文也会用到Python的一些第三方工具包。首先使用Python的第三方库openpyxl库读取数据,然后使用jieba库对读取的数据进行预处理,包括分词、去停用词等操作。jieba主要用于分词、词性标注、关键词提取等,是文本处理的最基础部分。用jieba库进行文本预处理之后,再利用juba库进行文本向量化。本文对文档预处理后,计算各文档的余弦相似度。Juba是在文本数据预处理后(分词、去停用词等)对文本进行向量化,是情感分析、文本聚类、文本分类、信息检索的基础。图2是文本的权重矩阵,图3是文档相似度矩阵
3.3 初步聚类
本文采用最经典的文本聚类算法K-means来对向量化的专利数据进行聚类分析。图4是聚类结果的输出。根据输出结果,结合专利数据的详细信息,可以看出输出结果是合理的。
4 存在不足
文本数据的向量化表示是专利文本聚类过程中一个很重要的步骤。本文文本聚类算法是以TF-IDF权值计算法基础来计算文本的数学表示。这个方法虽然简单,但却需要通过降维来保证聚类的准确性。由于文本特征空间维数很高,使得文本聚类算法的时间开销很大,极大地影响文本聚类算法的效率和准确性,从而使得文本聚类的性能下降[7]。后期的改进可以从以下两方面考虑:一是采用高效的聚类算法;二是降维[8]。
参考文献:
[1] 马芳,王效岳.基于数据挖掘技术的专利信息分析[J].情报科学,2008(11):1672-1675.
[2] 李梦瑶,刘彤,蒋贵凰.我国专利挖掘研究现状分析[J].科技创新与应用,2015(36):281-282.
[3] 黄文颖.基于VSM模型及N-KMEANS算法的文本聚类[D].厦门:厦门大学,2016.
[4] 刘佳,宋之杰.基于文本聚类的稀土萃取技术专利信息分析[J].燕山大学学报,2014,38(3):243-251.
[5] 王彬宇,刘文芬,胡学先,魏江宏.基于余弦距离选取初始簇中心的文本聚类研究[J].计算机工程与应用,2018,54(10):11-18.
[6] 王全胜.Python在校园数据分析中的应用——以一卡通消费为例[J].电脑知识与技术,2017,13(09):1-2+6.
[7] 徐丹丹.專利文本聚类分析及可视化研究[D].南京:南京理工大学,2009.
[8] 姚长青,杜永萍.降维技术在专利文本聚类中的应用研究[J].情报学报,2014,33(5):491-497.
【通联编辑:梁书】