蒋明亮 曹亮 郑建华 刘双印 符志强
摘要:为了能充分发现和挖掘当前海量专利之间的数据价值,该文设计了一个大数据环境下基于数据挖掘技术的专利信息平台,讨论了平台的具体系统架构,并描述了信息平台的功能的设计与实现情况,最后详细给出了专利分析预测模块中各种核心算法对专利价值挖掘的支持。该平台不但很好地支持专利数据信息管理的功能,还能从海量专利数据中发现专利数据存在的隐藏关系和规则,以及预测未来科学技术发展的趋势,以便辅助政府部门、科研机构、高新企业进行专利战略布局和专利技术研发。
关键词:数据挖掘;平台设计;专利信息
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)23-0138-03
Abstract: In order to fully discover and excavate the data value of the current massive patents, this paper designs a patent information platform based on data mining technology in massive data environment, discusses the design and implementation of the function of the platform, finally, gives a detailed description of the support of various core algorithms to the patent value mining in the patent analysis and prediction module. This platform not only well support the patent information management functions, but also found hidden relationships and rules of patent from the massive patent data exist, and forecast the trend of development of science and technology in the future, in order to assist the government departments, research institutions and high-tech enterprise to make patent strategy and patent technology development.
Key words: data mining; platform design; patent data
專利文献是国家发明创新成果的重要载体,是分析科学技术发展态势的重要情报来源,在国家和企业制定科技发展战略中起到重要的作用。如果可以合理利用现有的专利成果,不但可以提高研发的起点,还可以节约研发费用和研发时间[1]。专利信息是目前世界上最大的技术信息集,中国国家知识产权局每年都受理上百万件发明专利申请。目前的专利信息系统大多只是支持专利数据的录入、管理、查询、简单统计等基本功能,但面对如此海量的有价值的专利信息资源,如何发现和提取专利数据中隐藏着的关系、规则和有价值信息越来越受到国内外专家学者的关注与重视。
该文基于上述研究背景,提出基于数据挖掘技术的专利信息平台,能实现海量专利数据的分布式存储和计算,结合经典的数据挖掘算法,能高效地完成专利数据的统计、分析和预测。平台提供的功能都设计为服务对外开放,可以通过WS/REST接口方便访问,还提供具体的应用功能,用户通过系统提供的WEB应用页面可以直接完成专利的查询和检索。
1 平台整体架构设计
该数据挖掘专利信息平台采用分层的思想进行设计[2],将其分成四层,分别是数据接入层、数据计算存储层、服务层和应用层,图1给出了具体的平台系统架构图。
数据接入层主要完成数据的收集、数据的预处理、数据的抽取、以及转换和加载。接入的数据可以外部专利数据、内部专利数据、互联网数据和日志数据等,这些数据都要经过收集、抽取、清洗、转换和合成,并按照预先定义的数据模型,加载到平台的分布式数据库。Sqoop完成Hadoop和关系数据库之间数据的转换和传递,能将关系数据库的数据导入到Hadoop的HDFS中,也能将HDFS的数据导进关系数据库,如MySQL ,Oracle ,Postgres等。Flume将各个服务器中的大量的日志数据收集起来,传输到HDFS中存储,在数据挖掘时使用。
数据计算存储层的核心是分布式文件系统HDFS和并行计算框架MapReduce[3]。HDFS[4]负责完成平台数据文件的分布式存储,它主要优势是可以横向扩展,能显著提升性能,却不容易达到瓶颈,以及高容错性、高可靠性,但它存在存储大量小文件时效率低下的问题。MapReduce负责平台中大规模数据集的并行计算,并能自动划分计算数据、计算任务、分配集群节点、以及计算结果收集等。该平台也加入了Spark作为MapReduce的补充,它是基于分布式内存的大规模并行处理框架,能很好地提升大数据环境下的数据挖掘和分析的性能。在HDFS文件系统上加入HBase,它是分布式面向列的数据库,提供快速随机访问海量非结构化和半结构化数据。Hive将类似SQL 的HQL语句通过解释器转换成MapReduce任务提交到Hadoop 集群运行,能支持对实时性要求不高的大数据集的批处理任务、以及简单统计分析功能。该平台采用ZooKeeper解决分布式环境下进程相互同步的问题,能提供比如配置管理,负载均衡,名字服务和分布式同步等功能。
服务层通过WS和REST接口的方式向应用层提供专利查询、专利管理、服务管理、数据挖掘算法和数据文件管理等服务。服务层的核心是数据挖据算法,由R、Mahout和Spark MLlib提供支持。R是脚本式语言,简单易用,能提供了丰富的包,功能覆盖了简单的数据处理、数据分析、数据统计,到复杂的数据挖掘算法,以及机器学习算法,且具有强大的图形展示功能,但当数据量比较大时性能达不到要求。Mahout提供一些拥有良好可扩展和维护性的经典数据挖掘算法的实现,包括聚类、分类、回归和关联等等,且性能要比R好很多,可支持大规模在线系统数据分析和挖掘的应用。它利用Hadoop的分布式特征,将任务切分后通过MapReduce来计算完成。但有些数据挖掘的算法需要很多个步骤迭代计算时,使用Hadoop的MapReduce计算框架效率会比较低,而SparkMLlib是基于RDD,算法运算效率很高,尤其适合迭代多的计算,可以很好地补充Mahout这方面的不足。MLlib是Spark的机器学习库,包括经典学习算法实现和工具类,主要支持分类,回归,聚类和协同过滤四种常用功能。
应用层包括专利百科、专利咨询、综合服务、专利检索和专利分析预测五大应用。这些应用功能是由服务层提供支持,而且还可以扩展,只要利用服务层提供的功能做组合就可以实现更多应用功能。下面的章节会对这些应用的系统功能的设计进行阐述。
2 系统平台的功能设计
该平台的系统功能包括专利百科、综合服务、专利咨询、专利检索、专利分析预测和第三方接口等模块,其中专利分析预测功能是最核心部分。图2给出了具体的功能模块图,图3给出专利信息资源网的首页。
专利百科给出专利的相关知识、政策、法律、法规。专利咨询给出专利最新的资讯。综合服务可以帮助用户找专利、找需求、找服务和找资金。专利检索提供检索发明专利、实用新型专利和外观设计专利的功能。专利分析预测通过数据挖掘算法对专利大数据进行分析和预测。第三方软件接口提供对外的功能接口。
3 专利分析预测模块的设计
专利分析预测模块是整个系统功能最重要的部分,負责对专利大数据进行各类数据挖掘算法运算后,得到专利数据的内在隐藏联系、规则和价值,并通过图表简明扼要地呈现给用户。它由关联分析模块、分类分析模块、聚类分析模块、回归分析模块和可视化模块组成,支持的数据挖掘算法包括:逻辑回归、支持向量机、朴素贝叶斯、K最近邻、决策树、K-均值、Clara、Clarans、Apriori、FPTree、广义回归神经网络。
分类分析模块能根据专利对象的共同属性将专利数据通过专利分类模型映射到不同的专利类别中,用户可以观察到某段时间内专利申请情况的不同分类,可以预测那些类别的科技研究和应用开发是近段时间的热点,甚至的未来三五年的研究热点。也可以将存量专利数据进行分类分析,可以从专利分类视角得到科技发展的趋势。
聚类分析模块能将专利数据划分成若干分组,而且同一组内的专利数据具有较高的相识度。分类是一种监督式学习方法,需要标注训练数据和测试数据,以及通过学习建立模型,然后根据模型推测新数据的分类。而聚类是非监督式学习方法,不需要标注训练数据,是通过发现数据内在的相似性进行归类。专利文档中的摘要内容可以进行聚类分析,根据专利摘要之间的相识度对专利文档归类,以及分析出专利申请的聚类图。
关联分析模块能通过算法找出专利大数据集中有意义有价值的隐藏联系,并能用图形化的方式直观地给出技术研究领域里某些属性同时出现的规则和模型,甚至可以预测某些领域将要出现的新研究新技术新应用的趋势。关联分析模块通过计算支持度和置信度来确定专利数据隐藏联系的价值,支持度很低的规则,一般是没有意义的规则,都会给删除掉。置信度越高的规则,一般都是可靠的规则,能给出专利数据有价值联系的可能性越大。
回归分析分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。而相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量[5]。该平台也支持回归分析,在专利大数据分析中,通过建立合适的回归模型,并通过专利大数据确定参数的值来提高回归模型相关性,以更好地拟合实测数据。然后利用这些模型进行专利申报、科研技术、技术应用等方面的发展趋势预测。
可视化模块能将统计、分析和挖掘到的专利之间的联系、规则和趋势以用户容易理解的方式呈现出来,也能生成简单易懂的可视化图表,如直方图、散点图、柱状图、条形图、饼图、箱线图,折线图,复杂的分析挖掘结果可以用矩阵图、聚类图和趋势图等呈现,而且不同的数据挖掘方法可以使用有针对性的图表来显示。用户通过进一步分析这些直观专业的图表,可以很容易地可洞察到最前沿的科研动态,迅速把握特定技术发展的方向,准确预测未来技术创新的趋势。
4 结束语
专利文献是科技发展态势的重要情报来源,是制定科技战略的重要依据。而传统专利情报分析方法,如原文分析法和简单统计分析等等,已经不能满足科学技术发展的需求,而结合数据挖掘、人工智能、神经网络等技术的专利可视化分析方法将是专利文献分析预测的未来的趋势。该文利用数据挖掘技术设计和开发了一个专利信息平台,借助数据挖掘算法、机器学习算法和神经网络算法使得平台能深入地挖掘专利文献群中隐含的有价值的关系和规律,为技术创新管理提供了可靠的情报保障和决策依据。
参考文献:
[1] 马芳, 王效岳. 基于数据挖掘技术的专利信息分析[J]. 情报科学, 2008(26): 1672-1675.
[2] 孙马莉. 大数据环境下数据挖掘平台设计研究[J]. 安阳师范学院学报, 2016: 105-108.
[3] 曹云鹏, 王海峰. 面向计算模式的中间数据通讯优化[J]. 计算机应用, 2018, 38(4): 1078-1083.
[4] 顾玉宛, 王文闻, 孙玉强. 一种面向中海量小文件的存取优化方法[J]. 计算机应用研究, 2017, 34(8): 2319-2323.
[5] 孙文生. 统计学[M]. 北京: 中国农业出版社, 2014.
【通联编辑:谢媛媛】