中文专利数据可视化分析系统研究与设计

2023-02-17 01:54徐胜捷张丽丽
计算机应用与软件 2023年1期
关键词:可视化聚类专利

陈 挺 徐胜捷 陈 龙 陆 间 张丽丽

1(河海大学商学院 江苏 南京 211100) 2(河海大学计算机与信息学院 江苏 南京 211100)

0 引 言

专利作为技术信息最有效的载体,囊括了全球绝大多数最新的技术资料,对专利进行分析能够从海量的专利数据中挖掘出有效的信息。然而,现有的专利分析系统在可视化方面存在一些不足之处,针对中文专利的可视化分析工具仍然较少。因此,本文结合文本挖掘方法,设计并实现一个“中文专利数据可视化分析系统”,拓展专利分析功能并进行可视化呈现。

1 研究背景及意义

1.1 专利数据可视化分析国外研究现状

随着现代信息社会的到来,大数据时代下专利数据可视化分析工具与日益增长的专利数据之间存在着不平衡关系。专利数据被许多发达国家视为国家核心竞争力,是知识库和数据源的重要体现,国际上很早就有了对于专利信息分析相关领域的理论和研究,国际市场上对专利的竞争尤为激烈。一些大型软件公司将数据挖掘技术与专利数据可视化展示完美结合,成功开发出一批专利信息数据库和专利信息分析系统。利用数据挖掘技术和专利数据可视化展示,实现对专利信息的自动分析与管理,如德温特数据公司基于德温特世界专利索引内容的智能检索功能可以查找全球专利文献库的专利记录;IBM公司开发了“Intelligent Miner for Text”(IMT)软件,实现了对专利信息特征的检索、聚类、引文分析等功能;Aureka提供广泛的专利信息源,Aureka引证树和Aureka地形图能够形象化地显示出专利布局的重要信息,是一种深层次的专利信息分析工具;Delphion、Wisdomain Analysis Module、MCAM、Vivisimo、Invention Machine Knowledgist的功能比较简单,仅提供同义词表进行概念分组[1]。VantagePoint可以产生列表使用户得以快速浏览,同时它也提供多维度分析功能,应用模糊匹配技术来识别和整理数据。

自20世纪90年代中后期以来,专利情报相关研究一直受到国外学者的关注,研究领域不断扩展,并且日益成熟;近年来研究趋于纵深化,正面临着传统领域的逐渐分化和新兴领域的不断产生[2]。关于国外专利数据可视化分析的研究现状可以总结出一些规律和特点:(1) 理论研究与方法技术研究齐驱并驾,特别是基于专利文本挖掘的可视化分析研究最为显著;(2) 针对不同技术领域的专利实证研究,多数专利分析软件切实结合可视化研究调查,使专利数据可视化分析的结果具有极高的研究价值;(3) 能够广泛借鉴其他学科领域的科学技术方法,不断研究和总结出可视化分析工具的发展态势,向着更加前沿的方法技术深入推进,发展轨迹十分清晰。

1.2 专利数据可视化分析国内研究现状

国内在专利研究方面的首次发文时间为2007年,与排名靠前的其他国家和地区相比起步较晚[3],但是发展十分迅速,专利申请量也在不断增加。国家知识产权战略的推出,在很大程度上推动了我国专利数据可视化分析的进程。国内的研究人员着重于专利的基础理论分析,对于专利分析结果可视化研究方面较为欠缺。刘晓英等[4]对专利信息可视化分析系统的现状与技术基础做出了研究,马芳等[5]作出了基于数据挖掘技术的专利信息分析,马建霞等[6]针对专利情报分析软件的现状和趋势提出了自己的看法,刘玉琴等[7]对国内外专利分析工具做出了比较研究,方建国[8]探索了文本挖掘在专利分析中的应用。相比于国外的专利数据可视化分析研究,国内专利研究仍有很大的提升空间。

因此,针对专利数据可视化分析方面的研究,尤其是对中文专利的可视化分析研究方面存在的诸多问题及不足,本文结合数据挖掘技术,设计并初步实现了基于Django框架的中文专利分析系统,目的是在深度挖掘专利数据价值的同时,将其蕴含的信息内容可视化展现出来,为研究者或决策者提供新的思路和借鉴。

2 中文专利分析系统设计

2.1 中文专利分析系统需求分析

在专利分析中,可视化的目的是“给专利以形象”,帮助人们用视觉化的方式洞察海量专利数据背后的关系特征和规律,并能及时反馈市场趋势以及知识产权战略等领域相关的问题,让使用者在短时间内理解所获得的信息并做出相应决策。近年来,中国的科技创新能力和科学技术水平在全球化进程中受到越来越多的国家的竞争,对专利信息进行分析显得颇为重要。但是现有的大多数专利分析系统主要面对对象的英文专利的分析,中文专利分析系统少之又少,且现存的专利数据可视化分析工具仍存在较大不足,需要在今后中文专利数据可视化分析系统的发展过程中予以考虑和改进。(1) 与英文专利数据不同,中文没有使用空格对词语进行分割,同时中文一词多义、同义词等现象普遍存在,中文专利数据中对“词”的处理相比英文更加复杂。本文采用Jieba分词模块对专利数据进行分词,并依据词性筛去没有实际含义的助词、连词等,然后再进行进一步处理。(2) 传统的统计图表往往不具备交互性,可视化效果一般。本文采用PyEcharts和Pygal模块进行动态可视化展示,兼具交互性和优秀的可视化效果,能够给用户带来良好的操作体验。(3) 专利数据可视化分析工具与分析指标匹配度不高。专利数据可视化分析的准确性依赖于专利指标的选取,因此本文通过专利特征文本聚类技术以及专利引证技术实现了专利技术指标的选取及可视化分析。(4) 聚类分析功能有待挖掘。在现有基础上提供文本聚类分析的工具很少,聚类效果不理想。因此本文采用了LDA以及K-Means文本聚类技术互补形成了有效的聚类技术支持,对专利进行聚类分析。(5) 分析数据功能待完善。大多数专利分析系统只能从搜索到的数据进行表层分析,过于简单,不能深度挖掘使用者需要的信息,无法获得直观的效果。因此本文从多角度对专利数据进行了多维度的可视化分析,从描述性统计分析到聚类分析、引证分析,旨在从专利数据中获取更多具有研究性指导意义的信息。

专利数据可视化分析工具的使用效果将更加灵活多变,功能逐渐完善,适应性渐强,从专利数据分析到拓展型可视化分析的分析范围也会越来越广。因此本文研发并构建了中文专利分析系统,旨在通过可视化分析平台的建立可以让使用者从更高维度的直观视角,深入专利分析的前沿领域,解决中文专利分析系统中的上述相关问题。

2.2 专利分析结果可视化

传统的统计图表一般是静态的,用户只能通过给出的图表进行分析判断,而采用PyEcharts或Pygal模块绘制的一些图表可以在浏览器中方便地进行点选、拖动、缩放等操作,用户可以方便地对不同年份、不同地区的专利数据进行对比分析。

Echarts是一个基于JavaScript的开源项目,依赖ZRender矢量图形库,提供交互性强、自由度高的可视化图表,包括柱形图、折线图、饼图等统计图表,还有结合地理位置的地图、结合时间变化的Timeline组件等,也可以自定义链接跳转,给使用者提供了丰富的接口。

PyEcharts是用于生成Echarts的Python库,将Python与Echarts结合,可以更方便地使用Python程序操作Echarts图表的生成,从而使Python强大的数据处理与分析能力可以与Echarts美观的图表相结合,提供良好的可视化分析基础。

Pygal同样也是一个绘制图表的第三方库,提供了多种图表形式,同样具备交互性,并可以方便地生成页面并单独保存成SVG等格式的文件。

2.3 系统架构

如图1所示,本系统采用B/S三层架构,客户端浏览器将请求发送给功能支持层,功能支持层收到相应的请求后再对数据库中的数据进行操作,保证了数据对普通用户的保密性。在系统的构建过程中,充分体现了“高内聚低耦合”的建设思想,为系统标准化和逻辑的复用打下了良好基础,易于扩展和维护。相较于传统的Java Web程序,本系统通过Python Django框架实现,建设更简单,减少了编程人员的工作量,并充分利用了Python强大的第三方库资源:使用PyEcharts和Pygal模块进行动态可视化展示,使用Jieba模块进行文本分词和过滤,使用Sklearn模块进行文本聚类挖掘。用户使用浏览器登录注册即可使用本系统,登录后通过点击选择数据和功能模块,即可得到多层次、易于理解的动态展示结果。

图1 系统框架

2.4 系统流程设计

在中文专利分析系统中,用户首先输入用户名、密码登录,校验通过后进入系统。用户可以选择上传数据源或选择已有的数据源,选择数据源后可以进行专利态势分析、专利聚类分析和专利引文分析,数据流图如图2所示。

图2 中文专利分析系统数据流图

其中,专利态势分析展示了专利数据源中的专利发展趋势和分布,包括专利申请趋势分析、专利技术来源国分析、国内申请人省市分布、重要申请人分析、主题关键词词云图和重要发明人词云图等功能;专利聚类分析包括LDA主题聚类和K-Means聚类两种聚类算法,在完成聚类后可以基于聚类结果进行进一步分析,用于挖掘数据中蕴含的较深层信息;专利引证分析包括引证次数分析和引证申请人分析,可以找出行业内的重要专利,也可以分析申请人之间的引证关系,从而展示出专利申请人之间的联系。

2.5 数据模型设计

如图3所示,数据库设计采用维度模型,即使用星型模式,根据业务流程将专利基础信息划分为What、Who、Where、When四个维度,每个专利对应一个申请人、地区和公开日,但是一个申请人和一个地区可以对应多个专利,减少了数据的冗余,提高了数据的读写效率。按照维度进行预先的统计、分类、排序等操作,通过这些预处理,能够极大地提升数据仓库的处理能力。相比于3NF的建模方法,星型模式的性能优势更明显。

图3 数据维度模型

3 中文专利数据的可视化分析

本文基于Django框架搭建平台,简单实现了专利态势分析、专利聚类分析和专利引证分析,并利用可视化模块展示出来,达到更为直观简洁的效果。本文主要使用了PyEcharts和Pygal模块,两者均能实现图表的动态可视化效果,并具有较好的交互性,能够给用户带来良好的使用体验。系统实验环境及主要软件模块版本为:Windows Server 2012 R2系统,IIS 8服务器,Python 3.7,Django 3.0.5,PyEcharts 1.7.1,Pygal 2.4.0。采用光纤领域中国发明专利数据进行测试,数据截至2017年12月1日。

3.1 专利态势分析

(1) 专利申请量的趋势分析。技术领域专利申请量的变化趋势易于统计,且能直接反映该技术所处的发展阶段,可用于判断该技术是否还有价值,为企业决定是否投资以及投资力度的管控提供重要参考依据。一般将技术的生命周期划分为四个阶段:导入期、成长期、成熟期和衰退期。根据对技术当前所处生命周期阶段的正确判断,企业可以制定不同的技术策略,当技术将进入衰退期时,企业就该去寻求新技术。

如图4示例,在2003年前,该领域专利申请量少,行业处于导入期,2003年-2016年,该领域专利申请量激增,行业处于成长期。通过专利态势分析可视化,可以进一步了解某领域专利发展情况趋势,能够使学界业界的研究者更加直观感受到某领域中某项技术的潜力价值。

图4 专利授权量累计图示例

(2) 专利地域分析。专利的质量与数量是企业创新能力和核心竞争能力的体现,是企业在该行业身份及地位的象征,是国家创新力的集中体现,是国家综合国力的重要指标。在经济全球化的时代背景下,企业了解国内竞争者、了解国际形势,是生存与发展的需要。而通过对专利的地域分析,企业可以快速明确国内主要竞争者以及外国的潜在竞争者。

本文组合使用时间轴和地图组件,将地域分布和时间维度结合起来,并使用动画展示,能够让使用者一目了然地看到专利申请地域分布随时间的变化,快速定位集聚效应。

(3) 关键人物和信息分析。少数的专利申请人通常掌握了大量的专利,少数的发明人是该领域的“关键人”,是技术发展的“带头人”,对一个行业的发展而言举足轻重,行业带头人也是企业人才争夺的重要对象。发挥“关键人”的关键作用,其首要前提是需要明确关键人。专利数据中的一些关键词是技术发展的方向指标,对行业发展的未来有指导作用。通过对文本进行分词、去停用词和词频统计等操作,可以得出行业关键词,如图5所示。

图5 关键词词云图示例

本文通过词云图将统计结果呈现出来,从图6中可以清晰地看出关键的发明人和发明内容。通过高频关键词绘制的词云,可以直接了解到某领域的技术“带头人”以及主流的专利技术分布情况。

3.2 专利聚类分析

聚类是将一个数据集按照某一特定标准分割成多个不同的类或簇,同一簇中的数据对象相似度尽可能高,同时不同簇之间的数据对象差异度也尽可能高。而文本聚类则是利用聚类不需训练过程及其较为优秀的自动化处理能力,将文档原本的自然语言文字信息转化为数学信息,对文本信息进行分簇。

文本聚类的过程如下:首先,基于中文专利数据的特点,使用Jieba分词模块对文本进行分词处理,然后进行词频统计,对一些高频率但无意义的停用词进行过滤;然后,利用词袋模型和文本向量方法将数据转换为词向量并构建词权重,以此评估一个词语在文本中重要性。最后,选择聚类算法进行文本聚类,再根据结果进行评估与参数调整,得出最终结果。本文主要使用LDA主题模型和K-Means进行专利文本聚类分析。

1) LDA主题模型聚类分析。LDA(Latent Dirichlet Allocation)是一种包含了词、主题、文档三层结构的文档主题生成模型,因此也被称为三层贝叶斯概率模型。主题分布与词分布均是多项式分布。同时,LDA作为一种无监督的机器学习技术,能够从大规模的文档集和语料库中提取出来潜在的主题信息。

用d表示文档集合D中的每篇文档,w为文档d中的单词,t为主题,则文档d中出现单词w的概率如式(1)所示。

P(w|d)=P(w|t)·P(t|d)

(1)

我们将专利标题输入LDA模型,根据专利的主题将专利分进不同的类别当中,然后输出每个类别的前n个主题词。

以下为在专利分析中使用LDA主题模型进行文本聚类的主要步骤:

(1) 使用Jieba对每个专利的标题字段进行分词,过滤固定停用词、量词和标点符号,构建词袋。

(2) 统计词频,使用Sklearn中的CountVectorizer函数得到所有专利标题中各个词的词频向量和主题词袋构成的列表。

(3) 使用Sklearn中的LatentDirichletAllocation函数进行LDA聚类,设置主题个数和最大迭代次数等参数,可以得到每篇专利文献属于每个主题的概率矩阵和每个主题中主题词的分布概率矩阵。

(4) 标记每篇专利文献所属的主题,并输出各主题中词频最高的n个主题词。

使用LDA主题聚类模型对专利数据的“标题”字段进行聚类,用户可以设置最大迭代次数m和分类组别数n。其中m越大,分组的准确性越高,但相应用户需要等待实时运算的时间也会越长。

通过对比,用户可以看到各国家、地区和企业专利的类别分布,并以此判断不同国家、地区和企业研究方向的差异,同时也可对比分析各类别的发展趋势。用户还可以使用LDA主题分类对数据集进行进一步拆分研究。LDA主题聚类模型分组结果示例如图6所示。

图6 LDA主题聚类模型分组结果示例

2) K-Means算法聚类分析。K-Means算法是较为传统也较为基础的一种无监督的聚类分析算法,因其简洁高效而被广泛使用,其中的基本思想是从有N个元组或记录的数据集划分为K个簇,然后根据给定的初始点进行反复迭代,常用欧氏距离计算公式计算簇每个数据与聚类中心点的距离,使得簇内的数据距离越来越近,簇与簇之间的距离越来越远,进而达到优化簇的目的。

K-Means算法[9]如下:

假设有一数据集{x(1),x(2),…,x(m)},将其分为n个簇。

(1) 在样本中随机选取n个聚类质心点{1,2,…,n},其中i为簇Ci的聚类质心点,如式(2)所示。

(2)

(2) 计算所有质心点与各个簇之间的距离,再将该点划入最近的簇中。

(3) 重新计算每个簇的质心点。

(4) 重复步骤(2)和步骤(3)直至收敛。

使用K-Means聚类算法对专利数据的“标题”字段进行聚类,用户可以设置分类组别数n。

与LDA主题聚类的预处理方式相同,系统过滤停用词、量词和标点符号后,使用LDA主题模型进行聚类运算;运算结束后,系统对数据集中的数据标注K-Means分类。同样,通过对比,用户可以分析各国家、地区和企业专利的类别分布以及各类别的发展趋势。用户也可以选择将每组单独保存为数据集进行进一步拆分研究。

如图7所示,示例将专利数据使用K-Means算法聚为5类,不同类别间国家分布可能差异显著,可由此分析各国在不同方面专利技术的优势和劣势。

图7 K-Means类别下的专利技术来源国分布示例

本文对聚类结果进行了可视化展示,并支持进一步迭代研究,能够帮助使用者直观、快速地发现更深层次的信息。

3.3 专利引证分析

专利被引用的频次表现了该专利在某技术领域内的重要程度,如果某专利被大量后续专利引用,说明该专利具有较高的创新性和先进性,可以通过柱形图展示;如果某申请人有较多专利被引用,则说明该申请人在该领域拥有技术优势[10]。如图8所示,用户可以设置阈值并通过网络图观察专利申请人之间的引证关系并发现重要申请人。与此同时,运用专利引证关系网络,可以探究不同专利、不同申请人之间的潜在联系,为之后的专利申请乃至企业之间的科技研究合作提供借鉴之处。

图8 专利申请人引证关系网络图示例

4 结 语

本文基于Django框架和PyEcharts等可视化模块,结合文本挖掘、机器学习技术,设计并简单实现了中文专利数据可视化分析系统。从专利态势分析、专利聚类分析、专利引证分析三方面,对专利数据进行多角度分析,从描述性统计分析到数据挖掘深层分析,将分析结果通过可视化模块直观地呈现出来,有利于用户在检索专利文献时尽快获得深层次的知识,有利于企业借鉴新技术,提高运营效率,一定程度上弥补了中文专利数据可视化分析研究的不足。在此基础上,本文也为专利分析系统的开发提供了一定的理论指导。

使用部分发明专利数据进行了测试,本文能够较好地适应中文专利数据,并生成美观的交互式可视化图表,聚类算法和进一步的统计分析也能够在一定程度上发掘各国、各企业在不同类别专利上的优势和不足,为企事业单位的研究和决策提供一定的依据,相较目前的专利分析系统在中文语言支持和可视化方面有一定的改进之处,具备较好的研究前景和一定的参考价值。

同时,本文还存在一些不足,系统现有的功能实现完好,但仍有待进一步扩充完善,引入更为先进的专利分析技术。对于专利数据的深层次挖掘的研究局限于聚类分析以及引证分析层面,在之后的研究中,可以将更多的机器学习乃至深度学习的数据分析挖掘技术应用于专利数据的研究,旨在最大程度挖掘中文专利数据的价值,并通过多样的可视化图表将分析结果展现出来。

猜你喜欢
可视化聚类专利
基于CiteSpace的足三里穴研究可视化分析
专利
思维可视化
基于CGAL和OpenGL的海底地形三维可视化
基于K-means聚类的车-地无线通信场强研究
“融评”:党媒评论的可视化创新
发明与专利
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法