大数据环境下的专利分析模型研究

2018-01-10 07:33赵澎碧
现代情报 2018年1期
关键词:分析模型专利分析

卢 青 赵澎碧

(1.上饶师范学院政治与法律学院,江西 上饶 334001;2.中科柔性(北京)科技发展有限公司,北京 100000)

·理论探索·

大数据环境下的专利分析模型研究

卢 青1赵澎碧2

(1.上饶师范学院政治与法律学院,江西 上饶 334001;2.中科柔性(北京)科技发展有限公司,北京 100000)

“大数据”(Big Data)应用已经拓展到众多领域,在以专利资源为主导的知识产权领域,将发挥重要作用。本文分析了大数据专利分析现状,对美日韩主要专利软件(平台)进行了深入分析比较,并结合其优缺点,构建出了大数据专利分析模型(PDAP)。

大数据;专利分析平台;大数据专利分析模型;PDAP

在信息技术快速发展的今天,社交网络、物联网等应用范围越来越广,产生了大量的非结构化数据,传统的数据存储分析技术面临新的挑战,大数据的概念由此应运而生。同时,技术的进步使得语义分析、智能算法、统计分析工具等不断完善和推广,“大数据”(Big Data)和云计算技术日益成熟,一个大规模生产、分享和应用数据的时代正在开启。

专利作为国家自主创新成果的重要载体,具启发性、可靠性和准确性。世界知识产权组织研究表明,全世界最新的发明创造信息 90%以上首先通过专利文献反映出来,因此在研究开发过程中,发挥专利文献和专利制度的作用,不仅能提高研究的起点,而且能节约 40%的研发费用和 60%的研发时间。

大数据提供了空前的数据量,每个数据都是情报数据源,与大数据的专利数据相结合,隐含着巨大的经济价值。从2015年开始,我国知识产权相继实现年发明申请量和有效发明专利拥有量都突破了100万件的成就,彰显出中国市场的创新活力。世界知识产权组织2016年11月发布报告指出,2015年中国专利申请量达110多万件,几乎占到全球总量的四成。同时,中国专利申请增速最快,增幅高达18.7%[1]。俄罗斯莫斯科大学的《创建分布式计算系统的分析模型》论文提到:“美国、日本、韩国、中国”已成为世界专利大国的第一阵营[2]。2015年9月15日,国家知识产权局局长申长雨在专利信息年会上指出:要实现专利信息服务与互联网和大数据的深度结合,既要依托互联网提高专利信息的传播利用效率,也要借助大数据对专利数据信息进行深度整合加工挖掘处理,并实现与经济贸易等数据的关联分析,使得更有价值的隐性信息浮出水面,加以利用[3]。

加强加快知识产权运营平台建设,利用网络环境下的大数据,通过专利分析模型进行目标分析就是一种可行和高效的科学方法。本文对国内外主要专利软件(平台)进行了深入分析比较,构建了大数据专利分析模型(PDAP)。

1 大数据专利分析的现状

“大数据”(Big Data)概念在上世纪90年代最初提出时,是对无法用传统手段进行抓取、管理和处理的数据的统称。近年来围绕大数据产生的新技术,高速、大规模的数据交换、互联,以及从前无法想象的数据处理方式已经成为现实[4]。这为专利分析提供了一种利器。

专利信息与大数据进行“联姻”,会诞生出此前不曾预料的价值。如利用专利的申请人信息,就能够对不同类型的创新主体进行专利情报分析;利用发明人信息,就能从多个角度对创新者进行分析……

我国专利申请总量2012年全年达205万件,而2013年8月7日至8月14日的1周内,中国就有4 451件发明专利获得授权,美国有5 725件专利获得授权[4]。如此大量的专利“大数据”,使得对专利内容的分拣、选取、利用都成了“大任务”。目前,世界各国的在线专利文献检索服务均已比较成熟。国家知识产权局也建成了专利检索与服务系统,任何用户都可在中国专利数据库中进行搜索,其中大部分都可看到专利说明书等详情。

基于传统数据库技术与搜索技术,目前的专利数据已可以针对多种著录项目进行检索,性能成熟稳定,但在大数据技术下仍可期望有更多进展。专利文献的内容以直接公开技术信息及相关法律信息为主,其著录项目不可能包含所有商业竞争情报分析所需要的信息,其后大量隐性信息则需要大数据的支持来获得[4]。

大数据最大的特点是“要数据全集,不要采样”,目前已有专利信息的全部著录项目都会得到利用。不仅专利权人、发明人、摘要这些重要的信息栏目会被重点分析,包括公开(公告)日期、优先权日、申请日、IPC分类号、申请人地址在内的信息也会获得活力,能够对不同类型的创新主体进行专利情报的分析,能够从多个角度对创新者进行分析。做专利信息的深度加工和先进的检索分析平台,有很大的市场前景。

目前的大数据分析技术已经能够大幅度加快数据的检索速度,实现实时处理数据规模超过万亿甚至十万亿,数据从产生到能够查询到结果这个间隔不超过5秒。在大数据知识型相关网络中,数据巨量但有序,数据关系复杂但相关。通过大数据技术相关计算,完全可以将隐蔽、不相关、非结构化的知识转换为结构化的相关知识。在大数据专利分析中,非结构化的专利文本信息,都可通过实时自动相关计算,快速进行精确量化,通过复杂计算发现隐藏在大数据专利中的各种潜在相关模式。

2 国内外大数据专利分析平台(软件)比较

在专利数据库中,对专利申请号、授权号、专利名称、申请人等基本信息,现在都做到了有效搜索,成了分析平台(软件)的“标配”,因此分析工具的对比中就不列此项了。

2.1 国内专利分析平台介绍

近年来,国内的专利分析平台(软件)发展迅速,有的已经处于国外领先水平,特别是分析工具的研发应用,促使了统计分析功能不断完善,如INCOPAT、PATENTICS等,为企业提供竞争情报和决策服务起到了越来越重要的作用。本文统计分析了国内主要的25家平台(系统),其主要特点见表1。

表1 国内主要专利分析平台(系统)及其特点

表1(续)

2.2 美日韩专利分析平台介绍

在大数据进行专利分析应用方面,美国、日本、韩国等专利强国开展研究比较早,软件也比较成熟。特别是美国的分析工具有强大的挖掘、准确的分析和丰富的可视化等功能,并且软件种类繁多。表2统计分析了美日韩主要的专利分析工具,并从数据转化、文本挖掘、文本分析和可视化等方面列出其主要特点[11]。

2.3 国内外专利分析平台的比较

从以上对国内外主要专利分析软件(平台)分析可看出,共同点是数据库建设比较完善,数据采集比较全面,数据更新比较用时,检索功能强大,图表统计分析基本形成,初步形成了对个人和企业的个性专业服务。但若在服务项目和技术水平上进行比较,可发现国内的专利分析平台(软件)大多是功能形式比较单一,仅限于表格,没有图形或文字分析报告。另外,中国科技情报所和各省、市的情报所的网站上都有中国专利数据库,但都仅限于各种途径的检索,而且一般不提供免费服务,专利统计信息基本上没有,也不提供专利统计服务。

表2 美日韩专利分析工具及其特点

总之,在大数据已经开始广泛应用的今天,国内专利分析软件(平台)存在有十大不足。即:1)对专利文本内容的分析不足;2)智能检索分析和机器语言的应用不够完善;3)专利分析结果的可视化智能分析表现单薄;4)平台对接、跨区域平台运营能力较弱;5)企业专利预警分析软弱;6)国家专利数据库开放程度还不高;7)对专利成果交易、转移的分析不足;8)专利成果交易和转换率的分析不够;9)专利质量的比较分析涉及不多;10)专利成果对国家创新、竞争力的贡献率分析不足。

3 大数据专利分析模型(PDAP)的构建

通过上面国内外成熟的专利软件的分析,结合他们的特性,我们遵循大数据分析的设计思路来构建专利分析模型,以软件的模块化作为开发设计原则,以方便系统的更新与改进。此模型我们称为“大数据专利分析平台”(Patent Data Analysis Platform,简称PDAP)。目前,人工智能语义搜索和神经网络工具已经在繁杂的多元数据中得到了应用。PDAP基于机器学习来进行非结构性数据和混合性数据转换成结构性数据;基于智能分析工具进行数据挖掘、清洗、对比和分类,并对专利技术特征词和特征向量进行归库;基于专利分析工具结合专利指标体系来建立相关模型,并进行各类层面的可视化分析,实现各种功能。

3.1 PDAP设计整体思想

PDAP整个系统的设计思想采取模块化设计,以解决软件的复杂性,且使系统不至于随着数据的变大而失控,使其可控、可维护、可扩展,然后定义良好的接口把若干模块组合起来。这些模块相对独立,块块之间用接口(协议)通信,多个块组合可完成一系列功能。这些模块接口定义后就能组配出各种分析功能,而组配是灵活自由的。如此,随着分析算法的补充完善,可对局部进行改造、优化甚至替换,使得专利分析模型不断适应实际环境的变化。

即:PDAP=A+B+C……,其中:A、B、C等代表各个模块,每个模块都可单独完成特定的任务,如时间模块可提取某个时间段的专利数据。如时间模块与频率模块组合,可提取某个时间段的专利产生频率图。

3.2 PDAP设计原则

PDAP开发系统的基本原则是以系统总体目标为宗旨,为用户提供一个技术先进、成熟可靠、灵活运用的分析系统。因此,系统设计遵循如下原则:

1)开放性——系统在设计时考虑到功能的可扩展性与维护的方便性,使用的操作平台类型、应用服务器、编程语言和数据库,将遵循通用性、开放性,以期达到减少后续分析功能的增加和维护修改的难度。

2)先进性——开发语言采用(java、php、python、c#)+H5,后台数据库采用mysql,这种组合技术是完全基于Linux平台进行开发,降低了系统运营成本,提高了系统的稳定性和易维护性。

3)高性能——PDAP系统的硬件搭配,能够使平台充分胜任对大量用户同时处理专利分析的要求和专利数据信息量不断增长的要求。

4)实用性——PDAP平台以专利常用需求的分析为目标,以方便用户为原则,在吸取国内外专利分析经验的基础上增加国家创新能力(科技创新)等功能;同时可以利用大数据,分析用户的行为特性。

5)安全性——充分考虑系统及数据资源的容灾、备份、恢复等安全要求,为系统提供强大的数据库备份工具。

3.3 PDAP模型架构

PDAP模型大数据技术栈是由文件系统、数据管理、业务计算和展示模块构成(见图1)。其中:文件系统是专利及相关的公报、年鉴等数据库的一种资源管理系统;数据管理是对数据库的结构化数据(如专利主分类号、发明人 、申请人 、申请日期等)、非结构化数据(如专利的图片、XML、HTML、专利和各类报表、图像等)进行存储和管理,如某个时间维度的专利数据,某个行业维度的专利数据等;业务计算是用批处理、流处理和图计算等不同的计算范式(认可度分析、时间维度、频率分析、行业分析等),来衍生出编程模型的计算模型;展示模块是利用统计分析、数据挖掘、可视化分析及工具语言等,来展示出专利信息的树状图、条形图、分布图、热力图等。

图1 PDAP模型大数据技术栈

从不同渠道(如各国家或地区、国内各省市)来获取专利数据和相关数据,作为数据分析的数据源,但这些数据格式是不固定的,甚至是“散乱”的,利用起来困难,因此要通过专利数据分布系统来进行“整理”。在PDAP的分布式文件系统中,初步的对全国31个省市的专利按时间(2010-2015年)进行获取,并加入此时间段内的公报和年鉴相关数据,作为文件目录,初步分布到各个系统里面,进一步做出R&D投入产生专利的比值、各省市研发人员产生专利的比值等方面的精细化分析。

图2揭示了构建PDAP遵循的基本架构,图3、图4分别表示“数据源”的基本特征、“数据库”的基本特征。“数据库”基本特征是大数据应用的基础。

构建PDAP的基本思路是分级分类、分级提取和分级分析,针对不同的分类,使用不同的数据分析工具。PDAP主要采用以下几种“数据分析工具”。

1)SAS统计分析软件:可对大数据专利下的复杂数据进行统计分析,具有编程扩展其分析能力,可数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等。

图2 PDAP的基本架构

2)Excel电子表格软件:对分类后的数据进行简单的分组和求和需求时使用,特别是新增强的可视化和网络关系分析,使用方便简捷;但对复杂的多元的数据结构及大数据量的支持仍然较弱,所以当数据量过大时,会自动关闭并转换到其他分析工具。

3)SPSS统计产品与服务解决方案:可与Excel软件相结合使用,做数据的因子分析、聚类分析等等,以达到整个系统的“平衡”。

图3 “数据源”基本特征

图4 “数据库”的基本特征

然而,类型不同、格式不同,其算法也不同,但是,其目的是能够更加快捷地进行处理。大数据专利文献经过智能工具进行数据挖掘、清洗、对比和分类,分析出专利技术特征词和特征向量后进行归库。笔者参考索意互动(北京)信息技术有限公司的Patentics软件,经过研究,得出相关模型:

LM={(TCi,VCi);i∈[1∶M]}(X,Y)

X,Y——表示专利文本统计的起始时间与结束时间;

M——表示(X,Y)时间段内的专利授权量;

TCi——表示M个专利的技术特征集合;

VCi——表示M个专利的特征向量集合。

PDAP呈现给用户的不仅有大量数据的列表,还可以有直观呈现大数据特点的可视化分析,如复杂的图表、专利地形图、专利热力图、专利气泡图等。

4 PDAP的初步测试

根据专利的应用特征和大数据分析工具而初步建立的PDAP系统,是国家科技创新和企业技术创新决策的支持系统,将是一项具有重大现实意义的研究课题。PDAP系统的架构已经建立起来,对部分功能模块进行了研发。笔者选择2014年中国专利数据和国民经济相关数据进行测试分析,其数据在PDAP系统中的列表如表3。

表3 利用PDAP系统对2014年中国专利数据和国民经济相关数据测试分析的结果

注:①此数据是从国家统计局数据库中的各省市相关的数据导入,合计数值与统计局的全国数据有一定的差异,在此以各省市的数据合计为准。②A—各地区的GDP(亿元);③R—各地区的常住人口(万人);④B—研究与试验发展(R&D)经费支出,指各地区/调查单位用于开展R&D活动(基础研究、应用研究和试验发展)的实际支出(万元);⑤C—规模以上工业企业R&D人员全时当量(人年);⑥M1—专利受理量(项);⑦M2—专利授权量(项);⑧M%=M2/M1—专利有效率;⑨N=(M1-M2)—无效专利数量;⑩N%=(M1-M2)/M1—专利无效率;P1=M2/B—R&D万元投入产生专利的比值,反映研发水平的指标之一;P2=M2/C—研发人员(人年)产生专利的比值,反映研发水平的指标之一。

图5 、图6分别是放大千倍后显示的各省市R&D投入产生专利的比值和各省市研发人员产生专利的比值。

大数据专利分析模型的构建,所依赖的数据源已经得到政府部门的大力支持,目前面临的主要问题是:1)专利分析指标体系的确定,世界上还没有统一而完善的专利评测指标体系,理论方面还在进行探讨。2)专利分析工具的程序开发和应用方面,以及文本的机器语义检索和分析还有待进一步提升。3)大数据的安全问题必须从法律和技术两方面进行加强保护。4)国内对专利分析结果的可视化方面要进一步开发研究。

虽然,对PDAP系统的构建我们迈出了第一步,但许多模块的测试应用工作还需要得到实际的检验。

图5 各省市R&D投入(万元)产生专利数量(放大千倍显示)

图6 各省市研发人员(人/年)产生专利数量(放大千倍显示)

5 结 语

PDAP的研发是我们在专利应用方面做的一种尝试,思路是:第一步在专利分布文件系统的基础上,通过Hadoop,或者其它类似key-value形式的数据缓存分析系统提取专利和相关的数据,作为专利数据索引,便于后续根据用户需求来快速获取指定的数据内容;第二步是根据时间点、专利的区域、产生频率、专利认可度等维度初步对专利数据索引分析,确定用户的“需求域”以及需要进一步分析的专利数据;第三步是根据需求,将分析计算后的专利数组可视化(行业分布图、专利产生频率图等)展示出来,便于直接观看,获取需求信息。

本文首先分析了大数据环境下专利分析的发展状况,对国内外主要专利软件(平台)进行了特征分析和优势比较,并结合其优缺点,构建出大数据专利分析模型(PDAP)。然后对部分功能模块进行测试。随着数据可及性的提高,诸如产业、贸易、金融等各种类型、各种角度数据的公开,将这些数据与专利数据结合,通过关联分析可以获得更加深刻的洞察力,为用户提供及时、可靠的竞争情报。当然,PDAP系统还需进一步完善专利评测指标体系和相关数据的筛选。此外,数据安全性、专利分析可视化、构建更加完善的专利分析模型等都是我们未来要努力的方向。

[1]王宾,胡喆,陈宇轩.中国专利渐成世界创新“推手”[N].新华每日电讯,2016-12-23,(5).

[2]Архипова М.Ю.Карпов Евгений.Анализ и моделирование патентной активности в России и развитых странах мира;《Анализ факторов развития национальной инновационной системы в России》,проект 11—02-00426а,2011.

[3]王宇.让丰富的专利信息资源焕发出推动创新创业的蓬勃力量[N].中国知识产权报,2015-09-16,(1).

[4]刘阳子.“大数据”能否连通专利信息“孤岛”[N].中国知识产权报,2013-08-22,(3).

[5]Divakar Mysore,Shrikant Khupat,Shweta Jain.“大数据架构和模式”[EB/OL].大数据动向,http://kb.cnblogs.com/page/510978/,2015-01-29.

[6]石书德.从主要专利质量指标看我国专利的发展水平[J].科技和产业,2012,12(7):123-126.

[7]GUAN J C,GAO X.Exploring the h-index atpatent Level[J].Journal of the American Society for Information Science and Technology,2008,59(13):1-6.

[8]国务院.“十三五”国家科技创新规划[S].2016.

[9]王曰芬,刘卫江,邱玉婷.专利预警信息分析系统的体系架构设计[J].情报理论与实践,2014,37(6):107-111.

[10]李静,郭吉安.企业专利预警指标体系研究[J].图书情报工作,2009,53(4):69-73.

[11]王曰芬,张旭,邬尚君.在线专利分析软件的总体架构[J].现代图书情报技术,2008,(10):48-53.

ResearchonPatentAnalysisModelinBigDataEnvironment

Lu Qing1Zhao Pengbi2

(1.School of Politics and Law,Shangrao Normal University,Shangrao 334001,China;2.Zhongke Soft(Beijing)Technology Development Co., LTD,Beijing 100000,China)

The application of Big Data has expanded to many fields,and will play an important role in the intellectual property which is dominated by patent resources.This paper analyzed the status of patent analysis of big data,analyzed and compared the main patent software(platform)in China and abroad.Combing with their advantages and disadvantages,the paper constructed a big data patent analysis model(PDAP).

big data;patent analysis platform;data patent analysis model;PDAP

10.3969/j.issn.1008-0821.2018.01.005

G255.53

A

1008-0821(2018)01-0037-08

2017-09-25

2016年江西省知识产权软科学项目“大数据环境下的专利分析模型研究”(项目编号ZR201602)。

卢青(1965-),女,研究员,硕士生导师,研究方向:公共管理。赵澎碧(1965-),男,研究员,研究方向:大数据应用与架构。

孙国雷)

猜你喜欢
分析模型专利分析
基于BERT-VGG16的多模态情感分析模型
专利
隐蔽失效适航要求符合性验证分析
发明与专利
电力系统不平衡分析
层次分析模型在结核疾病预防控制系统中的应用
电力系统及其自动化发展趋势分析
全启发式语言分析模型
IFC4结构分析模型应用技术
专利