武兰芬
摘要
近年来,云计算和大数据的共同发展极大地提高了决策的效率、科学性和精确性。作为技术创新的重要知识来源,专利大数据蕴含的丰富的技术、法律和经济价值信息,亟待深度挖掘和充分利用。本文阐述云计算和大数据的关系,分析专利大数据的特点,探讨云计算在专利大数据分析中的应用。
【关键词】云计算 专利大数据 数据挖掘
全球的专利数据总量至今已经超过1亿条,而且专利数据每周都在进行更新。专利大数据蕴含的丰富的技术、法律和经济信息具有巨大的经济和社会价值。以云计算技术推动专利大数据的深度挖掘和分析,可以加快实现专利大数据在我国创新驱动发展战略和经济社会发展中的应用。
1 云计算与大数据
云计算作为一种计算资源配置模式,通过提供泛在、便捷、按需的网络访问,使用户进入可配置的计算资源共享池,按照需求使用网络、服务器、存储、应用和服务等。云计算的基本特征包括按需自助服务、广泛的网络访问、资源池化、快速扩展性、服务可计量化。
大数据的本质是从海量的数据中发现隐藏在其中的规律并对事物发展的可能性做出预测。国际商业机器有限公司(IBM)的数据科学家将大数据的特性归纳为四个方面:
(1)数量巨大(volume),据估计每天产生的数据量可以达到2.3万亿GB;
(2)形式多样(variety),数据来源于商业交易、智能设备、社交媒体和互联网日志等,数据格式包括著录数据、文本、图片、音频、视频等各种结构化、半结构化和非结构化数据;
(3)速度快(velocity),数据产生和处理的速度都非常快;
(4)真实性要求高(veracity),数据分析和决策的精确依赖于数据的可靠性和正确性。
云计算和大数据的发展对人们的思维、管理方式和决策能力都产生了深远影响。云计算解决的是计算资源的共享和高效利用,而大数据的意义在于对数据的深度挖掘、分析和应用。对海量数据的挖掘需要高速实时运行的数据分析技术和计算资源,云计算所具备的按需服务、动态调配、快速扩展等特点正好解决了大数据处理技术的需求。云计算和大数据的结合可以加速实现海量数据资源的深度挖掘和利用。
2 专利大数据的特点
专利是反映科技创新最重要的知识产权形式,保护对象为整个实用技术领域,许多发明成果仅通过专利文献公开,并不见诸于其它科技文献。专利信息不仅揭示发明创造的实用技术,也用来确定专利权人独占的权利范围,還可以反映专利产品和投资的市场趋势,是集技术、法律和经济于一体的信息。专利信息是知识产权战略管理和决策中最基础最重要的信息来源,高质量的专利信息对于知识产权的创造、运用、保护和管理起着重要的促进作用。
专利大数据是指专利相关活动中产生的数据,包括专利申请、审查、许可、转让和诉讼等各方面的数据。专利大数据的挖掘,不仅要关注专利数据本身的价值,也要重视专利与产业、经济和贸易等数据的关联分析,实现专利数据对产业和经济社会发展的贡献和价值。对专利大数据进行深度挖掘和充分利用,不仅可以提高我国知识产权的发展水平,而且可以为我国创新驱动发展战略和产业转型升级提供良好的助力。专利大数据蕴含着极其丰富的知识资源,其特点主要有:
2.1 数据量巨大,更新周期快
作为最能体现技术创新水平的发明专利,2011-2015年间全球申请量从214万件增长到288万件,我国的申请量从52万件增长到110万件,连续5年位居世界首位。随着各国技术创新速度的不断加快,专利申请量逐年增长,专利文献数据也越来越多。各国专利局都在不断地对专利数据进行更新,更新的速度缩短到了每周。更新的专利文献和数据被随时添加到专利数据库中。
2.2 数据繁杂,差异性显著
由于专利保护的地域性特点,各国专利制度存在明显差异,专利收录时间、专利类型、保护期限等因素的不一致性导致各国专利数据存在很大的差别。除了专利申请审查过程中产生的专利申请公开和授权数据,专利数据还包括专利交易中发生的专利许可转让数据,以及侵权诉讼中出现的专利诉讼数据等。另外,由于各国专利审查标准和程序不同,专利的质量和价值也存在很大的差异。这些都导致在专利数据的海洋中寻找真正有价值信息的成本较高。
2.3 数据处理和挖掘难度大
专利数据分为结构化数据和非结构化数据。结构化数据以著录项目为主,包括专利号、申请号、申请日期、授权日期、申请人、发明人和专利分类号等。非结构化数据包括文本数据和图像数据,通常专利分析中以文本信息为主,包括专利的名称、摘要、权利要求书和说明书等。结构化数据可以使用数理统计分析方法,而非结构化数据因为技术和法律用语晦涩难懂,尤其对于中文专利文本,文本挖掘难度很大。
目前我国对于专利大数据的开发和利用还处于发展阶段的初期,存在巨大的市场需求和发展空间。
3 专利大数据分析中云计算的应用
在大数据背景下,企业、研究机构、服务中介、政府部门和公共群体都需要在海量的专利信息中提取、处理和利用可使用的数据、信息和知识。数据的爆发式增长,对于低成本、低能耗、高可靠性的存储方式提出了更高要求。大数据需要高度发达的计算中心作为支撑。云计算能够为大数据提供强大的存储和计算能力。采用云计算技术建设国家专利数据中心,可以推进专利数据的集中化和标准化,实现专利基础数据资源的统一管理。为了保证应对海量数据时的分析效率,高效并行处理能力也是不可或缺的。应用云计算技术于数据挖掘和分析的过程中,可以提高和改善大数据的使用效率和效果。
数据分析是大数据的处理核心。专利大数据挖掘和分析过程包括专利数据的检索、提取、清洗、分析和利用。云计算技术可以运用在数据分析的不同阶段,不同的阶段可以采用公共云、私有云和混合云等不同的服务模式。
在专利数据检索和提取阶段,需要使用专利大数据网络平台,该网络平台是以提供专利大数据检索服务的“云端”应用平台,可以为用户提供大批量、实时和智能化的专利大数据检索。专利大数据网络平台可以根据用户的使用目的、时间、流量和方式等收取不同的平台使用费用。在此阶段,对海量的专利数据进行筛选和临时存储,可以采用公共云的服务方式,能够充分利用公共云无限扩展的计算和存储能力,同时大幅降低用户的信息存储成本和空间。
在专利数据的清洗和分析阶段,可以运用云计算的并行处理技术提高数据整理、加工和分析的效率,服务模式则可以采用混合云的形式。对于技术、产业发展趋势等的宏观性分析,可以利用公共云的海量数据处理和分析优势,对于与用户自身相关的专利数据、竞争对手研判信息、企业兼合并知识产权数据等,可以采取私有云的服务方式,进行更深层次的专利数据挖掘。
在专利大数据的利用阶段,数据分析获得的有价值信息和知识可以以“云”的形式在用户内部实现共享。由于这些信息和知识需要与用户运营和发展战略相结合,为保护信息和决策的安全性,适宜采取私有云的方式。
4 结语
在大数据时代,提高对专利数据的深度挖掘、分析和利用,获取更多更有价值的隐性信息,可以极大地提升知识产权战略管理和科学决策的水平。云计算应用于专利大数据领域,将会达到降低数据存储成本,提高数据加工和分析能力,加快数据处理速度等良好的效果。云计算和大数据的综合运用,可以为我国的发明人、企业、政府决策者、公共用户等提供更快更全面的专利数据服务,推动决策从“经验加感觉型”向“数据加事实型”转变,为我国的科技创新提供更科学更高效的信息来源和情报服务。
参考文献
[1]尹林.大数据与云计算的关系探讨[J].通信与信息技术,2015(09):50-52,92.
[2]陈燕,黄迎燕,方建国等.专利信息采集与分析(第2版)[M].北京:清华大学出版社,2014.
[3]邓鹏.大数据时代专利分析服务的机遇与挑战[J].中国发明与专利,2014(02):29-31.
[4]敖翔,谢虹霞.专利大数据发展路径研究[J].中国发明与专利,2016(05):14-16.