文/郑宏松 邹倩瑜
广东省LED产业专利信息资源收集分析平台内容建设研究
文/郑宏松 邹倩瑜
在各国绿色照明工程和产业政策的扶持及推动下,LED照明技术不断进步,市场规模也不断扩大,市场竞争已变得异常激烈。随着LED行业技术水平的提高和使用领域的扩展,行业竞争将逐步体现为技术实力的竞争,而技术实力的竞争在很大程度上体现为原始科学创新并拥有自主知识产权的科技竞争。近几年跨国公司不断加大知识产权战略布局,利用“专利先行”实现“跑马圈地”,通过早期的专利布局赢得市场竞争的先机,以知识产权为名的商业阻击战将越来越激烈。
许多国家、地区、国际性知识产权组织纷纷建立知识产权数据库,开始利用互联网向公众提供专利信息服务。人们可以比较方便地通过网上的免费或者商业性专利信息源,跨时空地获取相关文献。然而简单的专利信息查询已经不能够满足用户的需求,随着用户对专利信息分析的需求升级,国内外许多知识产权组织推出专利分析软件,各分析软件具有不同特点,具体分析见表1。
表1 国内外专利分析平台对比
现有的专利分析平台多针对指定专利数据库开发,就功能而言,国外平台功能强大,但不支持中文专利数据,而国内平台仅能实现基本的统计分析功能,但存在以下四个问题:①分析数据来源单一,尚不能面向产业主题进行专利信息采集与归类。②数据预处理功能有待加强,缺乏专利信息主题数据仓库与数据字典。③专利分析模型有待完善。④专利分析报告尚不能完全由计算机自动生成。
专利信息体现了技术创新的规模和水平,体现了科技产业化的能力,体现了科技对经济增长的贡献能力。根据相关研究结果表明,有效运用专利信息,可缩短研发时间60%,节省研发费用40%。为了促进我省LED产业发展,收集、整理LED行业专利相关信息,利用大数据等信息化技术手段,以更加直观、便捷的方式进行统计分析,以便掌握LED行业专利的水平、态势、优势和差距。因此,建设广东省LED产业专利信息资源收集分析平台,对广东省LED产业专利发展规划的制定与布局决策都将具有重要的参考价值与意义。
2.1平台定位
建设广东省LED产业专利信息资源收集分析平台,围绕LED产业做好知识产权服务工作。通过对LED产业当中的专利申请量、授权量,以及国内外专利申请人的分布情况、专利布局、专利利用情况进行分析,发掘出最有可能率先突破和做大做强的技术领域,指导企业结合自身技术基础、产业优势,加大研发投入和消化吸收再创新力度,为专利陷阱规避、重大项目实施、科研人才引进提供决策依据和知识产权保障。
2.2系统架构
系统架构如图1所示。建立LED产业专利数据库系统,通过垂直搜索技术、数据爬虫等信息技术进行LED专利信息资源的收集,保存到LED产业专利信息数据库,对数据库中大量的专利信息进行分析、加工、组合,并利用数据挖掘及数学建模等定量分析工具,分析LED产业专利现状,开展预测预警,为广东省LED产业战略发展提供各种专利数据支撑和专利应用建议。
图1 系统架构
2.3建设内容
(1)建立LED产业专利信息专题数据库。
LED产业专利信息专题数据库是面向主题的、集成的、稳定的、随时间变化的用于支持LED产业管理人员决策的数据集合。其主要功能包括数据库的元数据管理,业务数据抽取、转换和装载(Extraction/Transf ormation/Loading,ETL),数据清洗,提供查询及分析接口。
以广东省LED产业为分析专题,建立LED产业专利数据库系统,通过垂直搜索技术、人工整理、交换信息源、数据字典设计等方式进行LED专利信息资源的搜集,按专利信息数据库建设标准,建成可融入广东省专利信息服务平台的LED产业专利信息专题数据库,从原有分散的数据源中提取的数据集成起来,使之遵循统一的编码规则,为数据分析和预警提供数据支持,以便适应LED专利信息分析和预警的要求。
(2)开发广东省LED产业专利信息采编发子系统。该子系统主要包括专利信息采集、专利资讯编辑、数据发送模块。利用该系统实现对LED专利信息的收集、整理、编辑、存储等目标,并使之具备信息检索,数据管理,统计分析,图表输出等功能。
专利信息采集模块实现根据设定的关键字,通过网络爬虫抓取与LED产业相关的网站网址;然后分析网址,抓取内容页面,提取文字和图片内容,进行去重、去噪(相似度计算),通过建立字典库,生成结构化的数据流保存至数据库;最后建立索引,提供数据分析接口,用户需求生成各类统计报表。信息采集原理如图2所示。
图2 互联网LED产业相关信息采集
专利信息编辑模块实现LED产业资讯与专利的动态获取和录入,全面实时掌握产业发展情况,包括产业发展、产业上中下游布局、专利诉讼等。
数据发送模块主要实现统计报表数据及用户个性化需求数据推送服务。
(3)开发LED产业专利数据分析及预警子系统。应用先进的数据挖掘与数学建模技术,开发LED产业专利数据分析及预警功能,基于对LED产品、技术相关领域的专利信息进行聚类、分析,设计合理、有效可行的预警指标体系,可通过设置预警指标参数,从技术领域、竞争对手、行业动态、法律时效等多个角度,对可能发生的重大专利纠纷和潜在风险等情况发出警报,发现、预报和警示潜在的知识产权风险。
专利预警功能必须注意:①预警的警源(指导致LED专利风险发生的根源性因素)设置。将警源转换为可量化的指标,为风险的评价提供客观性标准。除了专利因素外,专利预警体系中的警源还应考虑技术、市场、法律、人力资源等因素。②预警对象设置。需包括技术冲突性、技术威胁性、技术空白性、产业衰退性、市场预警性等设置。③预警参数设置。用户通过该模块设置各预警指标的权重,根据预警指标体系的不同,分别设置预警权重值。
(4)开发LED产业专利智能化分析报告子系统。根据专利应用规律,依照专利分析报告的格式、模版,开发一套自动生成统计表单和简要分析报告的子系统,方便用户在利用平台进行数据分析后,快速形成智能化的分析报告。
将LED产业发展历程和LED专利数据库相结合,从科技服务的角度出发,综合多学科知识进行交叉研究,构建广东省LED产业专利信息资源开发利用体系。同时,通过对LED产业在广东省、全国乃至全球的技术发展历程与现状研究,建成LED产业专利信息采编发平台、专利数据分析及预警平台、智能化分析报告平台,解决现有专利分析平台数据来源单一、数据预处理功能较弱、专利分析报告不能自动生成等问题。此外,还可以借助行业专家的力量,基于平台数据进行深入分析研究,从政府、科技服务机构两个维度为全面提升广东省LED产业的技术发展提出相应的政策和建议。
郑宏松,(1986-),助理工程师,本科,任职于广东省科技创新监测研究中心,从事科技管理研究与电子政务工作;邹倩瑜,(1985-),助理研究员,本科,任职于广东省科技创新监测研究中心,从事科技管理研究与电子政务工作。