陈立新
【摘 要】本文在对已有的科学技术成果计量与评价方法进行统一考察和综合分析的基础上,主要以文本语义分析和引文网络分析为主,通过知识元和引文对关键核心专利进行识别,并对专利技术前沿领域和热点领域进行预判。本文的主要目标是构建一套基于知识元和引文的专利技术成果计量和评价的指标、模型、方法和理论体系,为技术成果的计量和评价探索出一种新的模式和新的途径。
【关键词】知识元;专利;引文分析;内容分析;专利计量与评价
【Abstract】Based on investigating and comprehensive analyzing for the methods used for measuring and evaluating science and technology achievements,the article present a method,by using text semantic analysis and citation network analysis, to identify the core patents,the patent technology frontier and the hot fields. This articles main goal is to build a set of indicators, models, methods and theoretical system based on citation analysis and content analysis, which could be a new mode and new way for measuring and evaluating technical achievements.
【Key words】Knowledge element;Patent;Citation analysis;Content analysis;Measurement and evaluation of patents
0 引言
技术创新已经成为我国的重大战略目标,专利作为一种重要的技术创新成果,对当今社会的经济发展产生了重大而深远的影响。因此,需要及时了解当前专利技术发展的真实状况、前沿领域及发展态势。目前对专利技术成果的计量和评价已经成为当前社会迫切需要解决的重大问题,这对整体了解和把握专利技术的发展状况和实现国家技术创新的战略目标具有非常重要的意义[1-2]。
然而,目前对专利成果的计量和评价研究有明显的不足,不管是在理论方面还是在指标和模型等方面,主要是借用和沿袭对科学论文成果的计量和评价模式[3]。这些方法和指标可以简单明了地计量出科学发展的大体概况,但是往往不能精确地反应出技术发展的个体差异和特征。可以说,评价科学论文的理论、方法、指标和模型并不能完全用来评价专利技术成果。而一些重大的关键专利技术可能会对社会产生极大的影响,因此如何识别和评价关键专利技术,把握和跟踪专利技术研发的热点领域和前沿领域就成为技术领域成果计量和评价的重大问题。当前,有很多学者已经将数据挖掘和文本语义分析技术应用于专利文献的统计、分析、评价和预测,并取得了良好的效果[4-5]。文本分析方法主要是深入专利文献的内部,从知识元的角度分析专利的研究内容,进而对其进行分析和聚类,并在此基础上对专利成果进行评价和预测[6]。可以更准确地识别和判断专利技术研发的热点领域,以及预测专利技术的成熟度和老化程度[7]。
在深入分析和借鉴当前专利计量和评价研究成果的基础上,本文提出了文本语义分析与引文网络分析相结合的专利计量和评价方法体系。该方法主要是以专利文献的内部文本信息和专利引文信息为统计分析对象,以关键核心专利技术识别、专利技术前沿领域和热点领域预判为主要任务,最终建立一套全新的专利计量与评价的指标、模型、理论和方法体系。本文以美国专利文献为样本进行专利计量和评价的案例研究。从美国专利数据库下载了1976年以后的所有文本型的专利全文数据,共计500多万篇专利文献。本文在数据挖掘的基础上,深入专利文献内部,从知识的最小不可再分单位——知识元的角度对专利文献进行深度文本语义分析。藉此对关键核心专利进行识别,并对专利技术前沿领域和热点领域进行预判。
本研究可以为科研管理部门和科技研发部门了解和评价专利技术成果,选择和确定关键技术研发领域及重点攻关方向提供有价值的情报信息。因此,基于知识元与引文的专利计量和评价研究是一项既具有重大理论意义又具有重大社会应用价值的课题。
1 基于内容分析与引文分析的专利计量与评价体系的构建
本文在对已有的科学技术成果计量与评价方法进行统一考察和综合分析的基础上,主要以文本语义分析和引文网络分析为主,通过知识元和引文网络对关键核心专利进行识别,并对专利技术前沿领域和热点领域进行预判。本文的主要目标是构建一套基于知识元和引文的专利技术成果计量和评价的指标、模型、方法和理论体系,为技术成果的计量和评价探索出一种新的模式和新的途径,并为科研管理部门和科技研发部门了解和评价专利技术成果,选择和确定关键技术研发领域及重点攻关方向提供有价值的情报信息。
1.1 基于知识元的专利文献的语义分析
从美国专利数据库下载相关数据,利用数据挖掘等技术对专利文献进行初步整理和加工,从知识的最小不可再分单位——知识元入手,分别对词语、句子、单篇文献3个层级的文本做语义分析,计算专利文献的相似性,进行聚类分析。美国专利商标局的专利数据库提供了1790年以来美国授权的所有专利文献,包括发明、外观设计等600多万项专利文献数据,1976年以后的数据包括图像型和文本型的专利全文数据。从美国专利数据库下载1976年以后的所有文本型的专利全文数据,共计500多万篇专利文献。以美国专利文献数据为样本对其进行文本分析,将专利标题、摘要、专利说明书正文和权利要求这4部分内容按照一定的权重分析其文本的语义内容。在数据挖掘的基础上,深入专利文献内部,从知识的最小不可再分单位——知识元的角度对专利文献进行深度文本语义处理。具体研究过程是首先从词的语义相似性入手,将任意两个专利文本中的每一个句子所包含的词语进行分析,同时使用同义词词典和相关软件对词语进行语义消歧和计算语义距离。然后在词语相似性的基础上对两个句子的相似性进行计算,并在句子相似性的基础上对两个文本进行相似性计算。最后,按照两个文本相似性的语义分析方法对所有专利文献进行分析,设定相似性的阈值和构建相似性矩阵,通过相似性矩阵进行聚类分析,将研究内容大致相同的专利划归为一个研究领域。
1.2 构建基于知识元的专利计量和评价体系
在对专利文献语义分析的基础上,构建引文数据库,进行引文网络分析,识别关键核心专利,判断专利技术的前沿领域和热点领域。具体研究过程是从某一个大类的专利文献入手,在文本语义分析的基础上,从知识元和时间序列的角度考察某一专利技术的新颖程度。通过统计和分析各个领域专利文献的时间序列,即可识别和判断专利技术的新颖性和老化程度。如果某一类专利及其相似专利在短时间内大量涌现则认为该类专利有可能正在形成一个热点领域并有可能成为当前的研究前沿领域;若研究内容相似的专利在时间序列上很早就已经出现,目前该类专利的数量逐年下降,则可以认为该类专利正在老化。然后在此基础上,对大量涌现的专利进行引文分析。在引文分析中,结合文本语义分析的聚类结果,根据研究的需要形成多级引文网络,即构建单项专利文献——某一专利技术领域——专利技术大类等各个层级的专利引文网络。将引文分析法结合各个层级的专利研究内容,通过知识元与引文相结合的方法对关键核心专利、专利技术前沿领域和热点领域进行分析。一般而言高水平的专利会得到同行的认可,特别是一些关键核心领域的技术会在同行中产生很大的影响并得到特别多的关注,因此关键核心专利的被引用率就会在短时期内跃升。通过知识元与引文相结合,即可综合判断出专利技术的前沿领域和热点领域,识别出关键核心专利。最终通过理论研究和实际案例研究,可以构建出一套基于知识元与引文的专利技术成果计量和评价的指标、模型、方法和理论体系。
2 结语
本文主要以专利文本语义分析和专利引文网络分析为主,通过知识元和引文对关键核心专利进行识别,并对专利技术前沿领域和热点领域进行预判,构建一套基于知识元和引文的专利技术成果计量和评价的指标、模型、方法和理论体系,为技术成果的计量和评价探索出一种新的模式和新的途径。
【参考文献】
[1]汪雪锋,刘晓轩,朱东华.专利价值评价指标研究[J].科学管理研究,2008(6):115-117.
[2]万小丽,朱雪忠.专利价值的评估指标体系及模糊综合评价[J].科研管理,2008(2):185-191.
[3]肖国华,王春,姜禾,郭婕婷.专利分析评价指标体系的设计与构建[J].图书情报工作,2008(3):96-99.
[4]王敏,李海存,许培扬.国外专利文本挖掘可视化工具研究[J].图书情报工作, 2009(24):86-90.
[5]刘玉琴,汪雪锋,雷孝平.基于文本挖掘技术的专利质量评价与实证研究[J].计算机工程与应用,2007(33):12-14.
[6]彭继东,谭宗颖.一种基于文本挖掘的专利相似度测量方法及其应用[J].情报理论与实践, 2010(12):114-118.
[7]刘玉琴,朱东华,吕琳.基于文本挖掘技术的产品技术成熟度预测[J].计算机集成制造系统, 2008(3): 506-510.
[责任编辑:田吉捷]