郭剑明 王婧怡 袁 润,2
(1.江苏大学科技信息研究所 镇江 212013 2.江苏大学图书馆 镇江 212013)
从海量的专利信息中全面准确地识别出核心专利对研发主体而言具有重要现实意义[1]。核心专利的识别方法大致可归纳为专利信息属性指标识别法和专利技术关系特征识别法两类,前者发展相对成熟,后者随网络科学的兴起而快速发展。专利信息属性反映专利的个体价值[2],专利技术关系反映专利的全局价值[3]。一般来说,不同关系构建的网络具有不同的特征,揭示的专利价值也有所区别[4]。引证关系是专利分析中最常用的一种关系,具有关系明确、易于提取等特点,但时滞性强,不利于分析最新申请/授权的专利。共引关系反映专利技术之间的某种相似性,由此构建的共引网络更为简单,时效性更好。因此,开展识别核心专利的共引网络分析研究,对发展专利网络分析理论与方法具有学术意义和应用价值。
核心专利是指在某一领域具有首创性的并以此为核被后续科技文献引用以及产业化集聚必不可少的专利[5]。利用专利信息属性识别核心专利,经历了使用单一指标、组合使用多种指标到构建指标体系的发展过程。单一指标法主要统计专利文献中某一指标的频次,例如专利被引频次[6-7]、同族专利数[8,2]和权利要求数[9-10]等,该方法将频次较高的专利视为核心专利。组合指标法利用多种指标识别核心专利,有利于避免单一指标法识别结果的片面性。指标体系法通过构建指标体系,并利用主观或客观的方法赋予指标权重,识别结果相对全面客观[11],例如钱过[12-13]等先后采用层次分析法和粗糙集理论计算权重系数并识别核心专利。
基于技术关系特征的专利网络分析通常以专利为节点,技术关系为边构建网络,并利用节点重要性表征专利重要程度。因此,判定网络节点重要性成为研究的关键。例如,陈祥等通过构建引证网络,在定义技术扩散广度和深度指标的基础上构建核心专利识别模型[14]。一些学者将PageRank 算法应用于专利网络分析,发现识别结果优于被引频次指标[15],并且可以利用专利属性,如专利年龄和被引频次[16]等改进算法,优化识别结果。也有学者认为单一使用直接引证关系存在局限,如潘颖认为仅利用直接引证关系不足以反映技术发展全貌,于是补充了间接引证关系使得识别结果更加准确[17]。李睿等认为直接引证关系无法测度技术间的相似性,而利用专利共引与专利耦合关系进行聚类,能揭示技术演化规律,识别基础专利[18]。此外,专利引证网络的时效性较差,不能识别最新申请/授权的核心专利,并且存在无法细分专利技术所属行业或领域的局限[16]。
不同的技术关系反映了不同的技术特征[3]。除直接引证关系外,专利间还存在共引关系。共引关系反映了不同专利技术在理论或方法上的相似性或同源性[18],其相似程度由共引强度测量,共引强度越大相似度越强,借此可以进行专利主题聚类[19]、研究前沿识别[20]。此类方法一般通过构造共引关系矩阵,再转化为相似系数矩阵,继而进行聚类分析或多维尺度分析[21]。例如,Smojver 等利用共引关系探索了技术领域内的知识流动现象,发现共引网络时效性强,能够动态反映技术发展[22]。此外,孙海生比较研究了文献共引网络和耦合网络的区别,发现共引关系在高被引文献之间建立的联系更紧密,因此能够确定领域内的核心文献[23]。
综上,专利之间的关系较多,除了引证关系之外,还存在共引关系等。根据不同关系构建不同网络,既有各自优势,也存在各自的不足。对基于技术关系特征的核心专利识别方法而言,需要取长补短,不断发展完善。例如,专利直接引证关系存在的时滞性问题、引文噪声问题、引用倾向性问题等[24],需要从新的视角或采取新的方法来改进和完善。由于共引关系能在高被引文献之间建立更紧密的联系,这一结论为开展共引网络分析提供了新的视角。本文拟从以下两个方面开展研究:一是构建专利共引网络和直接引证网络,比较研究其结构特征差异;二是定义并计算共引网络节点重要性指标,识别核心专利。
本文以专利为节点,专利之间的共引关系为边构建专利共引网络,用PageRank 中心性表征节点重要性,以此为判据识别核心专利。
本文假设:具有共引关系的专利a 和b 结为一对,称之为“专利对”,它们在主题或内容上具有某种程度的相关性,且相关程度与共引强度成正比。这个假设是合理的,因为专利共引关系能反映特定范围内专利之间的相互联系[25]。从网络分析视角看,共引网络(Co-citation, COC)相比直接引证网络(Direct-citation, DC)具有两方面优势:一是共引网络属于“无向有权”网络,构建方式简单直接[26];二是共引网络反映了“专利对”之间的动态结构,时效性更强[14]。因此,可以通过构建专利共引网络和直接引证网络,比较两种网络的结构特征和时滞差异,并在计算网络节点重要性的基础上识别核心专利。
专利共引网络是以专利为节点,专利间的共引关系为边构建的网络。一般地,网络常用邻接矩阵表示,对于拥有n个专利节点的共引网络G可用n行n列邻接矩阵表示为公式(1)。
其中,coc表示专利共引网络邻接矩阵,Aik=1 表示存在专利k引用专利i,否则为0。若存在节点i,j,k,节点k引用节点i和j,则Aik·Ajk=1,说明节点i和节点j存在共引关系。对角线元素数值在共引网络分析中无实际意义,作取0 处理。由此,专利共引网络可抽象表示为“无向有权”图,进而可利用相关理论知识分析节点重要性。
在专利共引网络中,一个节点周围通常有很多邻居节点,只要考虑其邻居节点的重要性以及节点间的共引强度就能够量化表征该节点的重要性。如图1(a)所示,圆圈表示专利直接引证网络中的节点,箭头表示引用关系。虽然节点a 和b 的入度均为3,但由于后续间接引用节点b 的专利更多,节点b 的技术扩散范围更广,因此可判断节点b 的重要性更大。图1(b)是专利共引网络示意,专利b 和其他3 个专利共同被引用了4 次,说明专利b 同其他专利间的知识流动更为频繁,技术联系更强,故可判断出专利b 的重要性更大。同时,专利a 与b 的共引次数为2,而专利c 和d与b 的共引次数为1,专利a 相较其他专利与专利b 的知识流动更为频繁,因此可以认为专利a的重要性大于d 和c。
图1 专利节点重要性计算示意图
以上分析表明,专利拥有的共引关系数量越多,或与重要专利间共引强度越大,专利共引网络对该节点的依赖程度越高,其重要性越大。PageRank 中心性既考虑了待评价节点拥有的引用关系数量,也考虑了与待评价节点存在引用关系的节点的质量,符合共引网络节点重要性判断依据。故选用PageRank 中心性计算节点重要性,进而定义基于共引网络的节点重要性评价指标CPTR(CO-PatentRank),计算方法如公式所示:
其中,α为阻尼因子,一般取值0.85,COC为共引网络邻接矩阵,COCij表示节点j和节点i的共引强度,kj表示节点j的度数,β表示节点i的个性化得分,其值一般设为(1-α)/n,n为网络节点数。进而,可在计算网络节点重要性指标CPTR 的基础上识别核心专利。
将所有专利按照CPTR 值降序排列,取排名靠前的高CPTR 专利作为核心专利。共引关系能够从动态发展的视角科学合理地评估专利价值,在共引网络中占据重要位置的专利有更多的机会获取技术知识、对其他专利产生重要影响,因而具有价值[3]。CPTR 值越大,意味着专利拥有的共引关系数量以及专利自身的重要性都相对较高,故其重要性相对更高,价值更大,越有可能成为核心专利。此外,专利网络中的每个专利可看作是由多知识组成的技术整体,专利间的引用关系是知识溢出和流动的过程[27],这种技术扩散现象体现了技术的发生发展规律[28]。对于专利共引网络来说,主题或内容相关性强的专利共同被后续专利的引用会导致技术扩散范围不断扩大,CPTR 高的专利具有的技术扩散能力更大,越有可能成为核心专利。因此,可以利用CPTR 指标识别核心专利。
超精密抛光是在纳米级表面实现平坦化,是制造集成电路的重要工艺,属于我国芯片制造领域“卡脖子”技术之一,主要采用化学机械抛光(CMP)和无应力抛光(SFP)等关键技术[29]。目前,在平坦化工艺领域具有国际竞争力的企业主要集中在美国、日本和德国,识别该领域核心专利对跟踪发展我国相关技术具有现实意义[30]。
数据获取和预处理步骤如图2 所示。首先,参考文献[30]的检索策略,检索德温特专利数据库[31],检索日期为2022 年7 月13 日,经下载和数据清洗得到11 539 条“平坦化工艺”领域专利数据,利用R 语言抽取专利PN 号、申请时间等属性指标,形成实验数据集;接着,借助igraph包构建了专利引证网络和专利共引网络,并抽取了它们的巨连通分支,其中专利引证网络拥有3 626 个节点和7 761 条边,专利共引网络拥有3 146 个节点和10 595 条边,计算CPTR 值,将所有专利按照该值降序排列,并根据斐波那契数列将其划分为核心专利、关键专利、重要专利和一般专利,完成核心专利的识别。
图2 核心专利识别流程
两种网络的基本特征如表1 所示。网络拥有的节点数量代表其评价网络中每项专利的能力[24],两种网络的节点数差别不大,在DC 网络的3 626 个节点中,只有480 个专利没有共引关系,说明共引关系较为普遍,利用共引关系构建网络具有可行性。COC 网络比DC 网络拥有更多的专利对,连接关系更为丰富,更能展现专利间关系的多样性。COC 网络的平均度比DC 网络更大,表明平均每个专利虽然只被引用2.41 次,但共引有6.74 次,利用共引关系有助于补充单一引证视角存在的局限。网络密度能够表征网络中关系的数量及其相邻程度,虽然两者的密度都小于0.003,反映了专利网络的稀疏性,但是COC 网络密度明显大于DC 网络,表明共引网络的整体结构特征更完整。平均路径长度可以作为判断网络中专利对之间“知识流”传递紧密程度的判断标准[24],其值越低,说明网络中专利对之间进行“知识流”传递的可能性越大,COC 网络平均路径长度为1.614,低于DC 网络的2.034,表明共引网络的“知识流”传递较直接引证网络更强。
表1 两种网络的基本特征
引用时滞反映存在关系的“专利对”之间的申请时间差异,是评价专利网络效果的关键指标,引用时滞越短表明专利网络越能够对新出现的专利做出评价[24]。引用时滞分布如表2 所示。从表2 可以看出,COC 网络的平均引用时滞为39.33 个月,DC 网络为57.31 个月,平均引用时滞缩短了18 个月,意味着共引网络比直接引证网络更能评价新申请/授权的专利,时效性更强。
表2 网络的时滞分布表
综上,共引网络与直接引证网络一样具有评价网络中每项专利的能力,能够用于识别核心专利,并且共引网络的“知识流”传递较直接引证网络更好,时效性更强,有可能识别出新申请/授权的高价值专利作为核心专利。
专利价值存在“长尾分布”特点,核心专利数量极少[5]。利用文献[13]对核心专利的量化方法,将专利数据集划分为核心、关键、重要和一般专利区。根据斐波那契数列得到四个分区,分别占专利总数的5.57%、9.02%、23.61%和61.80%,其中核心专利仅占全部专利的5.57%,符合二八定律。
利用对比分析验证CPTR 的识别效果。选用被引频次(degree)、应用于直接引证网络的PageRank 中心性(简称PR)作为比较指标,对比分析3 146 个专利中的175 个核心专利。
就总体识别结果而言,CPTR 指标能够反映专利价值的“长尾分布”特点。各项指标得分的描述性统计结果如表3 所示。可以看出虽然degree 与PR、CPTR 的量纲不同,但其得分分布没有明显差异,三种指标偏度值均大于3,峰度值均大于23,得分分布呈现右偏厚尾特点。三种指标均能反映专利价值的“长尾分布”特征,说明不同识别方法间具有可比性,也侧面验证了CPTR 指标的合理性。
具体来看,表4 给出了CPTR 排名前20 的专利,比较共引强度、degree、PR 等指标,专利的具体信息参见表5。发现CPTR 排名高的专利其共引强度和degree 排名也较高,而PR 排名变化较大。共引强度排名前20 的有16 个,degree有18 个,而PR 只有8 个,说明两种网络的核心专利识别结果存在一定差异,共引网络与直接引证网络测度的技术关系价值有所不同。
表4 CPTR 得分前20 专利的各指标排名结果
US6368955-B120029022670.001 6981060.002 6756 US6358130-B120027832750.003 879290.002 6477 US6551935-B12003651124100.001 0482120.002 6468 US6017265-A20007272660.005 066140.002 4739 US6238271-B120017642580.005 127130.002 45210 US6565619-B12003601320170.000 7383080.002 37311 US6783436-B12004561720180.000 5323960.002 22912 US6135859-A2000482422130.005 86290.002 22813 US6022264-A200070922110.003 908280.002 21514 US6093651-A2000502322120.005 701110.002 18715 US6537133-B12003611221150.003 373350.002 06916 US6354928-B12002571618220.000 4354290.002 05817 US6274478-B12001453422140.005 817100.001 99518 US6689692-B12004433917270.004 339230.001 98819 US6328634-B12001591419190.000 9482350.001 94620
表5 CPTR 得分前20 专利
结合专家判断和数据库材料佐证,CPTR 识别出的核心专利多为领域内的基础性技术。如排序第1 的US6024630-A 来自全球最大的半导体设备和服务供应商应用材料公司(APPLIED MATERIALS INC),该专利公开了具有晶圆周长保持环组件的半导体晶圆抛光头技术,可用于在抛光过程中保持基板的稳定,为磨削工艺奠定了技术基础。又如排序第2 的US6099604-A 来自美光科技有限公司(MICRON TECHNOLOGY INC),该专利公开了一种用于化学机械抛光工艺的研磨浆改进技术,由于使用了在研磨抛光过程中并不激进的CMP 技术,并且增加了抛光速率,为后续CMP 抛光工艺开辟了新道路[32]。从技术体系发展的内在逻辑规律看,这类专利形成了该技术领域的雏域态,处于共引网络的核心位置,因此在技术领域发展过程中成为起到奠基作用的核心专利。
此外,CPTR 能够将部分新申请/授权的高价值专利识别为核心专利。以DE102007035266(2009)为例,其CPTR 排名第3,PR 排名第357,差异明显。由于其公开年份相对较新,引用该专利的施引专利因为被引量相对较少所以价值相对较小,导致该专利的PR 得分较低、排名较后。但从共引网络视角,该专利共引强度为69,在领域内与其他专利的技术联系密切,并且与该专利存在共引关系的专利价值较高,所以其CPTR排名靠前。这也反映了CPTR 指标的贡献:当利用PageRank 算法识别技术领域内的核心专利时,专利之间的引证关系并非必要条件,而利用共引关系仍能得到合理准确的识别结果,CPTR指标降低了PageRank 算法的约束条件。
本文研究了专利共引网络和引证网络识别核心专利的方法,比较分析了两种网络的结构特征和时滞差异,在计算网络节点重要性指标CPTR 的基础上识别“平坦化工艺”领域核心专利,得到以下结论:
(1)专利共引网络和专利引证网络在识别核心专利方面存在差异。共引网络能够展现专利关系的多样性,具有整体结构特征更强,引用时滞更短,“知识流”传递能力更好等特点。
(2)专利共引网络节点重要性指标CPTR 降低了约束条件,识别结果的时效性优于传统的专利引证网络,能识别出新申请/授权的核心专利。
“平坦化工艺”领域具有国际竞争力的企业主要集中在美国、日本和德国,识别该领域核心专利对我国企业了解、掌握竞争对手技术现状和创新模式具有借鉴作用,对跟踪发展我国相关技术具有现实意义。
诚然,核心专利识别的复杂性源于专利分析对象的多样性,专利文献、专利权人、专利技术、专利分类、专利发明人等实体都可能成为核心专利识别的分析对象,需要根据不同的场景,利用不同的关系,应用不用的方法,使识别结果互为补充。