知识单元视角下“零引文专利”技术新颖性比较分析*

2022-08-23 08:39王玉奇孙希科
情报杂志 2022年8期
关键词:先驱专利科学

宋 超 陈 悦 王 康 王玉奇 孙希科

(1.大连理工大学 科学学与科技管理研究所暨WISE实验室 大连 116024;2.潍柴动力股份有限公司 潍坊 261061)

0 引 言

专利引文已被广泛应用于技术分析,如利用专利引用专利研究技术融合、技术演进、技术轨道问题,或利用专利引用科学论文探索科学与技术之间的关联,但未引用任何参考文献的专利,即“零引文专利”[1]的相关研究很少。加菲尔德[2]认为“发明不可能来源于魔术或真空,它是发明人对若干已有概念进行重新组合的知识成果”,因此“零引文专利”所表征的技术也不是凭空捏造出来的。专利既是技术文献,也是保护技术独占性的法律文书,虽然专利发明人存在故意遗漏或隐藏[3]的引文动机,但关联性高的引文[4]通常也会被专利审查员补充进申请书,因此无论专利发明人还是专利审查员,都会按照实际需要,对专利进行必要的引文标注。而这种实际需要,主要遵循披露性原则和关联性原则[5]。那么一项经过审查后公开且不包含任何引文的“零引文专利”,其所表征的技术应具备怎样的特征呢?由于论文更多地承载着科学发现知识,专利更多地承载着技术发明知识,因而从知识传承的角度,我们可以将引用专利的专利视为“基于技术”的技术,引用论文的专利视为“基于科学”的技术。那么“零引文专利”技术与“基于科学”“基于技术”的技术之间存在显著的差异性吗?“零引文专利”技术会因为没有引文而更具新颖性吗?此类疑问,构成了本研究的科学问题和逻辑起点。

专利文本中的标题和摘要承载着丰富的信息,蕴含着大量的知识单元,适合进行深度挖掘。本文首先基于科学论文关键词构建起主题词表,即科学知识单元,进而利用自然语言处理中的N-gram模型对专利文本的标题和摘要进行分词,获得技术知识单元,并构建知识单元多维测量指标,运用知识单元游离和重组的观点,借助多项Logit模型定量分析其与技术类型形成的关系,并重点研究“零引文专利”这类特殊现象的技术新颖性特征等问题。

1 理论回顾与研究评述

1.1 技术演化过程中的知识单元游离与重组

科学学视野下的“知识单元”一词,最早由赵红州[6]于1984年提出,将其定义为“定量化的科学概念”,开创了知识单元的研究起点。刘则渊[7]在此基础上提出可以用于计量的“知识单元”概念。知识单元是知识进化过程中发生遗传和变异的基本单元,可以用表达知识内容的主题词或关键词集合进行表征[8]。赵红州等[9]认为,任何一种知识创造过程,都是首先把已结晶的旧知识单元游离出来,然后再在全新的思维势场上进行重新结晶的过程,这一过程并不是简单地重复,而是在重组过程中产生出一种全新的知识系统和单元。因此新知识创造的过程就是知识单元的重组过程,在这个过程中,旧的知识单元会变革即创生为新的知识单元,完成了知识单元的游离与重组。这也就为使用旧知识单元来解释新知识的形成提供了理论逻辑和实践可能[10]。

通常来说,一项新技术的形成是对已有技术的直接组合或改进,或者是在引入新的技术原理之后再进行组合或改进,这就是常说的“新技术来源于旧技术”或称“基于技术的技术”,以过去旧技术为基础的新技术,主要表现为专利对专利文献的引用,借用库恩的“范式”理论来解释,即存在着技术范式以及由范式所规定的常规技术改进,这些改进具备积累性的特征,并朝着特定的方向形成技术轨道。20世纪末以来,另一种技术演化方式也被广泛关注,即“源于科学发现的技术”或称“基于科学的技术”,位于“技术科学象限”[11]之中,此时,科学与技术之间走向了快速和深度融合,科学构成了技术发展的基石[12],特别是生物医药等前沿领域的兴起,彰显出其以科学知识突破为基础的特征[13],主要以专利引用的学术论文为表现形式。无论是“基于科学的技术”,还是“基于技术的技术”,被引用的论文或专利作为“旧知识”,旧知识单元经过游离和重组形成了新技术。那么“零引文专利”在技术演化过程中是如何进行知识单元游离和重组的呢?一项经过审查公开且没有标注任何参考文献的专利,便可以被认为是具有价值的有用技术,同时也不是专利发明人凭空想象出来的,这种类型的专利技术则是显著区别于前述两种技术类型之外的第三种类型,因此,“零引文专利”的知识单元游离和重组过程不容忽视。

1.2 知识单元视角分析零引文专利的相关评述

专利的科学引文和专利引文,构成了显性维度的科学知识[14]和技术知识[15]向新技术流动的过程。但是,这一观点无法解释“零引文专利”这种特殊情形,既然其不存在引文这种显性知识流动,可以认为其包含着某种隐性知识流动。而知识单元的游离与重组过程,可以为分析“零引文专利”的形成机理提供新视角。知识创造理论认为,个体是知识创造过程的原动力,尽管后来产生了一些被编码的新知识,但是这些知识或许已经作为已知但未编码的知识存在,即“隐性知识”,或者是“未编码的知识碎片”,而这类知识被某些个体所掌握着。进而在全新的“思维势场”上进行游离和重组之后,生成全新的知识单元,并被应用于技术发明的过程中时,便会产生出新技术,这也就明晰了知识单元与零引文专利间的逻辑关系,并为利用知识单元解释“零引文专利”的形成,提供了理论的可行性。因此,利用知识单元去探索“不包含任何参考文献”这类新技术的特征,可以被认为是破译新技术生成之前碎片化、隐性的知识单元的方式。

总结来看,以专利为载体,分析技术演化过程中知识所产生的影响,普遍是借助专利引文的分析手段。显然,专利引文分析必须建立在“专利有引用”的基础上,但存在一类“未引用任何参考文献”的专利技术,过去的研究一般将此作为“噪音”从研究样本中删除[16],可见“零引文专利”长期未得到及时关注。“先驱型技术”是“不以任何技术为基础的技术”[17],具有重要的探索精神,毫无疑问,“零引文专利”则是典型的“先驱型技术”,需要明确的是,这里的“先驱”仅仅是从其产生方式上而言,并不等同于专利价值上的“先进”。因此,本研究利用知识单元作为专利技术知识特征的刻画形式,进而测度其对不同技术类型形成的影响,可以有效地规避专利引文分析手段面对“零引文专利”时的缺陷,并且可以比较“基于科学”“基于技术”两类技术与“零引文专利”所表征的“先驱型技术”在新颖性等特征上所呈现出的差异性。

2 研究设计

2.1 数据来源与预处理

本文以“固体氧化物燃料电池”技术为例,来说明零引文专利的特征。SOFC是一项清洁电池技术,近年来在美国、德国、日本、中国等国家发展势头迅猛,主要与化学、材料学等学科有密切关系,属于典型的具有重大应用前景的前沿技术领域,因此选为案例进行研究。由于专利文本自身并不标注关键词,而对专利文本标题和摘要进行分词方式获得的单词,不足以准确刻画专利的技术知识特征。因此本文对获取专利文本技术知识单元的步骤进行了改进:a.首先,在Web of Science核心合集数据库下载该领域的28 869篇科学论文的题录信息,获取作者关键词(DE字段)和拓展关键词(ID字段),并对二者进行清洗、合并和去重,由此构建起科学知识单元主题词表;b.其次,在Derwent专利数据库检索获得该领域13 173件同族专利文献的题录信息(检索共得到13 218件,剔除标题和摘要缺失的45件同族专利数据),利用Python编程和自然语言处理技术中的N-gram模型将科学知识单元主题词表“映射”到专利文本的标题和摘要中,抽取其中的技术词汇,因词组的含义比单词的含义更加丰富,因此只保留提取出来的词组作为技术知识单元(处理步骤见图1);c.最后,分别从词组的丰富性、差异性、新颖性三个角度,构建起关于技术知识单元的三个主要测量指标。

图1 专利文本知识单元获取步骤

2.2 研究方法

本研究结合变量特征,选取多项Logit模型(Multinomial Logit Model)作为研究方法。当因变量表现为多个互相排斥的选择时,可以运用该模型方法。多项选择模型的核心思想是各个选择方案以其中一项方案为参照方案,得到各个方案的选择概率,且各项概率之和为1。

由此,个体i选择方案j的概率公式为:

P(yi=j|xi)=

(1)

其中,选择方案为j(j=1, 2, …,J,J为正整数),“j=1”即所对应的方案为参照方案。解释变量只随个体i而变,不随着方案j而变。

由此可以得到以J方案为参照方案时其余各方案的效用函数(公式2),其中P1、P2、…、PJ-1、PJ分别为各个方案的选择概率,且和为1。

(2)

此外,多项Logit模型在实际使用时,存在与多项Probit模型选择的问题,二者并无太大差异(见3.2节两种模型预测概率相关分析结论),由于后者无法从“几率比”角度对模型系数进行解释,因此实践中多使用前者。

2.3 变量选取与定义

2.3.1因变量

按照专利引文的情形,将技术类型定义为三类,第一类为“基于科学的技术”,即专利引文中引用了“非专利文献”(包含只引用非专利文献、同时引用非专利和专利文献两种情况);第二类为“基于技术的技术”,即专利引文中只引用了“专利文献”;第三类为“先驱型技术”,即未引用任何参考文献。

2.3.2控制变量

技术年龄:一项技术自从首次专利优先权申请之日起,便在事实上标志其核心技术思想已经诞生,因此选择当前年份与首次专利优先权年份之差,衡量一项专利技术被提出的时间长度,作为技术年龄的指标。

专利布局范围:专利布局活动并不单纯体现为技术独占性,更多是要继续开发和保护当地的技术市场,属于专利权人的战略行为。因此将专利申请的国家或地区去重后的数量,作为专利布局范围的衡量指标。

技术多样程度:布里渊多样性指数(Brillouin Diversity Index),是用于测度传播过程中信息熵或不确定性的重要指标(公式3),其具有兼顾差异性和均衡性的优点,受到学术界的认可,该指标最初主要用于生物多样性的分析,后被引入科学计量学领域。因此选取IPC四位分类号(小类)的布里渊多样性指数作为衡量技术多样程度指标。

布里渊多样性指数计算公式为:

(3)

其中,n是所有IPC小类的总频次,ni是IPC小类i的频次,该指数的取值范围介入[0,+∞)之间。并且,IPC小类类别i越多、ni分布越均匀,该指数就越大,表明被观测对象的多样性程度就越高。

技术改进次数:同族专利在不同的国家或地区进行申请,更多是进行一种跨国或地区的技术保护行为,而同族专利在同一国家或地区的后续专利申请,则代表着关联技术的技术改进行为。因此,在同一国家或地区,同族专利在原始专利之后进行的专利申请次数,可以较好地衡量技术改进。

研发人员数量:专利发明人的规模不仅可以表明一项专利技术的研发力量是否雄厚,同时还可以表明该项专利技术所具备的研发人员规模特征,本研究选择专利去重后的研发人员数量作为一项控制因素进行观察。

创新主体数量:专利权人的规模往往蕴涵着跨组织间知识流动的情况,可能同时包含显性知识和隐性知识的流动,不同技术创新类型的创新主体数量应该具备了不同的特征,因此纳入控制因素进行观察。

2.3.3自变量

知识单元丰富度:利用检索到的科学文献作者关键词和拓展关键词合并去重后的词汇构建起科学知识单元主题词表,然后在专利文本的标题和摘要中进行抽取,将抽取到的词组视为技术知识单元,技术词组的数量则为知识单元的丰富度指标值,可以有效度量专利文本中的技术知识。

知识单元差异度:将前述抽取得到的每件专利标题和摘要的技术词汇视为该专利的技术知识单元,然后利用tf-idf算法,得到每件专利和其他专利数据相比在该专利标题和摘要中出现次数较多、但是在其他数据中出现次数较少的技术词汇,将这类词汇视为具有差异化的技术词汇,并用每件专利具有差异化的技术词汇数量,作为衡量其知识单元差异度的指标值。

知识单元新颖度:将前述抽取得到的每件专利标题和摘要的技术词汇视为该专利的技术知识单元,然后利用burst算法,得到每件专利标题和摘要中突现出来的技术词汇,将这类词汇视为具有新颖性的技术词汇,并用每件专利具有新颖性的技术词汇数量,作为衡量其知识单元新颖度的指标值。

各变量名称、定义与符号汇总情况如表1所示。

表1 变量名称、定义与符号

3 实证研究

3.1 描述性统计

由各个变量的描述性统计结果(表2)可知,3种技术类型分布数量较为均匀;知识单元丰富度介于1~36之间,均值为7.84个词组;知识单元差异度介于0~28之间,均值为8.23个词组;知识单元新颖度介于0~29之间,均值为8.03个词组。从整体上看,一个技术领域的三种知识单元指标平均值具有相似性,但是每件专利自身所蕴涵的知识单元丰富度、知识单元差异度和知识单元新颖度是迥异的。此外,还报告了其他控制变量的描述性统计结果。

表2 变量描述性统计

“基于科学的技术”“基于技术的技术”“先驱型技术”各有3 469、4 537、5 167个观测样本,整体上看,知识单元丰富度、知识单元差异度、知识单元新颖度在三种模式上是依次减少的,但是差异并不大(表3)。

表3 各技术类型中知识单元指标均值分布

3.2 模型回归结果

经过对模型精度进行验证,发现本研究样本中的8 690件专利所属的技术类型被准确验证,可以认为模型精度较高。此外,在选择多项Logit模型和多项Probit模型时,经过对两个模型所预测的选择概率进行相关分析,得到两类模型的相关性系数均在99.29%以上,表明两个模型高度一致,并无实际差异,因此遵从研究惯例,本研究依然使用多项Logit模型。为了重点观察“基于科学的技术”和“先驱型技术”的特征,本研究以“基于技术的技术”作为参照方案(表4)。此外,针对参照方案的选择偏误可能存在的未知影响,文章还使用“先驱型技术”作为参照方案,主要变量的符号和显著性水平并没有发生明显变化,表明模型不会因参照方案造成偏差。模型(1)和(2)报告了变量系数及其显著性水平,系数的正负反映其影响的方向,不能用于刻画解释变量对因变量类型的影响大小,因此还报告了模型对应的相对风险比(1)和(2)。

在模型(1)中,以“基于技术的技术”为参照方案,在0.1的显著性水平上,技术年龄越长、专利布局范围越广、技术改进次数越多、研发人员数量越多、创新主体数量越多的专利更有可能是“基于科学的技术”,更不可能是“先驱型技术”,而技术多样程度越高的专利更有可能是“基于科学的技术”,但是对于“先驱型技术”来说,则无显著影响。相对风险比(1)中,相对于“基于技术的技术”而言,技术年龄、技术布局范围、技术多样程度、技术改进次数、研发人员数量、创新主体数量分别增加1个单位,其技术类型是“基于科学的技术”的概率分别增加了1.018、1.010、5.167、1.586、1.118和1.021倍;相对于“基于技术的技术”而言,技术年龄、技术布局范围、技术改进次数、研发人员数量、创新主体数量分别增加1个单位,其技术类型是“先驱型技术”的概率分别增加了0.945、0.961、0.175、0.755和0.929倍(注:该值低于1时,表明概率降低了),技术多样程度影响不显著。

在模型(2)中,以“基于技术的技术”为参照方案,在0.1的显著性水平上,知识单元丰富度越高,更有可能是“基于科学的技术”,更不可能是“先驱型技术”;知识单元差异度越高,更有可能不是“基于科学的技术”,而对于“先驱型技术”则不显著;知识单元新颖度越高,对于“基于科学的技术”不显著,但是更有可能是“先驱型技术”。在相对风险比(2)中,相对于“基于技术的技术”而言,知识单元丰富度增加1个单位、知识单元差异度增加1个单位,技术类型属于“基于科学的技术”的概率分别增加了1.135倍和0.901倍;知识单元丰富度增加1个单位、知识单元新颖度增加1个单位,技术类型为“先驱型技术”的概率分别增加了0.873倍、1.094倍。

据此,可以依据模型(2)写出以“基于技术的技术”为参照方案时,“基于科学的技术”和“先驱型技术”的效用函数方程(公式4),其中,P1、P2、P3之和为1。

(4)

表4 模型回归与相对风险比汇总结果

3.3 模型边际效应

进一步,计算模型各个解释变量在0.1的显著性水平上对不同技术类型的边际效应(表5)。技术年龄增加一年,技术类型为“基于科学的技术”“基于技术的技术”和“先驱型技术”的概率分别增加了0.006、0.003和-0.009,这表明“先驱型技术”特别容易在更短技术年龄的专利中出现。专利布局范围增加一个国家/地区,其属于三类技术的概率依次增加了0.004、0.002和-0.006,表明扩大布局范围的专利更有可能属于“基于科学的技术”,其次是“基于技术的技术”,更不可能属于“先驱型技术”。技术多样程度增加一个单位,其属于“基于科学的技术”和“基于技术的技术”的概率依次增加了0.239和-0.245,表明“基于科学的技术”往往具有更高的技术多样性,而“基于技术的技术”则相反,此类技术多数是对过去技术的改进,“先驱型技术”未通过显著性检验。技术改进次数增加一次,其属于三类技术的概率依次增加了0.190、0.102和-0.292,表明一项经过改进的同族专利技术,会更有可能属于“基于科学的技术”或“基于技术的技术”,更不可能属于“先驱型技术”,这一结论很容易被理解,因为一旦经过改进,必定会是以先前技术为基础,先前技术则构成了当前技术的参考文献。研发人员数量多一人,其属于三类技术的概率依次增加了0.032、0.011和-0.043,表明大规模的研发队伍会更有利于产生出“基于科学的技术”,其次是“基于技术的技术”,而“先驱型技术”则完全相反,更容易诞生于小规模的研发队伍之中,即他们所掌握的默会知识或未编码的碎片化知识,有利于产生出“先驱型技术”。创新主体数量增加一个,其属于三类技术的概率依次增加了0.008、0.004和-0.011,这与研发人员规模的边际效应类似,可见,“基于科学的技术”通常需要更多的研发组织参与,其次是“基于技术的技术”,而“先驱型技术”则经常被小型化的研发人员和组织所孕育,这类专利的发明人和专利权人往往更擅长“单打独斗”。知识单元丰富度增加一个单位,其属于三类技术的概率依次增加了0.032、-0.006和-0.026,表明包含更多、更丰富技术知识的专利更有可能是“基于科学的技术”,相比之下,“基于技术的技术”,特别是“先驱型技术”则不以创造更丰富的技术知识为目标。知识单元差异度增加一个单位,其属于三类技术的概率依次增加了-0.022、0.014和0.007,表明虽然“基于科学的技术”可以带来更丰富的技术知识,但是这类技术知识却不是差异性的技术知识,而“基于技术的技术”和“先驱型技术”则能够带来更多差异性的技术知识。知识单元新颖度增加一个单位,其属于“先驱型技术”的概率增加了0.013,属于“基于科学的技术”或“基于技术的技术”不显著,这进一步表明,相比较而言,“先驱型技术”则可以带来更多具有新颖性的技术知识。

表5 边际效应汇总结果

4 结论与讨论

4.1 结 论

a.论证了利用知识单元多维度指标判断技术类型的可行性。本研究以知识单元为研究视角,利用论文的科学知识单元主题词表和N-gram模型映射得到技术知识单元,该思路有效规避了使用专利引文方法分析技术演化过程中忽视“零引文专利”所存在的固有缺陷,成为专利计量学视角下利用专利文本研究知识载体特征问题的一种有益探索和必要补充。

b.界定了以“零引文专利”所表征的“先驱型技术”。先驱型技术的内涵特征是不以任何编码化的显性知识为基础的新技术,体现出隐性知识显性化的发明过程,具有很强的技术新颖性。虽然其未引用任何参考文献,但并不意味着“先驱型技术”是凭空想象的结果,其往往包含更少量的技术知识和较多的差异性技术知识,并且其包含的技术知识新颖性较强,通常具有更短的技术年龄,更小的专利布局规模,更少的技术改进次数、发明人和专利权人规模,因此其可能是针对某一特定问题,由少数掌握隐性知识或未公开、碎片化、未编码知识的专利发明人或专利权人所产生的技术方案。

c.发现了“基于科学的技术”具有更加丰富的知识单元,但是并没有拥有更多差异性的知识单元,其技术知识单元的新颖性则不明显,此外,技术年龄越长、专利布局规模越大、技术多样程度越高、技术改进次数越多、研发人员数量越多、创新主体数量越多,越有可能属于“基于科学的技术”。由此可见,融合了更广泛知识的技术类型,往往是因为更多研发人员和组织的参与,从而包含了众多显性知识而形成较高的技术多样程度和较多的技术改进次数,这类专利或许更加具备“原理型”技术的特征。

4.2 讨 论

本文关注到了“零引文专利”这一现象,认为其是将少数发明者或专利权人所掌握的隐性知识显性化的过程,印证了著名哲学家波兰尼做出的“人们所知道的东西远比能够表达出来的要多”的经典论述。“零引文专利”所表征的“先驱型技术”之中蕴涵了大量的技术诀窍,或许可以构成颠覆性技术创新的起点。新概念和新单元的长期积累,有可能导致整个硬核的结构变化,从而引发科学革命,科学革命分为“渐变式”和“突变式”两种,科学革命决不意味着知识单元的毁灭,旧知识单元会改变外形,同新的知识单元一起构成新理论体系的基石[6]。由此来看,“零引文专利”所表征的“先驱型技术”会导致“渐变式”或是“突变式”技术革命吗?会成为重大科学发现的新技术手段吗?会成为技术代际更替的基础吗?此外,本研究重点选取了SOFC技术领域作为分析案例,后对生物芯片技术领域做了补充对比分析(限于版面,未列出相关表格),得出了大致相似的研究结论,但对其他技术领域的零引文专利规模以及普适性等问题未进行比较,即本文研究结论的泛化能力尚待进一步检验。诸如此类疑问,留待后续进行深入研究。

猜你喜欢
先驱专利科学
循着先驱足迹 跟党走向未来
勇闯火星之登陆先驱
点击科学
科学大爆炸
宛希俨:大革命运动的先驱
致敬先驱 传颂经典
科学拔牙
2007年上半年专利授权状况统计
衰落的科学