高继平,赵 婧
(中国科学技术信息研究所,北京 100038)
从管理学视角尤其是情报学和科学计量学视角来看,基础科学研究常采用论文予以表征,而专利则用于体现应用技术研究。要弄通关键核心技术的基础理论和技术原理,就需要搞清楚基础科学研究对应用技术研究的作用和贡献;要理解技术科学是科学原理和产业发展、工程研制之间不可缺少的桥梁,则有必要厘清应用技术研究对基础科学研究的作用和贡献。从管理学视角而言,需要探究论文与专利二者间的互动和关联。
当前研究论文与专利二者之间的关联,尤其是从定量角度进行分析的方法主要包括基于共知识创造者的分析、基于主题词的分析、基于分类映射关系的分析、基于耦合关系的分析、基于论文-专利混合共被引的分析,等等。
共知识创造者的分析主要是分析论文作者与专利发明人的对应关系,以有效发现基础科学研究和应用技术研究间的关联,其基本理论假设是个体知识具有累积性和延续性,即某一学者撰写的论文和专利存在共同的知识基础,具备这样双重身份的学者又被称为 “学术型发明人”。
德国学者 Meyer[1]比较了英国、德国和比利时在纳米科学和纳米技术方面的研究人员的论文发表和专利申请,通过基于发明人姓氏和姓名首字母的匹配程序来识别学术型发明人,得出学术型发明人在基础科学研究和应用技术研究中发挥重要作用的结论。Bonaccorsi等[2]调查了纳米技术领域发明者的团队情况,发现学术型发明人申请的专利会引用更多的科学论文,更能充分利用两种身份所兼具的专业知识,实现科学研究与技术发明间的互促互进。
基础科学研究和应用技术研究的关联本质上是两个知识系统的关联,通过判断在两个知识系统中知识单元的关联性也可以有效揭示二者间的联系和区别。主题词是论文和专利中的最基本知识单元,主题词之间的知识关联能够很好地判断基础科学研究主题和应用技术研究主题间的异同及作用。
目前,基于主题词的分析主要有两种思路。一是以某一 (或一系列)主题词 (科学概念或技术术语)为 “关联点”,分析该主题词在论文和专利中的 “共现”情况,进而推理和判断基础科学研究与应用技术研究之间的关系。刘自强等[3]通过提取基因领域专利的主题词和论文的主题词,分别构建了基础科学研究与应用技术研究的主题词共现网络,通过比较总结了四种基础科学研究与应用技术研究的互动模式。二是分别对基础科学研究型论文和应用技术研究型论文做共词聚类,然后对聚类结果进行定性分析,从而挖掘基础科学研究与应用技术研究之间的知识转移特点和关联关系。Callon等[4]将科学文献划分为两个集合,一个为侧重基础科学研究的集合,另一个为综合基础科学研究与应用技术研究的集合,对两个文献集合分别做共词聚类,通过聚类簇中相同主题词的个数来计算相似度,以此揭示二者间的关联程度。
基于分类映射关系的分析方法是将论文的学科主题与专利的领域主题进行匹配,形成学科主题-领域主题或学科分类-领域分类映射关系,以揭示学科或领域层面基础科学研究与应用技术研究之间的发展趋势及其相似性。
Verbeek等[5]采用IPC-ISI分类映射,其中IPC是国际专利分类代码,ISI (现为科睿唯安旗下Web of Science数据库中的论文分类)则是一种学术论文的学科分类标准。研究结果表明引文分布高度倾斜,能够区分与基础科学研究产生高度互动的应用技术研究领域,以及那些技术开发高度独立于基础科学的领域,以此反映二者之间的知识流动。康宇航[6]通过技术专利对科学论文的引证,将技术领域的IPC分类与其引用的非专利引文中的文献关键词进行匹配,通过非专利引文分析方法,从专利文献与非专利文献之间的主体行为 “关联-引证”中寻找线索,揭示内在的知识关联,将无形的知识流动过程显性化。
1963年,Kessler[7]首次提出文献耦合 (Bibliographic Coupling)的概念——如果A文献与B文献同时引用了C文献,则A和B之间存在耦合关系,A和 B之间存在相近关系。宁子晨等[8]将这种耦合分析法移植到专利权人-关键词的分析中,研究从专利权人视角构建专利权人-关键词耦合网络、技术共现网络以及专利技术-文献关键词网络,并分析了数据挖掘领域中的技术演化。
在2021年的 《Journal of Informetrics》中,武汉大学的两位学者[9]提出一种知识网络的耦合方法来衡量基础科学研究和应用技术研究的联系,知识网络耦合可以确定基础科学研究与应用技术研究之间的领先与滞后关系,使基础科学研究与应用技术研究之间的测量从传统线性模型转变为网络模型。他们对节能领域进行了实验研究,证实了知识网络耦合的方法可以成功揭示基础科学研究与应用技术研究之间的相互作用,揭示了基础科学研究发展先于应用技术研究进步。
无论是专利引用论文分析还是论文引用专利分析,都是单向的,即反映的是先行基础科学研究对应用技术研究的影响,或者是先有应用技术研究对基础科学研究的影响。这样的分析方法很难反映高科技时代下基础科学研究与应用技术研究间的相互融合、渗透,更难以客观展示基础科学研究与应用技术研究间相互作用下的知识流动。
Gao等[10]提出论文-专利混合共被引分析方法,指出该方法有以下五方面作用:①共被引分析法可以用于研究学科或领域的知识演进及变化;②单件专利/论文中专利、论文间的共被引可以反映基础科学研究与应用技术研究间的相互作用;③基于大样本的专利、论文混合共被引分析,可以反映基础科学研究与应用技术研究相互作用对后来科学技术进步的影响;④应用社会网络分析法于共被引分析,可以将网络属性与技术演化/科学进步的机理有机联系起来,发掘技术进步中重要的基础科学研究;⑤基于时间线的共被引网络聚类分析可以寻找到技术演进/科学进步的进化路线。随后,高继平等[11]借助专利与论文的共被引模拟了基础科学研究与应用技术研究的相互融合,并从共被引网络与知识网络的相互关联探析知识流动中的基础文献,分析技术进步下基础科学研究与应用技术研究在知识流动中的相互融合。
共知识创造者的姓名匹配有一个基本条件:一个海量的数据集,即在基础科学研究与应用技术研究互动关系中扮演双重角色的研究人员的样本集。然而,学术型发明人的数量在实践中相对较少,同时在识别过程中还会碰到国内学者同名同姓不同人的问题,以及国外学者姓名同音异义的问题,难以识别与匹配。
主题词的颗粒度太小,表征的意义很有限,且论文和专利的用词习惯有较大差异,会导致基于主题词的基础科学与应用技术关联分析难以真正体现它们的互动及其强度。
分类映射法在实现中有一定弊端,主要是研究过程中多使用较大颗粒度的IPC分类号,降低了关联结果的准确性。另外IPC分类是以功能为分类原则,与学科的分类很难匹配起来。比如:数学在基础科学研究中是一个重要学科,然而在IPC分类中就没有对应可以匹配的分类。因此在优化学科划分的同时,还要融入其他的算法和模型才能实现分类映射,体现出基础科学研究和应用技术研究间的互动。
基于耦合关系和基于论文-专利混合共被引去研究基础科学研究和应用技术研究之间的联系,优势在于指代清晰,很容易定位什么样的基础科学研究成果和什么样的应用技术研究成果发生了作用,但同样容易使研究结果局限于具体细节。
针对上述不足,本文提出将论文共被引网络聚类和专利共被引网络聚类映射到论文-专利混合共被引网络聚类上的方法,从微观方面展示哪些基础科学研究和哪些应用技术研究之间作用和关联,同时从宏观方面展示和比较受基础科学研究和应用技术研究影响的技术分布。
徐晓丹等[12]强调华为公司的崛起在于依靠科技创新,诚如华为主页 (https://www.huawei.com/cn/corporate-information/research-development)所述,华为持续加强基础科学研究,广泛探索通信、计算、人工智能等领域中的基础理论问题。
根据中国科学技术信息研究所多年来的中国科技论文统计[13-14]:华为公司连续多年在国内发明专利授权量最多的公司企业中位列第一位。另外,华为公司多年来一直和国内重要高校合作,资助相关领域重要的基础研究,指导其未来的技术发展[15-18]。
在Derwent Innovation中,检索公开年为2010—2019年10年间华为公司授权的发明专利。为了进一步合并所有子公司的专利,这里采用科睿唯安的专利权人代码进行合并相关专利,其中华为技术有限公司的专利权人代码为HUAW-C (简称华为),最终检索到11828件。之后下载所有专利数据,每件专利包括申请年、公开年、专利权人、手工代码、施引次数、专利引文、非专利引文等字段,并导入MySQL,用于后期的统计分析、指标计算、矩阵计算、模型分析、可视化分析、聚类分析,等等。
本文构建了基础研究和应用研究对企业技术进步的分析模型,包括五大步骤,如图1所示。
图1 基础研究与应用研究相互作用分析模型
(1)通过专利授权情况表征企业的技术发展。通过每年企业授权的发明专利情况,体现当年度企业的技术状况,同时引入时间维度Y,展示企业技术发展情况T。
(2)抽取所有专利的引文体现企业的知识基础。如图1 (b)所示,通过抽取不同年度专利的引文,体现企业具体年度技术的知识基础CR,包括应用技术研究CP和基础科学研究CD,其中前者采用引文中的专利引文体现,后者采用引文中的论文引文表征。
(3)论文共被引网络聚类体现企业的基础科学研究影响。1973年,美国情报学家Small首次提出文献共被引 (Documents Co-citation)概念,即两篇 (或多篇论文)同时被后来一篇或多篇论文所引用,则称这两篇论文构成共被引关系。这样多篇论文之间通过共被引关系,就可以形成以论文为节点、以共被引关系为连线的论文共被引网络。论文共被引网络随着企业不同年度施引专利的变化而演进,通过监测论文共被引网络的演化就可以探究企业不同年度的基础科学研究分布及其影响情况。
如图1 (c)所示,论文共被引网络聚类通过将强共被引关系的论文归到同一个类中,使得同一个类中的论文相似性尽可能大,同时不在同一个类中的论文差异性也尽可能大,这样就可以由大量的论文节点通过聚类算法得到少量的论文集合,实现由微观到宏观的目的,体现主要的基础科学研究影响分布。在图1 (c)中,企业技术发展中的基础科学研究有#Paper1、#Paper2等。
(4)专利共被引网络聚类体现企业的应用技术研究影响。类似于论文共被引网络,如图1 (d)所示的专利共被引网络聚类,通过将强共被引的专利归到同一个类中,使得同一个类中的专利相似性尽可能大,同时不在同一个类中的专利差异性也尽可能大,这样就可以由大量的专利节点通过聚类算法得到少量的专利聚类,便于整体上明晰主要的应用技术研究影响分布情况。在图1 (d)中,企业技术发展中的应用技术研究有#Patent1、#Patent2等。
(5)论文-专利混合共被引网络聚类体现企业的知识基础。论文共被引网络起初是一个施引专利-被引论文间的矩阵,之后通过矩阵和转置矩阵乘积得到论文方阵,其行和列体现的都是论文,矩阵中的每一个元素体现的是对应行的论文和对应列的论文间的共被引频次。同理,专利共被引网络本质上是一个专利方阵。
论文-专利混合共被引网络通过施引专利-被引论文矩阵和施引专利-被引专利矩阵计算得到,之后进一步通过矩阵与转置矩阵乘积得到 “论文/专利方阵”。通过将论文/专利方阵导入Pajek,就可以生成论文-专利混合共被引网络。
(6)三类共被引网络的比较。将论文共被引网络聚类得到的基础科学研究情况和专利共被引网络聚类得到的应用技术研究状况一起映射到论文-专利混合共被引网络聚类的知识基础上,就可以确定技术进步中基础科学研究、应用技术研究的互相作用及其差异。
如图1 (e)所示,融合基础科学研究和应用技术研究的共同作用,在同样的阈值和聚类方法下,企业技术发展中的基础科学研究有#Patent1Paper1、#Patent2等。其中,#Patent1Paper1表示应用技术研究 (#Patent1)和基础科学研究 (#Paper1)共同作用形成一类 (#Patent1Paper1)。
这里需要说明两点:首先,论文共被引网络和专利共被引网络中筛选论文和专利的阈值要相同,即论文或专利都要达到阈值方可在网络中显示节点,论文与论文或专利与专利间的共现频次要达到阈值方可在网络中显示连线;其次,论文共被引网络和专利共被引网络采用的聚类算法要相同,迭代计算次数要相同,才能保证有意义。
在论文共被引网络的基础上,本文进一步做了聚类分析,聚类结果如图2所示。
图2 论文共被引网络分析 (聚类视图)
首先,将Pajek生成的论文共被引网络导入VOSviewer,然后,根据VOSviewer的密度聚类算法,可将论文共被引网络划分为8个聚类。在聚类的基础上,进一步根据引文聚类的施引专利确定具体论文引文聚类的研究内容,标注为聚类的标签,见表1。基于论文共被引网络聚类分析,最终可以生成8个聚类,分别是:聚类1 “数据通信中的错误检测和预防”技术、聚类2 “IEEE 802.11无线链路”技术、聚类3 “计算机数据处理系统”技术、聚类4 “数据通信中的网络使用和运行监控”技术、聚类5 “数据通信中的一般性电气工程”技术、聚类6 “无线电传输系统”技术、聚类7 “移动无线电收发机”技术、聚类8 “数据通信中的功率控制和保护”技术。
表1 论文共被引网络聚类分析
在专利共被引网络的基础上,本文进一步进行聚类分析,聚类结果如图3所示。同样采用VOSviewer自带的密度聚类算法,专利共被引网络可以形成13个聚类。在聚类的基础上,进一步根据引文聚类的施引专利确定具体专利引文聚类的研究内容,标注为聚类的标签,如表2所示。
表2 专利共被引网络聚类分析
图3 专利共被引网络聚类视图
专利共被引网络聚类分析最终可以生成13大聚类,分别是:聚类1 “密钥更新方法和设备”技术、聚类2 “无线局域网网关”技术、聚类3 “移动性处理”技术、聚类4 “通信系统中的序列分配、处理”技术、聚类5 “互联网流量内容分发”技术、聚类6 “音频/语音信号的编码/解码”技术、聚类7 “复用数据流”技术、聚类8 “通信协议中地址分配”技术、聚类9 “信息传输的方法技术”、聚类10 “唤醒接收器通信的方法”技术、聚类11 “无线通信系统中资源分配”技术、聚类12 “发送机”技术以及聚类13 “通信网络中用于关联移动装置的方法”技术。
相对于专利的被引频次而言,论文的被引频次相对较低,其中,被引论文的峰值为13次,被引专利的峰值则是26次。针对论文-专利的混合共被引网络,本文进一步生成论文-专利混合共被引网络聚类,如图4所示。
图4 华为公司论文-专利混合共被引网络聚类视图
同样采用VOSviewer自带的密度聚类算法,论文-专利混合共被引网络可以形成12个聚类。在聚类的基础上,作者进一步根据引文聚类的施引专利确定具体引文聚类的研究内容,标注为聚类的标签,见表3。
论文-专利混合共被引网络聚类共计生成以下12大类技术:
聚类1主要是指 “信息传输的方法”技术,主要内容由专利共被引聚类1、聚类3、聚类5、聚类9、聚类10以及论文共被引聚类7的内容组成。
聚类2主要是指 “通信协议中地址分配”技术,主要内容由表2中的聚类8和聚类13组成。
聚类3主要是指 “复用数据流”技术,代表性专利是US7986700B2。具体内容见表2中的聚类7。聚类3的主要内容由专利共被引网络聚类7的内容组成,故而采用原专利共被引聚类中的聚类7内容标签。
聚类4主要是指 “音频/语音信号的编码/解码”技术,代表性专利是US8532998B2,具体内容见表2中的聚类6。聚类4的主要内容由专利共被引聚类6的内容组成,故而采用原专利共被引聚类中的聚类6内容标签。
聚类5主要是指 “发送机”技术,代表性专利是US8320849B2。聚类5的主要内容由专利共被引聚类12的内容组成,故而采用原专利共被引聚类中的聚类12内容标签,见表2中的聚类12。
聚类6主要是指 “无线通信系统中的资源分配”技术,代表性专利是US8254942B2。聚类6的主要内容由专利共被引网络聚类11以及论文共被引网络聚类1、论文共被引网络聚类4和论文共被引网络聚类761的内容组成。
聚类7主要是指 “密钥生成的方法及系统”技术,代表性专利是US7936880B2,其名称为 “密钥衍生方法、设备及系统”,公开了一种密钥的衍生方法、生成设备和系统的技术专利。
聚类8主要是指 “无线局域网网关”技术,代表性专利是US8391262B2,具体内容见表2中的聚类2。聚类8的主要内容由专利共被引网络聚类2的内容组成。
聚类9主要是指 “信号发送装置和信号处理系统”技术,代表性专利是US8254471B2,其名称为 “远端串扰抵消方法、装置及信号发送装置和信号处理系统”,实现了一种远端串扰抵消方法。
聚类10主要是指 “通信系统中的序列分配、处理”技术,代表性专利是US9143295B2,具体内容见表2中的聚类4。聚类10的主要内容由专利共被引网络聚类4的内容组成。
聚类11主要是指 “多点传输的通信系统和方法”技术,代表性专利是US10090890B2,其名称为 “在通信系统中用于多点传输的系统和方法”,提供了一种用于多点传输操作的方法,并使用重新配置的无线电承载启动到用户设备的多点传输方法和系统。
聚类12主要是指 “信息比特发送方法和系统”技术,代表性专利是US10277361B2,其名称为 “一种信息比特发送方法、装置和系统”,公开了一种信息比特发送方法、装置及系统。
首先,华为公司的技术进步主要受益于先有技术,而非先有科学。基于表3的分析结果,可以认为华为公司近10年的技术进步主要源自信息传输的方法、通信协议中的地址分配技术、复用数据流技术等12个方面的知识基础,其中仅有知识基础1 (信息传输的方法)和知识基础6 (无线通信系统中的资源分配技术)包含部分先有科学。
其次,从技术视角看,通过采用专利共被引网络聚类分析,可以较为全面地展示华为近10年的技术发展状况。通过对比表2和表3,可以发现表3中的12个聚类结果在表2中8个有体现,且5个聚类结果在表2和表3中都完全一致。
最后,缺少基础科学研究,仅从应用技术研究的角度看待技术发展,局部是片面或割裂的。通过对比表1和表3,可以发现尽管表3中的聚类6 (无线通信系统中的资源分配技术)主要是源于表2中的聚类11 (多点传输的通信系统和方法),但是该类技术也是受益于先有基础科学研究,如表1中的聚类1 (数据通信中的错误检测和预防技术)和聚类4 (数据通信中的网络使用和运行监控技术)。
著名科学计量学家赵红州等[19-21]认为,科学家的创造性思维是将各类 “知识元”极其巧妙地沿着一定的思路进一步重新组合,任何一种科学创造过程都是先把结晶的知识元游离出来,然后在全新的思维势场上重新结晶的过程。这种过程不是简单的重复,而是在重组中产生全新的知识系统及全新的知识元。刘则渊教授[22-23]对知识元作了精炼评述: “在一定条件下,某个关键的知识元可能扮演‘知识基因’的角色,决定着特定领域知识的进化与突变。这样,基于知识元的特定知识领域所构成的复杂自组织知识系统,就能够在可视化的知识图谱上展示知识的产生、传播和应用,知识的基础、中介和前沿,知识的结构、演化和重组,知识的涌现、断层和变革,等等。”结合本文的分析情况,表1、表2和表3中的聚类都可以看作知识元,扮演着知识基因的角色。
首先,部分基础科学研究对先有技术起着重组的作用。如表3所示,表1中聚类7 (移动无线电收发机)的加入导致表2中聚类1 (密钥更新方法和设备)、聚类3 (移动性处理技术)、聚类5 (互联网流量内容分发技术)、聚类9 (信息传输的方法)和聚类10 (唤醒接收器通信的方法)重新组合为一个表3中的聚类1 (信息传输的方法)。尽管表3中聚类1的名称和表2中的聚类名称相同,但是表3的内容却有较大变化,一方面新增了表2中的四大技术聚类,意味着表2中聚类1、聚类3、聚类5、聚类9和聚类10间有较强的相关性,另一方面表2中的聚类9有更重要的价值。此外,增加了表1中基础科学研究聚类7,导致表2中的聚类1、聚类3、聚类5、聚类9和聚类10重组为一个新的聚类,体现了基础科学研究聚类7的重要 “重组”作用。
其次,部分基础科学研究对先有技术起着变革的作用。通过对比表2和表3先有技术中不存在的聚类,由于基础科学研究的作用,导致新增部分聚类,如聚类7 (密钥生成的方法及系统)、聚类9 (信号发送装置和信号处理系统)、聚类11 (多点传输的通信系统和方法)、聚类12 (信息比特发送方法和系统)等。在表2中,原先一些不重要的、没有体现的聚类,通过增补共被引的基础科学研究内容而迅速凸显出来,充分体现了一些基础科学研究的变革作用。
再次,基础科学研究和应用技术研究的互相作用,会暴露出之前单一来源下无显示度的知识基础。以表3中的聚类6为例,论文共被引网络聚类下的聚类761在表1中根本没有体现,但是通过论文-专利混合共被引网络聚类却凸显出来。
最后,部分基础科学研究起着关键连接的桥梁作用。1篇DOI为10.1109/VETECF.2007.393的被引论文在表3的聚类6中出现了7次,然而其在论文共被引网络聚类分析 (见表1)中却根本没有体现,因为该论文是专利引用的唯一论文,导致其与其他论文没有共被引关系,而在专利共被引网络中也没有体现,但是在论文-专利混合共被引网络聚类中却因为其多次关联了多项专利而成为重要的桥梁。值得注意的是:该论文在WoS中的被引频次为0。
在分析基础科学研究对技术发展的影响方面,本文融合论文共被引网络聚类分析、专利共被引网络聚类分析和论文-专利混合共被引网络聚类分析,并以聚类结果分别体现基础科学研究和应用技术研究影响。通过施引专利内容角度的挖掘,融合网络分析和聚类分析,可以得出一个整体性的结论:技术渐进式发展推动技术不断演化,部分科学融入技术,颠覆原技术演化轨迹。
综合论文共被引网络聚类和专利共被引网络聚类,与论文-专利混合共被引网络聚类相比,无论是数量还是质量角度,先有应用技术研究对于华为公司的技术发展起到了决定性作用。不过,通过引入先有科学知识,一方面促进了基础科学研究和应用技术研究的融会贯通,另一方面加速了先有技术的变革、分裂。
在未来的研究中,可以分别抽取中国、美国、日本、德国等国家进行比较分析,发现基础科学研究对不同国家技术发展的贡献是否有一定的共性或者差异。此外,还可以华为公司的案例进行深入分析,比如将表3中的聚类6引用的论文网络和专利网络单独提取出来,从时间维度跟踪基础科学研究、应用技术研究分别的作用时间,以及彼此间的作用强度,等等。