多层图时序专利网络中的发明者影响力演变

2023-04-29 08:58姚月娇刘向余博文
复杂系统与复杂性科学 2023年3期

姚月娇 刘向 余博文

摘要: 为探究发明者影响力的演变规律,研究了多层图时序专利发明者引用网络的节点影响力模型。划分网络层并根据节点影响延续性和高影响力节点的吸引性构建层间联系,得到发明者影响力的时序演变数据后利用分段拟合方法挖掘其中的分布和演变规律。实证分析“分子生物学与微生物学”领域专利数据,表明专利的质量和数量决定着发明者的影响力水平。高影响力发明者持续受关注,大部分中等影响力发明者和低影响力发明者会逐渐边缘化。

关键词: 多层图时序网络;发明者影响力;专利网络;演变分析

中图分类号:  G353.1文獻标识码: A

Evolution of Inventor Influence in Multi-layer Graph Sequential Patent Networks

YAO Yuejiao,LIU Xiang,YU Bowen

Abstract:To explore the evolution of inventor influence, this paper investigates the node influence model in a multi-layer graph sequential patent citation network. Divide network layers and construct the connections between layers based on the continuity of node influence and the attractiveness of high-influence nodes. After obtaining the time series evolution data of inventor influence, the distribution and evolution law of inventor influence is explored by using piecewise fitting method. An empirical analysis of patent data in the field of ‘Molecular Biology and Microbiology shows that the quality and quantity of patents determine the level of influence of inventors. With high-influence inventors continuing to receive attention, most medium-influence and low-influence inventors gradually are marginalized.

Key words: multi-layer graph sequential network; inventor influence; patent network; evolution analysis

0 引言

在大数据时代背景下,各种类型的专利数据库提供了丰富的专利文献信息,使技术与技术之间乃至企业与企业之间形成了不可忽视的联系。通过专利网络识别重要专利发明者,预判发明者影响力的演变,对认识领域发展前沿、掌握未来趋势具有重要意义,也对企业和国家制定发展战略、深化知识产权改革具有重要参考价值。Bommarito等[1]提出专利引文网络是传播学术思想、进行知识创新的重要平台。关鹏等[2]基于专利合作网络构建了影响企业技术创新绩效的理论模型,揭示了小世界特性影响企业技术创新绩效的机制。

现实中的复杂系统之间的联系频繁而紧密[3],只考虑单层网络不能广泛适用于实际问题,多层图时序网络可以探索网络层与层之间的联系,更准确地分析和预测网络的演化。复杂网络的规模日益巨大、结构日益复杂,衡量节点影响力、识别关键节点变得愈发重要,已在生态控制[4]、遏制流行病爆发[5]、金融风险评估[6]等领域有广泛应用。多层图网络具有连边异质性和层间相关性,挖掘其中高影响力的节点并掌握节点影响力演变机制,有助于探索和了解多层复杂网络的特性。

本文构建了多层图时序专利发明者引用网络的节点影响力模型,提出TransRank算法计算单个网络层上的节点影响力,根据影响力的延续性和高影响力节点的吸引性重构了不同网络层之间的交互关系,然后分段拟合了节点影响力的时序数据并对其进行预测,分析节点影响力的演变特征。

1 文献综述

将系统抽象为多层图网络时,需要涵盖节点之间的不同关系,每种关系形成一层网络[7]。徐凤等[8]将多层图网络移植到交通领域,对中国高铁与航空的复合交通方式开展了实证研究。郑春园[9]使用双层网络结构模拟了疾病和相关信息在扩散进程中的耦合动力学关系。杨剑楠等[10]提出用邻居拓扑重叠系数来度量层间相关性的强弱。郭强等[11]发现使用优先链接指标度量网络层间的邻居重叠关系会更准确。张欣[12]归纳了多层图复杂网络研究的相关工作和突出成果,从理论和应用两个角度阐述了多层图复杂网络的瓶颈和展望。

在时序网络中衡量节点影响力,有助于分析现实系统的特征、理解网络结构演变规律。Bundit等[13]提出了事件和趋势等时间指标。Chen等[14]考虑了权威因素和访问网页重要性的时间因素。Hu等[15]基于时间长度因子、频率因子和相似性因子提出T-PR算法分析节点权威性。Pastor等[16]研究了流行病传播时序网络。Rozenshtein等[17]重点描述了连边的时态特征,根据随机游走策略和实时信息流思想更新了时序PageRank算法。Rocha等[18]利用离散且固定的时间周期来稳定静止密度并提出TempoRank算法。同时,区分强连接和弱连接并关注弱连接发挥的作用可以更真实地度量节点之间的关系[19]。

多层图时序网络已经应用于多个领域,一般会将一层网络视为某一时刻下的静态表示,研究重点集中于构建网络层间的关系。多数学者会更加关注时间因素发挥的作用,通过各种机制和原理调整前期网络层和后期网络层的联系方式,常常会减弱前期网络层的效果来凸显当前网络层的作用。但很少有学者考虑到节点之间的相互作用也会随时间发生变化,上一个时刻的结果会成为下一个时刻的先验知识[20],影响节点在下一个时刻里的行为,进而调整节点之间的关系。

2 发明者影响力模型

2.1 划分网络层

在研究时序专利发明者引用网络G中的节点影响力时,将跨越较长时间间隔的网络数据划分为若干层,得到时序网络G=〈G1,G2,G3,…,Gk-1,Gk,…,Gn〉,其中Gk表示k时刻的网络层,n表示网络划分的层数。

在划分网络层时,对发明者采用了等频划分和累加相结合的方法,每个网络层都会出现相同数量的新发明者,下一个网络层里会包含前一个网络层的全部专利发明者和当前网络层中新出现的专利发明者以及这些发明者之间的引用关系。

采用发明者等频划分的原因是由于专利和发明者的指数增长,专利更新周期呈现出越来越短的趋势,如果按照等时间跨度的方法划分网络层,那么离现在越近的网络层就会包含越多的专利发明者,导致不同网络层的节点规模差异较大,等频划分可以有效避免以上问题的发生。另一方面,新的专利发明者不断涌现,已经出现的专利发明者不会随着网络层的转换而立马退出,所以在计算节点影响力时将新出现的专利发明者和已经出现的专利发明者都考虑进去。

2.2 度量单个网络层中的发明者影响力

度量单层网络中节点的影响力时,本文提出基于弱链接理论的TransRank算法,该算法的具体流程为:

1)在算法初始,赋予网络中每个节点均等的初始TR值,且和为1。

2)根据共同邻居的数量计算节点的联系紧密程度,作为连接强度Rij,公式为

(1)

其中,m,n 分别为节点i和节点j的邻居数量,k为共同邻居数量。

3)将节点间彼此的影响力定义为影响强度 ,基于Granovetter提出的弱连接理论,构造影响强度Eij与连接强度Rij的关系:

当所有发明者的TR值都不再发生变化时算法停止,并使R′k=R(t+1)′k。

2.4 观察发明者影响力演变过程

得到专利发明者影响力的时序数据后,通过聚类算法对不同发明者影响力的演变过程进行分类,分析不同类别发明者影响力的动态特征,影响力演变曲线的聚类采用K-Means聚类算法的思想,具体过程如下:

其中,C为大于零的参数,用来控制分段数量r。

4)找到使整体误差ErrorALL最小的分段数量r。将各段拟合的直线连接起来,就会得到发明者影响力的时序演变轨迹。

3 实验

3.1 数据

本文的实验数据来源于美国专利数据库中“分子生物学与微生物学”领域,选择了申请时间在2009年1月1日至2013年12月31日之间的数据进行分析,主要保留了专利申请号、申请时间、IPC分类号、发明者、参考专利等属性信息,筛选后共余下15 756条数据。

对于多名发明者共同研发的专利,排名越靠前的发明者对专利的贡献越大[22]。为了控制节点数量和质量,本文提取了每项专利的前5位发明者作为主要发明者,然后以主要发明者为节点、以专利之间的引用关系为连边,构建了一个加权有向的专利发明者引用网络,其基本信息如表1所示。

3.2 计算发明者时序影响力

本文按照前述网络层划分方法将原始网络分为了8个网络层,每个网络层的基本拓扑性质如表2所示。

按照多层图时序专利发明者引用网络中的节点影响力模型,依次计算出各个网络层中的发明者影响力。因为第一个网络层中没有连边,所以发明者的影响力值都是赋予的初始TR值,随着连边数量持续增加,发明者之间的传值活动愈发频繁,影响力的取值分布越来越分散,如表3所示。

3.3 发明者影响力演变分析

第一个网络层中出现的3 361个发明者在每个网络层都有对应的影响力值,所以选择这些发明者作为影响力演变分析的对象。为了掌握所有发明人影响力的整体变动情况,利用K-Means算法对发明者影响力时序向量聚类。本文依次划分了2个、3个和4个类群,随着类群数量的增加,聚类中心点的形态也在发生着变化,分成4类的结果如图2所示。如果继续增加类群种数,新增类群中的发明者数量就会很少,因此不再继续划分。

3.4 发明者影响力的不同演变轨迹

以发明者Robert Dicosim、Michael Becker和Li Yuanhao为例,探究影响力演化的过程,他们在每个网络层内专利活动情况如表4所示,演变分析的结果分别如图3、图4和图5所示。在3幅图中,实线表示发明者影响力真实的演化过程,虚线表示拟合结果,不同分段通过多种颜色区分。

Robert Dicosim的研究领域包括有机化学、生物化学、酶等,其影响力演变过程分为3个阶段:第一个阶段包括前3个网络层,影响力越来越低;第二个阶段包括第3、4个网络层,影响力突然大势增长;第三个阶段包括后面5个网络层,影响力缓慢降低。Robert Dicosim在前面阶段的专利数量较少,在第4个网络层突然增加到了12个,后续网络层中专利数量稍微下降后又迅速回涨,说明该发明者的创造力具有持续性而且愈发强劲。由于引用的滞后性,Robert Dicosim在第一个阶段并沒有被识别为高影响力节点,从第二个阶段开始他的影响力一直处于较高水平,一方面是由于他发明专利的数量较多,另一方面是因为这些专利有较高的质量,开始被其他专利大量引用。从第三个阶段开始,之前的高质量专利继续被引用,但是引用量越来越小,同时新发明的专利还没有开始被引用,所以发明者的影响力在逐渐降低。

Michael Becker的主要研究领域是核酸检测、靶核酸序列、酶等,他的影响力演变过程被分成了两个阶段:第一个阶段包含了前4个网络层,呈下降趋势;第二个阶段包含了后5个网络层,呈上升趋势。通过表4可知, Michael Becker在每个网络层中都有新的发明专利,但是数量不多。同时,除了在第4个网络层的专利具有较大的被引量之外,其他专利的被引量都近乎为0。以上表明这位专利发明者具有一定的发明水平,但是不被关注。他在第4个网络层之前,由于专利数量较少而且没有被引量,所以影响力一直在降低;在第4个网络层之后,他的专利数量有所增加,而且开始被其他专利引用,影响力也随之逐渐扩大。Li Yuanhao的研究集中在生物化学、病毒转录等方面,他的影响力演变过程没有分段,一直保持下降状态,原因在于他只在第一个网络层中有专利发明,在第二个网络层被引用了两次,之后再也没有与网络中其他节点有过交互。

4 发明者影响力的演变趋势

对发明者影响力的演化趋势进行预测时,不妨认为发明者的影响力会延续当前的趋势,用其最后一段数据的趋势来预测他们在下一个网络层中的影响力,分成上升、下降和持平3种情况,对应着影响力的升高、降低和不变。同时,将预测的置信度设置为最后一段数据包含的网络层个数与全部网络层个数之比,如果最后一段数据包含的网络层个数很多,说明发明者保持一种状态的时间很久,且将继续保持。

本文分别提取了影响力值排名前0.5%、1%、2%、5%和10%的发明者,统计他们的预测结果。通过表5可知,发明者的影响力排名越靠前,在未来呈上升趋势的可能性越大,置信度也更高。以目前发明者影响力排名第一的Charles Cantor教授为例,他是美国国家科学院和美国国家发明家科学院两院院士,同时也是SEQUENOM公司的联合创始人和15家生物技术公司的顾问,他发表过450多篇学术论文,获得了60多项美国专利,是合成生物学新领域的创始人之一。他的影响力从第4个网络层开始一直保持增长,一方面是因为他拥有较多被引量大的专利发明,他在2009~2013年间共发表了11项专利,被引总次数为831次;另一方面是因为他在该领域的高超实力和领军地位。因此,像Charles Cantor教授这样影响力很高的发明者在未来将继续发挥很强影响力。

为了比较不同影响力值的发明者在未来的演变趋势,按照从大到小的顺序排列所有发明者的影响力值,然后从前、中、后3个部分分别提取5%的取值,依次作为高影响力等级、中等影响力等级和低影响力等级,统计对应发明者的影响力演变趋势,结果如表6所示。

对3个不同等级的专利发明者群体进行特征分析,比较了每位发明者平均拥有的专利数量和他们所拥有专利的被引率、被引次数、被引周期等属性,结果如表7所示。

结合表6和表7可以看出,高影响力发明者更有可能在未来继续扮演重要角色,部分发明者的影响力也会下降或者不变,但置信度较低,仍是网络中的高影响力发明者。他们发明的专利有较高的被引率和平均被引次数,会更快被引用,它们的施引专利也拥有较高的被引数量。这类发明者有着出色的专业水平和技术能力,他们的专利得到了领域内其他发明者的普遍认可和关注。这些发明者多为某个领域的创始人,或者拥有很多突破式发明的发明者,在该研究领域有着重要的地位。比如Alan Agulnick,他优化了人类胚胎干细胞分化为胰腺细胞的方案,开发了在生物反应器中由人类胚胎干细胞生产胰腺细胞的方法。目前,他已获得了52项专利,被引7 000余次。

具有中等影响力值的发明者在各项特征中都有一个中等的取值,其影响力会在前一阶段先升高,而在后一个阶段降低。他们大多是前一时期的高影响力发明者,比如Kirk Hogan博士,他曾是威斯康星大学麦迪逊分校麻醉学系副教授,获得过多丽丝·杜克临床研究创新奖和卡尔·科勒研究奖,他在第一个网络层和第三个网络层都有专利发明,并在第五个网络层时达到影响力最高值,之后不再有新的发明,影响力迅速下降。还有一部分发明者可以保持自身影响力升高或持平,比如Dunican LK,他在第一个网络层发表了一项专利,在第五个网络层后开始被引用,所以影响力在后期会逐渐增加,但是因为数量较少,影响力值始终处于中等水平。

在影响力值较小的发明者中,有极少数发明者会在未来呈上升趋势或者持平趋势,而且置信度很低;绝大部分发明者的影响力会稳定地下降,逐渐成为网络中的边缘节点。这些发明者在该领域拥有的专利不多,专利的被引率和平均被引次数较小,被引周期也比较漫长。

由上可见,能够在未来保持高水平发展的只有影响力值较高的发明者,影响力值较低的发明者影响力会越来越低,影响力值中等的发明者也会有上升的趋势,但很难成为高影响力发明者,大部分发明者的影响力会降低。整体而言,网络层中发明者的平均影响力会随着新发明者的出现而逐渐降低,其中少数发明者会基于不断更新的引用关系吸收其他发明者的影响力值,最终呈现出“强者越强,弱者越弱”的现象,同时“弱者”的数量越来越多。

5 结语

本文基于多层图时序专利引用网络研究了发明者影响力的演变轨迹,研究发现,发明专利的数量和质量共同决定着发明者在一个领域中的地位,只有发明了许多高质量专利的发明者才会拥有高影响力,发明专利的数量较少或者被引量较低都会拉低发明者的影响力。“强者愈强,弱者愈弱”的现象也很明显,大部分高影响力的发明者和小部分中等影响力的发明者在未来会继续拥有较高的地位,甚至会有更高的影响力,而大部分中等影响力的发明者和絕大部分低影响力的发明者会逐渐成为网络的边缘节点。

本研究有待进一步完善:1)可以将研究对象扩展到专利耦合网络、专利发明者合作网络等其他单一类型的网络中或者异构网络中;2)可以将本文提出的模型在更多的专利领域中进行测试,继续完善,减少模型中的参数设置,增加模型的适用性。

参考文献:

[1]BOMMARITO J, KATZ M, ZELNER L, et al. Distance measures for dynamic citation networks[J]. Physica A: Statistical Mechanics and Its Applications,2010,389(19): 4201-4208.

[2]关鹏,王曰芬,傅柱,等.专利合作网络小世界特性对企业技术创新绩效的影响研究[J].图书情报工作,2021,65(18):105-116.

GUAN P, WANG Y F, FU Z, et al. Research on the impact of small-world characteristics of patent cooperation network on enterprise technological innovation performance[J]. Library and Information Service,2021,65(18):105-116.

[3]方锦清.多层超网络探索中的若干问题与思考[J].科技导报,2017(14):36-43.

FANG J Q. Some problems and thinking on the exploration of multilayer super network[J]. Science & Technology Review,2017(14):36-43.

[4]MORONE F, DEL F G, MAKSE H A. The k-core as a predictor of structural collapse in mutualistic ecosystems[J]. Nature Physics,2019,15(1):95-102.

[5]MORONE F, MAKSE H A. Corrigendum: influence maximization in complex networks through optimal percolation[J]. Nature,2015,527(7579):544-544.

[6]MUSMECI N, NICOSIA V, ASTE T, et al. The multiplex dependency structure of financial markets[J]. Complexity,2017(2):1-13.

[7]先興平,吴涛.大数据时代网络科学研究进展——多层复杂网络理论[J].产业与科技论坛,2016,15(19):80-81.

XIAN X P, WU T. Research progress in network science in the era of big data—multilayer complex network theory[J]. Industrial & Science Tribune,2016,15(19):80-81.

[8]徐凤,朱金福,杨文东.高铁-民航复合网络的构建及网络拓扑特性分析[J].复杂系统与复杂性科学,2013,10(3):1-11.

XU F, ZHU J F, YANG W D. Construction of high-speed railway and airline compound network and the analysis of its network topology characteristics[J]. Complex Systems and Complexity Science,2013,10(3):1-11.

[9]郑春园.多重网络中疾病与意识传播的相互作用[D].天津:天津理工大学, 2018.

ZHENG C Y. Interplay between disease and awareness spreading on multiplex networks[D]. Tianjin:Tianjin University of Technology,2018.

[10] 杨剑楠,刘建国,郭强.基于层间相似性的时序网络节点重要性研究[J].物理学报,2018, 67(4):279-286.

YANG J N, LIU J G, GUO Q.Node importance idenfication for temporal network based on inter-layer similarity[J]. Acta Physica Sinica,2018, 67(4):279-286.

[11] 郭强,殷冉冉,刘建国.基于TOPSIS的时序网络节点重要性研究[J].电子科技大学学报,2019,48(2):296-300.

GUO Q, QIN R R, LIU J G.Node Importance identification for temporal networks via the TOPSIS method[J]. Journal of University of Electronic Science and Technology of China,2019,48(2):296-300.

[12] 张欣.多层复杂网络理论研究进展:概念、理论和数据[J].复杂系统与复杂性科学,2015, 12(2):103-107.

ZHANG X. Multilayer network science: concepts, theories and data[J]. Complex Systems and Complexity Science,2015, 12(2):103-107.

[13] MANASKASEMSAK B , RUNGSAWANG A , YAMANA H. Time-weighted web authoritative ranking[J]. Information Retrieval, 2011, 14(2):133-157.

[14] CHEN S H, YAN H, Li J C, et al. Improvement of pagerank algorithm: an authoritative and temporal based approach[C]//IEEE International Conference on Computer-Aided Industrial Design & Conceptual Design. San Jose, CA: IEEE,2014:1-4.

[15] HU W S, ZOU H T, GONG Z G. Temporal PageRank on social networks[C] // International Conference on Web Information Systems Engineering. FL,USA: Springer,2015:62-276.

[16] PASTOR S R, CASTELLANO C, MIEGHEM P V, et al. Epidemic processes in complex networks[J]. Reviews of Modern Physics,2015,87(3):925-979.

[17] ROZENSHTEIN P, GIONIS A. Temporal PageRank[C]// European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases. Riva del Garda, Italy :Springer, 2016:674-689.

[18] ROCHA L, MASUDA N. Random walk centrality for temporal networks[J]. New Journal of Physics,2014,16(6):063023.

[19] 牌艷欣,李长玲,徐璐.弱引文关系视角下跨学科相关知识组合识别方法探讨——以情报学为例[J].图书情报工作,2020,64(21),111-119.

PAI Y X, LI C L, XU L. Discussion on the method of interdisciplinary related knowledge combination identification on the perspective of weak citation relationship—taking information science for example[J]. Library and Information Service,2020,64(21),111-119.

[20] 王玙,刘东苏.基于PageRank的动态网络核心节点检测及演化分析[J].情报学报,2018, 37(7):703-711.

WANG Y, LIU D S. Vital node detection and evolution analysis in dynamic networks based on pageRank[J]. Journal of the China Society for Scientific and Technical Information,2018, 37(7):703-711.

[21] 迟阔.基于节点间吸引力的动态社会网络社区演化和链接预测的研究[D].哈尔滨:哈尔滨工程大学,2019.

CHI K. Research on Community evolution and link prediction in dynamic social networks based on the attraction force between nodes[D]. Harbin:Harbin Engineering University,2019.

[22] 崔林蔚,陆颖.基于作者署名排序的作者贡献要素分析——以《图书情报工作》2015-2016年作者贡献声明为例[J].图书情报工作,2017,61(9):80-86.

CUI L W, LU Y. Analysis of author contribution factors based on article author order—taking library and information service as an example[J]. Library and Information Service,2017,61(9):80-86.

(责任编辑 耿金花)

收稿日期: 2022-05-10;修回日期:2022-08-16

基金项目: 国家自然科学基金(71671306)

第一作者: 姚月娇(1998-),女,河北保定人,硕士,主要研究方向为复杂网络与数据挖掘。

通信作者: 刘向(1983-),男,湖北黄石人,博士,副教授,主要研究方向为知识网络、数据挖掘、数据科学等。