技术主路径分析:基于边链接影响力流的路径搜索

2019-05-07 07:50程洁琼万小萍刘向
现代情报 2019年5期

程洁琼 万小萍 刘向

摘 要:[目的/意义]技术轨道可以用于发现特定技术领域内连续性和非连续性的创新变化。[方法/过程]本文提出基于边链接影响力流的主路径搜索算法,该方法首先采用引文网络中影响力传递算法对引文网络路径的影响力流进行计量和赋值,然后通过主路径全局搜索算法得到影响力总和最大的技术主路径。[结果/结论]相比传统的主路径分析方法,该方法对于引文链接权值度量的描述更加明确合理。对海水淡化领域的实证表明,相比传统的主路径分析法,该方法能够在主路径中找到更早的起源节点,技术主路径的演化过程更加明晰。

关键词:主路径分析;技术路径;影响力传递;PageRank;引证网络

DOI:10.3969/j.issn.1008-0821.2019.05.003

〔中图分类号〕G306 〔文献标识码〕A 〔文章编号〕1008-0821(2019)05-0024-06

Abstract:[Purpose/Significance]Technological path can be used to discover innovative changes of continuity and discontinuities in specific technological fields.[Method/Process]In this paper,a technological main path searching algorithm based on the influence flow of links in citation network is proposed.Firstly,the influence flow of the citation network path is measured and assigned by the influence transfer between two nodes algorithm in the citation network,and then using the global search method to extract the technology main path with the largest total influence flow is obtained.[Result/Conclusion]Compared with the traditional main path analysis method,this method is clearer and more reasonable for the description of the value of the influence flow in the citation link.We adopt the data in the field of desalination and the results show that compared with the traditional main path analysis method,this method can find the earlier origin node in the main path,and the evolution process of the technical main path is clearer.

Key words:main path analysis;technological path;influence flow;PageRank;citation network

最早由經济学家Dosi G提出的技术路径又被称作技术轨道、技术演进路径,可用于发现特定技术领域内连续性和非连续性的创新变化[1]。特定领域内的技术突破和革新往往被视为社会变革的基础,通常伴随着持续的技术改进以及通过知识传播衍生出的多条技术路径[2]。这些特定领域内的原有技术会通过发展而不断的分化和融合,原有技术虽然最终会被新的技术所取代,但也会成为这个领域内技术主路径上的一个节点。

技术主路径是技术发展的主干,它包含技术发展过程中的最关键节点以及这些关键节点之间的链接关系。专利文献包含关于专利创新的详细描述,从中提取出的主路径更能够体现技术的继承和发展关系[3]。2007年,Verspagen B在专利引证网络中通过主路径分析方法得到了燃料电池领域内80年代前后不同阶段的演进主路径[4],由此开启了将主路径的演进和专利引证网络相结合的研究。

传统的主路径分析的方法主要基于SPx算法获得,分别是节点对投影数(NPPC,Node Pair Projection Count),搜索路径节点对(SPLC,Search Path Link Count)和搜索路径节点对(SPNP,Search Path Link Count)[5-7]以及搜索路径数(SPC,Search Path Count)算法,这4种算法都是基于遍历计数思想将网络中的边赋权重值[8]。虽然传统的SPx算法被广泛应用在不同学科的引文主路径分析中,但基于边遍历赋值的计算存在以下问题:被引频次高和参考文献多的文献会获得更多的遍历计数,被引频次高表明受到较多的关注和肯定,是衡量节点和边重要性的主要指标,然而参考文献多却不一定反映经由此节点的边很重要。同时,被遍历次数相同的边在引证网络中的重要性也是不同的,传统的SPx算法中的边遍历思想赋值未考虑边初始值差异对整个引证网络带来的影响[9]。

本文提出了一种有别于传统主路径的基于边遍历计算权重值的算法,根据在专利引证网络中影响力由施引专利到被引专利传递的思想,提出了边链接影响力流指标,通过对引文网络的每条路径的影响力流传递值计算赋值,然后采用主路径全局搜索方法得到影响力流总和最大的技术主路径。最后,我们通过实证比较分析该方法与传统主路径分析方法的异同。

1 相关研究

1.1 主路径分析

引证关系往往体现了知识流在網络中的流动过程[10]。SCI的创始人Garfield E于20世纪60年代提出引证网络(Citation Networks),他指出引证网络可以反映出知识的延续性和继承性,从而可用于研究科学知识发展的历史、脉络和结构[11]。引证网络通常由节点和有向边表示,有节点i指向节点j的有向边表示节电i被节电j引用,如图1所示。

主路径分析方法可以发现隐藏在引证网络中的技术发展脉络,找到在某一段时间内对此领域产生特定推动作用的节点。最早的提出者Hummon N P等认为主路径分析可以很好地识别出DNA引证网络的重要发展,并提出3种给引证网络的边赋权重的算法NPPC、SPLC、SPNP,这3种算法都是通过优先搜索(Priority First Search)出引证网络中紧密的子网络,再进行穷尽路径搜索(Exhaustive Path Search)的方法识别出主路径。

2003年,Batagelj V在前3种遍历算法基础上进一步将主路径分析法应用于大型引证网络,提出了SPC算法。SPC算法通过遍历某条边所有从源节点到尾节点的次数计算出这条边的权重值。相比于NPPC、SPLC和SPNP,SPC可以更快地计算出每条边的权重,提高了运算效率。Choi C等[12]在2009年提出FCNP(Forward Citation Node Pair)算法,通过正向引证关系将被引用节点出度值加1的乘积作为边的FCNP值实现边赋值,并将此方法作用于闪存系统网络中得到技术的发展路径。Persson O[13]通过在引证网络中出现的共现和耦合的关系提出了WDC(Weighted Direct Citations)和NWDC(Normalized Weighted Direct Citation)方法计算边的权重值,其中WDC为两个节点的直接引证关系中共同被引和共同引用值的和,而NWDC在WDC的基础上标准化了共同被引和共同引用值进行计算。主路径分析除了对算法的研究外,还需要通过合适的搜索方法提取主路径。Hummon N P等在1989年提出的优先搜索又被称为局域搜索(Local Search),在筛选边的过程中总是筛选出一个节点到另一个节点权重最大的边。搜索出网络内拥有最大边权重值总和主路径的全局搜索(Global Search)可避免局域搜索可能带来局部最优问题[14]。但是无论是局域搜索或全局搜索都不可避免地将一些权重值大的边筛除出搜索到的主路径内,Liu J S等[15]在2012年提出关键路径搜索(Key-route Search)的概念解决了这一问题。不同于局域搜索和全局搜索结果通常只为一条主路径,关键路径搜索将网络中所有重要的边全都包括在搜索的主路径中,先找到整个网络中权重最大的边再去进行局域或全局搜索选择多条关键路径。

为发现技术路径的发展变化和趋势,主路径分析被学者应用于各种不同领域的网络。Zhu H M等[16]将主路径分析方法应用在线上社交网络中,结果显示每个有影响力的用户都可以通过一条短的主路径访问另一个用户,主路径的分布显示出显著的社区效应。Hatatchiyski I等[17]通过主路径分析方法研究了线上学习社区维基学院中生物和电气工程两个领域内的关键主题、对应的范围和结构的发展,并分析了在线学习社区中协同知识工具和学习过程的关系。Mina A[18]等人通过对冠状动脉领域美国专利数据集统计,揭示了医学领域内医学的科学性和技术性的共同演进。Harris J K等[19]通过主路径研究了二手烟领域内从风险因素的发现到干预措施的实施。

1.2 PageRank算法

PageRank由谷歌公司创始人Page L等于1998年提出,用于衡量www网页的重要性程度的排序算法。该算法基于这样的假设:如果一个网页被另一个重要的网页链接,那么此网页也是一个重要的网页[20]。所以PageRank算法的本质是根据网页之间的相互链接对所有网页的重要性程度进行排序。假设有A、B、C和D4个网页,B、C、D网页分别都指向网页A,此时网页A的PR值为A、B、C3个网页的PR值之和,即PR(A)=PR(B)+PR(C)+PR(D)。假设网页B也同时链接到另外两个网页,网页C也链接到网页D,此时的PR(A)=PR(B)3+PR(C)2+PR(D)。

但是在计算机网络中同时存在只对自己出链或者没有出链的页面,为了避免这些特殊页面导致的PageRank值无法收敛的情况,PageRank算法引入了阻尼系数q,通常q=0.85,表示随机浏览页面的用户总会以1-q的概率跳转到网络中任一个随机的网页。所以PagreRank算法实质上是一个随机游走过程,若计算机网络中的有向图表示为G(V,E),V表示节点的集合,E表示网络中有向边集合,节点vi,vj,vk,vh…∈V,eij∈E,eij表示网页i指向网页j的有向边,任意网页i的PR值可以表示为:

PageRank(i)=q*∑j∈VPR(i)L(i)+1-qN

其中L表示节点的出链数量,N表示网络中节点的总数量。PageRank算法至今还被Google当作识别重要网页的标志性方法之一[21]。

引证网络和WEB网络有相似的拓扑结构,引文关系和网页链接在本质上有相近之处[22],体现的都是相邻节点之间的指向关系和影响作用关系。PageRank通过网页之间的链接关系计算网页的重要性程度,引文网络通过引用链接传递影响力值,PageRank算法也是本文提出的基于边链接影响力流的路径搜索的主要原理来源。

2 基于边链接影响力流的路径搜索

2.1 方法描述

在专利引证网络中,施引文献的影响力越大,被引节点的影响力也越大;同时,施引文献的参考文献越多,每篇参考文獻(被引文献)所分的影响力越少。我们不妨将引用关系看作是一种投票,施引文献引证其它文献,相当于向那些文献投票,施引文献越重要,则其投出的票的重要性也越大;但是,如果施引文献引证的文献越多,则每篇被引文献所分得的票数越少。节点的边链接影响力传递规律可以表示为:施引节点的影响力越大,被引节点的影响力也越大;节点的被引次数越高,节点的影响力越大;节点的出边越多,每条边分得的影响力越小。

我们把引用链接视为节点影响力的流动路径,施引节点通过链接传递部分影响力到被引节点,施引节点传递的影响力的大小与自身的影响力成正比,与自身参考文献的数量成反比。而每个节点所获得的影响力来自于其引证节点所传递影响力之和。通过图1来描述以上关系:当节点F引用节点B时,F向B传递了一定比例的影响力,链接(F,B)上传递的影响力与节点F的影响力成正比,与F的出边数量成反比,即节点F越重要时,被其引节点A、B、C也越重要,而倘若它引用的节点过多时,则每个分支所分得的重要性越少,传递的影响力流也越小。

2.2 操作步骤

第一步:数据预处理。处理专利数据得到专利网络中的每个专利的专利号,专利引文、发表年份和专利发表国家,如表1所示。

第二步:构建专利引证网络。将收集到的数据集以及每个数据的引文文献通过引证关系构建出本文的专利引证网络。

第三步:迭代计算专利引证网络中所有节点的影响力IF值。首先给引证网络内的节点随机赋初始值,根据马尔可夫收敛定理可知[23],无论专利引证网络中的初始值为多少,基于边链接影响力流传递算法不断迭代计算出的节点IF值最后都会收敛到一个稳定值。在本文中采用0.5、0.6、0.7、0.8、0.9五个阻尼系数进行实验,发现不同的阻尼系数对应的技术主路径上的节点完全重合,所以在本文中不多对算法的阻尼系数做过多讨论。

第四步:根据专利引证网络中每个节点的影响力值IF,计算专利引证网络中所有有向边的权重值T(ij),即通过边链接传递影响力流的大小。一个节点传递给被引节点影响力值被视为同时均分给多个被引用节点,表示在引证网络中施引节点对被引节点无差异地传递影响力值,从施引节点i传递到被引节点j的影响力流可表示为:T(j)=∑j∈VT(ij)=∑j∈VIF(i)L(i)。如图1所示的引证网络图,将图中的6个节点的关系看作为投票过程计算:节点F引用了节点B、D、E可以看作是将一票投给了B、D、E的过程,由于只有1票,所以B、D、E分别获得1/3票。但是节点B同时接受了节点D给它投的1/2票,此时T(FD)=T(FE)=T(FB)=13IF(F),T(B)=13IF(F)+12IF(D)。而被节点E引用的节点只有C一个,则节点E将1票全部投给了节点C,即边链接传递的影响力流大小为节点E的影响力值,T(C)=IF(E),传递的过程如图2所示。

第五步:搜索主路径。本文采用全局搜索的方法,通过筛选出拥有最大边权重和的路径的搜索方法得出研究领域内的技术主路径。

2.3 实验数据

本文选取海水淡化(Desalt)领域的美国授权专利进行分析。选择海水淡化作为本文的研究领域的原因,一是由于如今的淡水资源短缺,海水淡化技术作为提取淡水的下一个具有前景的方法被相关科研人员高度重视[24],海水淡化技术的技术路径能够帮助相关研究人员理清核心技术的发展脉络,因此对其研究具有一定的理论意义和实践意义;二是海水淡化最早可以追溯到公元前1400年[25],在20世纪80年代海水淡化技术得到迅速的发展,这就说明在海水淡化领域内已经存在着几十年的技术积累,专利文献的数据量大,发现技术主路径的演化也会更加明显。

在美国授权专利数据库中采用“Desalt*”两个搜索词对专利的标题和摘要部分进行搜索,最终得出的专利题录结果为1 348篇专利文献。

3 实验结果

将本文得到的1 348篇专利文献和它们的引文构成专利引证网络,然后进行两种方法的对比实验,第一组将按照实验操作步骤得到基于边链接影响力流传递路径搜索算法的技术主路径,第二组采用SPLC算法得到技术主路径。

3.1 路径形态

实验结果如图3所示,图3左图和右图分别为采用基于边链接影响力流传递路径搜索算法和SPLC算法,再用全局路径进行搜索得到的主路径。图3左右两图的纵坐标表示专利申请年,横坐标没有特殊意义,图中的节点大小表示节点的被引频次,边的粗细表示边的权重值也就是边链接传递影响力值的大小。

从路径形态对比观察图3左右两种算法进行全局搜索得出的主路径,可以看出采用基于边链接影响力流传递路径搜索算法得到的主路径的节点提取会更偏向于老节点,从技术主路径显示看来最早的节点可以追溯到1948年,而对比右图中技术主路径源节点申请年对应的1978年,足足早40年时间。同时,对比左右两图在整条技术主路径中占比最大的路径(4200550,2446040)和(5366635,5186822)两条路径可以看出,左图两个专利的时间跨度相比右图专利间跨度大,通过专利的分析得到(4200550,2446040)两个专利都为从矿物油中脱盐工艺,而(5366635,5186822)表示的两个专利都涉及涡轮等类似的设备装置,说明了实验的两个算法得出的技术主路径的重要演化和继承关系的偏向性不同。

3.2 路径内容

从专利的内容上分析,基于边链接影响力流传递路径搜索得到的主路径的专利内容早期更注重于化学工艺制备方面,源节点2446040专利为从原油中脱盐的工艺制备上,主要集中于从原油中溶解无机盐的工艺,到中期的脱盐技术演进为更为复杂的工艺制备方法,如4806231专利申请在较高温度和较大原油比例的盐水洗涤技术和5271841专利申请的去苯的方法,而到后期关于新设备的技术,专利8747658和专利9410092改进的方法都涉及使用带有堆叠盘式离心机的分离器来分离乳化油和水。而基于SPLC算法搜索出的技术主路径早期工艺制备和基于边链接影响力流传递的算法提取的主路径有很大的不同,分析得到早期的节点更偏向于物理方面的技术。主路径的早期专利4110172、4210494以及4363703涉及的脱盐技术都与太阳能或太阳辐射用于蒸发盐水技术相关,到中期阶段,专利技术偏向于设备装置方面,从专利5186822到专利6348148都集中于采用带有驱动加压的脱盐设备进行海水淡化。技术主路径上的后期的专利采用的设备和方法都更为专业和先进,改进和结合了已有的技术进行演化。

总体来说,基于边链接影响力流传递路径搜索方法得到的主路径能提取出更早的专利技术,可以追溯到技術的根源节点。从内容分析可以分析得到海水淡化技术早期是由从原油中分离杂质的技术中演化出的,而基于SPLC方法得到的主路径更为集中,源节点以及主路径节点表示的专利技术直接为海水淡化技术方法和工艺,技术的分化和演进效果没有基于边链接技术影响力流传递算法搜索出的主路径更明显。相比之下,基于边链接影响力流传递路径搜索算法提取出的技术主路径对于理清海水淡化技术的演化过程的脉络更有理论价值。

4 讨 论

4.1 理论贡献与创新之处

本文将搜集到的海水淡化领域内的专利数据构建专利引证网络,采用基于边链接影响力流传递路径搜索,用于计算出每条边的影响力流传递值,再根据全局搜索方法提取主路径。

相比传统的主路径分析的SPx算法,本文采用的基于边链接影响力流路径搜索算法有以下3点贡献和创新之处:1)解决了参考文献多的文献更多机会的出现于主路径之上的问题。将专利节点的影响力流的传递值作为计算边权重的基础,以边权重值在专利引证网络中搜索主路径,避免由于参考文献引用太多文献时导致节点权重值大被选入而忽略了每条边权重值都很小的矛盾;2)边权重的衡量理论的说服力相比边遍历计数的方法说服力更强。实验结果显示出本文算法能够追溯到技术主路径更早的技术节点,并且在主路径上出现的研究领域的技术范围全面,技术演化的内容明显;3)解决了初始值无差异性产生的问题。采用边链接影响力流计算边权重,无论初始值为多少,网络中的边最终会根据传递规则收敛到固定值,解决了传统的SPx算法采用的边遍历计数思想而忽略初始值无差异性带来的问题。

4.2 局限之处与应用范围

本文基于边链接影响力流传递路径搜索算法的知识流路径搜索确定技术主路径的方法的局限之处主要有以下两点:

1)采用基于边链接影响力流传递路径搜索算法搜索出的专利节点虽然时间跨度更大,技术内容的演化强于传统的主路径分析法,但根据图3中搜索出的专利节点的大小可以看出采用基于边链接影响力流传递路径搜索算法搜索出的高频引证次数的节点没有主路径分析法搜索出的多。虽然专利节点的引证次数不能完全说明一个技术的影响力程度高低,但是在一定程度说明了用基于边链接影响力流传递路径搜索算法搜索出的专利引证次数不是最高的。

2)本文通过节点的大小对逆向基于边链接影响力流传递路径搜索和SPLC算法搜索出的主路径算法进行比较其实并不全面,一个节点的影响力和重要性程度除了被引次数,还与专利的商业价值,专利年龄,专利诉讼等指标相关。本文单从节点的大小只能在一定程度说明两个方法的优劣性,而对于两个方法搜索出的主路径上节点的影响力还需要进一步研究。

参考文献

[1]Dosi G.Technological Paradigms and Technological Trajectories:A Suggested Interpretation of the Determinants and Directions of Technical Change[J].Research Policy,1982,11(3):147-162.

[2]Verspagen B.Mapping Technological Trajectories as Patent Cita- tion Networks:A Study on the History of Fuel Cell Research[J].Advance in Complex System,2007,10(1):93-115.

[3]Griliches Z.Patent Statistics as Economic Indicators:A Survey[J].Journal of Economic Literature,1990,28:1661-1707.

[4]Verspagen B.Mapping Technological Trajectories as Patent Citation Networks.A Study on the History of Fuel Cell Research[J].Advances in Complex Systems,2007,10(1):93-115.

[5]Hummon N P,Doreian P.Connectivity in a Citation Network:The Development of DNA Theory[J].Social Networks,1989,11(1):39-63.

[6]Hummon N P,Doreian P.Computational Methods for Social Network Analysis[J].Social Networks,1990,(12):273-288.

[7]Hummon N P,Doreian P,Freeman L C.Analyzing the Structure of the Centrality Productivity Literature Created Between 1948 and 1979[J].Knowledge:Creation,Diffusion,Utilization,1990,11(4):459-480.

[8]Batagelj V.Efficient Algorithms for Citation Network Analysis[J/OL].arXiv,2003:0309023.2018-03-27.

[9]隗玲,方曙.引文网络主路径研究进展评述及展望[J].情报理论与实践,2016,(9):128-133.

[10]刘向,马费成.科学知识网络的演化和动力-基于科学引证网络的分析[J].管理科学学报,2012,15(1):87-94.

[11]Garfielde E.Citation Indexes for Science[J].Science,1965,123(3185):61-21.

[12]Choi C,Park Y.Monitoring the Organic Structure of Technology Based on the Patent Development Paths[J].Technological Forecas- ting and Social Change,2009,76(6):754-768.

[13]Persson O.Identifying Research Themes with Weighted Direct Citation Links[J].Jornal of Informetrics,2010,4(3):415-422.

[14]Kelley,James;Walker,Morgan.Critical-Path Planning and Scheduling.1959,Proceedings of the Eastern Joint Computer Conference.

[15]Liu J S,Lu L Y.An Integrated Approach for Main Path Analysis:Development of the Hirsch Index as an Example[J].Journal of the Association for Information Science and Technology,2012,63(3):528-542.

[16]Zhu H M,Yin X C,Ma J,et al.Identifying the Main Paths of Information Diffusion in Online Scial Networks[J].Physica A:Statistical Mechanics and its Applications.2016,452(15):320-328.

[17]Halatchliyski I,Hecking T,Goehnert T,et al.Analyzing the Main Path of Ideas and Activity of Contributors in an Open Learning Community[J].Journal of Learning Analytics,2014,1(2):72-93.

[18]Mina A,Ramlogan R,Tampubolon G,et al.Mapping Evolutionary Trajectories:Applications to the Growth and Transformation of Medical Knowledge[J].Res.Policy,2007,36(5):789-806.

[19]Harris J K,Luke D A,Zuckerman R B,et al.Forty Years of Secondhand Smoke Research:The Gap Between Discovery and Delivery[J].American Journal of Preventive Medicine,2009,36(6):538-548.

[20]Page L,Brin S.The PageRank Citation Ranking:Bringing Order to the Web[EB/OL].http://www.db.stanford.edu/~backub/PageR anksub.ps,1998-2001.

[21]Franceschet M.PageRank:Standing on the Shoulders of Giants[J].Communications of the ACM,2011,54(6):92-101.

[22]段慶锋,朱东华,汪学锋.基于改进PageRank算法的引文文献排序方法[J].情报理论与实践,2012,(1):115-119.

[23]刘次华.随机过程及其应用(第3版)[M].北京:高等教育出版社,2004.

[24]郑智颖,李凤臣,李倩,等.海水淡化技术应用研究及发展现状[J].科学通报,2016,61(21):2344-2370.

[25]朱淑飞,薛立波,徐子丹.国内外海水淡化发展历史及现状分析[J].水处理技术,2014,(7):12-15,23.

(责任编辑:孙国雷)