基于科研网络的潜在合作关系预测研究综述

2022-03-30 03:11:48方思越王学昭

情报工程 2022年1期

方思越王学昭

1. 中国科学院文献情报中心北京 100190；

2. 中国科学院大学经济与管理学院北京 100190

引言

科研合作对科学发展和技术创新具有重要意义。在科学研究不断深入和发展的过程中，研究的问题趋于复杂化，往往需要依靠合作解决。多项研究证实了科研合作有助于科研产出和科研质量的提高，促进科研主体的创新。20世纪70年代，Beaver等[1]在研究中指出学者的科研合作程度越高，科研产出和科研质量就越高。邱均平等[2]的研究也发现作者的合作程度与科研产出的学术影响力正相关关系显著。除了学者之间的科研合作，产学研之间的科研合作也有积极正面的影响，如学者发表的科技文献数量有所增加[3-4]，而企业的持续性创新也得到了促进[5]。

对科研合作的研究也是科学学和科学计量学的重要分支。早在20世纪60年代初，科学计量学奠基人Price就开始对科研合作进行计量研究[6]。而随着网络分析理论、方法和技术的日益发展，从科研网络出发的合作研究也日益增长。社会网络方法的引入也为合作关系的考察提供了新的视角[7]。美国情报学者Robert M.Clark[8]认为，最高级形式的情报分析是对可能发生的情况进行预测的结构性思考，真正的情报分析总是预测性的。因此，在科研合作关系的研究中，对潜在合作关系进行预测显得尤为重要。如何准确地预测识别潜在的合作伙伴，也是近年来图书情报学研究的重要内容[9]。有很多研究领域相同、研究内容相似的作者由于时间、地理位置等原因无法合作，但是他们之间存在着潜在合作的可能[10]。当前国内外基于科研网络的潜在合作关系预测研究已有部分成果，但尚缺乏系统总结。基于此，本文通过文献调研法，重点从方法理论层面解释基于科研网络的潜在合作关系预测研究进展和研究趋势。

1 研究设计

1.1 问题设计

梳理基于科研网络的潜在合作关系预测研究，首先需要界定研究主题。本研究中的科研网络指基于科研合作构造的网络，而科研合作可以被看作两个或两个以上科研人员或组织共同致力于同一研究任务，通过相互配合、协同工作而实现科研产出最大化目标的一种科学活动，其本质是合作者之间的资源共享[11]，合作发表科研成果、形成研究的知识产权是科研合作的最主要表现形式[12]。科研领域的潜在合作关系指科研主体有可能产生合作但尚未产生合作的隐藏关系。综上，本研究需要梳理的文献包含两个要素：（1）构建了科研网络；（2）设计了预测潜在合作关系的方法。

基于对研究主题的界定，本研究期望解决的问题有：（1）基于科研网络的潜在合作关系预测研究的发文量和逐年变化趋势如何？主要分布在什么期刊上？（2）构建的科研网络类型有哪些？潜在合作关系预测的方法有哪些？（3）当前研究方法的局限性是什么？未来潜在合作关系预测方法的发展方向可能是什么？

1.2 数据来源与处理

本研究数据来源于中国知网（CNKI）数据库和科睿唯安Web of Science数据库。根据研究问题，组合“合作”和“预测”相关的关键词构建检索式，检索逻辑是“并含”。在CNKI中限定来源类别为北大核心和CSSCI，检索式为“TI=’合作’*(’探测’+’预测’+’潜在’+’机会’+’发现’+’推荐’)”，检索得到246条结果；在Web of Science中限定来源类别为SSCI和SCIE，检索式为“TS=(scien*) AND TI=((“cooperat*” OR “collaborat*” OR “co*author*”OR “partner*”) AND (“recommed*” OR“predict*” OR “forecast*”))”，按照文章类型为article或review article进行精炼，得到84条结果（检索时间：2021年8月8日）。

对检索到的文献进行筛选，剔除与研究主题不相关的文献。剔除重复文献，阅读文章标题和摘要，去掉和潜在合作关系发现无关的文献，最终得到中文文献37篇，英文文献13篇，这50篇文献组成本文的目标文献集。

1.3 研究方法

针对本研究的研究问题，首先对目标文献做计量分析，对其发文趋势和期刊分布进行描述。然后阅读目标文献，对从预测方法层面对科研领域潜在合作关系预测方法进行梳理和分析，最后对未来的研究方向提出改进建议。

2 研究结论

2.1 发文趋势与文献分布

中文文献中，第一篇科研领域潜在合作关系预测研究相关文献出现于2013年，自2014年起，国内关于潜在合作关系预测的研究有明显的增长，峰值出现在2019年；外文的第一篇相关文献出现在2014年，相关研究数量相对稳定如图1所示。截止论文成稿日，2021年的文献尚未完全收录。发文趋势说明目前对潜在合作关系的研究还有增长的空间。

图1 目标文献集年份分布图

对文献分布的期刊做梳理，可得到已发表文献的期刊分布如图2所示。相关文献收录量排名前三的期刊为《情报学报》《情报理论与实践》、Scientometrics和《情报科学》。从文献的期刊分布看，潜在合作关系预测的研究多发表在图书情报领域的期刊中，涉及数据科学研究、科学学研究、计算机科学研究和系统工程研究。

图2 目标文献集期刊分布图

2.2 潜在合作关系预测的一般流程

现有研究中，科研领域的潜在合作可发生在不同的科研主体之间，如学者-学者、高校-高校、高校-企业等。对潜在合作关系的预测，主要依据科研主体的研究领域、研究兴趣、科研主体间的社会关系等预测潜在合作机会。对基于科研网络的潜在合作预测研究进行梳理，发现多数研究都包含网络构建、特征提取与表示、合作预测和预测结果评价模块，将其视为潜在合作关系预测的一般流程，如图3所示。

图3 科研领域潜在合作预测的一般流程

2.2.1 网络构建

根据网络节点、边的类型的不同，构建的网络可以分为同质网络、异质网络和二分网络如表1所示，同质网络对数据的处理较为简单，与同质网络相比，异质网络和二分网络包含相对更丰富的信息。用不同的形状代表不同的节点类型，可画出这三种网络的示意图如图4所示。

表1 网络构建类型

图4 网络类型示意图

同质网络的节点为同一类型，边也为同一类型，如合作网络[13]、引用网络[14]、共现网络[15,16]。合作网络一般由共著关系构建，在作者合作网络中，一个节点表示一位学者，节点间的边表示两人共同发表了一篇文章；在专利权人合作网络中，一个节点表示一个专利权人，节点间的边表示两个专利权人共同申请了一项专利。以作者为节点的引用网络中，一个节点表示一位学者，其与合作网络的区别在于边的含义，如共引网络中的边代表共引关系，即两位作者共同引用一篇文献。共现网络根据科研主体的研究内容构建，在作者-关键词耦合网络中，一个节点表示一位学者，节点间的边表示两人发表的文献中有相同的关键词；在专利权人-分类号耦合网络中，一个节点表示一位专利权人，节点间的边表示两个专利权人申请的专利中有相同的分类号。

异质网络是不同种类型节点和边形成的网络。异质网络如作者-关键词二模网络[17,18]的节点为作者和关键词，边为作者间合作关系、关键词与作者的对应关系，直观展现作者与各研究对象、主题或方法间的对应关系；再如李睿等根据新加坡在中国申请并已授权的有效发明专利构建国家-技术二模网络[19]，网络节点为中国和新加坡两国的专利分类号，边为两国专利分类号间的引用关系。

二分网络的所有节点可以分为两个部分，仅不同类型的节点存在连边，如韩菁等利用专利数据构建多层网络，其中包含知识-合作二分网络，该网络的节点为发明人和知识，边为发明人和知识之间的联系[20]。

2.2.2 特征提取与表示

潜在合作关系预测中的特征可以分为网络中的节点内容特征和网络结构特征。

（1）节点内容特征

节点内容特征的提取和表示主要从科研主体发表的科技文献入手，如提取作者发表文献中的关键词。关键词作为论文研究内容最直接的表达形式，高度概括了文献的基本内容，如陈卫静等使用改进的TF-IDF算法计算关键词的权重，构建作者-关键词权重矩阵[9]。尽管基于关键词的方法简单易用，但其语义信息较弱，因此部分学者引入基于语义分析的文本挖掘技术对节点属性特征进行表示。温亮等[21]使用SAO（Subject-Action-Object）语义分析的方法，提取专利信息的语义结构。刘萍等[15]使用LDA（Latent Dirichlet Allocation）模型构建作者的兴趣模块，王菲菲等[13]也使用LDA模型获取机构-主题分布情况。相似地，蒲姗姗[22]引入作者关系的主题模型AT（Author-Topic Model）提取专家的知识结构与研究兴趣，AT和LDA类似，都是包含词-主题-作者的三层贝叶斯概率模型。部分学者提取不止一项属性特征，如熊回香等[23]利用“百度学术”平台搜集学者信息、学术合作信息、科研成果信息和研究内容关键词等构建学者档案。林原等[24]在抽取了学者的简称、全称、关键词、地址等信息的基础上，利用Word2Vec表示学习模型进行学习，得到异质信息表示向量。

（2）网络结构特征

网络结构的特征和表示主要从网络结构入手，挖掘网络相关的特征，如节点位置、网络结构、网络模体等。基于节点位置和网络结构，部分学者使用网络表示学习的方法将网络中的节点转化为向量表示。如张金柱等[25]使用LINE（Large-scale information network embedding）网络学习表示方法，融合节点间的共同邻居信息作为网络结构信息，形成相应的向量表示。林原等[26]以作者、机构、关键词为节点，共现关系为边构建异质信息网络，使用node2vec网络表示学习方法学习节点在网络中的位置联系，实现对各个节点的向量化表示。Zhao等[27]采用SkipGram模型对学者的动态结构特征进行编码，构建基于学者向量的学术合作关系预测模型。刘云枫等[28]引入元路径的概念，在异质网络的基础上计算基于元路径与元结构的作者间关系序列，并作为word2vec模型网络表示学习的语料。网络模体是网络的微观结构，即真实网络中频繁出现的由少数个体组成的小规模同构子图，网络中的模体可以反应科研主体的合作模式[29]。曹红艳等[30]提取了科学家合作网中的8个模体特征，在模体特征基础上进行潜在合作预测。

2.2.3 合作预测

合作预测主要采用基于相似性的方法和基于机器学习的方法。

（1）基于相似性的方法

基于相似性的方法通过节点的属性特征和（或）网络的结构特征比较节点间的相似度，相似性越大，两个节点越有可能产生连边，即合作关系。多数学者利用指标计算相似性，再根据指标运算结果判断潜在合作情况。计算相似性的指标又可根据特征的不同分为基于内容特征的文本相似性指标和基于网络结构的节点拓扑相似度指标。文本相似性指标部分由作者定义，部分使用已有指标，如关键词耦合强度指标[9]，潜在合作空间指数[31]，JS距离[15]，KL距离[13]和余弦相似度指标[21,32,33]如表2所示。

表2 基于内容特征的文本相似性指标

基于网络结构的拓扑相似度指标多采用链路预测中的相似性指标，如Yan等从作者、机构和国家三个层面构造合作网络，使用CN、Jaccard、AA等8个链路预测指标对这三个网络进行研究[34]；王菲菲等[13]通过论文和专利两个层面的机构合作网络探测产学研的潜在合作机会，在合作网络中使用CN、Salton、Jaccard等8个链路预测指标得到新的潜在合作机构边，按照融合值进行降序排序，选择前5连边作为潜在合作预测结果。链路预测中的相似性指标又可分为基于局部信息的相似性指标、基于路径的相似性指标和基于随机游走的相似性指标，目标文献集中主要被应用到的指标如表3所示。

表3 基于网络结构的拓扑相似度指标

部分学者将这两类指标结合起来进行潜在合作预测。刘竟和孙薇[33]考虑网络中的路径相似性和研究者科研兴趣相似性，路径相似性用Katz指标计算，科研兴趣由作者发表文献的题目、关键词和摘要中提取的术语的频次-逆文档频次分数值表示，相似度使用余弦距离计算，二者融合，预测潜在科研合作关系。相似地，林原等[35]建立卓越大学联盟机构合作网络和主题网络，借助Katz指标和余弦距离衡量卓越大学联盟与国内外高校间合作机会。韩菁等[20]以专利合作关系为研究对象，从CN、PA、Jaccard等6个链路预测指标中选择最优指标和5个基于知识属性的相似性指标分别结合起来构建多层链路预测算法，在新能源汽车领域进行实验分析，发现混合指标有较好的预测效果。

（2）基于机器学习的方法

基于机器学习的方法将合作预测看作二分类问题，两个节点有连边为正类，无连边为负类，通过无监督或有监督的机器学习方法预测新科研主体节点对的连边属于正类或负类的概率[36]。余传明等[37]从DeepWalk、node2vec、LINE和SDNE四种网络表示学习方法中选择效果相对较好的方法作为代表构建了一个集成模型，利用逻辑回归计算节点对之间产生链接的概率值。Nikos等[38]构建了一个包含结构化和非结构化数据的科学知识图，对其文本和结构信息进行特征提取，最后使用逻辑回归进行二分类。

部分学者将链路预测和机器学习结合起来，构建准确性更高的预测方法。Guns等[39]搜集非洲、中东和东南亚在结核病研究上的研究合作，构建加权城市合作网络，使用CN、Jaccard、AA、加权的SimRank等7个链路预测指标进行潜在合作的预测，然后聚合不同预测指标的预测效果，构建随机森林分类器预测下一个时期发生链接的相对强度。吕伟民等[40]的研究基础上改进得到极端随机树算法，构建加权作者合作网，以不同链路预测指标作为特征输入，使用改进算法进行分类，利用遍历算法求取分类结果的最优权重组合。

2.2.4 预测结果评价

基于网络结构指标、混合指标或机器学习方法预测的潜在合作关系往往存在对算法准确度的评价，常用的评价指标有AUC、Precision和Ranking Score。AUC侧重于从整体上衡量算法的精确度，Precision考虑排在前L位的边预测得是否准确，Ranking Score更多考虑所预测的边的排序[41]。

表4 评价指标

3 总结和展望

基于科研网络的潜在合作关系预测的相关研究自2013年兴起，稳步发展至今，是图书情报领域的重要研究内容之一。对相关文献进行梳理，得到潜在合作关系预测的一般流程：网络构建、特征提取与表示、合作预测、预测结果评价。不同类型的同质网络、异质网络和二分网络是潜在合作预测的基础，学者们在网络中提取节点内容特征或网络结构特征，在特征提取和表示上趋向于更全面、准确地描述科研主体的特征，将特征向量化。合作预测的方法可分为基于相似性的方法和基于机器学习的方法，前者通过比较内容或结构相似性的大小预测连边的可能性，引入多类指标；后者将是否产生连边看作二分类问题，引入机器学习中的分类算法。为了衡量预测结果的准确性，使用评价指标进行判断，不同的研究根据研究问题选择适用于当前研究的评价指标。

就目标文献来看，当前关于潜在合作关系预测的研究存在一定的局限性。从研究领域来看，多数潜在合作预测研究实施在学术合作网络中，对产学研合作的研究比较有限；从数据层面上看，主流使用期刊论文和专利数据，对科研社交网站信息[23]做了有限的尝试；从网络构建上看，多数研究在较小规模的数据集上运行，如出现频次大于一定阈值的科研主体形成的网络，这使得合作预测一般出现在高产的科研主体之间，但产出较低的科研主体也应得到重视；从研究结果来看，与实际的联系并不紧密，对实际合作的引导有待提升。

随着信息化，智能化的迅速发展，科研领域潜在合作关系预测可能有以下发展方向：

（1）产学研潜在合作关系预测。与学术潜在合作关系不同，产学研各主体间的相似性不一定预示着合作，因此在预测方面需要考虑更多因素，如企业规模，产学研主体性质等。

（2）基于多数据源的潜在合作关系预测。从科研主体研究主题、研究兴趣、社会关系、所处地域等多个视角搜集数据，利用数据。

（3）大规模科研合作网络的合作关系预测。构建大数据集，进行全部科研主体的科研合作预测，其中科研主体可能来自不同的研究领域。

（4）多特征融合的表示方法改进。将多种特征融入到表示学习方法中，构建更全面高效的计算模型。

（5）机器学习方法的改进。构建适用于潜在合作预测的机器学习模型。