基于异构数据的机构网络影响力评价指标相关性研究

2018-01-02 10:19杨波赵佳骏殷作霖陈睿莹王小妍黄水清
图书与情报 2017年5期

杨波++赵佳骏+++殷作霖++陈睿莹++王小妍++黄水清

摘 要:对学术机构进行客观公正的评价是科研管理过程中不可或缺的工作, 基于网络计量学的机构影响力评价成为学术机构评价研究中有别于传统文献计量方法的另外一种有效的评价手段。为了进一步探讨不同的分析策略对网络影响力的评价效果的影响,文章以我国342所大学作为研究样本,对比分析不同Web数据采集策略下,利用不同评价指标对机构的网络影响力进行评价的可靠性。研究结果表明,机构入链所属的大学域名的数量指标RD_EDU以及学院层面的链接指标Linknet与多个大学排名之间的平均相关系数接近0.8,并且高于以Webometrics Ranking of World Universities和uniRank为代表的网络影响力排名与ARWU、CARK和CUAA等大学排名之间的相关性强度。

关键词:机构评价;网络影响力;链接分析;大学排名

中图分类号:G203 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017095

Comparative Study on Indicators for Evaluating Institutional Influence in Web Space Based on Multiple Heterogeneous Datasets

Abstract It is an indispensable job to objectively evaluate academic institutions in daily scientific administration and webometrics-based evaluation technique has been increasingly becoming an effective way to fulfill this task besides traditional bibliometric indicators. In order to investigate the impact of different analytical strategies on the web influence of institutions, 342 universities in Mainland China were selected to compose the sample set to compare the reliability of different evaluating indicators on the web influence of institutions generated from different strategies of web data collection. Finally, the statistics shows that the numbers of educational domain names (RD_EDU) that linking to university websites, as well as the numbers of inlink on department level (Linknet) that university websites receive are significantly correlated (the average coefficient is nearly 0.8) with several transitional university ranking lists. Moreover, the correlation strengths are higher than that between prevailing web-based ranking lists (Webometrics Ranking of World Universities and uniRank) and traditional ones (ARWU, CARK and CUAA).

Key words institution evaluation; web influence; link analysis; university ranking

1 引言

對学术机构进行客观公正的评价是科研管理过程中不可或缺的工作,也是传统文献计量学和新兴的Altmetrics视角下对机构影响力进行量化评估的热门研究主题[1]。

在目前的机构评价研究和实践中,主要基于机构发表的科学论文数据,对机构的整体情况或者学科表现进行计量分析,包括采用高被引论文数、总被引频次、篇均被引频次等指标对学术机构的科研产出进行评价。但是仅仅从文献角度获得的分析结论不足以全方位体现机构的发展状态[2]。基于传统出版物的引用已经不是学术成果传播的主要渠道,科学思想并不总是通过科学论文的出版进行传播[3]。随着开放获取运动的开展,网络日渐成为学术出版的主要平台之一。在数字出版大行其道和学术交流网络化的今天,学者们更愿意使用开放存取平台或在线学术社区进行学术交流。各种基于网络计量学方法的期刊和机构影响力评价成为学术评价研究中有别于传统文献计量方法的另外一种有效的评价手段。网络影响力作为大学综合竞争力的一个很重要的补充,受到了学术界的广泛关注,也出现了不同于传统大学排名的网络影响力排名。多项研究成果表明大学的综合实力和网络影响力之间存在显著的相关关系[4-5]。然而,通过对这些研究中展示的数据进行分析可以发现,他们所采用的对于机构网络影响力的计量指标和机构本身的综合实力的相关程度还不是很高。

由于Web资源本身在数量、质量、结构化程度和异构性等方面的复杂性,利用Web数据对机构网络影响力的评估中在很大程度上受到数据采集策略和统计指标的影响。为了进一步探讨不同的分析策略对网络影响力的评价效果的影响,本研究将以我国342所大学作为研究样本,对比分析不同Web数据采集策略下,利用不同评价指标对机构的网络影响力进行评价的可靠性,从而为基于Web的机构影响力评价提供更为完善的数据采集策略和分析模型。endprint

2 相关研究

随着网络计量学的提出、兴起和应用范围的逐渐扩大,尤其是商业应用中搜索引擎推广效果和社会网络环境下的信息传播效应的不断增强,学术机构越来越重视利用网络进行学术推广、交流、人才招募、招生就业宣传等。于是,各种大学网络影响力排行榜应运而生。其中影响力比较大的是西班牙国家研究委员会(CSIC)下属的网络计量实验室的网络计量世界大学排行榜(Webometrics Ranking of World Universities,WRWU)。该机构自2004年发布第一版排名数据以来,每半年更新一次排名数据[6]。最新版(2017年)排名数据由四种不同的网络数据源加权产生[7](见表1)。

基于对网络环境下学术研究活动的全面考察和分析,WRWU 的创始人Aguillo等[8]认为,网络的开放性不仅能全面地反映研究人员的活动和成果,也提供了更多非正式学术交流的可能性,且这种可能性在传统纸质出版物中是无法获得的。学术论文的网络出版不仅保持了同行评议的高质量标准,而且成本更低,潜在的读者群也更大。新兴的开放获取运动(Open Access Initiatives,OAI)更是加快了学术研究成果向全社会及广大发展中国家扩散、传播及利用的速度和效率[4]。

经过十多年的发展,以WRWU为代表的大学网络影响力排名已经成为继上海交通大学ARWU、泰晤士高等教育THE-QS和U.S. News等大学排名之外最有影响力的世界大学排名体系。除了WRWU,uniRank(前身名为4 International Colleges & Universities)也是具有较大影响力的大学网络影响力排名,它采用MOZ、Alexa、Similar Web和majestic的数据对全球200多个国家12358个大学或学院进行排名[9]。

然而,基于网络数据的大学网络影响力排名也存在其局限性。赵丹群[10]认为从WRWU的指标体系以及在当前大学评价领域所产生的影响力来看,WRWU还需要平衡评价指标和数据获取的质量与效率。由于采用爬虫进行原生链接数据采集的方式成本比较大,因此在大规模机构评价中可能会面临数据获取困难的问题。虽然早期部分通用商业搜索引擎提供外部链接的搜索功能。但由于该功能被过度滥用,Bing从2007年初开始只允许网站的管理员对本网站的外部链接进行查看,禁止所有利用linkdomain或者inurl等命令进行外部链接搜索的行为[11],Yahoo!也于2011年初关闭了该功能[12]。Bosch等人经过九年的监控发现,通用商业搜索引擎Google和Bing的索引网页数变化非常大,因此通过通用搜索引擎采集的数据的可靠性将会受到很大质疑[13]。相比之下,专用的搜索引擎可能是解决数据可靠性的另外一个途径,其中最典型的代表就是Majestic。它是一个来自于英格兰的链接搜索引擎,专门为搜索引擎优化、媒体分析师、开发人员等提供付费数据和报告。

數据采集策略是影响网络影响力评估的主要因素之一,而计量指标的选择直接关系到排名数据的可靠性。为了尽可能设计更为合理的网络影响力评价指标,AGUILLO等人提出了采用复合指标进行网络影响力排名的思路,并且在WRWU中进行了应用。为了进一步讨论考察网络影响力排名的可靠性,他们将WRWU和主流的四大大学排行榜(上海交大的ARWU排名、泰晤士高等教育的THE-QS排名、台湾高等教育评鉴中心基金会的HEEACT排名和莱登大学的CWTS排名)之间的相关性进行了对比分析。他们的研究数据显示,WRWU和其它大学排名之间(2008年)的Spearman相关系数在0.5左右。国内学者也分析了WRWU和U.S.News(2010年)之间的相关性,得出了类似的相关性分析数据(世界大学综合竞争力和网络竞争力排名的比较研究)。除了在大学影响力方面的应用外,以链接分析为主要技术路线的评价方法在期刊评价、网站质量评价中已经有了很多较为成熟的应用。多位学者将链接分析应用于图书馆[14]、企业[15]、学术期刊等对象[16],并证实链接分析指标能够很好的测度网站的影响力。

3 数据来源与指标体系

3.1 样本选择

高校是人才培养的重要机构,是国家创新活动的核心组成部分。截至 2012 年底,中国有普通高等学校和成人高等学校2790所,有学士学位授予权的学校 2442所,有硕士及以上学位授予权的学校534所[17]。为了达到比较全面的学科覆盖率,并使网络影响力评估的结果和主流的评价体系具有可比性,本研究将研究样本选定为《教育部学位与研究生教育发展中心2012年学科评估结果》中的363所高校为研究对象。由于军事类院校的Web信息具有保密性要求,因而除去其中的军事院校。此外,部分艺术类院校的院系层面没有单独的网站,仅限于相关文字性叙述,而本研究在部分指标的数据采集中需要以院系网站为基础,因此这部分网站也被移除。最终确定的研究样本共包括342所大学。

3.2 数据采集和预处理

本研究的数据来源大致可分为五种:(1)大学综合排名数据;(2)样本网站的原生链接数据;(3)通用搜索引擎Google、文献搜索引擎Google Scholar和链接搜索引擎Majestic;(4)大学网络影响力排名数据;(5)Web of Science论文数据。

(1)大学综合排名数据。为了对比不同的网络影响力指标的性能,本研究以现有的大学综合排名数据作为比较的基准。虽然国际上比较权威的大学排行榜有多个,考虑到现有的对于网络影响力计算的指标大多以上海交通大学的排行榜作为主要对比数据,并且本研究涉及我国大量的大学样本,该排行榜中有关我国大学的排名数据相对比较完整,因此本研究在涉及到国际大学排名的对比时,以上海交通大学的大学排名数据作为基准来检验各种网络影响力指标的有效性。在国内大学样本的指标分析中,为了提高分析结论的可靠性,本研究将上海交通大学(ARWU)、中国管理科学研究院(CARK)和中国校友会网(CUAA)三个主流大学排行榜作为基准数据。endprint

(2)原生链接数据。本研究采用LinkDiscovere系统进行链接网络的数据采集[18],数据采集时间段为2015年5-6月。该系统允许研究者对每个采集任务进行比较灵活的前控制和后控制,前控制可以通过设置具体参数实现,采集深度、采集范围、子线程数、页面格式、URL关键字过滤等,后控制包括任务监控模块等。经过数据采集,获得了本次研究的样本网站的外部链接数量。需要特别说明的是,为了尽可能采集到大学之间因学术研究的相关性而产生实质性链接关系,本次网络采集数据之前首先人工收集了大学所属的所有学院网站,并以此为单位,最终由5711个学院的网站链接数据聚合形成大学网站之间的链接关系网络。采集到的网页数量为21,575,697个,外部链接数为7,234,946個,指向除了自身外的其它341所大学的外部链接总数为168,535个。

(3)搜索引擎数据。从Google、Google Scholar和Majestic采集数据的时间为2016年11月7日至11月18日,具体使用检索式和采集的数据指标详见表2。检索式1获取的是Google索引的该大学网站的网页数,代表了网站的规模;检索式2表示该大学的名称被其它大学网站提到的次数,也可称为web mention指标;检索式3表示Google Scholar中收录的来自该大学的学术资源的数量,pdf、doc、ppt和html等格式的科学论文为最主要的收录对象;检索式4获取来自Majestic的TrustFlow、RD_EDU等8个指标数据。

(4)大学网络影响力排名数据。目前比较全面、影响力较大的大学网络影响力排行榜主要是WRWU和uniRank。在对比分析中,为了充分反映异构数据源下的网络影响力排名和大学综合排名之间的相关性,在指标相关性分析中,只保留了部分在多个网络影响力排行榜中都存在排名数据的样本作为分析对象。在国际大学指标相关性分析中,去除了ARWU中100名以后排名数据不精确的样本,最终保留了ARWU、uniRank和WRWU重叠的样本作为研究对象(共78所国际大学);在国内大学分析中,虽然原始集合包括342所大学,但由于部分样本在有些榜单中存在排名数据缺失的问题,最终以ARWU(China)、CARK、CUAA和WRWU重叠的样本作为研究对象(共267所国内大学)。需要特别说明的是,在国内样本的指标对比分析中,uniRank排行榜包含的中国样本太少,因而没有作为平行数据纳入到对比分析中。

(5)WoS论文数据。获取342所大学相应的发表于Web of Science数据库的核心库中2006-2015年间的SCI、SSCI和A&HCI三个引文数据库的文献信息。数据处理过程中参考了文献[18]的机构名规范化方式,尽可能全面地获取WoS中相关机构名的不同表达形式,从而最大程度保证文献数据的检全率。由于2006年和2007年份的文献中参考文献的DOI信息缺失达到94%,因而最终将引用数据的数据范围限定于2008-2015年,共得到956,948条原始文献信息,其中参考文献部分引用342所大学所发表的论文的频次为861,819次。

3.3 指标体系

根据不同的数据来源,除了大学排名数据外,本研究需要参考的指标主要来自四种途径(每种来源的指标分布情况见表3)。

4 相关性分析

为了探讨不同的Web数据源以及对应的加权评价指标与传统大学排名之间是否存在一定的联系,相关性程度如何,本研究以国内大学样本为主要研究对象。同时为了验证待考察指标在不同的统计样本集上的相关性表现是否具有一定的稳定性,下面将在国内和国际不同的样本集合上对比分析异构数据源下的不同网络影响力评价指标的表现。

4.1 国内样本集合指标相关性分析

作为专业的链接搜索引擎,Majestic提供的网站排名数据不止文中列举的8个指标,这里选取了部分比较重要的,具有代表性的指标及对应的数据(见表4)。从表4中前四种不同途径的异构数据(Google、Majestic、Web和WoS)和主流的大学排名(CARK、CUAA和ARWU)的相关度统计结果来看,所有基于网络链接分析的指标和大学排名之间存在中度(0.4-0.7)或者高度(0.8-1.0)的相关关系。

无论被搜索引擎Google索引的网页数量、被链接的EDU域名的数量或者被Google Scholar收录的学术文档数量,均能部分反映一所大学的网络影响力。虽然表4中从Majestic获得的8个指标的数据相关性和Google的三个指标比较接近,但RD_EDU指标却显示出和其它三个大学排名之间高度或接近高度相关关系(0.800、0.817和0.745)。存在这种现象的可能原因是,RD_EDU表示链接到一所大学的EDU域名的数量,代表了高等教育领域的同行对该大学的认可程度,因此可信度比较高。在相关性表现方面,RD_EDU甚至接近于传统文献中体现的机构论文数(Papers)、总被引次数(Citation)和合作(Cooperation)等指标。RD_EDU指标体现出的高度相关性说明了网络链接分析中的同行评议行为如果能得到恰当的识别和利用,可能具有重要的大学影响力评价价值。这个假设通过Linknet指标的相关性数据可以得到部分验证。Linknet指标表示的是一个样本被样本集合中所有其它机构链接的次数。不同于Google的Google_EDU指标的是,Linknet采集的链接次数只来自于大学的学院网页上的链接,过滤了大量来自EDU域名上的非科研或者教学部门的链接(如大学的论坛、管理机构等),并且采用了目录去重、采集范围和深度控制等策略。这些组合策略有效规避了Google_EDU和RD_EDU等指标存在的混杂非科研或教学动机产生的链接,评价数据可靠性得到了大幅提高。表现为Linknet和其它三个大学排名之间存在高度或者接近高度相关的关系(分别为0.803、0.802和0.714)。endprint

为了和西班牙学者AGUILLO团队开发的著名的网络影响力排行榜Webometrics Ranking of World Universities形成对比,本研究从该排行榜中抽取了中国大陆的大学排名数据,形成了WRWU指标,并计算了WRWU指标与三个大学排名之间的相关性。统计数据显示,相比于2010年AGUILLO等人的评测数据,虽然WRWU与ARWU之间的排名相关性平均值有所提高(从0.550左右提高到了0.650)[20],并且WRWU和CARK以及CUAA排名之间的相关性也很显著,但总体上和RD_EDU、Linknet两个指标还是存在比较明显的差距。

4.2 国际样本集合指标相关性分析

为了进一步比较以搜索引擎的多项数据加权形成的排名数据和经過充分优化的单个指标排名数据的性能,本研究选取了ARWU全球大学排行榜上排名前100位的大学作为统计样本(100位以后并列排名过多),其中共有78所大学出现在uniRank和WRWU两个主流的网络影响力排行榜上[24-25]。从相关性数据可以看出,uniRank和ARWU的相关程度比较低。WRWU指标和ARWU在国际样本中的表现基本接近于国内样本,说明了本研究采用的对WRWU指标的评测数据是基本稳定的(见表5)。由此可以推断表4中对ARWU、WRWU、RD_EDU和Linknet指标进行平行对比是可行的。

此外,在一般的大学评价中往往对机构的论文数量或者质量(被引次数)赋予比较高的权重,表4中来自WoS的大学发表的论文总数、总被引次数与ARWU高度相关关系也证实了这一点。然而,以网络链接关系为主的RD_EDU和Linknet指标与三个大学排行榜之间的相关性水平基本接近Citations指标,说明了在正确的数据获取策略下,网络影响力指标也有可能达到和传统科学论文同等的评价水平。

5 结语

作为信息传播的新媒介,互联网在工作、学习和生活中扮演着越来越重要的角色。Web大数据的背景下,以链接为主要关系表征的Web空间的交互行为中往往隐藏着重要的信息。利用海量网络信息进行大学网络影响力的评估,逐渐成为大学评价研究的主要研究内容之一。由于Web信息存在量大、增长速度快、分布范围广、结构复杂和垃圾信息多等特点,选择合适的数据采集策略和评价指标是其中最为关键的两个步骤。uniRank和WRWU两大排名虽然采用了多数据指标加权策略,但仍然不能解决某些指标中存在的严重的数据失真的问题。以后者为例,WRWU的加权指标中对Subnets指标赋予了50%的权重[7],而本文表4的数据显示,Subnets指标和ARWU之间的相关性程度并不是最高的,因此将其作为网络影响力的最重要指标的加权方案值得商榷。

通过对异构数据环境下不同的大学排名数据之间的相关性进行深入分析发现,本研究提出的以大学之间相互的实质性链接行为作为数据来源的策略是可行的。具体表现为,被链接的大学域名的数量(RD_EDU),或者经过过滤的学院层面的链接次数(Linknet)和多个大学排名之间存在显著的相关关系,并且在相关性强度上要高于主流的网络影响力排名。本研究的初步结论对提高学术机构的网络影响力排名的可靠性有积极的参考价值,也可供机构对自身网络影响力进行评估、从而进一步促进网络学术交流活动的开展和跨区域学术合作。

在国际样本的比较中,由于没有对这些样本的原生链接数据进行采集,因此没有比较这些样本在Linknet指标上的表现。并且国内样本的原生链接数据采集时间要早于来自搜索引擎的数据,这使得搜索引擎的数据有一定的滞后性,虽然本研究使用的不同数据时间差异要小于实际值,但此类研究中不可避免的数据获取时间的差异可能对结论有一定的影响。

参考文献:

[1] 杨柳,陈贡.Altmetrics视角下科研机构影响力评价指标的相关性研究[J].图书情报工作,2015,59(15):106-114,132.

[2] 何文静,邱均平.大数据时代计量学在学科评价中的应用研究[J].图书与情报,2016(4):83-88.

[3] Priem J,Costello K L. How and why scholars cite on Twitter[C].Proceedings of the American Society for Information Scienceand Technology,2010,47(1):1-4.

[4] Aguillo I F,Granadino B,Ortega J L,et al. Scientific research activity and communication measured with cybermetrics indicators [J].Journal of the American Society for information science and technology,2006,57(10):1296-1302.

[5] Thelwall,M.,& Harries,G.Do the web sites of higher rated scholars have significantly more online impact?[J].Journal of the American Society for Information Science and Technology,2004,55(2):149-159.

[6] Webometrics Ranking of World Universities.Methology[EB/OL].[2017-05-10].http://www.webometrics.info/en/Methodology.

[7] Webometrics Ranking of World Universities.2017-Ranking Web of Universities.January New Edition[EB/OL].[2017-05-10].http://www.webometrics.info/en/node/178.endprint

[8] Aguillo I F,Ortega J L,Fernández M.Webometric ranking of world universities: Introduction,methodology,and future developments [J].Higher education in Europe,2008,33(2-3):233-244.

[9] uniRank.About us[EB/OL].[2017-05-10].http://www.4icu.org/about/index.htm#ranking.

[10] 赵丹群.WRWU及其评价指标体系简析[J].知识管理论坛,2013(8):40-43.

[11] Seidman E.Microsoft:Were Flattered that Google Copied Bing[EB/OL].[2007-10-18].https://developer.yahoo.com/search/web/webSearch.html.

[12] Yahoo!.Web Search APIs from Yahoo![EB/OL].[2016-10-18].https://developer.yahoo.com/search/web/webSearch.html.

[13] Bosch A,Bogers T,Kunder M.Estimating search engine index size variability:a 9-year longitudinal study[J].Scientometrics,2016,107(2):839-856.

[14] 丁楠,潘有能.基于鏈接的公共图书馆与高校图书馆网站影响力比较研究[J].图书馆学研究,2010(7):41-46.

[15] 沙勇忠,牛春华.中国信息化优秀企业网站链接分析与网络影响因子测度[J].兰州大学学报(社会科学版),2004(5):99-107.

[16] 刘虹,孙建军,郑彦宁,等.CSSCI来源期刊的网站影响力分析[J].情报杂志,2012,31(4):5-8.

[17] 教育部学位与研究生教育发展中心.2012年全国高校学科评估结果[EB/OL].[2014-01-24].http://www.cdgdc.edu.cn/xwyyjsj

yxx/xxsbdxz/mtjjp/index.shtml.

[18] 杨波,杨军威,阎素兰.基于规则的机构名规范化研究[J].现代图书情报技术,2015(6):57-63.

[19] Majestic.Glossary[EB/OL].[2017-05-10].https://majestic.com/support/glossary.

[20] Aguillo I F,Bar-Ilan J,Levene M,et al.Comparing university rankings[J].Scientometrics,2010,85(1):243-256.

[21] 武书连.挑大学选专业/2017高考志愿填报指南[M].北京:中国统计出版社,2017:23-39.

[22] 中国校友会网.2016中国大学评价研究报告[EB/OL].[2017-05-10].http://www.cuaa.net/cur/2016/.

[23] Academic Ranking of World Universities.Academic Ranking of World Universities 2016[EB/OL].[2017-05-10].http://www.shanghairanking.com/ARWU2016.html.

[24] uniRank.Top 200 Universities in the World[EB/OL].[2017-05-10].http://www.4icu.org/top-universities-world/.

[25] Academic Ranking of World Universities.Best Chinese Universities Ranking-Overall Ranking-2017[EB/OL].[2017-05-10].http://www.shanghairanking.com/Chinese_Universities_Rankings/Overall-Ranking-2017.html.

作者简介:杨波,男,南京农业大学信息科学技术学院副教授,硕士生导师;赵佳骏,男,南京农业大学信息科学技术学院硕士研究生;殷作霖,男,南京农业大学信息科学技术学院硕士研究生;陈睿莹,女,南京农业大学信息科学技术学院硕士研究生;王小妍,女,南京农业大学信息科学技术学院硕士研究生;黄水清,男,南京农业大学信息科学技术学院教授,博士生导师。endprint