李铭翁 淳光
〔摘 要〕机构知识库是一种新型学术传播方式,它通过网络实现知识传播,因此网络影响力是评价机构知识库的重要因素之一。美国、英国是当今机构知识库数量最多的国家,而中国、印度又是发展中国家的新兴代表,本研究对中美英印机构知识库网站的网络影响力进行实证评价,指标采用网站规模、外链数、显示度、文献量、MozRank。采用TOPSIS法对其网络影响力排名;用Spearman相关分析检验指标与排序之间的相关性。结果显示排名呈美国>英国>中国>印度的趋势。
〔关键词〕机构知识库;网络影响力;对比分析
DOI:10.3969/j.issn.1008-0821.2015.07.014
〔中图分类号〕G25074 〔文献标识码〕A 〔文章编号〕1008-0821(2015)07-0073-06
〔Abstract〕Institutional repository is a new way of research communication,which realizes knowledge dissemination through network.Thus network impact is one of the important factors to evaluate Institutional repository.US.and UK.own the largest number of institutional repository at today,and China and India are the representative of developing country.This study made the empirical evaluation of institutional repositories network influence in China,US.,UK.and India.The study used five indices:the scale of website,the site links,the extent of display on the internet,the papers and MozRank.Network impact of IR were ranked by TOPSIS Method;Correlation test between indicators and rank was analyzed by Spearman Correlation Test.The result showed that the network impact of IR in US.is the best,and UK.is the second,China and India are third and four.
〔Key words〕institutional repository;network influence;comparison analysis
机构知识库(Institutional Repository,以下简称IR)是科研教育机构保存知识资产、展示知识能力、推动知识成果广泛传播和应用的重要平台,近年在国际科技教育领域迅速发展。它是依托网络建立的共享数据库,对各种数字化产品进行收集、保存、管理、检索和利用,具有学术传播、电子出版、长期保存、知识管理、促进教育、科研评价、开放共享等功能[1]。鉴于IR以网站为信息传递平台,所以网络影响力是评价机构知识库质量优劣的重要指标之一,网络影响力的大小决定着IR在网络中的传播效果,对IR的运行和发展起着重要作用。
目前世界各国都大力发展机构知识库,依据2014年8月对开放存取知识库名录Open DOAR(The Direct of Open Access Repositories)统计,近五年IR数量增加了2倍多,其中以发达国家发展最为迅捷,从数量、质量都远超发展中国家。发达国家以英国与美国为主,发展中国家以中国与印度为典型。故本文以这4个国家作为研究对象,从网络计量学角度出发,首先建立评价指标体系,然后对其网络影响力进行分析比较,比较目前发达国家与发展中国家间的差距,重点找出我国IR存在的问题,促使我国的IR能更好更快地发展,更全面、更便捷地服务于科技创新。
1 资料来源与方法
11 资料来源
依据国际权威的开放存取知识库名录OpenDOAR(http:∥www.opendoar.org/),从List of repositories进入,在Asia栏目下选择China(中国)和India(印度),在North America栏目下选择United States(美国),在Europe栏目下选择United Kingdom(英国),4国共注册有784个机构知识库。排除无法打开、网站规模异常、Open Site Explorer抓取不到数据等的网站,最终统计为618个(见表1)。
来的误差,本次研究采用了VPN(虚拟专用网络),即使用各国国内的服务器进行测试。鉴于目前主流分析网络影响力的搜索引擎如Alltheweb、Altavista、Yahoo Site Exploere早已停用,本文使用了测试工具集合的方式,即对于不同指标采用不同测试工具。
2 网络影响力评价指标体系构建
21 网络影响力指标
网络影响力是对网络信息资源建设水平和综合利用效率的客观测度,评价的出发点通常是网络信息资源间的链接关系或用户访问网络信息资源的情况。著名计量学专家邱均平教授对网络影响力评价,使用了网站规模、外链数、显示度、内容丰富度以及学术影响力[2-3]5个指标。刘文云、黄贺方等也提出各自的见解,但其具体指标基本一致[4-5]。西班牙人文与社会科学研究中心网络计量实验室发布的《世界大学网络计量排名》和武汉大学中国科学评价研究中心的《中国重点大学网络影响力排行榜》采用的5个指标也较上基本相同[6],说明这5个指标是较为认可的指标。易程等在研究成果中显示外链数、学术论文数与机构知识库世界排名相关性比较强,而文档丰富度与世界排名呈现弱相关[7],故本文不考虑使用文档丰富度。endprint
MozRank是Open Site Explorer推出的指标,是评价网站质量的有效指标。其原理在于通过一系列严谨而科学的算法计算出一个得分,分值越高愈能说明该网站的质量、等级和受欢迎程度,与Google的PR值类似。
综合以上研究成果,本文采用网站规模、外链数、显示度、文献量、MozRank 5项指标评价IR的网络影响力。
22 指标说明
网站规模:即搜索引擎索引到的该网站的网页总数。信息容量大的网站,被其他网站链接次数就多[5]。采用百度、360搜索、搜狗、谷歌、必应及雅虎[8]这5个搜索引擎,使用“site:网址”检索,取其最大值[5]。
文献量:即IR有的文献数量。可从Open DOAR网站中直接获取。
显示度:即IR出现在搜索引擎收录的网页的次数。鉴于Google搜索引擎目前在全球覆盖面较广,故本指标采用此引擎,用IR在Open DOAR的注册的英文全称进行检索。
外链数:即一个网站被外部网站链接的次数。从Open Site Explorer中获取。
MozRank(简称“M”):通过抓取互联网中超链接的连接关系判定等级,分值为0~10分。影响分值的因素:外链数量和链接源的权重(即链向这个网站的网页页面的权重),分值越高说明该网站越受欢迎,一般而言MozRank≥7说明该网站关注度高;而4≤MozRank<7说明网站一般。从Open Site Explorer中获取。
3 评价方法
31 采用TOPSIS法,对机构知识库的网络影响力排序 本研究采用基于客观评价的TOPSIS分析法,它是系统工程中有限方案多目标决策的常见方法[9],是对基于归一化后的数据矩阵分析,找出有限方案中的最优方案和最劣方案,然后获得某一方案与最优方案、最劣方案的差距(用差的平方和的平方根表示),从而得出该方案与最优方案的距离,并依此作为评价各方案优劣的依据。
32 采用比较分析法,对中美英印的IR进行比较研究 比较是认识事物的基础,是人类认识、区别和确定事物异同关系的最常用的思维方法。要想了解我国IR质量如何,实际应用如何,就必须与其他国家的IR进行比较,找出我国IR的不足之处,提出需要解决的问题。
33 运用统计学方法,研究国家间的指标差异情况
通过Excel对数据进行描述性统计,采用SPSS170进行统计学分析。运用Spearman相关分析以确定各指标与排名高低的相关性,根据相关系数判定有益于提高排名的指标。此外,对中国、美国、英国、印度4个国家的数据进行秩和检验及其两两比较,以P<005为差异有统计学意义。
4 结 果
41 综合指标排序
采用TOPSIS法将评价结果从高到低排名,由于IR较多,且中印未进入前10,这里显示排名前10及中印首位的IR(见表3)。如图可见:在618个IR中,美国和英国占据前10名,中国首名香港大学仅列17位,印度首名也仅77名,这说明了发达国家和发展中国家在IR的网络影响力上具有明显差距。
42 指标比较
经检验,本数据不服从正态分布,故不使用均数和标准差,而采用中位数为主、辅以四分位间距、最大最小值来反映中美英印的整体水平(见表4~表8)。
将各指标的中国、美国、英国、印度4个国家的数据进行秩和检验,显示4国间均具有统计学差异(P<005),后进行两两比较,得出:除外链数和MozRank中国与印度(分别是0147和0144)间不具有统计学意义,其他指标各国均具有显著统计学差异(P<001)。
从各指标看出各国趋势是:从中位数来说,除了网站规模和文献量我国分列第1和第2,美国和英国基本占据前两名;从最大最小值来说,美英数据差异极大,层次参差不齐,中印较均衡;四分位间距的情况同中位数类似。
中位数可反映各国IR的总体水平,将表中各国指标的中位数再次做TOPSIS分析,最终得出4国IR网络影响力为:美国>英国>中国>印度的结果。
43 区间分布情况
以155为间距,将618个IR综合排名分为4个区间,得出4国IR在4区中的数量分布(见表4),第一区为最优,第四区则为最差。可见:美英分布较均衡,各区比例相差较小,而中印的大部分位居第四区。
44 各评价指标与排名的相关分析
将排名与5个指标分别进行Spearman相关分析,显示排名结果与所有指标均具有较大相关性(相关系数R>03为具有相关性,R>07位强相关),且均为正相关。其中M值和外链数相关度最大(R=087和R=0728),其次是文献量、显示度、网站规模(R=0462、0441、0418)。说明M值和外链与IR的排名呈现显著强正相关,M值的提升和外链数的增加可以显著提高IR的网络影响力。
5 分析与讨论
英美等发达国家发展的历史比我们悠久,其在各个领域已经形成了科学而严谨的规范和行为准则。通过研究可看出:作为发达国家的美国、英国机构知识库的网络影响力远大于发展中国家的中国和印度,且4国呈美国>英国>中国>印度的排序,值得我们深入挖掘其中的关键信息。
51 网站维护
一个网站运作后,只有不断改进设计、提供更多的服务,不断更新、增添信息,网站才会具有活力,实现建立站点的最终目的,因此网站维护非常重要。在统计中最终可用于比较的网站比例是英国最高,占8982%,美国第二,占7849%,中国和印度分别占6667%和5147%,说明英国与美国的IR不仅在OpenDOAR注册,同时还重视其适时的维护,保障IR的可用性。
52 各国指标比较
网站规模是决定网站信息资源丰富度和用户信息检索效率的重要因素,按中位数排名,该指标为中国>印度>英国>美国。纵观统计数据,中国IR整体较均衡,网站规模最大的是香港大学IR,有507 000个网页,最低的是清华大学IR,有12 217个网页;而美国和英国却出现了优劣差距非常大,英国网站规模最低的仅151个网页,美国最低的仅418个网页。由于英美IR数量较多,覆盖面广,而又没有一个统一的建设指导机构,因此IR的建设情况参差不齐,发展较好的IR各指标相当优秀,反之各指标指数较低他们更注重中国目前的IR数量较少,主要集中在重点高等院校和中国科学院,因此发展较均衡。endprint
文献量是指IR中存放的文献数量,直接体现IR内容的丰富程度,文献量越大网站被公众利用的机率的概率就越高,网络影响力也会越大。该指标排名为美国>中国>印度>英国,从排名看中国IR的文献量大于英国和印度,但次于美国。目前中国科学院系统已经实行文献的呈缴制度并与职称评聘挂钩,这对保障IR的文献量有好处。
显示度是通过搜索引擎搜索网页数而得,目前网络搜索引擎已经成为人们获取网络信息资源最主要、最便捷的工具,所以搜索引擎对IR信息资源能否被用户利用起着至关重要的作用,也直接影响用户对IR网站的访问行为、认知程度和利用程度[11]。该指标的中位数排名为英国>美国>印度>中国,中国位于最后。表3可见,中国的显示度小于1 000的有5384%的IR,而美国仅有1158%,英国有1692%,这应引起中国IR的建设者们重视,如果IR的网页无法被搜索引擎检索到,那么利用率将大受影响。
外链在很大程度上反映网站的被认可度和知名度,以及外部影响力和网络辐射力,是网站建设质量的主要评价指标。该指标排名为美国>英国>印度>中国,中国仍为最后。说明中国IR被认可度不高,当然影响该指标的因素有多种,比如文献的价值、连接的成功率、网络的速度等等,今后中国IR的建设和维护要加强这方面的检测与设备的改进。
M值代表一个链接流行度评分。它反映了任何给定的网页在互联网上的重要性。网站通过获取其他网页链接到本身的数量和质量来提高MozRank。传入环节的质量越高,MozRank越高。该指标的排名为美国>英国>印度>中国。中国仍位于最后。这进一步说明中国IR的被关注程度较差,这与IR的网络建设、内容质量、传输等都有很大关系。中国的IR与英美发达国家的IR相比还有较大的差距,应该引起政府相关部门重视,提倡IR联盟,除了有较强的IR硬件设施外,还应进一步提升IR的内在质量,吸引其他网站的链接。
53 各国分区情况
分析各国分区的情况可见,中国在第一区中的IR仅占1923%,而英国和美国的IR分别占2684%和266%。第四区中国和印度占的比例就最大,分别为6154%和5143%,而英国和美国分别占178%和2759%。这说明中国和印度的较大部分IR质量较差,排名靠后。
54 统计学分析
通过Spearman相关分析,显示5项指标中M值链和外链数与网络影响力的相关度最大,而我国IR这两项排名却在最后,证明中所以我国所以我国IR较大的差距。更要重视MozRank和外链数的建设,将MozRank和外链数的建设作为提高IR网络影响力的一项重要工作。通过秩和检验及其两两比较,我们可以看:至少英美和中印是具有显著差距的,我国只有不断的赶超,不断学习,才能追赶甚至超越发达国家的IR建设水平。
6 小 结
61 中国IR应该面向全球
IR是开放获取运动的一个重要部分,是机构知识管理的有力工具。中国高等院校和研究机构较多,学术资源丰富,目前很多研究机构,特别是高等院校都构建了IR,但却没有在OpenDOAR注册,就北京而言,在OpenDOAR上注册的仅清华大学、北京大学和北京科技大学。这说明中国的IR开放获取意识还不强,不够规范,没有形成国家层面、学校层面以及科研人员层面的普遍认知,因此跟不上信息社会发展的进程。中国应该认真研究与学习国外IR建设的成功经验,充分利用自身的丰富资源,创建国际化学术环境,为中国的科技创新提供良好的环境与条件。
62 加大政府干预力度
在数字化时代,如何充分利用互联网,将学术研究机构产生的大量信息资源进行高效利用、传播与管理,是学术界普遍面临的挑战。同时,面对垄断造成的日益高涨的价格壁垒,急需一种新的信息保存及获取方式来促进学术资源的高效利用,IR便可缓解这些矛盾,因此要加强国家政府层面的政策支持。
总之,IR在国内还属于一个新兴事物,应当充分借鉴国内外已有经验,加大宣传推广,争取多方面支持,并通过有效地政策及制度来保证机构知识库的长久发展。
63 本次研究可能的存在问题及解释
(1)目前关于IR网络影响力的研究大部分采用层次分析法等,借鉴TOPSIS法进行此项研究极少使用,望本次研究能为TOPSIS法在IR网络影响力的运用提供一定的借鉴,在不进行人为增加权重的情况下,其能否科学的体现IR的网络影响力还有待进一步研究。
(2)对显示度采集工具的选择:Google作为全球市场占有率最高的搜索引擎,是网络计量学研究的首选之一,本文显示度指标即采用该搜索引擎,并且为了更好地测试效果使用了VPN(虚拟专用网络)。但是针对谷歌在国内的使用情况不及百度,本文又使用了百度分别检索中英文显示度,并将中英文显示度进行叠加,结果显示百度的显示度指数远不及Google,说明百度爬虫对IR网站的采集力度不及Google,故选Google。对指标数据的解释:在网络中,个别数据指标由于是动态的,同一搜索引擎,同一检索对象,不同时间点数据差异很大,因此我们选择在尽可能短时间内就将全部研究对象检索完毕,从而最大限度的保障数据的准确。
参考文献
[1]赵继海.机构知识库:数字图书馆发展的新领域[J].中国图书馆学报,2006,(2):33-36,50.
[2]邱均平,等.网络计量学[M].北京:科学出版社,2010:128-129.
[3]邱均平,程妮.中国重点大学的网络影响力评价研究[J].科学学研究,2009,(2):190-195,175.
[4]刘文云,周泰冰.我国省级公共图书馆网络影响力评价研究[J].图书馆建设,2011,(3):85-89.
[5]黄贺方,孙建军.基于链接分析的网站评价实证研究——以四大门户网站为例[J].情报杂志,2011,(1):74-77.
[6]虞飞华.不同搜索引擎在中国大学网络影响力评价中的比较研究[J].情报科学,2013,(5):98-103,122.
[7]易程,李春,林维波.世界机构知识库网络计量学排名影响因素研究[J].大学图书馆学报,2013,(2):74-78.
[8]中国互联网络信息中心.中国互联网络发展状况统计报告(2005年7月)[EB-OL].http:∥www.cnnic.net.cn upload files pdf 2005 7 20 210342.pdf,2006-01-06.
[9]鲁春阳,文枫,杨庆媛,等.基于改进TOPSIS法的城市土地利用绩效评价及障碍因子诊断——以重庆市为例[J].资源科学,2011,(3):535-541.
[10]潘志敏.用TOPSIS法对我院各病区工作进行综合评价[J].中国卫生统计,2001,(4):41-42.
[11]张云瑾.台湾地区机构知识库建设特点及其启示[J].福建师范大学学报:哲学社会科学版,2010,(4):56-59.
[12]新华社书目报.中国科学院国家科学图书馆组织建立全院机构知识库网格服务系统[EB/OL].http:∥www.nlc.gov.cn/newtsgj/yjdt/2010n/11y2182/201011/t2010112234555.htm.
(本文责任编辑:孙国雷)endprint