李铭 翁淳光
[摘要]本文鉴于大数据时代机构知识库对于保存及共享科研成果,利用网络实现自由传播的重要意义,对我国内地及港澳台地区机构知识库网站的网络影响力进行指标评价,除了应用网络影响力的多项基础指标外,还引入SEO分析。根据最终结果,本文运用TOPSIS法对网站进行排名,并对内地、台湾及港澳地区的机构知识库进行比较分析,找出内地机构知识库现存的问题。本文建议要加大政府干预力度,改变重建设轻维护的现状,重视SEO优化,重视规范化与标准化建设机构库,尽快与国际接轨。
[关键词]机构知识库;网络影响力;SEO分析;评价
[中图分类号]G250.74
[文献标识码]A
[文章编号]1008-0821(2015)04-0017-05
机构知识库(Institutional Repository,IR)承担着保存机构知识资产和支持知识开放共享的重要职责,是新型学术信息交流体系和教育科研知识基础设施的有机组成部分,是机构管理科研成果、传播学术知识、支持社会科技创新的支撑性基础设施。数字科研的迅速发展、数字知识内容和科研成果的形态日益丰富、知识内容的应用形态和应用方式日益活跃,科研机构各个层级对IR的要求也越来越高,由此可见IR的质量将直接影响我国的科技创新发展。
鉴于IR的网络特性,因此对IR的网络影响力进行多指标评价,既可以看出国内IR质量差异、结构差异,也可以找出其存在的主要问题,有利于进一步提高改进,与国际接轨。
1 网络影响力综合评价指标的构建
1.1网络影响力指标
网络影响力是对网络信息资源建设水平和综合利用效率的客观测度,评价的出发点通常是网络信息资源间的链接关系或用户访问网络信息资源的情况。我国著名的计量学专家邱均平教授对网络影响力评价指标使用了网站规模、外链数量、显示度、内容丰富度以及学术影响力,此外刘文云、黄贺方等对网络影响力评价指标也提出各自的见解,其具体指标基本一致。
西班牙人文与社会科学研究中心网络计量实验室从2004年开始每年发布《世界大学网络计量排名》,武汉大学中国科学评价研究中心从2008年起发布《中国重点大学网络影响力排行榜》,这两个排名也均包含了网站规模、外链数、文档丰富度、学术文档数、显示度5个评价指标。易程等在研究成果中显示外链数、学术论文数与IR世界排名相关性比较强,而文档丰富度与世界排名呈现弱相关。链接效率为外链数/网站规模所取得的值,来源于外链的数量越多,其链接效率就越高,网站相对影响力就越大,而且链接效率与网络影响因子存在显著的线性正相关性,链接效率越高,网络影响因子越大,其社会影响力就越大,因此链接效率是反映网站影响力大小的一个重要指标。
SEO是搜索引擎优化(Search Engine Optimization)的英文缩写,是指通过采用易于搜索引擎索引的合理手段,使网站各项基本要素适合搜索引擎的检索原则,并且对用户更友好,从而更容易被搜索引擎收录及优先排序。据《中国互联网络发展状况统计报告》显示,84.5%的网络用户得知新的网站是依靠搜索引擎,58.2%的网络用户通过搜索引擎检索所需信息,截止2014年6月,我国搜索引擎用户规模达5.07亿。所以网站如果想要提高自身网络影响力就必须对自身进行优化,以便于搜索引擎索引,因此本次研究引入了SEO指标。
1.2评价指标体系形成
依据综上所述,本研究将我国IR网络影响力评价指标确定为:目标层与准则层(见图1)。目标层的具体指标为:可见度、认可度、SEO分析。准则层的具体指标为:网站规模、文献量、显示度、外链数、网络影响因子、链接效率、MozRank、Followed Linking Root Domains与Equity-Passing Links/Non-Equity-Passing。
2 数据来源及指标说明
2.1数据来源与获取时间
依据国际权威的开放存取知识库名录Open DOAR,点击国家和机构板块,找到亚洲栏目下的中国(China)、香港(Hong Kong)、台湾(Taiwan),共注册有99个IR(其中内地33个,香港7个,澳门1个,台湾58个)。排除无法打开、网站规模过小(数据量≤100)、Open Site Explorer抓取不到数据的网站32个,最终统计为67个(见表1)。
鉴于目前主流分析网络影响力的搜索引擎,如Alltheweb、Altavista、Yahoo Site Exploere早已停用的问题,我们使用了测试工具集合的方式,即对于不同指标采用不同测试工具。指标数据收集时间为:2014年8月20~24日。
2.2指标说明
2.2.1可见度
可见度包括网站规模、文献量、显示度。
网站规模:即搜索引擎索引到的该网站的网页总数。采用百度、360搜索、搜狗、谷歌、必应及雅虎,取其最大值。
文献量:即IR拥有的文献数量。从Open DOAR中获取。
显示度:即IR网站名称在搜索引擎中的收录数。鉴于Google在当今全球的覆盖面,故统一使用Google检索其英文全称。
2.2.2认可度
认可度包括外链数、网络影响因子、链接效率。
外链数:即IR域名被外部域名链接的次数,是评价一个网站的核心指标,可衡量其网络影响力。来源于Open Site Explorer。
网络影响因子:即在指定时间,特定网络对象的每个网页平均被外部链接的次数,WIF=外链/网站规模。
链接效率:指外链数/总链接数,可客观的表明网站链接来源的组成结构。
2.2.3SEO分析
SEO分析的指标包括MozRank、Followed Linking Root Domains、Equity-Passing Links/Non-Equity-Passing,均来源于Open Site Explorer。endprint
MozRank(简称“M”):通过抓取互联网中的超链接的连接关系判定网站等级,满分10分。影响分值的因素有外链数量和链接源(即链向这个网页页面的权重),分值越高说明该网站越重要,一般而言M≥7说明该网站SEO做得较好,网站质量高。
Followed Linking Root Domains(简称“F”):即导入到这个域名的外部网站数量,外链是衡量网站影响力的重要因素,这一指标显示向本站发出外链的网站数量,发出外链网站越多,影响力越大。
Equity-Passing Links/Non-Equity-Passing(简称“E”):即质量链接占比,质量链接是Open Site Explorer认为拥有链接价值,能够提升搜索引擎排名的链接,非质量链接则相反。质量链接占比=质量链接/(质量链接+非质量链接)。
3 研究方法
本研究采用基于客观评价的TOPSIS分析法,它是系统工程中有限方案多目标决策的常见方法,是对基于归一化后的数据矩阵分析,找出有限方案中的最优方案和最劣方案,然后获得某一方案与最优方案和最劣方案的差距(用差的平方和的平方根表示),从而得出该方案与最优方案的距离,并依此作为评价各方案优劣的依据。
具体步骤如下:
(1)将网站规模、文献量、显示度等9项指标从左至右构成决策矩阵X;
(2)将矩阵X经数据归一后得到矩阵Z;
4 结果与分析
4.1IR总排序
将评价结果由高到低排序(见表3),显然香港大学学术库网络影响力第一名,其文献量达到14余万条,外链数达到6934个,M值5.62,发出外链网站有357个,近2个月内增加了9个外链(多数数据库,特别是内地的均是0)。说明香港大学的学术库非常优秀,因此其网站的影响力就很大。内地的厦门大学学术典藏库和清华大学IR建库较早,得益于大学丰厚的学术沉淀,厦门大学学术典藏库和清华大学IR在此次分别排名第9和第10名。
4.2IR地区分区情况
以17为间距,将67个IR分为4等分,得出内地与港澳台IR在4区中的数量分布(见表4)。第一区表示网站的网络影响力各项评价指标最优,第四区表示各项评价指标最差。第一区的IR均为大学,其中台湾有14个,内地2个,香港1个,这说明大学对于数字信息的需求与渴望。大学有丰富的数字资源、有形式多样的数字创新成果,将这些资源整合共享,有利于社会创新与社会发展。因此台湾从领导层开始重视IR的建设,当局政府将此作为重要工作交由大学图书馆执行,无论在网站结构建设、信息资源建设、服务器设备配置等方面都非常重视,并以台湾大学为机构典藏的营运范例,开发机构典藏软件,完备相关行政作业流程文件,标准规范,从而得到用户的认可,同时体现了网络如何释放大数据带来的好处,并充分发挥其优势。
根据TOPSIS排序可见,IR的网络影响力最大的是台湾。台湾在第一区和第二区占的比例最大,而内地则有50%在第四区,说明国内各地区间在IR的建设中存在较大差异。台湾IR充分利用了大学的各种资源优势,并由政府委托图书馆统一组织构建,因此克服了由于学校规模、人力、财力不足等因素的干扰。《2014年全球信息技术报告》根据网络就绪指数排名,显示香港排名第8位,台湾排名第14名,内地排名第62位,这与本研究结果基本一致。
4.3内地IR排序
内地IR主要为两大系统,一是大学;二是中科院。本研究中符合测试条件的大学系统有4个知识库,中科院系统有16个知识库。内地IR在2011年呈现井喷式的发展,此后其数量也平稳增长,但是根据表3显示,大学系统知识库在第一区有仅2个,第三第四区各1个。而中科院系统第一区未见,第四区却有9个,看来内地IR依然存在重建设轻维护的问题,网络影响力总体有待提高。
4.4内地IR发展
为推进IR在内地的发展,2012年成立了中国IR推进组。但是目前尚有不少IR未在Open DOAR注册,这说明内地从国家政府层面和各大学、研究机构的领导层面还没有对IR的建设充分重视,因此对其如何规范化、制度化,标准化、政策化没有相关政策支持,更难以与国际接轨。内地如此多的大学,但在Open DOAR注册的IR只有5个(其中1个链接不上),台湾却有58个,香港有7个,内地的情况与《2014年全球信息技术报告》显示的排名也一致。
5 讨论
5.1IR的可用性
国内IR网站排除无法打开、规模太小以及Open Site Explorer抓取不到数据的网站后,内地可评价的网站只占6l%,台湾67%,而港澳却是100%。这是否与网站的结构、建设规范性、语言标准化有关。
5.2IR的可见度
IR的可见度直接影响其认知度,因此必须重视机构库的网站建设,扩大网站规模,重视各种科学数据、音视频资料、课件及社区档案、计算机辅助软件产生资料等非文本信息资源的收集。同时要重视和搜索引擎进行良好的互动,注意内容更新,不断为网站建立有意义的链接,这些都会影响其网站的显示度。
5.3内地IR的认可度
IR网站的网站规模和外链数直接影响其网络影响因子,调查显示网络影响因子最高的是台湾国立中央大学和真理大学机构库,分别为9.0814和0.0795;香港最高的岭南大学机构库是0.03984;内地最高的是中科院地理科学与资源研究所和北京大学的机构库,分别是0.0262和0.0167。由此可见内地IR要提升自己的网站影响力必须提高网站技术支持的力度,重视网站维护。
5.4内地IR的SEO分析
SEO分析工具是对网站质量的优化分析,其中M值是判断网站质量的指标,内地的IR都在3~4之间,台湾和港澳略高一点,最高的是台湾的国立中央大学5.79,说明内地的IR在网站质量指标上还有很大上升空间。F值的均数中内地仅14.35,台湾58.36,港澳93.5,差距之大,足以使内地政府和机构库管理者深思。E值是质量链接占比,这项指标较好,区间差异也较小。
6 结论
(1)中国的大学应利用自身丰富资源创建国际化学术环境,为学术社会网络做贡献,因此大学IR不仅应从数量上增加,而且要重视提高其网络影响力。
(2)内地IR与港澳台相比有一定差距,其中的一个重要问题就是政府政策干预力度不够,基层领导规范管理与国际接轨有差距,开放获取与资源共享理念有障碍,阻碍了国内的科技创新成果即时、无保留的公开、共享。
(3)国内学术界对搜索引擎优化的必要性和重要性认识不够,因此要增强SEO意识,更好地为读者提供更优质的网络服务是当务之急。
(本文责任编辑:郭沫含)endprint