刘媞媞
(泰山医学院,山东 泰安 271016)
链接分析是网络计量学的一个重要方法,是文献计量学中引文分析方法在网络中的应用。大学网站评价是目前网络计量学研究领域的一个热点,它不仅是综合评估大学网站建设的方法,也是整个链接分析领域的组成部分。网站质量的优劣、网络流量和链接数据从侧面反映着群众对高校网站内容的关注度。为此,对山东省高校网站的排名与相应的网站链接特征进行相关研究,初步分析这些问题,为进一步深入研究和揭示其中的规律奠定基础。
选取山东省综合排名前32位的大学作为研究对象,对网站流量数据中的人均页面浏览量、日均IP访问量和网络链接中的网页总数、链接总数、外部链接数以及反向链接数几个链接数据作了相关研究,分析了相互间的相关性,各数据间的联系和影响,并对传统的网络影响因子与链接数据的相关性作了研究。
根据国内学者对网络计量工具的研究[1-3],经过反复实验和分析测试,考虑数据的可靠性和有效性,最终选定Alexa作为流量统计工具,AltaVista作为链接数据收集工具。
以山东大学为例,AltaVista的检索指令如下:
网页总数 =site:www.sdu.edu.cn
链接总数 =link:www.sdu.edu.cn
外部链接数 =must include www.sdu.edu.cn in the link to url and must not include www.sdu.edu.cn in the url
1.3.1 流量指标 人均页面浏览量是指每个用户在一次访问时间内所浏览的该网络信息资源的网页数。人均页面浏览量和人均访问时间是衡量网络信息资源的‘黏性’指标。但是目前阶段,人均访问时间并不能够准确的获取。所以,采用人均页面浏览量相对于人均访问时间来讲,作为研究指标更为合理。IP访问量是指在指定的有效时间内有多少不同IP访问过该网站,即同一个IP在指定时间段内对网络信息资源的访问只记作一次。
1.3.2 网络链接指标 网页总数是网站收录页面的数量,网页总数代表了一个网站的规模,体现了一个网站对外展示的能力和内容丰富度。
链接总数是网站内部含有的网络链接的总量,是衡量网站链接数量特征最重要的指标之一。从理论上来说,一个网站的链接总数应该是自链数(selflink)和出链数(outlink)的数量之和。构建一个网站采用的是何技术是影响网站总链接数的重要因素之一。一般来讲,在网站各方面指标、技术水平相同的条件下,一个网站的链接总数越多,网络信息的组织结构就越加完备,信息内容揭示的程度就越高。
外部链接数指的是针对搜索引擎,与其他站点所做的友情链接的数量。高质量的外部链接指:与一个网站建立链接的网站知名度高,访问量大,同时相对的外部链接较少,有助于快速提升该网站的知名度和排名的其他网站的友情链接。
反向链接又被称为链接广泛度,即网络中其他站点对自身站点投的支持票;反向链接数量越多,站点具备的价值越高,受到搜索引擎及用户的重视也就越多。
网络影响因子(web impact factor,WIF)是指在某一时间,来源于外部和自身内部的指向特定国家或网站的网页数与该网页或网站中的网页数之比”。
网络影响因子的计算公式借鉴了期刊影响因子的计算方法,但是,研究发现,电子期刊的链接与传统的文献引用有极大的差异性,受网络地址变更、网络链接失效、电子文献编辑方式等元素的影响,WIF也很难实现十分准确的计算。因此,以入链作为评价网络影响力的标准更为准确。
虽然对WIF的计算方式仍然存在争议,但它仍然是目前阶段应用最为广泛的网络影响力评价指标,它不仅揭示了网络信息资源被利用的程度,同时也消除了网站规模对自身评价的影响。
应用SPSS13.0统计分析软件处理数据。调查数据用绝对数及相对数表示。变量间的相关性用Kendall和Spearman两种方法进行相关分析。以P≤0.05为差异有统计学意义。
本研究各指标数据收集结果如表1所示,数据所属时间:2011年3月10日至3月12日。
表1 山东高校网站流量和链接数量表
本研究对网络影响因子采用了两种计算方式,即指向“网站的总链接数”和“外部链接数”与“该网站总网页数”之比,分别用E-WIF和T-WIF表示:
根据两种不同计算方式得出的高校网站网络影响因子见表1。去除了山东中医药大学、潍坊医学院、烟台师范学院、滨州医学院等无效数据。
2.2.1 山东高校网站链接相关性分析 对链接数据使用非参数相关分析统计方法[6-7]。主要分析各个链接数间的变化情况和变量间的相关性。结果如表2。
表2 山东高校网站链接数相关性(n=27)
从表2中斯皮尔曼和肯德尔相关性分析可以看出:(1)网页总数与总链接数的斯皮尔曼相关系数为0.919,肯德尔相关系数为0.836,网页总数高的网站其总链接数也越高。网页总数与网站总链接数的斯皮尔曼和肯德尔假设检验值P均小于0.001,是否定假设,即网页总数和网站总链接数是高度相关的。(2)网页总数与外部链接数的斯皮尔曼相关系数为0.196,肯德尔相关系数为0.140,网页总数与外部链接数的相关系数低于0.3,基本没有相关性。说明一个网站对用户的吸引力不是取决于网站网页数量的多少,而是在于网页的内容质量。(3)总链接数和外部链接数间的斯皮尔曼相关系数为0.209,肯德尔相关系数为0.154,均低于0.3,基本没有相关性。朱自强对国内重点大学的研究显示,重点大学的总链接数与外部链接数存在着高度相关性[8]。这体现出省内绝大部分高校网站与全国重点大学网站存在的差异性。除了省内极少重点大学被外界所知,绝大多数省内大学的受关注度较低,这就影响其他网站对省内网站的作出引用链接,因此外部链接数就相对较少。
通过相关性分析,山东省高校网站的网页总数与总链接数有着非常显著的统计学意义,其他数据间不存在相关关系。
2.2.2 山东高校网络影响因子分析 表3为网络影响因子高校网站流量的相关性分析。
表3 网络影响因子与流量相关性(n=27)
高校的人均页面浏览量和日均访问量体现了该校的被关注程度,但是从表3网络影响因子和流量相关性上可以看出,传统的计算网络影响因子的方法与这种表现却不存在相关性。因此,可以认为,在省内高校的网站评价研究上,传统网络影响因子的计算不能用来评价某个高校的网站情况。
对高校网站流量和反向链接做相关性分析,结果如表4所示。
表4 高校网站流量与反向链接相关性(n=27)
由表4可以看出,高校流量的日均IP访问量与反向链接数的斯皮尔曼相关系数为0.607,肯德尔相关系数为0.451,即省内高校网站的日均IP访问量与反向链接基本上是中度相关的。人均页面浏览量与反向链接数的斯皮尔曼相关系数为0.105,肯德尔相关系数为0.076,不具有相关性。人均页面浏览量与日均IP访问量的斯皮尔曼和肯德尔相关系数分别为0.269和0.186,人均页面浏览量与日均IP访问量不具有相关性。
日均IP访问量与反向链接的相关性说明从链接的来源角度看,反向链接的增加的确给网站带来了一定数量的点击量。这种现象也存在于高校网站中,而这种点击量并没有提高浏览量的数值。因此,我们仍然可以断定,高校网站在自身的内容建设方面还有待提高,在获得用户的点击后,能够吸引用户对内部网站获得更多的兴趣。
基于上述比较分析,我省高校网站的建设和信息资源利用上存在一些问题:(1)网站内容不够丰富,网络资源利用率不高;(2)网站自身建设不足;(3)网站学术交流不多。
根据以上几点问题,提出如下建议:(1)提高我省高校网站的内容质量和资源利用率。从我省高校网站的入链数来看,被引率普遍偏低,这说明我省高校网站的可利用资源过少。高校在培育人才的同时,也应注重网络资源的合理利用。借助本校网站收录丰富的信息资源,提高网站内容的质量和研究信息,以得到更多的链接,提高网站链接的广泛度。(2)重视网站的自身建设。网站的结构设计和内容显示是网络自身建设的重要内容。而网络信息资源的利用很大程度上取决于网络数据挖掘的效果。被搜索工具检索到的程度除了与大学本身的知名度相关外,还与内因——网站的建设结构有关。从网站的链接数据来看,无论在总链接数还是被链接数上,山东高校的链接数值都是普遍偏低的。因此,各高校在网络建设的时候应注重网站的整体架构,使搜索引擎对高校信息搜索的限制降到最低。(3)提高山东高校网站的学术影响力。理想情况下,高校网站的影响力是应该与高校本身的知名度相关联的。知名度越高,其网站的访问量越大。而我省高校网站的学术性研究内容普遍较少,导致访问量和人均页面浏览量均不多。因此高校在提高网络建设的同时,需加大学术性研究数字化、网络化的进展。
[1] 邱均平.网络计量学[M].北京,科学出版社,2010:203.
[2] 李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统[M].北京:科学出版社,2005.
[3] 徐家坤.网络信息计量研究中常用的四种搜索引擎的比较研究[J].现代图书情报技术,2004,11:46-48.
[4] 段宇峰.网络链接分析与网站评价研究[M].北京:北京图书馆出版社,2005.
[5] 刘艳峰.利用肯德尔和谐系数检验测量结果的可信度[J].新乡教育学院学报,2006,19(2):95-96.
[6] 安宁宁,韩兆洲.等级相关分析的一般方法[J].知识丛林,2006,11(2):141-142.
[7] 朱自强.网络信息计量学理论与方法——大学网站网络流量及页面链接分析研究[D].江苏南京理工大学,2005.