985大学Web空间内部链接特征分析

2011-08-11 03:51瞿琼丹沙勇忠李慧佳兰州大学管理学院甘肃兰州730000
图书与情报 2011年6期
关键词:特征空间大学

瞿琼丹 沙勇忠 李慧佳 (兰州大学管理学院 甘肃兰州 730000)

蔡国瑞 (美国宾夕法尼亚州立大学信息科学与技术学院)

1 引言

链接作为互联网的基本构成要素和最显著特征,从一开始就是计算机科学和信息科学研究者所共同关注的对象和研究内容,[1]链接的类型、数量和分布在一定程度上反映了网站的类型、质量和网络空间结构。研究网站链接特征,对规范和优化网站建设、合理配置网络信息资源具有重要的理论和实践意义。

考察和解释学术网络空间中的链接数量及关系在网络链接分析研究中受到了广泛的关注,Ingwersen[2]、Thelwall[3]、Bar-Ilan[4]、Wilkinson[5]、邱均平[6]等学者均对此作过研究。“985工程”大学作为我国最高水平大学的集合体,其网站体系是我国学术网络空间的一个典型代表,研究它的内部链接情况对揭示学术网络空间的特征具有重要价值。2006年,我们曾对“985工程”大学网站构成的Web空间内部的链接分布与特征进行了分析,得出了一些基本的研究结果。[7]时隔5年,“985工程”大学新增了华东师范大学,与此同时,随着信息化水平的不断提高与数字化校园建设的不断推进,大学网站在网络交流中发挥着越来越重要的作用,大学网站之间的关联度也日渐加强,这势必造成“985工程”大学Web空间内部链接结构与特征的变化。通过链接分析跟踪这种变化,探究其产生的原因和机理,为优化大学网站自身的建设提供依据,是本文研究的目的所在。

2 研究设计

2.1 数据来源与指标设计

我们选择39所“985工程”大学的网站(见表1)构成的Web空间为研究样本。基于链接本身的类型,选取“985大学”网站之间的链入、链出数据为基础分析指标,同时收集它们各自的总外部链接数、来自edu的外部链接数及在此基础上形成的网站间的连通情况等作为辅助分析指标。

搜索引擎All the web与Altavista在链接分析研究中具有良好的性能[8],但两者在 2003年均被 Yahoo!收购,因此,本文选择Yahoo!为数据收集工具。由于Yahoo!与Altavista两者使用同一数据库,本文所收集的数据与前文具有可比性。考虑到搜索引擎数据的更新,为了保持数据的一致性,我们在2011年1月8日~10日集中采集数据,形成39×39的非对称链接数据矩阵(见表2)、外部链接数据表(见表3)及39所学校间的连通情况表(见表4),具体的检索语法如下:

(1)从A大学网站指向B大学网站的链接数:

linkdomain:B大学网站域名site:A大学网站域名

(2)A大学网站总外部链接数:

表1 “985工程”大学及网址

表2 39所大学网站间的链接数据(部分)

表3 39所大学网站各自的外部链接数据表(部分)

linkdomain:A大学网站域名-site:A大学网站域名

(3)A大学网站来自edu的外部链接数:

linkdomain:A 大学网站域名 site:edu.cn-site:A 大学网站域名

表4 39所学校网站间的连通情况

表中各指标的含义如下:(1)link:各大学网站总外部链接数;(2)edu.cn link:各大学网站来自edu的外部链接数;(3)edu.cn link%:各大学网站来自edu的外部链接数占总外部链接数的百分比;(4)38U link:各大学网站来自其他38所大学网站的外部链接数目;(5)38U link%:各大学网站来自其他38所大学网站的链接数目占其来自edu外部链接数的百分比;(6)链出连通:该大学网站向外链接到空间内的学校数目;(7)链出连通率:该大学网站向外链接到空间内的学校数目占其他38所学校的百分比;(8)链入连通:空间内具有指向该大学网站链接的学校数目;(9)链入连通率:空间内具有指向该大学网站链接的学校数目占其他38所学校的百分比;(10)相互连通:空间内与该大学网站具有相互链接关系的学校数目;(11)相互连通率:空间内与该大学网站具有相互链接关系的学校数目占其他38所学校的百分比;(12)总连通:空间内与该大学网站具有链接关系的所有学校的数目;(13)总连通率:空间内与该大学网站具有链接关系的学校的数目占其他38所学校的百分比。

2.2 研究方法

2.2.1 聚类分析与多维尺度分析

为了探究链接特征的规律性,对39所大学网站间的链接数据(表2)分别按行和列进行聚类分析和多维尺度分析,其中,行为链出数据,列为链入数据。聚类分析采用层次聚类,方法选用离差平方和法;多维尺度分析采用古典多维尺度分析(CMDS)模式。

2.2.2 Web空间内部的连通率

根据本文定义的连通概念(表4),以39所大学的网站为节点,将它们之间的相互连通作为路径,利用图论的方法考察网站之间的连通情况。

2.2.3 Web空间内部链接数据与现实地域的相关性分析

(3)压溃力效率CFE(Crush force efficiency),即平均压溃载荷Pm与初始峰值载荷Pmax的比值。对于理想吸能结构,CFE=1。

以Web空间内部的学校之间的相对距离为基础,构造了与链接数据矩阵相对应的距离矩阵(表5)。其中,两所学校同城赋值为1,同省赋值为2,不相邻加1,以跨越最少省份为准。

表5 距离矩阵(部分)

将距离矩阵中的行与链接数据对应的行、列与对应的列作相关分析,以此得到各大学网站链出数据(行)、链入数据(列)与现实地域的Pearon相关系数。

3 结果分析

按照上述方法对数据进行处理分析,对比2006年的数据,可以从以下几个方面的来跟踪和探讨“985工程”大学Web空间内部链接的特征与变化。

3.1 Web空间内部链接的数量分布

“985工程”大学网站之间的平均链接数约为187,相比于2006年(8.6),这个水平已经是相当高的。但是在对链接数据进行频数统计时,发现其分布并不均衡 (见图1)。在1521个数据中,0出现227次,占总体的14.9%;1出现144次,占总体的9.5%;2出现97次,占总体的6.4%。5或5以内的累积频次为680,占总体的44.7%;10或10以内的累积频次为916,占总体的60.2%;在50以上的为321频次,占总体的21.1%;而链接数量在平均水平之上的约占总体的10.1%。由此可见,39所大学网站间的链接数据普遍比较小,主要分布在0~30这个区域,但也存在一部分网站链接活动密切,链接数据比较大。

图1 各学校间链接数据频率分布

与2006年相比,在链接数据的数量分布上,0、1、2出现的频率大幅下降,频次大于50的比重增加显著(见图2),Web空间内部链接水平大大提高,说明随着信息化程度的提高,大学网站在学术交流中的门户作用日益凸显。

图2 2006年与2011年web空间链接数量分布变化情况

此外,我们对各大学网站的总外部链接数、来自edu的外部链接数及来自该Web空间内其他38所学校的外部链接数(见表3)进行了对比分析,并绘成它们的构成分布图(见图3)。从中发现,各大学网站的总外部链接中,来自edu的外部链接非常少,最高仅占到33.16%,最低占4.10%,整体的平均仅为15.08%,而来自“985工程”大学的外部链接所占的比重更加少,在图中几乎趋近于0。与2006年相比,这三组外部链接在数量上大幅增长,但在构成与比重上并无太大的差异。可见,学术链接在“985工程”大学网站的总外部链接中所占的比例仍是相当低。

图3 各大学网站3项外部链接的构成分布图

3.2 Web空间内部的连通情况

3.3 Web空间内部链接与现实地域的关系

图4 各大学网站链入链出数据与现实地域之间Pearon相关系数分布图

图4为39所大学链入链出数据与现实地域之间的Pearon相关系数分布图。从图中可以看到,39个链出相关系数分布在-0.4~0.3之间,39个链入数据分布在-0.5~0.4之间,虽然有个别绝对值相对比较大,但是整体上不存在统一的规律性。因而,39所学校间的链入链出数据与现实的地域远近并无直接的关系。

与此形成对照的是,Thelwall对英国大学的研究发现大学网站链接与大学地理距离之间存在着相关性,[9]虽然通信技术不断在发展,位置相近的大学仍比相近较远的大学之间更容易互相链接,地理距离对网站链接创建的潜在影响,这与本文的研究结果不同。究其原因,除了信息化水平的差异外,主要在于英国大学校际之间的链接很大程度上是普通研究活动的副产品,[10]比如合作,而在一些国家(英国)这种合作是受距离影响的。我国学者梁立明通过著者分析,发现“985工程”大学的校际科学合作也存在着极强的同省、同城合作倾向,[11]但在链接数据上却不存在这样的倾向。可见,我国“985工程”大学网站作为学术网站在教育与研究中的作用并不凸显,在网络信息资源的质量、组织和建设水平上仍与发达国家存在差距。

3.4 Web空间内部链接特征

各大学网站的背景、链接目的与动机等的不同使得其所表现出的链接特征不尽相同,但在一定程度上总会存在相似性。为此,我们对39所大学网站间的链接数据进行聚类与多维尺度分析(见图5、图6)。

在链接特征的分布上,与2006年所呈现的分散状态不同,各大学网站的集聚现象显著,但是分类特征也不明显。从链出角度分析(见图5),除了北京大学、清华大学、南开大学与吉林大学这四所大学之外,其余35所学校在多维尺度分析图中都是聚集在一起的。从链入角度分析(见图6),各大学网站无论是在聚类龙骨图还是在多维尺度分析图中集聚与分散状态非常明显,并且每一个类都是相互对应的,在图中用相同的字母加以标识(见图6)。其中,北京大学与清华大学聚为一类(B类),兰州大学与四川大学聚为一类(C类),复旦大学、浙江大学、人民大学、西安交通大学、南京大学与上海交通大学这六所学校聚为一类(D类),而剩余29所学校紧紧聚在一起(图6多维尺度象限中部的点集)。虽然我们排除了地理因素对现阶段我国“985工程”大学Web空间内部链接特征的影响,但是在现有资料的基础上我们很难解释这个分类的实际意义,有可能是学校校园文化与学科背景不同造成的,这还有待于进一步的研究。

图5 链出数据的聚类龙骨图与多维尺度分析图

图6 链入数据的聚类龙骨图与多维尺度分析图

从总体上说,各大学网站虽然在一定程度上表现出分类特征,但是仍是较多大学的集聚现象更为显著,链接特征相异性不大,这与做过类似研究的英国学者Peter B.Musgrove[12]得出的结论很不相同。 在 Peter B.Musgrove 的研究中,欧洲15个国家的大学网站很清晰并均匀地聚为4个大类。最主要的原因在于Peter B.Musgrove是对欧洲不同国家的大学做的分析,它们文化、语言、地理、经济、政治等因素差异非常大,比较容易形成明显的聚集和分离态势,而我们选用的是同一国家的样本,相比较而言,不同省份各方面因素差异并不明显。另外,大学网站之间交流的不稳定造成了链接数据存在较多的极端现象(0、12900等),这些极端数据通常出于某些特殊的原因(如域名的变更、新闻网页的频繁更新、校庆等),这在一定程度上也影响了聚类的效果。

4 结论与讨论

经过5年的发展,“985工程”大学Web空间内部链接特征发生了显著的变化,具体表现在以下几个方面:

4.1 链接数据呈现了数量级的增长,链接水平不断提高

无论是39所大学网站之间的链接数,还是外部链接总数都有明显增长的趋势,Web空间的整体链接水平提高显著,这与通信技术的发展与教育信息化程度的提高密不可分。但是,“985工程”大学网站各自外部链接的构成与比重并没有较大变化,学术链接所占的比重仍然比较低。可见,该Web空间链接有量的增长,在链接分类与构成上没有质的区别。

4.2 Web空间内部的连通率大大提高,连通状况显著改善

网站链出连通率、链入连通率、空间整体的连通率大幅度提高,几乎每所学校与空间内的其他学校都存在着联系。这从一个侧面上反应了数字校园建设在近几年所取得的成就与大学网站在网络交流、校际合作中日渐凸显的渠道作用。

4.3 大学网站在链接特征的分布上从分散状态向集聚状态发展

在链接特征分布上,不同于以往的分散状态,各大学网站的集聚现象显著,虽然在一定程度上表现出分类特性,但是链接特征相异性不大。究其原因在于大学网站间日益频繁的交流使得它们之间的联系更为密切,而大学网站建设自身存在的不足与链接动机的不明确影响和模糊了网站链接特征的提取与归类。

综上所述,虽然“985工程”大学Web空间内部链接水平和连通情况得到了很大的改善,但在链接结构与分类特征上仍存在很大的不足。Wilkinson等人[13]的研究发现,链接到大学网站的链接中只有不到1%的链接是正式的研究引用。因此,如何优化大学网站的建设,合理配置网络信息资源,最大程度的发挥大学网站在教育和研究中的作用,是我们亟待解决的问题。

[1]段宇峰.网络链接分析与网站评价研究[M].北京:北京图书馆出版社,2005:70-71.

[2]Ingwersen P.The calculation of Web impact factors[J].Journal of Documentation,1998,54(2):236-243.

[3][10](英)迈克.赛沃尔.孙建军等译.链接分析:信息科学的研究方法[M].南京:东南大学出版社,2009:61-99.

[4]Judit Bar-Ilan.Self-linking and self-linked rates of academic institutions on the Web[J].Scientometrics,2004,59(1):29-41.

[5][13]Wilkinson D,Harries G,Thelwall M.Motivations for academic web site interlinking:evidence for the Web as a novel source of information on informal scholarly communication [J].Journal of Information Science,2003,29(1):49-56.

[6]邱均平等.中国大学网站链接分析及网络影响因子探讨[J].中国软科学,2003(6):151-155.

[7]牛春华,沙勇忠.Web空间内部链接特征的聚类分析[J].图书情报知识,2006,(6):22-27.

[8]Thelwall,M.The responsiveness of search engine indexes.[EB/OL].[2011-04-27].http://www.cindoc.csic.es/cybermetrics/articles/v5i1p1.html.

[9]Thelwall M.Evidence for the existence of geographic trends in university Web site interlinking [J].Journal of Documentation,2002,58(5):563-574.

[11]梁立明,沙德春.985高校校际科学合作的强地域倾向[J].科学学与科学技术管理,2008,(11):112-116.

[12]Peter B.Musgrove.Musgrove,et al.A Method for I-dentifying Clusters in Sets of Interlinking Web Spaces.Scientometrics,2003,(3):657-672.

猜你喜欢
特征空间大学
“留白”是个大学问
空间是什么?
48岁的她,跨越千里再读大学
大学求学的遗憾
创享空间
抓特征解方程组
不忠诚的四个特征
QQ空间那点事
春天来啦(2则)
空间