郭金龙 许鑫
[摘要]利用社会网络分析法,对50个图书情报学博客和互联网博客构成的学术交流网络进行定量分析,从
中心度、网络密度、凝聚子群分析、小世界效应等角度对该网络进行实证分析,得出该学术交流网络中的核
心博客、“联结”博客,并比较两个专业圈子的不同结构特征和影响力,以期从完善结构的角度,促进科研
人员的学术交流。
[关键词 ] 图书情报学 互联网 博客 社会网络分析
1 引言
互联网的快速发展,不仅使得各种学术资源空前增多,也促进了各种基于网络的学术交流活动。在当前Web2.0的环境下,学术交流的载体从起初传统而单一的文献载体变为多元化的电子载体。现在人们可以通过各种工具如BBS、博客、SNS网站等组成各种专业的圈子,共同探讨专业领域的学术问题。电子邮件、电子期刊、维基等为学者和研究者保持及时、迅速的联系以及不受时空限制地传递、交换和获取各种网络信息资源提供了非常大的便利。因此,研究网络环境下的非正式学术交流,探讨其交流的机制和模式已经成为研究热点。
在这些众多的Web2.0交流方式之中,博客的交流方式更加多元。聊天工具如QQ和电子邮件均为点对点的交流,而博客则综合了点对点与点对面这两种交流方式。BBS、维基社区、QQ、电子邮件等都是面向人际交流和大众传播的纯外向型传播,而博客既可以向受众提供信息又具有“私人日记”的功能,同时博客还具有引用链接和订阅功能。这些特征使得博客成为了网络学术交流的有力工具。
国内图书馆学界自2003 年6 月“闲来无空”博客创办以来,也相继出现了数以百计的图书馆学博客及图书情报学博客(以下简称“图情博客”)群,内容更是覆盖了图书情报基础理论、编目方法、数字技术、信息搜索、学术刊物、教学研究等方方面面,对丰富图书情报学专业人士的网络学术交流起到了积极的作用。
针对图情博客兴起的现状,很多研究者从定性与定量等不同的角度对之进行了研究,以期利用博客这一新兴的Web2.0工具促进图书情报学专业研究的发展。然而,纵观现有的相关文献,对图情博客的研究大都只局限在本专业的圈子中,很少有研究涉及与其他博客圈之间的交流。当前网络环境下,图书情报学研究的侧重点向网络倾斜的趋势十分明显,因此本研究试图探究图情博客圈与互联网博客圈之间的交流情况。本文选择图情学博客和互联网博客构成的网络为实例,从博客作者之间交流和沟通的角度出发,通过学者之间的交流互动寻找学术博客交流网络的结构和特点,并比较这两个博客圈不同的结构特征和影响力,以此进一步促进研究人员之间的信息沟通和学术交流。
2文献综述
对于图情博客,国内学者进行了多方面的研究。定性研究方面,刘允(2005)[1]对图情博客进行了分类,每一类选择了典型的博客进行介绍,提出了图情博客应注意独立思考,保持原创性和创新性等三个问题。马爱芳(2005)[2]则把图情博客根据依托服务器的不同分成5类,对创建和阅读博客提出了几点建议。李修波(2006)[3]按照不同的分类标准把图情博客分成理论性和实践性、综合性和专题性、名人博客和草根博客等几类,该文首次提到了博客的知识产权问题。可以看到,较早的一些研究基本是对图情博客现象的介绍,并用分类的方法对其进行了整理和归纳。
定量研究方面,吴超(2006)[4]从博客的外部特征(日均访问量、日均写作量、篇均评论数)、写作时间、内容结构(分类综述、类目名称)等方面对图情博客的特点进行了定量分析,提出了在教学中应用博客的建议。岳凯军(2006)[5]选取6个代表性的图情博客进行了对比研究,并提出相关建议。孔庆杰等(2007)[6]选取7个典型博客对图情博客外部特征(如留言等)和内容特征(专业性、广泛性、及时性等)进行了细致的研究,阐述了图情博客知识交流与共享的模式。田洁(2008)[7]利用AltaVista的搜索结果作为一项评价指标对图情博客进行了统计分析。祝小诗(2008)[8]则系统地提出了一套评价学术博客的模型,以图情博客为例进行了实证分析。总体而言,定量研究停留在简单的数据统计层面,缺乏对博客交流机制的深层探讨。
社会网络分析方法的应用使得对图情博客的研究得以更加深入。这方面的研究通过对博客交流形成的网络进行结构特征的分析,探讨学术博客之间的交流模式与特点。博客之间的社会网络关系通常根据博客之间的相互链接情况来构建。邱均平等(2008)[9]对20个著名的图情博客进行了社会网络分析,通过搜集博客之间互链与和共链的数据构建了两个关系矩阵,利用社会网络分析中的结构洞指标和中心度指标分析得出了图情博客中具有信息控制优势的博客及部分核心博客。党洪莉等(2009)[10]同样利用社会网络分析法对16个图情博客进行了分析,通过中心性分析得出了博客圈中的核心成员,通过密度和凝聚子群分析探究了网络的整体互动交流情况。张玥等(2009)[11]则利用社会网络分析中的核心——边缘分析方法对图情博客圈的结构和成因进行了深入分析,以此改善交流网络的结构,促进科研人员之间的信息沟通和学术交流。
综上所述,国内对图情博客的研究已经深入到学术交流机制的探讨,对博客圈构成的交流网络特征进行了较多的研究。然而现有的研究只局限于图情专业,没有从更广泛的学术交流视角探究图情博客圈与其他专业博客圈的关系。鉴于近年来图情研究与互联网的密切联系,本文尝试利用社会网络分析探究图情博客圈与互联网博客圈之间的交互情况,以及这两个圈子构成的网络各自不同的特征和影响力,以期从完善结构的角度促进科研人员之间的信息沟通和交流,促进学科的发展。
3研究对象与研究方法
3.1研究对象
本文选取文献[9]中提到的20个图情博客(博主均是国内知名的图情专业学者或馆员,部分博客地址已更换)和从文献[12](这篇博文被大量转载,具有非常大的影响力和一定的权威度)中筛出的30个互联网博客(在40个互联网博客中去除无法访问和更换域名的博客)作为研究对象。对这50个专业博客由链接构成的网络进行至少有如下意义:①找出核心博客,以降低信息获取的成本;②探究学术交流的模式,以改善网络结构,促进交流和进步。
3.2研究方法
本文主要采用社会网络分析方法对50个图情和互联网博客构成的交流网络进行分析。首先通过AltaVista采集50个样本博客之间相互链接的数据,构建互链关系矩阵,将数据保存在Excel中。该链接关系矩阵是一个有向矩阵,即“链出”和“链入”是有区别的。“链出”类似于“引用”,是对别人博客的参考、引证。“链入”类似于“被引”,是被其他博客参考、提及等。“链入”的数据指标通常更能反映一个博客的影响力,正如“引文”用于文献评价一样。数据收集整理之后,本文通过社会网络分析软件UCINET对该网络的个体属性和整体属性分别进行了分析。
·个体视角。通过点度中心性分析可以找出两个圈子中的核心博客以及整个网络的核心博客;通过中间中心性分析可以找出那些“桥”博客,这些博客在交流网络中有较强的控制他人的能力。通过个体社会网络指标,可以得出两个圈子共同的“超星”以及两个博客圈的重要联结者。
·整体视角。通过网络的密度指标,可以测度网络整体的交流情况,并比较两个圈子的不同密度特征;通过派系分析,可以探究整体网络中的小团体情况;通过平均最短路径,可以验证该网络的小世界效应。
4实证分析
4.1数据准备
本研究选择AltaVista搜索引擎来获取博客之间相互链接的数据。关于检索式的构造,以“老槐也博客”和“超平的博客”为例:“link:http://oldhuai.bokee.com site:http://www.mingzhiguwen.net”。该检索式得到的是超平的博客链接老槐博客的数据。类似地,“link: http://www.mingzhiguwen.net site: http://oldhuai.bokee.com”得到的是老槐博客链接超平的博客的数据。本研究不考虑链接次数产生的影响,即只要有链接数据都算作1。通过这种方式,获得50个博客之间两两链接的数据,得到一个50*50的二值矩阵。该矩阵是非对称的,因为分别考虑了“链出”和“链入”的数据。
由于有些博客作者有多个博客,同时有的博客有不止一个URL,本研究尽可能全面地搜集了博客作者的多个博客。在“链入”数据的处理中,只要作者有一个博客被链接,则记作1。“出链”数据的处理,则以作者最新的博客为标准进行测度(一般博客搬家,博文和评论都会全部转移,相应的链接也会保留)。
4.2研究结果与分析
4.2.1中心性分析“中心性”是社会网络分析的研究重点之一。个人或者组织在其社会网络中具有怎样的权利,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。中心性是一个重要的个人结构位置指针,评价一个人重要与否,衡量一个人的地位优越性或特权性以及在群体中的社会声望等常用这个指标。代表网络中心性的主要有三种形式:一是点度中心性(degree centrality) ;二是中间中心性( betweenness centrality);三是接近中心性(closeness centrality)。其中点度中心性与中间中心性使用较为广泛。
·点度中心性点度中心性是用来测量团体中的重要中心人物。点度中心性越高者,表示其在网络中与较多的行动者有所关联,在团体中具有较高的影响力。点度中心性包括点出度与点入度,同时又可分为绝对点度中心度和相对点度中心度。前者就是与该点直接相连的点数,后者为前者的标准化形式。如果一个点与许多点直接相连,我们就说该点具有较高的点度中心度。在本研究中,点出度表示博客链接其他博客的次数,点入度表示博客被链接的次数。
由分析结果可知,点出度较高的博客有增辉、keso、丫枝、数图、学林、图谋、小5、编目等。其中,点出度排名前10的博客中,图情博客占了8个。这说明图情博客主动链接他人博客的数据较多,群体之间交流的频率较高。点入度较高的博客有对keso、月光、老槐、编目、方军、aw等。其中,点入度排名前10的博客中图情博客只占了4个,显然不如点出度的排名,其大部分被引用的链接来自本博客圈内。由此可见,图情博客的影响力还有待提高。另外,点出度和点入度排名前两位的均是互联网博客。
综合分析点出度和点入度的数据,发现对牛乱弹琴的博客排名都很高,分别排名第二和第一,由此可以认为对牛乱弹琴博客是整个网络的核心博客,即所谓的“超星”,两个领域的博客作者均大量链接了他的博客。从笔者浏览的相关博客来看,对牛乱弹琴博客,即洪波(网名keso)的博客被很多博客作为友情链接,并以“国内IT第一牛博”作为标签,可见其影响力之大。点出度和点入度均非常高的还有编目精灵的博客,这是图情领域专注编目领域的博客。其博文中经常引用大量翔实的数据和国外的最新研究进展。曾有学者专门写过一篇文章《浅析编目精灵博客的内容与影响》,可见其博客质量之高。该博客还出版了博客书,这也是很罕见的。另外一些点出度和点入度均较高的博客还有一言谈曹增辉、数图研究笔记、图谋博客、老槐也博客、月光博客、方军商业日记等。这些博客均是领域里有较高影响力的博客。
·中间中心性中间性(betweenness)的概念是由弗里曼教授提出来的。该概念测量的是一个点在多大程度上位于图中其他点的“中间”。他认为,如果一个行动者处于多对行动者之间,那么他的度数一般较低。这个度数相对来说比较低的点可能起到重要的“中介作用”,因而处于网络的中心。在博客群体中,博主获得中间中心度的必要条件是获得他人的链接。A 链接B ,B 链接C ,B 节点在A、C 间的信息流通过程中具有重要作用。点的中间中心度测量的是该点在多大程度上控制他人之间的交往。如果一个点的中间中心度为0,意味着该点不能控制任何行动者,处于网络的边缘;如果一个点的中间中心度为1,意味着该点可以100%地控制其他行动者,它处于网络的核心。
由图2的结果可知,整个网络的中间中心性为21.99%,表明整个网络的中介性较高。标准化中间性指标在1以上的博客为21个,占整个样本的42%,说明信息的流动并不依赖于少数人,这就避免了信息垄断的可能。
中间性指标比较靠前的博客有对牛乱弹琴、laolus blog、编目精灵、图谋博客、一言谈曹增辉、数图研究笔记、图林丫枝、月光博客、老槐也博客、方军商业日记、游园惊梦等。其中对牛乱弹琴博客以558.362的中间性指数远远高于其他博客。这同前面的点度中心性分析的结果是一致的,再次印证了对牛乱弹琴博客的巨大影响力。另外,laolus blog中间性指标排名第二。观察其链接数据发现,laolu的博客是少数几个既被图情博客链接又被互联网博客链接的博客之一,因此该博客是链接这两个博客圈的重要博客之一。具有较高中间性指标的博客在网络中扮演着信息中介的角色,是重要的“桥”博客。从图3的可视化网络图中,我们可以直观地看到这两个博客圈之间的重要联结者。
图3图书情报学和互联网博客整体网络
4.2.2密度分析密度表示的是社区成员间联系的紧密程度。一般来说,关系紧密的团体合作行为较多,信息流通较易、情感支持也会较好;而关系十分疏远的团体,则常有信息不通、情感支持少、协作程度低等问题。如果一个整体网是有向关系网,假设其中有n个行动者,网络中包含的实际关系数目为m,那么其中包含的关系总数在理论上的最大可能值是n(n-1)。该网络的密度因而等于m/n(n-1)[13]。密度是用来测量社会网络中行动者的连结程度,密度值介于0和1之间。值越接近1则代表网络关系越紧密,越接近0则表示网络关系越疏远。
在UCINET中,沿着Network——Cohesion——Density 这条路径,然后选定所要分析的网络数据,即可算出该网络的整体密度。经计算,本次研究中整体网络的密度为0.2171,图情博客圈网络的密度为0.5895,互联网博客圈网络的密度为0.3218。可以看出,总体来说整个网络的联系较为紧密,博客间的交互程度相对较好,相互链接较多,各博主积极参与交流、讨论。其中,图情博客圈的密度更大,一方面原因是该圈子相对较小,另一方面也表明该圈子相对比较活跃,且有较强的凝聚力。
4.2.3凝聚子群分析凝聚子群分析是社会网络分析中的重要方法,其目的是为了揭示社会行动者之间实际存在的或者潜在的关系,利用一些算法找出行动者集合中具有相对较强的、直接的、紧密的、经常的或者积极关系的个体,以确定组成整个网络中的小团体。团体内部成员通常联系紧密,信息分享频繁。凝聚子群分析方法主要有派系、n - 派系、n - 宗派、k - 丛、k -核、成分、lambda 集合等。本研究主要利用成分分析和派系分析对网络中的小团体情况进行分析。
·成分分析成分分析的目的是找出网络中的成分(components)。对于无向网络来说,成分分析找出所有的成分,对于有向网络来说,成分分析找出其中的强关联成分和弱关联成分。所谓强关联就是在有向网络中,成分的成员之间关系是双向的,如果关系是单向的,则称为弱关联。
由于本研究中图书情报学和互联网博客网络是关联网络,因此弱关联成分为1,这对分析是没有意义的。因此,对其进行强关联成分分析,即只保留双向关系的链接。分析的结果表明,50个结点被划分成了7个成分,最大的成分由44个结点组成,其余6个成分分别只有一个结点。这些结点属于网络中的孤立点,他们是点出度为0的几个博客。
成分分析属于限制性较弱的分析,依然无法看出网络中的小团体分布,接下来进行进一步的派系分析。
·派系分析派系与成分不同,它要求所有点都互相邻接,且不被更大的派系所包含。正式的定义为:派系就是图中最大的完全子图(或完备子图)。
在派系分析之前需要对关系矩阵进行对称化处理。如果我们只考虑双向关系,即只有单向链接的关系记作0,通过设定最小成员数为3,经分析得到了48个派系,其中前25个派系中只有互联网博客,后19个派系中只有图情博客,最后4个派系中只有互联网博客。由此可知,这两个博客圈子的联系很少,当我们只考虑强关系时,两个圈子几乎没有交互。
若在对称化处理时,考虑所有的关系,即单向链接关系记作1,经分析得到73个派系。其中有10个派系中同时包含了图情博客和互联网博客。这10个派系分别是:{ 老槐 游园 编目 数图 图谋 丫枝 keso laolu}、{ 游园 编目 数图 图谋 丫枝 keso 月光 laolu}、{编目 丫枝 keso 月光 aw}、{编目 keso 方军 月光 aw}、{编目 keso 方军 月光 laolu} 、{数图 keso 月光 麦田 laolu}、{丫枝 keso 武挥 动点 月光 aw} 、{丫枝 keso 武挥 月光 laolu}、{丫枝 keso 武挥 北城 aw}、{编目 学林 方军 laolu}。
可以看出,连接这两个圈子的成员有keso、laolu、aw、月光等,这与前面中间中心性分析的结果也是不谋而合的。
4.2.4小世界效应验证维基百科是这么解释小世界网络的:小世界网络是一种数学之图的类型,在这种图中大部分的节点不与彼此邻接,但大部分节点可以从任一其他点经少数几步就可到达[14]。验证博客交流网络小世界效应的意义在于探究该学术交流网络信息是否畅通,交流是否快捷。如果该网络不具备小世界效应,那么这个网络就是一个信息流通速度慢甚至信息闭塞、专业人员不能够进行快速交流的网络,这不利于学科的发展。
本研究中,我们仅从最短路径角度验证小世界效应。
从计算结果来看,整个网络中结点的平均距离L=2.196,标准差是0.893,方差是0.797。最小距离是1,最大距离是5。距离是1的情况出现了532次,占24.7%。距离为2和3的情况各出现819次和662次,分别占38%和30.7%。距离不超过3的比例达到了93.4%。也就是说,在该图情和互联网博客网络中,每两个专业人员平均只要通过2个人就可以联系起来。根据小世界效应理论,L的值一般不超过10的网络就可以看作具有小世界效应,因此,基于博客的图情和互联网学术交流网络具有显著的小世界效应特征。尽管两个博客圈之间的交互并不密切,但是从网络整体来看,该网络交流环境是比较好的,专业人员之间具有很好的信息交流渠道。
5结论
本文通过社会网络分析法对图情与互联网博客构成的交流网络进行了实证分析,分别从网络个体属性和整体属性分析了该网络的整体特征和两个博客圈的不同结构特征以及两者的交互情况,结论如下:
·两个博客圈均有各自的核心博客。点度中心度分析得出了如下核心博客:图情博客中的“编目”、“数图”等,互联网博客中的“keso”、“增辉”等。其中,“keso”是整个网络“最核心”的博客。
·两个博客圈有一些重要的联结者,这些“桥”博客大都也是点度中心性较高的核心博客。中间中心性分析和可视化网络图表明“keso”、“laolu”、“编目”等博客是连接两个圈子的重要中介。
·图情博客圈整体交流活跃,但影响力相对缺乏。从网络的密度、小世界效应来看,图情博客圈内部的交流互动比互联网博客圈要频繁。然而图情博客的“出链”较多,而“入链”相对较少,因此博客影响力有待提高。
·两个圈子有一定的交流互动,但是并不密切。派系分析的结果表明两个博客圈有明显的界限,交流是通过少数几个博客连接的。因此,图情博客圈应该跳出专业的圈子,拓展研究视角,寻求更大的发展。
6 不足与展望
本研究利用搜索引擎获取了博客之间的网络链接关系作为测度博客之间的社会网络关系的数据,然而这种方法往往存在一定的局限性。一方面,由于网络的动态性和Linkrot现象的广泛存在使得博客URL更换、链接失效等问题影响了链接数据测度的准确性;另一方面,搜索引擎本身存在着覆盖率有限、检索结果不稳定等现象,这对链接数据的测度也有一定的影响。解决的方法之一是:对于专项研究可以下载所有的网页,然后抽取其中的链接,这样可以得出相对更准确的结果。
另外,链接关系的测度中并未准确区分链接的性质。博客链接作为社会网络关系测度的假设就是博客之间的链接关系可以类比文献中的引证关系。然而博客链接之间的关系并非如此简单,其可以是对博文的引用,也可以是留言或友情链接中的链接。若要得出更准确的结论,需要区分不同链接的性质和动机。这将是本研究接下来的研究方向。
参考文献:
[1] 刘允.我国图书馆人博客的现状与展望[J].新世纪图书馆,2005(2):73-75.
[2] 马爱芳.国内图书馆学人学术性博客浅析[J].信息系统,2005(5):527-529.
[3] 李修波.浅议图林博客[J].数字图书馆论坛,2006(9):32-37.
[4] 吴超.图书馆学专业博客发展模式研究[J].现代情报,2006(4):31-33.
[5] 岳凯军.我国图书情报界博客对比研究[J]. 图书馆学研究,2006(8):21-24.
[6] 孔庆杰,王红波.图林博客的知识交流与共享探析[J].图书馆学研究,2007(9):14-16.
[7] 田洁.我国图情博客研究[J].新世纪图书馆,2008(5):91-93.
[8] 祝小诗.基于学术Blog的评价及实证研究[D].上海:华东师范大学,2008.
[9] 邱均平,于长福,马瑞敏.图林博客的社会网络分析[J].图书情报工作,2008(11):6-9.
[10] 党洪莉,孙红霞.图书情报学博客的社会网络分析[J].情报杂志,2009,52(1):180-182.
[11] 张玥,朱庆华.学术博客交流网络的核心——边缘结构分析实证研究[J].图书情报工作,2009(12):25-29.
[12] 网络编辑.40个互联网主题知名博客.[2011-07-17]. http://www.bianews.com/news/24/n-24924.html.
[13] 刘军.整体网分析讲义[M].上海: 致格出版社,2009:10-11.
[14]维基百科.小世界网路.[2011-07-17].http://zh.wikipedia.org/zh-cn/小世界网路.
[作者简介]郭金龙,男,1988年生,硕士研究生,发表论文1篇。
许鑫,男,1976年生,副教授,博士,发表论文60余篇,出版专著2部。