杨瑞仙 郭孟含
(1.郑州大学信息管理学院,河南 郑州 450001;2.郑州市数据科学研究中心,河南 郑州 450001)
知识是任何个人、学术机构或商业组织前进的动力与源泉,它不是孤立、单一存在的,而是通过知识媒介在不同实体间不断地分解、共享、转移、整合和交换,并在此过程中产生新发现和价值创造[1]。知识流动可以发生在任何交互、流动的环境中,如社交媒体与虚拟社区等,是不同个体间学习和协作的有利条件[2]。随着社交媒体的发展,不同国家(地区)、机构和学者间互动和交流日益增多,经管之家(原人大经济论坛)、科学网博客、小木虫学术科研互动平台(以下简称“小木虫论坛”)、丁香园论坛、ResearchGate等学术虚拟社区逐渐成为科研人员涉足的非正式科研交流新场所。在此情景下,科研人员之间建立好友联系、评论、推荐或互访等形式的交流也会带来知识流动。知识流动现象加速了科学的发展,也引发了不同领域学者的关注。长期以来,如何衡量知识流动是研究人员尝试解决的重点问题。与此同时,学术虚拟社区中的核心用户是指在人际传播中为他人提供信息,同时也对他人施加影响的“活跃分子”[3],他们既是信息传播过程中的主要扩散者,也是权威起源者,由此形成了社交网络中的信息级联传播,这在社交网络的知识流动过程中发挥着至关重要的作用。由于学术虚拟社区核心用户在知识流动过程中的关键地位,有效识别学术虚拟社区中的核心用户,围绕核心用户开展学术虚拟社区知识流动特征的研究有助于提升社区的知识流动效率,也对社区良性发展有着重要意义。
知识流动是整个知识网络的生命力所在,现有研究主要包括以文献数据库为研究对象和以虚拟社区为研究对象的知识流动研究。
目前,对于文献数据库的知识流动研究主要包括引用关系、共用关系和合作关系3个角度。引用关系主要指论文或期刊的引用。文献的引证关系研究目前已较为成熟,如Ding C G等[4]使用专利文献与学位论文间的引证数据,探究知识从科学研究到实践生产中的流动模式;岳增慧等[5]同样选取文献引证作为学科知识传播路径载体,对学科知识扩散特征进行系统研究,探究学科知识流动的规律与模式;而赵艳枝等[6]则从期刊引证关系出发,以图书情报学期刊为例,借助知识流动理论评价科技知识流动状态及期刊在知识流动中的贡献。无论是文献引用还是期刊引用,其研究均与科学知识流动的动态过程密切相关,以此为探寻知识流动的共性规律提供了可能。共用关系主要指关键词或主题词的共用,关键词或主题词的共用可以一定程度上揭示学科领域知识流动的现状,如Yan E[7]利用知识贸易方法理论对JCR中的221个学科主题类间的知识贸易关系及其相关特点进行分析,发现交通运输科学与材料科学的知识贸易影响力增长较大,而生物医学、数学和物理学等知识的“贸易顺差”额度较大。Darvish H等[8]同样采用共词分析和映射,根据论文标题中单词的共现情况确定土耳其的主要纳米技术研究领域。合作关系则主要指作者或著者单位的共现,作者共现常被用于学科知识流动网络分析之中,在Ma R等[9]对学科内跨学科交流模式的研究中,就运用作者间引文网络中的最短距离均值和知识流动均值进行了量化;徐晓艺等[10]则基于合著论文参考文献的学科分布确定论文的多学科共现属性,并根据此属性构建合著论文的多学科共现网络,通过网络的整体特征和节点特征对合著论文的学科流动网络进行特征分析。刘爱琴等[11]依据CNKI数据库,基于引证关系对知识发现领域研究群体进行知识图谱构建和聚类分析,构建了知识发现领域作者群体与主题多重共现超网络模型,提高了文献数据库知识交流的效率。文献数据库中的三大关系研究目前较为明确,通过三类关系可以对学科领域间知识流动状况进行有效量化和分析,进而揭示文献数据库中知识流动的模式和规律。
相关研究表明,用以分析知识流动状况的多为学术论文,但也有一些学者将知识流动的研究延伸至基金领域,如吴江等[12]提出基于基金代码共现的学科知识流动强度测量方法,并采用社会网络分析方法对NSFC信息系统的国家自然科学基金项目数据构建学科知识流动网络,探究网络的演变过程及不同学科层次内知识的流动路径,这一定程度上说明了知识流动在其他科学研究载体的延伸。同时,随着互联网技术的成熟,学术虚拟社区日益成为学科知识流动的重要阵地,其知识流动状况亦成为学术界关注的热点话题。
近年来,越来越多的学者借助学术虚拟社区开展学术知识交流研究。尽管目前利用学术虚拟社区进行学术知识流动研究存在用户认知度和学界认可度较低、学术信息质量参差不齐等诸多问题,但Coleman A S[13]认为,学术虚拟社区在学术交流、知识传播和在线指导等方面发挥着积极的作用,因此,开展学术虚拟社区的知识流动研究对整个知识网络而言依然具有十分重要的意义。
国内对学术虚拟社区的研究主要集中在知识流动和社区建设两方面。在知识流动方面,部分学者从多维视角进行了探讨,如胡昌平等[14]从学术博客中的知识交流活动出发分析博客知识交流网络中的知识转移;吴小兰等[15]则以科学网为例,爬取全部用户研究方向和好友关系数据,利用简单相关系数分析学部用户知识流动分布关系的强弱,同时借助Louvain社区发现算法挖掘学部内一级学科知识流动中的社区结构;彭静等[16]则更深入地从学术虚拟社区网络结构与学习者知识构建策略的交互作用出发,对不同策略组合的知识流动效果及多因素对知识流动的作用机理进行了探索。在学术虚拟社区建设方面,白玉[17]从小木虫社区某一板块出发,通过社会网络分析方法研究科研人员在该板块中的交互行为特点,探索社区成员的交流情况及存在问题,为后续学术虚拟社区的非正式交流提供建议。而李丹[18]和沈波等[19]则从整体社区出发,先后对“Quora”和“知乎”的社区管理、运行机制、用户视角层面进行对比分析,为提升网络问答社区的吸引力和互动性提供了启示。
而国外对学术虚拟社区的研究则主要集中于知识交流作用研究、知识交流过程研究和知识交流效率研究。在知识交流作用研究方面,Tuire P等[20]以芬兰教育研究小组之间社会合作为对象,利用社会网络分析法来探索科学的内部关系,发现非正式交流对科学结构关系形成具有重要支持作用;Oh J S等[21]以ASNS网站中Mendeley用户参与在线群组模式为考察对象,着重评估来自不同学科背景的用户在这些群体的聚集程度,发现在线社交网络可为来自不同背景的研究人员提供一个平台,揭示了数字网络环境下非正式交流对多学科间合作的正向作用;在知识交流过程研究方面,徐佳宁[22]基于Web2.0的非正式科学交流是基于用户创造内容、互动、分享理念的新的科学交流方式,发现了非正式科学交流具有在线动态、多向交互等一系列特性。Jeng W等[23]则基于ResearchGate数据集中的3个学科以比较研究学术社交网络上的信息交流,采用定性内容分析和统计分析混合方法设计,对学者如何交换学术信息和展开学术交流进行了研究。在知识交流效率研究方面,南京大学袁勤俭团队[24-25]以ResearchGate平台中的特定用户和板块为例,分别探究了不同用户特征对知识交流效果和学科水平对用户知识交流效果的影响,以期提高学术社交网络知识交流效果,为改进学术虚拟社区知识交流效率提供了思路。刘乙蓉等[26]则从信息聚合的角度出发,单独对“Quora”问答平台中的答案聚合及优化进行了研究,基于信息生产者、信息源和信息内容3方面的聚合对聚合答案质量进行评估,提出了聚合答案的改进方向,有助于促进知识交流效率的提高和社区的良性发展。
此外,部分学者对学术虚拟社区中两种知识交流方式的关系进行了关注,如张立伟等[27]基于WoS文献数据和Twitter转载数据展开了时空计量及比较分析,研究结果发现,社交网络平台交流偏好于非正式交流。王翠萍等[28]则对微博学术信息交流行为进行了问卷调查和综合分析,结果发现,微博中存在正式学术信息交流与非正式学术信息交流相互演化的趋势。还有学者将非正式交流应用于领域研究热点分析,研究发现,在领域研究热点分析时应以正式交流渠道为主,非正式交流渠道为辅[29]。
总体而言,学术数据库和学术虚拟社区的发展均促进了知识交流,其研究内容也涉及知识交流效率、知识交流作用、知识交流机理等各个方面。而学术数据库偏重正式交流,学术虚拟社区则偏重非正式交流,且在学术虚拟社区中,正式交流与非正式交流逐渐呈现出相辅相成的关系。目前,有关知识流动的已有研究大多集中在对文献数据库的研究,且研究内容已趋于成熟。有关学术虚拟社区的知识流动研究受关注度不高。相对于文献数据库而言,学术虚拟社区更易获得全部学科知识交流信息,且所涵盖的学科知识较为全面,用户间知识流动的即时交互性更强。此外,学术虚拟社区同样存在反映知识流动行为的数据,如好友信息、帖子转载、评论和回复等,故而开展学术虚拟社区知识流动研究对构建整个知识网络而言显得尤为重要。因此,本文以学术虚拟社区核心用户为研究对象,从核心用户、地域和研究主题等视角对知识流动特征进行研究,以期与传统知识交流研究结合,全面研判促进学术虚拟社区知识流动的有效方法,促进学术交流的健康发展。
作为学术虚拟社区知识流动研究的研究主题之一,用户影响力的量化与分析对刻画学术虚拟社区知识交流结构有着重要意义。在用户影响指标体系的相关研究中,主要从信息传播和用户角度进行指标体系构建,如李丽欣[30]结合社会网络分析方法从网络结构、用户综合活跃度和信息传播影响力3个维度给出了识别群体核心用户的主要方法,为核心用户影响力指标体系构建提供了基本参考;韩青菊[31]则更系统地从信息传播视角切入,构建结合用户行为属性、节点价值、博文价值等的用户影响力评价指标体系,进一步细化了用户影响力指标,不过对用户自身指标的关注尚显不足。而俞彩云[32]则兼顾了两个角度,并构建了用户与圈子的发文关系和关注关系两大网络模型,将用户指标和互动指标均融合于社区核心用户识别过程中,其研究具有较好的参考意义。此外,王琦[33]将学术博客平台用户行为划分为主动与被动两类行为,并设计了13个用户行为指标以识别核心用户,提出较为全面的核心用户影响力指标体系。正是在此研究基础之上,笔者发现用户影响力构建均以某一具体社区展开,部分指标在不同学术虚拟社区间未必适用,因此,本文进一步构建了学术虚拟社区的用户影响力指标体系。
本文综合考虑数据的可获取性及学术虚拟社区自身的特点,将影响学术虚拟社区用户影响力的主要因素归纳为用户积极性、用户权威性和帖子影响力3个维度,其中用户积极性的二级指标包括:关注数、发帖数、在线时长;用户权威性的二级指标包括:精华帖、积分、粉丝数、丁当数;帖子影响力的二级指标包括:帖子被收藏数、帖子被浏览数、帖子积分。然后采用熵权法计算各个指标的权重,进而计算用户影响力的数值。学术虚拟社区用户影响力指标体系如表1所示。
表1 学术虚拟社区用户影响力指标体系构建
PageRank算法是数据挖掘领域较常见的一种算法,该算法利用每一页面的权威值评估网页在网站中的重要性。页面的权威值被定义为指向该页面的其他页面平均分配给该页面的权威值之和,通过迭代计算可以得到该网页最终等级划分。假设用户在社交网络和问答网络中均与其他用户具有相应的交互关系,本文将PageRank算法的思想用于识别学术虚拟社区中的核心用户。
由于社交网络为无权有向网络,本文根据传统的PageRank算法将用户的社交网络综合值表示为式(1):
SR(i)=(1-α)+α∑j→iSR(j)/dj
(1)
式中,dj为节点j的出度,α为阻尼系数,在大多数情况下α取值为0.85。在真实的社会网络中,若一个用户具有大量粉丝却没有关注其他用户,就可能在该顶点出现权威值滞留现象,使得传递受阻。因此,本文引入随机冲浪模型及阻尼系数α进行随机跳转,以解决权威值不断滞留的现象。本文将控制迭代结束的参数e设定为10-7。
学术虚拟社区中的问答网络为加权有向网络,将两个顶点之间的边权重可表示为式(2):
wij=p(i)×Nij
(2)
式中,p(i)为利用熵权法根据用户的积极性、权威性以及帖子影响力计算的用户影响力,Nij为用户i与用户j在问答关系中出现的频次。由于问答网络需要考虑边的权重,因此在计算时需要在每个顶点形成权威值的不对等传递,以真实地反映每位用户的影响力。每个顶点i在问答网络中的综合值QR(i)可以表示为式(3):
QR(i)=(1-α)+α∑iQR(j)wji/∑kwjk
(3)
由社交网络和问答网络可计算出学术虚拟社区中用户的综合值,其计算过程如式(4)所示:
ZR(i)=w1SR(i)+w2QR(i)
(4)
式中,w1、w2分别表示问答网络和社交网络的权重。当得到学术虚拟社区中所有用户的排名后,即可取前N名用户作为学术虚拟社区中的核心用户。
2.3 知识流动网络分析
在大多数识别核心用户的文献中,社交网络分析法具有较为明显的优势[34]。为了在学术虚拟社区中综合性地识别核心用户,本文借鉴郭博等人的研究思路[35],利用学术虚拟社区中用户间的社交及问答等互动行为信息,构建了一个基于学术虚拟社区的多层次综合评价网络,即利用其社交关系、问答关系以及核心用户之间的联系,构建一个双层知识网络结构,如图1所示。
图1 双层知识网络结构图
根据已建立的双层学术虚拟社区网络结构,本文首先利用熵权法构建用户影响力评价指标体系,在此基础上构建用户影响力评估模型。使用用户影响力评价模型可以得到学术虚拟社区中每位用户的影响力值,随后将该结果与PageRank算法结合,得到改进的综合性用户影响力评价模型,用于挖掘学术虚拟社区中的核心用户,其评估过程如图2所示。
图2 用户影响力评估流程图
结合图1可以看出,本文基于学术虚拟社区的用户关系和问答关系构建了一个双层网络结构,用户间的关注关系构成了第一层网络,如U1关注了U3,则有一条从U1指向U3的单向箭头,U1和U2间相互关注,则U1和U2间存在一条双向箭头。问答网络由用户的发帖和回复关系构成,如用户U1和U5分别提出了问题Q1和Q2,问题A1和A2回答了Q1,因此从A1和A2出发分别有一条指向Q1的单向箭头。学术虚拟社区知识网络建模过程如下:
本文将学术虚拟社区的社交关系定义为一个无权有向图GSN=(U,E),其中GSN表示学术虚拟社区社交关系网络构建的无权有向图,U表示用户顶点集,用户Ui∈U,E表示边集,若用户Ui关注了Uj,则
3.1 数据来源
“丁香园”是面向医药、生命科学专业人士的专业性在线交流平台,其主站“丁香园论坛”是目前成熟在线健康社区的典型代表[36]。本文主要以“丁香园社区”中的“心血管”版块为研究对象,遵循数据可获得性原则,编写Python爬虫程序获取“心血管”版块的用户信息和发帖回帖信息,其中用户信息包括关注数、发帖数、在线时长等用户积极性信息,精华贴、积分、粉丝数、丁当数等用户权威性信息,帖子被收藏数、帖子被浏览数以及帖子被投票数等帖子影响力信息,以及用户的关注和粉丝的相关信息;用户发帖回帖信息包括用户的发帖及回复的相关数据项,并将所获取的数据项存放于PostgreSQL数据库中。数据获取时间为2020年6月11日—14日,共获取9 270条用户相关数据,并利用SQL语句对数据库中的数据进行整理和清洗。
3.2 核心用户识别
本文使用Python程序分别计算用户积极性、用户权威性、帖子影响力以及用户影响力的信息熵e和权重系数w。
本文利用熵权法确定各指标权重的过程如下:
1)原始数据标准化。对原始数据的标准化处理过程见式(5):
(5)
其中,xij表示原始数据第i个评价对象的第j个评价指标;yij表示标准化后第i个评价对象在第j个指标上的值。
2)计算指标j的熵值,见式(6)。
(6)
3)计算指标j的权重。ej值越小,表明指标效用价值越高,在评价指标体系中所起的作用越大,权重越高。指标j的权重见式(7):
(7)
4)各指标加权计算综合得分。利用加权和公式计算样本的得分或评价值,见式(8)。
(8)
其中,S为综合得分,wj为第j个指标的权重。
计算结果分别如表2~表5所示。
表2 用户积极性指标信息熵与权重系数
表3 用户权威性指标信息熵与权重系数
表4 帖子影响力指标信息熵与权重系数
表5 用户影响力指标信息熵与权重系数
在表2~表5计算结果的基础上,计算用户的影响力。本文参照式(10)计算用户在社交网络中的综合值SR值,参照式(12)计算用户在问答网络中的综合值QR,并利用熵权法计算用户的影响力综合值ZR,进而识别学术虚拟社区中的核心用户。本文将学术虚拟社区中综合值排名前20名的用户作为核心用户,其综合值排名如表6所示。
本研究的目的在于从不同维度深层次揭示学术虚拟社区知识流动特征,需要从学术虚拟社区整体网络中抽取出反映不同知识属性的个体关系网络,并将知识节点的特征数据与关系数据紧密结合,以揭示学术虚拟社区中不同主体属性间的知识流动情况。因此,本文基于对当前研究现状的高度总结,将知识网络从更高维度划分为揭示学术虚拟社区核心用户间知识流动的核心用户网络、揭示地域间知识流动的地域网络、揭示科室间知识流动的学科网络,以及揭示主题间知识流动的主题网络,以分析反映不同个体属性间的知识流动特征。
表6 前20名用户影响力综合值排名(部分)
在此基础上,根据学术虚拟社区核心用户间的关注关系分别映射出学术虚拟社区地域、学科和主题间的知识流动关系,并运用Gephi软件对核心用户、地域、学科以及主题等角度进行共现网络分析,以揭示学术虚拟社区的知识流动特征。
3.3.1 核心用户间知识流动
根据“丁香园论坛”核心用户间的关注关系,利用SQL语句从数据库中匹配出200名核心用户间的关注关系,以用户为节点、用户间的关注关系为边构建核心用户间的非加权关注关系网络,如图3所示。
图3 核心用户间的关注关系网络
由图3可知,核心用户关注关系网络图以核心用户为节点、核心用户间的关注关系为边。模块化将整个网络划分为数个子模块,同一颜色代表同一模块,节点大小和标签与该节点关注度有关,关注程度越高,节点就越大。同时采用ForceAtlas布局。
由图3可知,入度排名靠前的核心用户有四叶虫、逃、zxz068、天天、yzf111等核心用户,分别为51、48、35、34、32;出度排名靠前的有墨九歌、gerry5413、措姆强巴、hblyf、shwyj001,分别为53、40、39、38、34。节点度较大的核心用户的路径长度相比于边缘用户较小,且不同色块聚类间的核心用户(如四叶虫、墨九歌)呈现较强的结构洞特性,成为其他核心用户间接知识交流的纽带。同时,同一种颜色的聚类中主要核心用户之间亦存在紧密联系,如粉色聚类中的用户逃和墨九歌。观察节点度数还发现,该板块主要核心用户为墨九歌、四叶虫、逃、shwyj001、措姆强巴、指灵素、小米家的大米、无忌、吴建民等,且在不同模块之间核心用户的关注程度也较密切;从节点特征可以发现,核心用户间知识交流联系强度综合排在前3位的是四叶虫、墨九歌、逃。从整体特征上看,不同节点间连线较为密集,整体网络密度较大,大多数核心用户间的关注关系具有明显的交互性特征,仅有少数相对独立。同时,若干子模块之间核心用户间的关注关系也较为紧密,这说明不同子模块间核心用户的知识交流也较为密切。综上,从该模块核心用户关注关系的基本分布特征出发,采用一定策略对社区内影响力较强的核心用户予以引导,增强其他用户的活跃度和参与度,对于推进整个学术虚拟社区中用户关系的良性发展具有借鉴意义。
3.3.2 地域间知识流动特征
为便于进行数据分析,本节将学术虚拟社区中用户的地域信息进行标准化处理,统一映射到“省或直辖市”级别,各地域所占比例如表7所示。此外,结合核心用户属性信息,本文从核心用户间的关注关系出发,映射出了地域间的联系,以地域名称为节点,地域间的联系为边,地域间发生连接次数为加权边,构建核心用户地域间知识流动加权网络,如图4所示。
由表7可知,在核心用户中有60.5%的用户分布在北京、江苏、广东和上海等发达地区。而中西部地区尤其是边疆地区和国外核心用户占比相对较少,且整体上大致呈现出核心用户空间上自东向西递减的状况,由此社区管理者应加大激励力度,鼓励中西部和国外等地域核心用户的加入。
从图4中根据节点特征可以发现,该板块地域间知识流动节点度排名靠前的核心用户主要来自北京、浙江、广东、山东、上海,它们处于社区知识流动的中心地域,且彼此之间知识流动也呈现较强的特征,其经济发展水平和医疗水平也是较为发达的。同时,边疆省级行政区核心用户由于占比较少,因而知识流动呈现出较弱的特征,与上文5个地域之间核心用户知识流动相比较弱。从整体特征上看,学术虚拟社区中的东部沿海省份之间的知识流动趋势明显强于经济欠发达省份,甚至后者大部分趋于边缘化,因此,社区管理者应采取一定的措施加强经济欠发达省份间的知识流动,着手采用激励性措施解决核心用户之间知识流动空间不均的问题。除此之外,社区的国外核心用户占比极少,因此大多呈现的是国内地域间的知识流动,知识流动相对较为封闭,故而社区应拓宽知识交流范围,推进社区的国际化。核心用户来源地域分布一定程度上反映了知识流动的空间关系,从侧面亦可以进一步推测所有地域学术虚拟社区的分布和活跃情况,对进一步建立良好的学术虚拟社区知识流动空间格局有启发意义。
表7 核心用户的地域分布
图4 核心用户地域间知识流动网络
3.3.3 学科间知识流动特征
同理,本节结合核心用户属性信息,从核心用户间的关注关系出发,映射出了核心用户科室间的联系。本文将用户所在科室视为用户的学科,以科室信息为节点,学科信息间的联系为边,不同科室间发生连接次数为权重,构建核心用户学科间知识流动加权有向网络,如图5所示。
图5 核心用户间学科知识流动网络
由图5可知,不同科室信息间的入度和出度相对较为稀少,平均度为3.5,平均聚类系数为0.425。神经科节点的度最大,占据社区中科室信息知识流动的核心地位,说明该板块“神经科”核心用户占多数且较为活跃,与各个科室之间知识流动的联系最为紧密,尤其与骨科、未认证科、麻醉科、认证用户的知识流动联系较为强烈,认证医师、未知和眼底的度均比较小,并且对于未知、专家CT室、眼底、认证医师等节点相对较为孤立,在社区中与其他学科知识流动的联系比较弱,因此,对核心用户主要科室和认证用户的知识交流较为关注,对于辅助科室和未知则关注较少,核心用户间学科知识流动网络整体较为分散,大多科室均聚焦于神经科节点,学科知识间联系强度的差异很可能与不同学科知识间的相关性有关,因为任一学科的知识均非孤立存在,必须与关联学科相结合才能发挥某一学科知识的专业性,如神经科与麻醉科、神经科与骨科;而对于专业学科外的其他节点,如眼底等,这些科室相对较为孤立,因此在社区中与其他学科知识并未产生更多联系。此外,在心血管内科与神经科、神经科与未知的知识流动过程中,骨科和未认证在其知识流动网络中扮演着结构洞的作用,成为节点度大和节点度小的科室信息联系的枢纽。总体来看,核心用户之间科室信息多以神经科为主,尤其与未认证知识交流较为紧密,同时缺乏一些其他科室信息的知识流动,不能完全反映所有科室信息之间的知识流动状况。对学术虚拟社区建设而言,用户自身学科知识背景对知识流动强度的贡献不一,应充分发挥不同学科背景核心用户对社区的建设合力作用。
3.3.4 核心用户—主题词知识流动特征
用户发帖内容可用于表征用户兴趣的主题方向,用户发帖标签可用于概括用户发帖信息的内涵,故本文将用户发帖标签作为表征用户发帖标签的主题方向。考虑到数据的规范性,参照“丁香园论坛”的社区结构,本文将用户的发帖标签统一映射到用户发帖版块中,以用户发帖标签所在版块表征用户发帖的主题方向。为反映用户近几年感兴趣的主题信息,本文从数据库中筛选出用户在2015年1月1日—2020年6月11日的发帖标签作为用户感兴趣的主题词,并将每位核心用户近5年发帖频次最高的主题方向作为该用户的兴趣主题词。在此基础上,利用Gephi软件生成一个包括50个节点和539条边的加权核心用户—主题词频次共现网络,以核心用户主题词为节点,主题词之间的联系为边,其权重为节点间重复边出现的次数,节点间边的权重越大,其连线越粗,构建核心用户主题词间的加权有向网络,如图6所示。
由图6可知,从出度和入度的累计分布来看,入度排名前几位的主题词是心血管、科技动态、心情驿站、骨科、站务,出度排名前几位的主题词是心血管、骨科、科技动态、临床执考、心情驿站,平均度为10.78,且入度和出度均在20以上,大多数节点均和其他主题词存在相互联系且低于平均度。此外,还有个别主题词入度为0,如皮肤性病、感染、规培。度数排名前5位的是心血管、科技动态、骨科、心情驿站、麻醉疼痛,分别为70、63、55、55、44。其中心血管成为最大度的主题词,这可能是由于本文的研究对象为心血管版块的用户。同时,这5个主题词和其他主题词联系最为频繁且中心性较大,且四者处于整个主题词共现网络的核心区域,说明核心用户之间的知识流动较为紧密。此外,社区中核心用户不仅较为关注与社区主题相一致的主题词,而且比较注重与主题词较为接近的领域。60%的主题词的聚集系数在0.4~0.6之间,平均聚类系数为0.561。节点中医学类相关主题词占多数,同时可以看出该板块社区中核心用户较为关注的热点主题词。值得注意的是,在图6的主题词网络中,社区相关的考试类话题和医学前沿问题也引起了热切关注,如考研交流、临床执考、职称考试、科技动态、新药信息、丁香热点等节点,这说明了“丁香园论坛”社区的学科属性和社员之间知识交流的热点。从整体的节点分布特征看,主题词节点联系的分布密度从中心向四周逐渐递减,对于出现频次不是很高的主题词,大多与某一个或几个主题词产生不同主题词之间的联系。关注学术虚拟社区内核心用户所探讨的热点主题词,有助于活跃社区氛围,提升知识交流效率,揭示知识流动的动态特征和演化趋势。
图6 核心用户—主题词共现网络
随着学者间非知识交流的日益频繁,探寻学术虚拟社区的知识流动特征亦成为学术虚拟社区建设的重要任务。碍于数据和技术等因素的限制,本文难以对呈现所有学术虚拟社区的知识流动特征,因此本文仅以“丁香园论坛”为研究对象,在构建用户影响力指标体系的基础上,应用熵权法、社会网络分析方法和PageRank算法计算用户的综合影响力,以此识别核心用户。最后,利用Gephi软件从核心用户、地域、学科以及主题等多元维度建立共现网络,以揭示社区中的知识流动特征:①在核心用户间的知识流动特征方面,核心用户间的知识流动呈现出明显的聚类现象,不同聚类模块交接处的核心用户呈现出较强的结构洞特性,成为其他核心用户间接知识交流的纽带;②在地域间的知识流动特征方面,北上广等发达地区位于知识流动网络的中心,同时这些地域之间也呈现出较强的知识流动特征,此外,边疆地区的知识流动较弱;③在学科间的知识流动特征方面,学科知识间的知识流动强度与学科知识间的内在联系紧密相关;④在核心用户—主题词间的知识流动特征方面,医学领域中的心血管和骨科等主题词以及学习交流领域的科技动态、心情驿站等相关主题处于知识流动网络中的核心地位,对于整个社区的知识流动具有关键作用。基于以上知识流动特征分析,启示整体学术虚拟社区应积极关注知识交流的主体、趋势、布局等方面,推进社区知识交流的效率和效果。
本文采用复杂网络的方法对学术虚拟社区中核心用户间的知识流动特征进行分析,为学术虚拟社区知识流动研究奠定了理论和实践基础。同时仍存在一些不足之处,例如仅对“丁香园论坛”心血管版块的核心用户进行分析,研究对象的数量偏少。此外,还存在知识流动特征分析不够深入、对地域间知识流动特征分析时数据粒度较大等问题。针对以上问题和不足,笔者将在今后继续开展更深层次的研究。