考虑“关键用户”影响力及“热点问题”识别的改进SEIR知识传播模型

2021-10-16 19:51马宇彤胡平
预测 2021年5期

马宇彤 胡平

摘 要:知乎成为Web 2.0在线知识传播的重要平台,本文基于知乎问答社区回答的传播机制,归纳知乎平台上知识传播三种途径。以SEIR模型为基础建立知识传播模型,模型所包含的传播途径占真实传播途径的90.9%。考虑关键用户挖掘和热点问题识别对传播过程的影响,运用HITS算法再次改进模型描述知识在用户间的传播规律。通过稳定解分析和参数对阈值影响分析,揭示知识传播“冷启动”较难、规模受限的规律。使用用户和问题影响力调整参数,得出被关键用户传播、或处于热点问题下的回答传播力更大。进一步以知乎平台动态回答数据验证,显示改进的H-SEIR模型拟合度优于SEIR模型,H-SEIR模型更适于描述知识传播规律。最后,给出问答平台知识推广的启示建议。

关键词:用户影响力;问题影响力;知识传播;传染病模型

中图分类号:G206.3 文献标识码:A 文章编号:1003-5192(2021)05-0048-08 doi:10.11847/fj.40.5.48

Abstract:Since Zhihu has become the important platform of online knowledge dissemination in Web 2.0, this article summarizes three paths of knowledge dissemination on the Zhihu platform in view of its answer propagation mechanism. This article proposes knowledge dissemination model based on SEIR, which accounts for 90.9% actual dissemination paths. Furthermore, considering the key users and hot spots impact on the dissemination process, we use HITS improving the model for describing the rule of knowledge dissemination among users. By stable-state analysis and thresholds analysis, we find the law of knowledge dissemination-Hard cold start and limit scale. Then, using user and question status to adjust parameters, it is concluded that the higher status questions and users have, the more propagation power their answers have. Moreover, it shows H-SEIR model, which is more suitable for describing the knowledge dissemination process, has better fit than SEIR model by Zhihu dynamic answer data. Finally, we try to give advice on knowledge promotion in Q&A platforms.

Key words:user influence; question influence; knowledge dissemination; SIR model

1 引言

迎著Web 2.0,人们传播知识的方式发生颠覆性变化,在线问答社交平台应运而生。本文的研究对象是最大的中文问答社区平台—知乎,其借鉴Quora模式[1],通过用户关注关系和“写回答”“点赞回答”“关注问题”等用户行为形成的回答传播途径,将问题的回答所蕴含的知识进行在线传播扩散。Polanyi[2]将知识分为显性知识和隐性知识,前者以文字、图表和数学公式加以表述,后者无法用语言表示,根据个人行为积累和完善的经验或心得。林东清和李东[3]对知识和信息做出区分,认为知识是人类通过原始信息的转化和处理得到的、是可以减少环境不确定性认知的信息。信息是知识的基础,知识是信息的升华。知乎平台上的回答,大多是回答贡献者根据多年学习、生活或从事相关行业积累而来的信息,加入自己的经验或主观的看法,以文字、图片和链接等形式呈现,是知识的体现。所以,本文使用知乎问答社区上的回答代表知识。

大多数知识传播模型建立在SIR传染病传播模型基础上,其是一种自上而下建模方式。SIR传播模型的开端是Daley和Kendall[4]提出的DK模型。在该模型中人群被分为三种状态:未知者(S),对知识不了解的人;传播者(I),传播知识的人;免疫者(R),不再传播知识的人。传播者遇到未知者时,未知者以一定概率变为传播者;传播行为发生在两传播者之间时,两者都以一定概率转化为免疫者。此后,Maki[5]对DK模型做出修改,将传播规则改进为,当两传播者相遇时,只有一个传播者以一定概率变为免疫者,建立MK模型。此后文献根据不同的研究情景,增加人群状态对模型进行改进:Mutz等[6]加入已知者(E),认为不是所有未知者在获得知识后都会选择传播,而是先转换为已知者,已知者以一定概率转换为传播者,从而提出SEIR模型。Zhao等[7]考虑在线社交平台中的遗忘机制,建立知识传播SIHR模型。Zan等[8]建立SICR模型刻画考虑阻碍传播情形下的知识传播规律。Wang等[9]建立2SI2R模型研究同时存在两种谣言传播时的相互影响情形。然而,上述文献将知识传播主体间的关系网络看作均匀网络,未考虑真实网络结构对知识传播的影响。事实上,无论线下疾病或谣言传播[10],还是在线社交网站知识传播[11],其所参与个体组成的社会网络具有幂律特性和无标度特性。Barabasi和Albert[12]认为“偏好连接机制”促进“富者愈富”的形成,揭示许多网络的度分布都是幂律现象的潜在机制。研究证明在线社交网站用户关系网络为复杂网络[13]。关于复杂网络上知识传播的研究,Moreno等[14],Nekovee等[15]基于MK模型,研究无标度网络中的知识传播,推导出稳定状态下传播程度与网络平均连接数,传染率的关系。Zanette[16]建立小世界网络中的SIR模型并得出知识传播的临界值。Cowan等[17]提出复杂网络中的知识增长模型,指出小世界网络在演化为均衡网络过程中,其知识传播效率能够达到最大值。Zhao等[18]基于SIHR模型,证实与随机网络相比,无标度网络中 “遗忘-记忆机制”对知识传播力影响更大。然而,这些研究关注复杂网络结构特征对在线知识传播的宏观传播效果,缺乏初始传播点的网络地位对知识传播效率分析这样微观层面的探索。此外,虽然文献通过严密的数学推导揭示知识传播规律,但较少采用在线知识传播平台数据验证模型。

已有研究讨论在线网络初始传播用户的关键程度对知识传播过程的影响[19]。然而鲜有研究聚焦在线知识传播过程中,探讨知识所涉及问题是否具有热度,知识贡献者是否为关键个体对知识传播效果的影响。关于网络关键点识别,主要有介数中心性和K-shell中心度、PageRank算法、HITS算法[20]。相较于前两种识别方法,HITS可同时发现问答平台的热点问题和权威用户,更适用于本文研究。目前,HITS算法已运用到“问答社区关键用户和热点话题发现”等研究中。Jurczyk和Agichtein[21]基于用户提问的中心度和答题的权威值,发掘雅虎问答社区的不同话题下明星用户,并验证HITS算法预测“专家”的准确率优于中心度识别方法。本文通过细化知乎传播途径改进传统SEIR模型,进一步地考虑回答关联的用户和问题属性对回答传播的影响,建立H-SEIR知识传播改进模型。之前的传染病模型中用户是否获得知识的状态转换只受其他用户影响,本文既考虑用户层面又考虑知识所处的问题环境层面影响。进一步地,本文从各初始传播点网络影响力的微观视角,探索关键用户和热点问题对在线网络知识传播规律的影响;此外,以往文獻主要运用仿真手段验证模型的适用性,缺少实际数据的支持,而本文采用知乎平台“流行音乐”和“英语学习”两话题下的用户回答动态数据,验证改进后模型拟合程度,弥补已有文献的缺憾。

2 知识传播过程的H-SEIR改进模型

2.1 知乎平台发现回答三种途径

借鉴已有文献[22],本文将用户对回答点赞行为视为知乎的回答传播方式,知乎知识传播研究转化成为用户如何发现回答并对其点赞,及点赞用户对关联用户发现并点赞回答这一过程产生怎样影响。基于知乎关注系统推送机制,用户在“关注”栏目下可看到关注了的用户“回答了的问题”“赞同了的回答”中回答的内容,“关注了的问题”中问题的描述。对此,归纳三条发现回答的途径:途径1基于回答者的启动途径:依据“回答了问题”,回答者的关注者(在平台上关注了回答者的用户)在知乎首页“关注”栏目下阅读该回答。途径2基于问题的启动途径:依据“关注了的问题”,回答所属问题的关注者在知乎首页“关注”栏目下浏览并点击该问题后,有机会在“问题答案”界面阅读该回答;此外,在首页“关注”栏目下,关注了该回答所属问题的其余回答者的用户阅读并点击问题的其余回答后,进入“问题答案”界面,之后通过点击“下一个回答”有机会阅读该回答。回答启动传播以途径1和2两种方式进行,当回答者关注者、问题关注者、回答所属问题的其余回答者的关注者阅读该回答,对回答内容感兴趣并“点赞”,他们转化为点赞者(传播者)进入途径3传播。途径3基于回答点赞者的扩散途径:依据“赞同了的回答”,这些点赞者的关注者在知乎首页“关注”栏目下阅读到点赞者“赞同了的”该回答。若点赞者的关注者对回答内容也感兴趣并“点赞”,则不断重复途径3。使用Python对知乎问答社区2011~2017年“流行音乐”和“英语学习”话题的68362个问题的421849个回答的回答者,回答点赞者,点赞者关注者,回答者关注者,问题关注者等数据进行爬取,之后使用MySQL进行数据匹配,得出知识传播各途径占比情况:途径1占比为4.3%;途径2占比为45.7%;途径3占比为40.9%。三种途径下点赞占比之和为90.9%。本文未考虑到9.1%知识传播的途径可能是用户分享到的“微信”“微博”等外链,不是基于知乎内部的传播途径。

2.2 基于三种回答发现途径改进的SEIR模型

以上述发现回答的三种途径为基础,本节改进用户状态转化的SEIR模型,刻画回答在发布后的传播过程:回答在知乎平台上产生之前,所有用户都不了解该回答的内容,即这段时间用户都是未知者。当回答由回答者发布后,其内容在用户间传递,传递过程中不同状态的用户转换关系如下:

(1)初始未知者(S)→已知者(E):包括用户群体和回答所属问题环境两层面。根据途径1,回答发布时,该回答的回答者关注者从未知者转换为已知者。参数r为标准发生率,表示基于回答者关系网络特征的模型感染概率。另一方面,根据途径2,在回答发布后回答所属问题的问题关注者,问题其他回答的相关行为者通过问题层面的推送机制间接地浏览所属问题下的该回答。这时,这些用户从未知者转换为新一轮的已知者。参数q为标准发生率,表示基于回答所属问题层面的未知者转换为已知者的概率。公式(1)中q的乘数dI可理解为:单位时间内回答传播者越多,该回答越容易被系统推荐为对应问题的优秀回答进而被未知者发现,这样从问题途径分到的关注度越多。

(2)已知者(E)→传播者(I)或已知者(E)→免疫者(R):经(1)步转换的已知者认同该回答并对其 “点赞”。点赞行为发生时,回答会出现在这些点赞者的关注者界面,这时点赞者从已知者转换为传播者。已知者选择传播的概率由p表示。如果这些已知者对该回答无兴趣,无分享意愿,未对该回答进行“点赞”,这部分用户会直接从已知者转换为免疫者状态。该转换过程中涉及的免疫概率由λ表示。

(3)新一轮未知者(S)→已知者(E):根据途径3,通过(2)步该回答出现在点赞者关注者的界面中,引起点赞者的关注者发现回答。这时,点赞者的关注者从未知者转换为新一轮的已知者。该转换过程中,传播者对未知者的传播概率同样用标准发生率参数r表示。重复(2)(3)步转换过程,直到各状态达到稳定。通过转换过程提炼出的传播动力学方程见公式(1)~(4)。

模型假设有:1)p+λ=1,即每步扩散中原有的已知者全部传播转换为其他者;2)起始状态的已知者状态占比非常小;3)给定时间t,四种状态密度之和为1。即:传播过程中用户的总量不变,新进入知乎平台用户比率和退出知乎平台用户比率趋近于零;4)新增的传播者对未知者的影响仅在一次知识传播中发挥作用,不多次产生影响,所以传统舆情传播SEIR模型中的I改为dI。

2.3 考虑“关键用户”和“热点问题”的H-SEIR改进模型

以知乎问答社区“问题”和“用户”为节点,“答题关系”为有向边,构建“问题-回答者”传播网络。将问题看作HITS算法中的“中介頁面”,将回答者看作“权威页面”,并基于问题关注者数和回答者关注者数调整HITS算法。具体步骤如下:

(1)在有J个回答者构成的回答者集合,K个问题构成的问题集合中,以问题关注者数和回答者关注者数分别作为问题和回答者的中心度和权威值的初始值。之后用(5)、(6)式将其标准化。其中aj表示第j个回答者的初始权威值;hk表示第k个问题的初始中心度;Z(aj)表示第j个回答者的标准化权威值,Z(hk)表示第k个问题的标准化中心度。

(2)计算下一次迭代的中心度和权威值:某个回答者的权威值等于上一步的权威值和与其相连(即回答过的)所有问题的中心度之和的加值;某个问题的中心度等于上一步的中心度和与其相连(即被回答过的)所有回答者的权威值之和的加值。并将新得到的权威值和中心度标准化。如(7)~(10)式所示。其中H表示“问题-回答者”网络转化出的0-1邻接矩阵。矩阵中的行(k)表示“问题”,列(j)表示“回答者”,H(k,j)=1表示第j个回答者回答过第k个问题,H(k,j)=0表示第j个回答者没有回答过第k个问题。a0表示所有回答者初始权威值向量,h0表示所有问题初始中心度向量。

(3)如果本次得出的权威值和中心度与上一次趋于相等(误差小于10-8),停止运行,回答者最终权威值为向量aN,问题最终中心度为向量hN;反之循环步骤(2)。

在知识传播三种途径中,与用户关联的途径1和3会受到用户权威度的影响。与问题有关的途径2会受到问题中心度的影响。因此,本文基于HITS算法运用回答者的权威值(a)、问题的中心度(h)对SEIR模型的参数r,q进行调整。改进后的H-SEIR模型考虑了回答所关联的问题、回答者的属性及回答所处的“问题-回答者”网络属性对回答传播的影响,相较于SEIR模型,从微观视角更好地刻画属于特定问题下来自特定回答者做出的回答的传播规律。改进后模型见(11)~(14)式。aj表示第j个用户t时刻的权威值,hk表示第k个问题t时刻的中心度;avg(aj)为网络中所有用户权威值的均值;avg(hk)为网络中所有问题中心度的均值。模型假设、约束条件与模型改进前相同。

模型退化:当网络中所有用户节点的权威值都相等且所有问题的中心度都相等时,对于所有产生回答的用户都有ajavg(aj)=1,回答所属问题都有hkavg(hk)=1,此时H-SEIR模型退化为不考虑节点权威度的SEIR模型(1)~(4)。

其中ΔS2为基于途径2未知者的变化量;w2为基于途径2未知者的变化量权重。根据发现回答的途径中途径2占比,得w2=0.457。综上,可得q=0.457×23.7÷13.5=0.80。通过实际数据设定r=0.9,q=0.8。根据引理1和2三种情形下传播者稳定解分析,结合Runge-Kutta方法,可求出无传播、部分传播和完全传播对应的参数p的取值范围。设定p值,做出仿真图1。(1)处于无传播状态时:p的取值范围为[0,0.58],令p=0.5做出仿真图见图1(a);(2)处于部分传播状态时:p的取值范围为(0.58,0.84),令p=0.7 做出仿真图见图1(b);(3)处于完全传播状态时:p的取值范围为[0.84,1],令p=0.9做出仿真图见图1(c)。通过数值仿真结果可看出,知识能够发生传播和能够完全传播的p的阈值较高,说明知识传播实现“冷启动”较困难,并且很难完成大规模传播,该传播规律有别于舆情传播速度快,范围广的特点[7]。图1的横坐标表示传播轮次(t),纵坐标表示各状态密度(所占整个群体的比例)。

5 实验与评估

本节将“知乎”流行音乐和英语学习话题在2016年4月到2017年6月产生的问题随机抽选三分之一;接着爬取问题在后5个月内产生的回答;之后爬取这些回答在2017.11.9~2018.1.13点赞数、回答者关注数和回答所属问题的关注者数每周的变化量。筛选上述回答从第1周到第10周点赞数变化值超过10个的回答,英语学习49个(1.27%),流行音乐514个(14.46%)。如果点赞数在10周变化数少于10,说明该回答属于无法传播情形或者已经完成传播的情形,不适于本文对回答传播变化过程的研究。在563个回答样本中,除去匿名用户回答,剩余420个(74.60%)回答样本作为最终样本。420个回答所属于203个问题,来自369个回答者,共有9933个点赞行为变化。运用HITS算法计算420个回答对应的问题,回答者每周的中心度值和权威值。之后,将回答样本按照上述两种属性中位数划分高HITS得分回答组和低HITS得分回答组。通过独立样本t检验验证点赞数是否在两组间有显著差异,结果为高分组均值显著大于低分组均值(高组均值为26.86,标准差为30.78;低组均值为20.50,标准差为14.03,t=2.73***)。印证回答所属问题及回答者的属性影响回答点赞数,用HITS算法改进传统SEIR是有意义的。通过 “问题-回答者”隶属网络可视化,可知HITS加权挖掘出的关键点是以关注者数和点的网络中间中心度加权挖掘出的关键点的结合,表明HITS算法具有良好的关键点识别功能,从而支持了用其表示问题和回答者的影响力改进传统SEIR模型的可靠性。

结合Runge-Kutta方法求解SEIR、H-SEIR微分方程数值近似解。将两模型的I状态稳定解的拟合值与实际点赞数据(共420个样本)进行比较,计算拟合指标,分析模型的拟合优度。在SEIR模型中,参数设置为:r=0.9,q=0.8,传播次数t=70。在H-SEIR模型中,参数设置为:r(at)=0.9×at/avg(at),q(ht)=0.8×ht/avg(ht),传播次数t=70。这里,at指t时刻回答者的权威值,avg(at)指所有不同时刻回答者权威值的均值;qt指t时刻回答隶属问题的中心度值,avg(qt)指所有不同时刻回答隶属问题的中心度的均值。此外,p的取值范围在(0.58,0.84)时,回答呈部分传播状态,因此,p取0.6,0.7,0.8,以保证拟合检验的稳定性。接着,使用RMSE(均方根误差)、 MAE(平均绝对误差)、MRE(平均相对误差)指标比较两模型的I状态稳定解的拟合值与实际数据最后一周的新增点赞数,结果见表1。发现:(1)p取不同值时,SEIR和H-SEIR各自的拟合指标都比较稳定;(2)p取不同值时,H-SEIR的三个拟合指标都小于SEIR的指标。说明改进后的H-SEIR对实际数据的拟合效果好于SEIR。

6 结论与启示

基于知乎平台的知识传播途径,从各初始传播点网络影响力的微观视角研究在线问答社区知识传播规律。主要研究成果和启示有:第一,总结三条知识传播途径;并通過对实际数据分析,得出三条途径占比为90.9%。第二,基于知识传播途径改进知识传播模型,并运用HITS算法将问题、用户权威度代入参数r(用户关系途径传染率),q(问题途径传染率),进而提出H-SEIR改进模型刻画在线社交网络的知识传播规律。分析传播者状态的稳定解,及参数对稳定解的影响。得出不同参数下,稳定时的知识传播存在三种情形:未能传播、部分传播和完全传播。部分、完全传播阈值较高,说明知识传播有别于舆情、突发事件传播,其“冷启动”较困难。第三,用户及问题权威度对知识传播过程有正向影响,即关键用户参与的、热点问题下的回答更容易被推广。第四,以2017年11至2018年1月知乎 “流行音乐”和“英语学习”两话题的回答动态数据验证,得出改进后H-SEIR模型的拟合程度好于SEIR模型。对此,提出的管理建议是:第一,对于问答社区平台而言,知乎平台可以通过向用户个性化推送“大V”用户参与、“热点问题”下的回答供其阅读,促进平台知识的传播效率,进而缓解“冷启动”困难的问题,提升平台活跃度、增加用户黏性。第二,对于平台贡献知识的用户而言,应尽量在高热点问题下作答,这样其回答的曝光率较高,带来的点赞激励更多,促进其知识分享的积极性。实际上,用户阅读回答后点赞与否(参数p)受回答文本特征、回答者属性、用户与回答者网络关系等因素影响[23]。后续的研究可进一步探索知识传播过程中的影响因素。此外,该模型在知乎平台流行音乐和英语学习两个不同类型话题数据中适配度较好,未来研究可继续验证在知乎其他话题知识传播表现情况,或者其他竞争型问答社交平台传播规律。

参 考 文 献:

[1]沈洪洲,史俊鹏.基于人类动力学的社会化问答社区优秀贡献者行为研究——以“知乎”为例[J].情报科学,2019,37(5):85-91.

[2]Polanyi M. Book reviews: personal knowledge: towards a post—critical philosophy[J]. Science, 1959, 129(1): 831-832.

[3]林东清,李东.知识管理理论与实践[M].北京:电子工业出版社,2005.3-7.

[4]Daley D J, Kendall D G. Stochastic rumours[J]. IMA Journal of Applied Mathematics, 1965, 85(3): 42-55.

[5]Maki D. Mathematical models and applications, with emphasis on social, life, and management sciences[M]. New Jersey: Prentice Hall College Press, 1973. 34-54.

[6]Mutz S, Diana C, Yong L. Communication and public opinion plus change[J]. Public Opinion Quarterly, 2011, 75(7): 1018-1044.

[7]Zhao L J, Wang J J, Chen Y C,et al.. SIHR rumor spreading model in social networks[J]. Physica A, 2012, 39(1): 2444-2453.

[8]Zan Y L, Wu J L, Li P, et al.. SICR rumor spreading model in complex networks: counterattack and self-resistance[J]. Physica A, 2014, 40(5): 159-170.

[9]Wang J J, Zhao L J, Huang R B. 2SI2R rumor spreading model in homogeneous networks[J]. Physica A, 2014, 41(1): 153-161.

[10]Christakis N, Fowler J. The spread of obesity in a large social network over 32 years[J]. The New England Journal of Medicine, 2007, 35(7): 370-379.

[11]Mislove A, Marcon M, Gummadi K. Measurement and analysis of online social networks[A]. Proceedings of the 7th ACM SIGCOMM Conference on Internet measurement[C]. ACM Press, Augsburg, 2007.29-42.

[12]Barabasi A L, Albert R. Emergence of scaling in random networks[J]. Science, 1999, 286(9): 509-512.

[13]Centola D. The spread of behavior in an online social network experiment[J]. Science, 2010, 329(6): 1194-1197.

[14]Moreno Y, Pastor S R, Vespignani A. Epidemic outbreaks in complex heterogeneous networks[J]. The European Physical Jonrnal B, 2002, 26(4): 521-529.

[15]Nekovee M, Moreno Y, Bianconi G, et al.. Theory of rumour spreading in complex social networks[J]. Physica A, 2007, 37(4): 457-470.

[16]Zanette D H. Dynamics of rumor propagation on small-world networks[J]. Physical Review E, 2002, 65(7): 419-427.

[17]Cowan R, Jonard N, Ozman M. Knowledge dynamics in a network industry[J]. Technological Forecasting & Social Change, 2004, 71(5): 469-484.

[18]Zhao Z J, Liu Y M, Wang K X. An analysis of rumor propagation based on propagation force[J]. Physica A, 2016, 44(3): 263-271.

[19]Shakya J M, Holly B, Perkins M, et al.. Social network correlates of IPV acceptance in rural Honduras and rural Uganda[J]. SSM-Population Health, 2018, 4(1): 236-243.

[20]Kleinberg L. Authoritative sources in a hyperlinked environment[A]. Proceodings of the 9th ACM-SIAM Symposium on Discrete Algorithms[C]. ACM Press, Augsburg, 1998.1-3.

[21]Jurczyk P, Agichtein E. Discovering authorities in question answer communities by using link analysis[A]. 16th ACM Conference on Information and Knowledge Management[C]. ACM Press, Augsburg, 2007.919-922.

[22]Zhai L, Li Y J, Yan X B, et al.. Evolutionary analysis of collaboration networks in the field of information systems[J]. Scientometrics, 2015, 101(3): 1657-1677.

[23]Suh B, Hong L, Pirolli P. Want to be retweeted? Large scale analytics on factors impacting retweet in Twitter network[A]. Proceedings of IEEE 2nd International Social Computing Conference[C]. Pergamon Press, Oxford, 2010. 177-184.