周 斌, 费豪泽
(江苏科技大学 经济管理学院, 镇江 212100)
社会化问答社区是通过在线形式支持大众用自然语言表达隐性知识需求和回复[1],依靠问答互助汇聚群众智慧,将“问答”与“社交互动”相结合的虚拟社区[2].社区中回答者围绕某一问题进行讨论;用户通过点赞、评论等操作来表示对回答的看法;社区通常会根据其积累的点赞数、反对数等指标,对回答进行排序,以让认可度高的答案优先显示[3].作为国内社会化问答的典范知乎社区,截至2017年9月的注册用户增长总数超过1亿,至今仍具喷发之势.然而,众多迹象表明,社区中用户的知识贡献和活跃的程度并不高,亟待解决的问题的比例依旧较高[4-6].对于知乎这类问答社区来说,通过增强用户知识贡献的精神报酬,提高个体的参与积极性和比例,是维护发展好社区工作的重中之重.而对于作答用户来说,了解答案认可度的影响因素可以更好地提供高质量的内容.基于此,对社会化问答社区答案认可度的影响因素进行深入探究具有重要的现实意义.
当今,社会化问答社区成为了用户搜寻精准信息和隐性知识、知识共享的重要途径,成为国内外学者们的重点关注领域.其中主要有对以问题为中心的研究、以答案为中心的研究、以用户为中心的研究、以平台为中心的研究等[7].以答案为中心的研究大部分是关于答案质量的评估,包括答案质量的评价指标、自动化评估等内容,还有少量对答案特征的研究.文献[8-9]是前期探究回答质量的评价指标的代表性研究,后续研究大多参考其方法.文献[10]对Yahoo!Answer平台上关于老年健康的问答对进行探究,归结出在准确性、相关性、有效性、完整性等关于答案质量的评价指标.文献[11]使用ResearchGate问答社区中图书情报学领域的问答来评估学术答案的质量.研究发现,答案文本本身是判断学术答案质量的常用标准,并且评价者的信念和偏好也会影响学术答案质量的判断.进入到信息大爆炸的时代,人工评价无法完成对大规模信息的评估,学者们对回答的质量进行自动评估.文献[12]通过综合问题答案的文本和非文本特征来建立模型,并评估和验证高质量答案的有用特征,该模型被用于识别和比较在4个知识领域预测高质量答案的有用特征.文献[13]以知乎社区为数据采集对象,依次采用机器学习中的逻辑回归、支持向量机和随机森林这3种分类模型,构建答案质量的评价模型.
综上所述,大多研究集中在答案的质量和特征上,也有少许答案认可效果的研究,文献[14]从答案特征和答题者的特征这两个角度研究答案的认可度.但总体均缺乏对不同问题类型下的答案认可的考虑,也缺乏考虑其过程中交互特征所起的作用.文中基于上述研究,加入回答的交互特征,构建在不同问题类型下的答案认可度模型.
精细加工可能性模型(elaboration likehood model,ELM)将信息消费者的信息处理和态度改变的过程分为两个路径:中心路径和边缘路径[15].中心路径强调信息接受者对客体的信息本身进行仔细思考、分析和归纳,最终导致态度的转变或形成;边缘路径是信息接受者对客体本身以外的一些外围因素进行考察分析,进而形成态度的转变.随着互联网的流行和人们获取信息渠道的扩展,文献[16]将ELM和技术接受模型(technology acceptance model,TAM)进行结合,提出了信息采纳模型(infor-mation acloption model,IAM).信息接受模型揭示信息质量和信息源质量分别对应中心路径和边缘路径共同影响决定信息有用性,进而影响信息采纳行为.
在社区问答过程中,评论这一互动特征对信息采纳有着不可忽视的影响.在线评论是社会化媒体中树立在线良好口碑的主要途径[17],良好的在线口碑能有效地转变用户的态度.互动评论数量较多的产品或者服务能更多吸引用户的关注和信任,并进一步促成用户的认可和购买行为[18].IAM模型虽然比较契合社会化问答社区的知识分享过程,但是未包含互动这一重要特征,因此,文中在IAM模型的基础上加入互动特征.
以信息采纳模型为基础,结合社会化问答社区实际情况,进行扩展和补充,构建模型如图1.
图1 用户答案认可影响因素分析Fig.1 Analysis of the influencing factors of user′s answer recognition
回答的时间点是指回答者发布答案具体在一天中的时间段(是否是工作时段)和在一周中的哪一天(是否是周末).考虑到社区用户的使用习惯,在用户活跃的时间段(休闲时间或周末)发布的答案得到点赞的机率更大.由于不同类型的问答具有不同特点,影响程度又会不一致.
回答及时性是指用户作答并发布的时间与问题创建的时间之间的时间跨度,间隔越短,知识分享越及时,文献[14]认为答案及时性只在问题发布的一段时间后与答案认可度成正向相关.文中结合问答社区实际情况,认为问题在发布后的一段时间内,随着浏览和关注人数的增加,迎来热门的关注期,但在回答数量达到一定程度时,答案的排序基本稳定了.
更新状况是回答者是否对答案进行后续的修正与补充,以及更新的时间间隔.随着答题者的知识迭代,或是浏览者要求更新,答题者会对答案进行完善.答题者积极负责的更新,容易获得用户的信任和认同.而且时间跨度长的更新所积累的更新内容更丰富,质量相对更高.
外部引用是回答者的答案中所包含的外部链接、图片、视频等内容,回答者在诠释观点的时候,会需要外部的参考内容以佐证其可信度,也便于直观地展示信息,文献[19]将内容中是否有外部链接、图片等指标纳入评价答案质量的模型之中.因此文中提出如下假设:
H1:回答的时间点与答案认可度相关.
H2:回答及时性与答案认可度之间正向相关.
H3a:答案是否更新与答案认可度之间相关.
H3b:答案更新的时间跨度与答案认可度之间正向相关.
H4:回答是否有引用与答案认可度之间相关.
回答中心度是指在同一个问题下某一个回答在所有回答中所处的中心程度,回答的中心度越高,该答案的信息质量越高.文献[20]将答案文本的中心度作为评估该信息质量的重要指标之一,结果发现回答中心度与认可度之间正向相关.
回答者的答案除了包含解答问题的相关知识,或多或少会带入个人主观情感.文献[20]通过构建问答社区医疗知识的采纳模型发现情感支持与信息采纳之间正向相关.文献[21]研究证实包含正面情感的信息更能增强用户对该信息的认同.在回答中给予关心、赞美等正面的情感支持,有利于提升用户对回答的认同.
答案的纯信息比是指对答案进行分词处理,去除答案内容的标点符号及停用词得到的概念词的数量占总文本的比例,文献[14]研究发现答案长度与答案认可之间正向相关.然而,在回答中只有部分是包含有效信息的,回答的内容过于冗长,超过用户工作记忆的上限,就会引起认知超载.因此文中提出如下假设:
H5:回答中心度与答案认可度之间正向相关.
H6:情感支持与答案认可度之间正向相关.
H7:答案纯信息比与答案认可度之间正向相关.
回答者的身份在知乎中的具体表现形式是回答者头像是否被标记为优秀回答者,是否为身份认证,以及是否是匿名用户.社会化媒体的社区形式为用户提供了更精准的个人信息,继而成为用户判断信息可信度的重要评判标准[22].
在社交网络中,衡量用户影响力的核心指标之一就是网络中心度,相当程度上体现了个体在其中的社会资本[23].文献[24]通过对豆瓣网的影评数据研究发现用户的内向、外向网络中心度与其发表的评论的有用性之间正向相关.社会网络中心度分为内向网络中心度和外向网络中心度.
回答者的可信度用其以往回答所获平均成就值来衡量.社区用户在对信源可靠性未知的情况下往往以其过往的回答水准来确定其总体专业知识水平.信源的可靠性是决定信息采纳的关键因素,信源可靠性高的信息相比可靠性低的信息更容易被用户采纳[16, 25].因此文中提出如下假设:
H8a:回答者的身份信息与答案的认可度之间相关.
H8b:回答者是否匿名与答案的认可度之间相关.
H9a:回答者的内向网络中心度与答案的认可度之间正向相关.
H9b:回答者的外向网络中心度与答案的认可度之间正向相关.
H10:回者的可信度与答案的认可度之间正相关.
互动开放度是指回答者对所答内容的评论开放度,即是否容许用户进行评论.在社会化媒体中,互动评论是树立在线良好口碑的主要途径[17],而关闭评论让用户缺少了反馈互动的渠道,容易降低用户对答案的信任.
互动量是指浏览者和回答者在评论区发表的评论总数.文献[26]研究认为互动评论数越多,表明有越多的用户参与到对服务或产品的探讨中,同时也反映了其被关注的热度,关注的热度越高,用户被知晓和吸引的可能性越大,且用户的疑惑或误解也可因互动被消除.
互动积极性是指回答者回复或者评论的数量,反映了回答者和评论者进行互动的积极性.充满热情的回答者往往对自己发布的回答多加投入,帮评论者解答疑问,展示其提供优质服务的能力[27].因此文中提出如下假设:
H11:互动开放度与回答认可之间相关.
H12:互动量与回答认可之间正向相关.
H13:互动积极性与回答认可之间正向相关.
使用 Python 编写爬虫程序抓取知乎的热门问题,将问题类别分为咨询类、事实类、意见类.抓取的内容包括,问题发布时间、回答的内容、回答发布的时间、回答得到的点赞数、评论数、回答者的粉丝数、回答者所有的点赞数等指标.经过对数据的清洗和转换,得到实际可用数据共48 568条.其中事实类问答数据共计12 183条,意见类问答数据共计25 835条,咨询类问答数据有10 550条.
为了验证所提出的假设,设计如表1的各项变量.
表1 模型变量与测度指标Table 1 Model variable and measure index
其中回答中心度的计算过程为:① 调用百度自然语言处理的接口对数据进行分词,得到分词后的词组构成的集合.② 调用Scikit-learn包计算相应的tf-idf矩阵,tfi,j、idfi的计算如公式(1、2),其中ni,j为词ti在文本dj中出现的次数;∑knk,j为在文本dj中所有词的出现次数之和;|D|为回答答案的文本总数;|{j:ti∈dj}|为包含词语ti的答案数.③ 利用公式(3、4)依次计算各个答案的文本中心度.
(1)
(2)
tf-idfi,j=tfi,j×idfi
(3)
text-centerj=∑itf-idfi,j
(4)
文中因变量为用户的回答在某时间点所获得的点赞数,是一个非负的有序整数,并且含有大量的零,因此不满足线性回归因变量为连续分布的假设.由于该变量具有独立、非负且含有大量零值的性质,因变量的方差远远大于均值,适用于零膨胀负二项回归模型的假设条件[28].零膨胀负二项分布由一个负二项分布和一个离散零分布组成,如下:
(5)
式中:p为因变量为零的比例;τ为散度参数;λ为负二项分布的均值;Γ为伽玛分布;均值和方差分别为E(Y)=(1-p)λ和var(Y)=(1-p)λ(1+pλ+λ/τ).当τ→∞和p→0时, 分别服从零膨胀泊松和负二项分布.ZINB模型把p和λ联系起来成为协变量,表达式为:
(6)
式中:xi和zi分别为一定尺度的特征向量, 在此表示第i个协变量;β和γ为回归方程协相关系数的特征向量.
将知乎的问题按照文献[29]提出的社会化问答社区常见的问题类型进行分类:① 事实类,意在寻求客观数据或者是引向其相关内容的链接,主要是面向该领域的专业人士,比如“区块链是什么,如何简单易懂地介绍区块链”.② 意见类,为了引出他人对社会中某一普遍感兴趣的话题的看法,相对来说没有唯一正确的答案,可以不参照提问者的需要来回答,比如 “如何评价电影《我不是药神》”.③ 咨询类,征求建议以解决提问者的个人问题,比如“明年毕业,导师想给我1.5万工资让我留本校读博,我要怎么选择”.
问答样本的描述性统计如表2.
表2 样本描述性统计Table 2 Sample descriptive statistics
表2中答案认可度数据分布相当分散,偏度均大于35,呈右偏分布.自变量的分布也较为分散,其中意见类问题的平均回答时间跨度和更新时间跨度相比其他类型问题明显更短.有优秀回答者或是身份认证的用户仅占总体的0.4%~1.8%,说明拥有标识的用户在社区中相当稀少.三类问题的内向中心度远远大于外向中心度,说明知识贡献的主力是积极活跃、已积累众多粉丝的用户.评论数与回答者的回复数比例大约为13,说明回答者与评论者的互动并不多.
在事实类变量的相关系数中,除了ACC和IN的相关系数为0.55外,其余均小于0.5.方差膨胀因子均小于2,远小于10,表明变量间不存在多重共线性.意见类和咨询类变量的相关系数均小于0.5且方差膨胀因子均小于2,因此同样不存在多重共线性.
针对知乎问答的三类样本,采用零膨胀负二项回归模型构建3个模型,结果如表3.
表3 总体样本回归分析结果Table 3 Regression analysis results of overall samples
(1) 回答特征
三类问答在回答时间点的两个自变量上差异较大.在事实类问答中,day-is-weekend系数为正且p值显著,is-leisure-time系数为负,且p值显著,表明周末和非休闲时间作答对答案认可度有正向的影响.事实类问答相对需要比较专业的知识进行作答,回答者在周末也有足够的时间整理相关知识.在意见类问答中,回答时间点中的两变量系数均为负,且p值显著,说明周末和休闲时间作答对答案认可度有负向的影响.意见类问题包含许多对时事新闻的讨论,分布上大多发生在周中和工作时间,在这段时间及时作答则会拥有更高的曝光度和认同.咨询类问题对时间并不敏感.三类问答的回答及时性的系数均为负,且p值显著,说明回答及时性对答案认可度有正向的影响.事实类和意见类问答的更新时间跨度系数为正,且p值显著,对答案认可度有正向影响;咨询类问答则对此不敏感.答案是否更新系数在三类问答中均为正,且p值显著,更新后的答案相比之前发布的内容更加完整,更容易获得用户的认可.是否有外部引用在三类问答中均为正,且p值显著,说明外部引用量在知识分享过程中是必要的.
(2) 回答质量
三类问答的回答中心度系数均为正,且p值显著,说明回答中心度对答案认可度有正向的影响.情感支持系数在意见类和咨询类问答中均为负,且p值显著,在事实类中则不显著.事实类问答主要是陈述客观数据与事实,并不需要加入个人情感以示支持.纯信息比只在意见类问答中显著为正,说明用户并不追求答案过分的措辞精简.
(3) 回答者特征
三类问答的回答者身份系数均为正,且p值显著,说明回答者身份对认可度有正向的影响.优秀回答者或身份认证标记的用户具有较强的专业知识和社会阅历,用户容易认同其发布的答案.内向网络中心度系数在意见类和咨询类中为正,且p值显著,外向网络中心度在三类问答中均为正,且p值显著,说明内向网络中心度在意见类和咨询类中对答案认可度有正向影响,外向网络中心度在所有问答中对答案认可度均有正向影响.用户对已关注对象已经建立一定的信任,对其回答更具有认同感,尤其是意见类和咨询类.而外向网络中心度高的用户学习的知识更多,人脉更广,容易得到用户的信任.回答者可信度系数在三类问答中均为正,且p值显著,说明回答可信度对答案认可度有正向的影响.
(4) 回答交互特征
互动开放度系数在三类问答中均为负,且p值显著,说明互动开放度对认可度有负向的影响.在点赞数高的回答下往往有不同观点间激烈的碰撞,也夹杂着人身攻击,一些回答者会因此关闭评论.互动量在三类问答中均为正,且p值显著,说明互动量对答案认可度有正向的影响,互动量越多,评论包含的信息和关注也越多.互动积极性系数在三类问答中均为正,且p值显著.说明互动积极性对答案认可度有正向的影响,回答者回复越积极,服务质量越好,越容易得到认可.
将研究假设及验证结果汇总,如表4.
表4 研究假设的验证结果总汇Table 4 Summary of validation results of research hypotheses
文中构建了社会化问答社区的答案认可度模型,通过研究分析,可知回答特征、回答质量、交互特征总体上均能有效影响答案认可度,三类问题在影响因素方面有总体的一致性也有局部的特殊性.在回答及时性、是否更新、外部引用、回答中心度、回答者身份认证、外向网络中心度、回者的可信度、回答交互特征(互动开放度、互动量、互动积极性)这些方面,三类问题都是一致的.是否在周末发布对回答认可度的影响在三类问答中均不同:意见类对时效性要求最高;事实类需收集充足的相关知识,在周末回答更容易得到认可;咨询类因其对时效性要求不高,对于回答时间点不敏感.是否在休闲时间发布、更新时间跨度在事实类和意见类中与答案认可度的关系均为显著正向相关;在咨询类中则不显著,咨询类问题是关于提问者的个人问题,其情况一般不变,更新时间间隔的长短对其答案认可的影响不大.纯信息比只在意见类中显著并与答案认可度成正向关系,说明在意见类中用户希望得到精简的看法,意见类的问答容易产生长篇大论的回答,容易引起认知超载并耗费用户较多的时间,降低用户对答案的认可度.情感支持、回答者是否匿名、内向网络中心度在意见类和咨询类中与答案认可度的关系都是显著且一致的,在事实类中则不显著,可能是因为事实类问题更注重叙述事实,对于其社会资本支持(粉丝)的需求并不敏感,一般也不会掺杂个人的情感倾向,并且不需要匿名来避免个人敏感信息的暴露.
文中通过知乎社区的实证研究,揭示不同类型问题间的异同及原因,丰富和完善了社会问答社区领域的研究内容,并为用户作答和社区建设提供切实有效的建议.具体建议如下:
对知乎这一类社会化问答社区:① 在回答展示区域加入更多回答者的信息,方便用户对回答者有个整体的了解.② 在回答发布后的一段时间提醒回答者进行更新以获得更多的点赞.③ 适当扩大优秀回答者的比例以激励用户积极贡献.④ 识别评论区活跃的用户,提高这些用户的参与度.
对社区用户:① 应重视与评论者之间的互动,及时解决用户提出的疑问,并且注意评论整体的舆论倾向.② 积极回答和参与,争取优秀回答者认证和身份认证,关注更多的社区大V. ③ 及时回答,特别是意见类问题,进行多次更新,加入适量引用内容,尽量简洁.④ 对于不同的类型的问题进行有针对性地回答,特别是意见类问题应注重时效性,并避免在评论区域与用户发生争执.
文中对问答中互动的研究尚未细致深入,未来将使用面板数据探究问答的评论互动状态对答案认可的持续动态影响,考虑评论的情感倾向、评论当天影响、累计影响等指标.