林 萍 王晓梅 吕健超 黄卫东
(1.南京邮电大学管理学院 南京 210003;2.江苏高校哲学社会科学重点研究基地——信息产业融合创新与应急管理研究中心 南京 210003;3.南京索酷信息科技股份有限公司江苏省研究生工作站 南京 210000)
关健词:意见领袖;专业权威;成长动态;意见领袖预测
根据第47次《中国互联网络发展状况统计报告》[1],截至2020年12月,我国互联网普及率达到70.4%。新冠疫情加速推动个体、企业和政府全方位向社会数字化转型,疫情隔离使得各主体更加倾向于使用互联网连接。然而,网络平台特别是微博等综合社交平台上,各种思想的碰撞与交融极易形成信息爆炸和信息污染,意见领袖是用户辨析信息、锁定舆论方向的重要参考,引导人们识别疫情谣言、解读防疫政策、恢复经济生活、获得心理支持。更重要的是,2021年政府报告明确提出“加强互联网内容建设和管理,发展积极健康的网络文化”,进一步明确互联网络话语空间的建设已经从非常规突发危机事件网络舆情的应急管理阶段、向多元化网络舆情引导的常态化管理和突发舆情应急管理相结合的阶段转变。因此,在网络舆情监管与引导实践中,亟需将意见领袖的事后识别进一步扩展到网络舆情事件发展初期的准确预测,在网络舆情爆发初期快速、准确预测意见领袖,基于意见领袖的专业权威有意识进行正面舆论议程设置,通过政府、媒体、意见领袖协作引导舆论,这对构建健康发展、良性循环的网络话语空间具有重要的意义。
意见领袖的概念是Lazarsfeld等[2]于20世纪40年代在“两级传播”理论中提出,该理论认为信息通常包括从广播和印刷媒介向意见领袖传播、再从意见领袖向普通人群传播两个阶段,意见领袖在人际传播网络中是对他人施加影响的活跃分子,在信息传播效果中具有举足轻重的枢纽作用。
意见领袖是重要的信息源,国外早期研究集中于“信息源”这一更广泛的概念,诚信、客观、能力、活跃是影响信息源可信度的重要指标。Pornpitakpan[3]梳理近五十年的研究成果,认为专业性和诚信是信息源可信度的两个主要因素。由于意见领袖对信息传播的重要影响意义,意见领袖识别研究受到传播学、营销学等领域的广泛关注:意见领袖是如何在选举活动中影响选民投票,如何提高意见领袖评论对消费者网络购物决策的影响[4]; 社区电商的意见领袖信誉形成机制[5-6];公共健康和疾病防治信息传播领域方面的意见领袖影响力分析[7];教育系统和学习社区的教学意见领袖辨析[8]等等。
国内外的社交平台不同、文化背景各异、用户信息交流习惯是存在差异的。我国从2010年开始在情报分析、新闻传播和计算机技术等领域对意见领袖影响力展开广泛研究。用户特征和网络结构是影响力指标提取和意见领袖识别的两个主要方向。在用户特征方面,学者们通过粉丝、转评赞、微博数、原创率、认证身份等数据,构建包括影响力、活跃度、支持力、认同度、自塑力等意见领袖影响力指标体系[9-12]。在网络结构方面,结构洞、中心度、内连接度、外连接度、中介度、接近度和核数[13-15]等指标被提取用于意见领袖识别。不少学者认为,意见领袖的甄别体系包括网络层面信息特征以及话题层面的信息特征,构建用户的静态网络结构特征与动态信息交互相结合的意见领袖识别模型[16-18]。随着用户规模迅速扩张,学者开始关注意见领袖与用户互动质量,从评论与博主内容之间的一致性、情感倾向角度构建模型识别意见领袖[19-20]。另一方面,人们越来越倾向于从网络社区获取知识,部分研究聚焦于意见领袖权威性的考量,认真负责的态度、扎实专业知识、高端职业实践经验、积极主动的参与,是意见领袖积累专业权威的重要因素[21-23]。在研究方法上,现有研究主要选择典型案例、文献梳理和专家意见等定性资料,基于AHP思想[24]或信息熵[25]对意见领袖影响因素进行提取和评估;意见领袖识别方法上,基于社会网络思想的改进的PageRank算法[26-27]、变权重灰色关联度[28]、SIR模型[29]、MF-Transformer[30]等均被证明能够提高意见领袖识别准确率。
国内外相关研究成果为本课题提供了丰富的理论借鉴,同时也提供了进一步拓展研究的空间。第一,大多研究主要选择单个热点事件或知识社区等专业领域平台的数据作为研究的数据来源,从多话题维度、基于大量数据的研究相对较少,其结论的泛化性较弱。在网络舆情引导常态化背景下,聚焦单个非常规突发危机事件对多元化网络舆情引导常态化的实践指导意义有待商榷。第二,在意见领袖识别上,大多研究是选择网络舆情整个传播期间的信息交互关系和演化数据提取特征、识别意见领袖,由于基于事件的转评赞等数据是无法在事件发生初期完整获取的,此类数据对意见领袖的预测缺乏实际价值,如何从海量历史数据中选取有预测价值的信息是值得探讨的。
本文以网络舆情事件发生初期的意见领袖预测为目标,借鉴已有研究结论基础上,剔除事件发生初期无法获取的可量化指标,着重从意见领袖成长轨迹的视角更精准刻画其专业权威性,构建意见领袖预测指标体系。
2.1活跃度活跃度被普遍认为是意见领袖影响力的重要指标之一。群际关系理论研究认为意见领袖能够在网络舆情事件中产生影响力是因为“表现活跃”[31],善于制造话题、主导话题,微博数高说明用户对社交网络的表达性更高、更有意愿参与到事件的讨论中去。发布时间是影响微博传播的重要影响因素,时间因素对用户的影响力评价有极其重要的作用[32-33]。用户微博的原创率越高,表明用户的创新性意识越强,是意见领袖形成的重要原因之一。因此,本文选择事件响应性、微博数以及微博原创率作为活跃度指标的表征。
2.2历史影响力转评赞数量被一致认为是用户对意见领袖言论的积极回应,用户的转发行为对意见领袖言论影响力的增强可能达到指数级的水平。因此,本文与已有研究结论保持一致,选择意见领袖已发表微博的转评赞数据计算其历史影响力。
2.3专业权威专业性是源于用户认为意见领袖有能力做出正确的判断,一方面可以通过其社会身份和知识背景来确认,另一方面也可以通过其在网络社区中发布言论的专业性、准确性和权威性来确定。专业权威是本文研究重点之一,其指标选取理由如下。
第一,认证、用户等级是官方对用户影响力成长的客观评价,粉丝数、关注数是用户相互的权威认可体现,均被已有研究证明是具有显著意义的意见领袖影响力指标。
第二,用户标签是用户的营销符号,精准的用户标签更容易吸引关注同类话题的用户加入兴趣社群,而用户标签与网络舆情事件话题的相似度越高,该用户言论更容易在事件初期引起广泛的关注。因此,本文计算用户标签与事件话题相似度,从静态视角表征用户专业权威与网络舆情事件话题相似度。
第三,社会认同建构理论认为意见领袖具有较强的自我建构需求,因此会持续进行塑造行为以积累并扩大其影响力,意见领袖与话题之间具有密切相关性[34],受到话题专业性、粉丝兴趣和网络话题流行趋势等多种因素影响,意见领袖具有成长性和流动性。因此,本文选择用户不同时间片段的微博文本计算其与事件话题相似度及相似度变化,以期从动态视角更全面、精准捕捉意见领袖的专业权威特征。
第四,情绪一直被认为是网络舆情发展的重要推动力。然而,意见领袖既可能是积极情绪的影响者,也可能是消极情绪的影响者[35],积极情感和消极情感都可能引起网民的关注和情感的变化[36]。而近期发生的“纯素食幼儿园”事件引起了各界的广泛关注,“营养师顾中一”、“项栋梁”等营养科学领域的意见领袖形成共识,即对用户关注的焦点进行客观、全面、详细的剖析比表态更重要,网络舆论监管要引导微博意见领袖释放正能量[37]。因此,本文不选择情绪作为意见领袖的影响力指标。
本文选择年度影响力较大的10个网络舆情事件,基于各舆情事件转评赞排名选取意见领袖和普通用户;基于选取用户的历史文本数据,通过话题提取等方法构建用户活跃度、历史影响力、专业权威等指标;构建预测模型,分析不同指标体系的预测精度差异、指标影响力差异,并提取预测精度最高的指标集合,明确舆情引导策略。研究思路见图1。
图1 研究思路
3.1数据获取综合社区平台的话题涉及领域广泛,政府微博、新闻媒体、科普大V、娱乐明星的影响力指标存在差异。为了捕捉不同领域意见领袖的共性特征,提高研究结论的泛化性,本文参考人民舆情分析报告和微博舆情官方网站信息,选取2020年不同领域共10个热门事件作为事件研究样本。根据选定热门事件,获取事件发生期内热门发帖数据,累计每个用户的转评赞总数与事件转评赞总数比值表征用户的影响力,选定排序前10~12位(根据排序,10~12位与后续用户之间的影响力明显差异,用户影响力值相同则同时选取)作为意见领袖。考虑分类预测中的数例类别平衡问题,随机选取事件中其他用户10~12位作为对比的普通用户(见表1)。
表1 原始数据获取汇总
意见动力学理论认为意见领袖影响力可以区分为长期和短期两种[9]。用户在论坛中的角色和权限会随时间的推移而发生变化[38],t时刻用户节点的结构特征、行为特征及环境特征等会影响t+1时刻的用户影响力[39-40]。而在数据获取方面,意见领袖的历史积累时长不同,普通用户的历史积累很少,而且还可能存在僵尸粉的情况,同时微博允许用户只显示最近半年的历史微博。因此,为了减少用户注册时间差异造成的指标偏差,并尽可能准确刻画意见领袖专业权威成长轨迹,本文爬取用户在事件期及事件期前3个月的微博数据,分别计算微博总数、微博原创率、历史影响力和话题相似度。
3.2指标量化网页直接爬取的指标:粉丝数P7、关注数P8、等级P9和认证P10直接通过微博数据爬取获得,其中P10根据是否认证选择0~1处理,为类别型指标。
简单统计的指标:事件响应性P1,以事件第一位发声者和用户博文发布时间差的倒数表示,t=1/(Ti-T0);微博总数P2以3个月用户微博数计算;微博原创率P3以3个月的原创微博数占比计算;历史转发数P4、评论数P5、点赞数P6为3个月用户所有微博的被转发数、被评论数、被点赞数除以同期微博总数计算。
基于话题特征的动态指标:按月将用户3个月微博数据分为3个子集,对3个历史微博子集和1个事件文本集进行分词、去除停用词的预处理。本文选择部分文本基于LDA、TF-IDF和TF提取话题,并与人工话题提取结果之间对比。由于微博文本较短、口语化、语气词较多,TF的话题提取效果最好。因此,本文采用TF计算词频,选取TOP50的词组构建话题空间。用户标签则直接使用标注词组构建话题空间。以S=(ws1,ws2,…,wsn)表示事件词向量,Ps=(wp1,wp2,…,wpn)表示事件S前某一时间区间用户微博词向量,基于余弦夹角计算话题相似度P11、P12、P13。话题相似度变化 P14为P11、P12、P13的最大变化值,评估用户话题的发散度。同理计算用户标签与事件话题相似度指标P15。
(1)
△=max(S1,S2,S3)-min (S1,S2,S3)
(2)
所有指标量化后进行归一化处理。
(3)
对于所有0的数值型数据,均以0.000001替换表示。
本文选择SPSS20.0对数值型指标(P10除外)进行描述统计分析(见表2)。与均值相比,各指标的标准差都比较大、甚至比均值更大,说明样本特征的离散程度较大,能够较好的区分意见领袖和普通用户。
表2 指标描述统计
3.3预测分析
3.3.1 预测模型 由于最终提取的指标数据集较小,按照7∶3或者8∶2的比例区分训练集和验证集,预测结果易出现较大的随机波动,因此,本文选择10次十折交叉验证,各自变量的影响力以十折交叉验证平均值计算,选择Cross accuracy(交叉验证准确率)、precision(精确率)、recall(召回率)和F-measure(综合评价指标)评估预测精度,选择预测精度最高的结果。预测模型分别选择了分类预测应用较多的支持向量机(SVM)和随机森林(RF)。对于支持向量机模型,调用R语言的e1071函数包,选择径向基函数(RBF),最优参数gamma为0.01、cost为1;对于随机森林模型,调用R语言的randomForest包,选择P1-P15作为输入变量,由于自变量是15个,mtry选择4,ntree选择100;剔除本文提出的体现意见领袖专业权威信息的P11-P15,选择P1-P10作为输入变量,由于自变量为10个,mtry选择3,ntree选择100,对比两组指标预测结果。最后,调用R语言的rfcv包,选择P1-P15作为输入变量,采用十折交叉验证的方式,提取预测误差最小的指标集合。选择Mean Decrease Accuracy(预测准确性降低影响力)、Mean Decrease Gini(观测值异质性影响力)作为指标影响力排序标准。
3.3.2 预测结果 P1-P15组的预测精度高于P1-P10组(见表3)。
表3 不同指标预测结果对比
由于P1-P15预测精度更高,选择预测精度最高的十折交叉验证结果,获得指标影响力(见图2)。
图2 15个指标影响力箱线图
经过10次十折交叉验证,选择预测错误率最低的指标集合,提取最有预测价值的指标(见图3、表4)。
表4 预测精度最高的指标影响力排序
图3 提取预测误差最小的指标集
3.3.3 预测结果分析 第一,不论是SVM模型还是RF模型,15个指标集合的预测精度均高于10个指标集合、接近89%,证明本文提出的专业权威成长性动态指标可以提高意见领袖预测精度。
第二,历史影响力(P6/P5/P4)对意见领袖预测具有重要的意义。虽然一定规模的粉丝(P7) 可以提高微博用户成为意见领袖的概率,但是从单个舆情事件发展周期来看,并不是粉丝越多传播力就越强,粉丝中存在一些恶意注册的虚假粉丝,意见领袖的预测应考虑粉丝的活跃程度。本研究提取事件发生前3个月的转评赞数据,能够更为准确地刻画意见领袖对普通用户的实际影响力。
第三,本文所提出的话题相似度指标(P11/P12)体现了意见领袖专业权威成长的动态特征,具有重要的预测价值。虽然意见领袖在注册微博用户的时候会基于教育背景和职业经历填写简介和标签(P15),但是标签一般都是概括性词语,比如“英国报姐”标签“留学生/英国趣事/国外趣事/英国”,这些词语并不能体现各网络舆情事件的话题特殊性,其预测价值很低。另一方面,意见领袖的粉丝群不断成长,在信息爆炸的时代,新加入的粉丝更多受到其近期言论的影响,因此选择临近事件期间的意见领袖话题特征,能够反映其用户影响力动态变化。
第四,事件响应性(P1)一方面体现了意见领袖基于长期专业积累所形成的较高的话题敏锐度,另一方面体现了意见领袖对于热点的密切关注度和参与网络舆情引导的积极性。事件响应性是在网路舆情萌芽期就可以快速捕捉到的信息,对意见领袖预测具有重要意义。
第五,已有研究认可的微博总数(P2)和微博原创数(P3)影响力并不显著,这反映出意见领袖的影响力已经逐步从数量积累转向质量提升,用户更关注意见领袖发表言论的专业性。
从意见领袖影响力培育角度考虑,意见领袖应有意识规划自己的成长路线,根据用户的信息需求和外部环境变化适当调整关注热点,通过及时、客观、详实的评论提高言论质量,实现可持续发展。从舆论引导和议程设置角度考虑,应充分考虑意见领袖专业沉淀和跨域成长需求,选取临近网络舆情事件、具有更高潜在影响力的微博文本提取话题特征,刻画意见领袖专业权威的演变轨迹,能够更精准预测意见领袖影响力。本文所提炼的专业权威成长动态指标,有助于监管机构和媒体平台在网络事件萌芽初期迅速锁定意见领袖,通过多方协同引导舆论,避免网络舆情的恶性发酵和社会恐慌,降低公共安全维护成本。
虽然在本研究发现“关注”对意见领袖预测价值很小,但是基于社会网络结构的分析发现意见领袖之间会基于相互关注和转发行为实现影响力指数增长。后续研究可进一步综合用户信息、文本数据和网络结构等信息构建综合动态指标体系,评估其预测价值,以明确多方协同舆论引导的主体,以及主体间的定位和相互协作方式,进一步提高网络舆情预警和应对的时效性和精准度。