贾若男 王晰巍 于 雪 罗 然
(1.吉林大学商学与管理学院,吉林 长春 130022;2.湘潭大学公共管理学院,湖南 湘潭 411105;3.吉林大学大数据管理研究中心,吉林 长春 130022;4.吉林大学国家发展与安全研究院网络空间治理研究中心,吉林 长春 130022;5.吉林省图书馆,吉林 长春 130028)
《中国互联网络发展状况统计报告》指出,截至2021年6月,我国网民规模达10.11亿[1]。庞大的网民数量为舆情研判提供了丰富的和可供挖掘的多重尺度时空大数据,也为动态性、全局性、精准化的舆情治理提供决策依据。智能媒体与社会数据的结合,为突发公共事件中政府在社交网络上的调控决策提出新思路和新方案[2]。突发公共事件网络舆情的时空数据挖掘和分析,为突发公共事件网络舆情的引导和决策提供了新依据,是网络舆情研判与监管部门关注的重要问题。
近年来,国内外相关学者围绕社会网络媒体舆情中的时间与空间特性进行了相关研究。国外研究主要通过不同的模型或者算法[3],挖掘时空数据背后的群体行为特征[4]。通过量化用户的动态空间交互行为[5]监控紧急事件或社会问题的信息传播状况,并跟踪事件发展态势[6],提出相应的社会治理举措,提升预警与响应能力[7]。国内学者主要将时空维度作为舆情演化分析与治理研究的重要维度[8]。通过可视化工具呈现网友关注度与话题主题的动态演化情况[9],形成舆情事件讨论热度图谱[10],分析网络群体集聚的跨时空演化机理[11]。通过对国内外现有研究成果的梳理,发现目前针对网络舆情事件时空数据进行挖掘和分析的研究成果正逐渐受到国内外相关学者的关注,但分析突发公共事件中舆情时空分布特征与时空演化规律的研究成果相对较少。
本文在研究中主要解决以下3个方面的研究问题:①突发公共事件网络舆情的时空总体分布及类型如何分析?②事件时空演化网络的结构和关键城市是如何分布的?③针对事件的时空演化特征与规律能够采取哪些治理措施?本文结合“日本核废水排海”事件进行时空分析并构建时空演化图谱,明确舆情事件的时空分布特征。探索和总结舆情事件演化的时空规律,为网络舆情事件的管控和治理提供决策支持。
突发公共事件网络舆情是指在互联网中传播的有关突发公共事件的评论、观点、情感以及态度等的集合,具有“线下发生,线上传递”的特点[12]。学者们以多类型突发事件为研究对象,主要聚焦于舆情事件演化态势和舆情干预治理等方面[13]。构建三维动态主题演化模型分析舆情事件中不同利益相关者的主题观点识别与演化[14],从时间序列视角探究舆情发展过程中网民情感极性的变化及其影响因素[15]。在网络舆情干预治理方面,利用模糊集定性比较分析、仿真实验和案例分析等方法,提出预测方法与治理策略[16]。国内外研究利用社交媒体中海量的用户时空数据建模,有利于舆情的动态研判、重点阶段和重点地点的防控策略制定,从而实现网络舆情线上和线下共同管理[12]。
网络舆情中的数据具有明显的时间和空间特征,时空数据是舆情用户行为与关系在现实情境中的具象化呈现[17]。在时空数据研究主题上,国内外学者利用时空数据研究舆情事件的传播特征与影响[18],发现社交网络舆情事件在传播态势时间上呈阶段周期性演化,空间上呈金字塔等级的扩散演化[12]。在时空大数据挖掘方法上,基于事件的时空数据模型和生成式对抗网络模型等是舆情研判的常用模型[19],Moran’s I指数[20]、Morisita分布指数[21]是社交网络舆情事件空间分布探索的重要统计量。GIS和知识图谱是舆情事件时空规律可视化的常见技术[22]。把握舆情事件的时空交互规律,有助于提前感知并研判网络舆情演化趋势,为提出全局性、动态化和分级化的舆情治理策略提供决策支持[23]。
突发公共事件网络舆情信息具有空间、时间和内容等多个相关的维度,在舆情中,时间与地理标记记录可以用来研究用户的活动模式,如流动性、聚集性或随机性等[24]。突发公共事件网络舆情时空演化分析,主要是将舆情事件映射到现实的时间和地理空间中,将舆情的时空数据与社交关系数据相结合,挖掘舆情在地理空间中的总体分布、舆情空间分布随时间的演化特征与规律等。从而实现对突发公共事件网络舆情发展的全面、动态分析和呈现,能够帮助相关部门更好地了解舆情事件的关键地域、热点区域以及潜在桥梁城市,并制定准确的舆情管控与治理策略。
本文构建了突发公共事件网络舆情时空演化分析模型,如图1所示。通过网络爬虫进行网络舆情事件话题下时空数据的采集,并进行数据清洗与预处理。在事件时间和空间尺度划分的基础上进行时空演化分析。一方面,采用空间自相关,通过全局自相关分析确定时空总体分布;通过局部自相关分析确定时空聚集类型;另一方面,采用时空网络图算法,通过平均聚类系数分析舆情时空网络结构;通过局部聚类系数确定网络中的关键城市。最后,对突发公共事件网络舆情时空演化特征与规律进行分析。
图1 突发公共事件网络舆情时空演化分析模型
空间自相关是一种根据特征位置和特征值来衡量空间事物分布的相互关联程度及其空间分布的统计方法,可以分为全局空间自相关和局部空间自相关[25]。全局空间自相关主要检验整个研究区域内相邻或相似区域单元特征值空间相关性的总体趋势,通常使用全局Moran’s I来评估,如式(1)所示;全局空间自相关仅能判断研究对象是否存在聚集分布,无法确定某一研究对象与其邻近区域对象的相关程度。局部自相关分析能够反映局部单元属性与相邻单元相同属性之间的相关程度,通常使用局部Moran’s I进行衡量,如式(2)所示[26]。
(1)
(2)
式(2)中,Ii为局部Moran’s I,其余参数含义与式(1)相同。若局部空间自相关显著,则存在4种空间聚集类型[26],分别为:高—高聚集(H-H),代表热点区域;低—低聚集(L-L),代表冷点区域;高—低聚集(H-L),代表高值异常区;低—高聚集(L-H),代表低值异常区。
图算法能够帮助理解图数据网络,可以帮助利用节点间的关系来发现知识和信息[27]。在图算法中,聚类系数表示网络图中节点间相互联系的紧密程度,分为平均和局部聚类系数,计算如式(3)和(4)所示[28]。平均聚类系数可以帮助分析网络结构,局部聚类系数可以帮助分析网络中的关键城市。
(3)
(4)
新浪微博是国内最受欢迎的社交网络平台之一[29],提供了带有时间戳和基于位置的社交网络服务,能够采集到用户相关的时间和空间数据信息,有利于本文针对突发公共事件网络舆情时空演化的分析[30]。因此,本文将其作为数据采集的来源平台。在突发公共事件热点舆情的选择上,本文选取“日本核废水排海”事件进行数据采集,日本核废水排海决定自初步决议起便在国内外各大社交网络平台引起了广泛而热烈的讨论[31]。爬取的字段包括用户昵称、ID、评论或转发时间、用户地理标签等;数据清洗过程主要通过Access和Excel等软件实现,共收集到原始数据80 660条,清洗后剩余数据53 504条。
按照“日本核废水排海”事件发展顺序以及事件发展期间的舆情态势曲线,如图2所示,事件发展具有一定的周期性特点,即当某个子话题突发时,舆情进入爆发期;随后公众情绪、意见达到一定阈值后,舆情态势进入平缓回落期;随着事件再次发展,舆情态势波动走高;最后随着事件接近尾声,舆情态势趋于平息。因此,本文将时间尺度划分为5个阶段。事件空间尺度的划分上,将国内用户按照地理分区及省级行政区进行划分,包括华北、东北、华东、华中、华南、西南、西北和港澳台8个地理分区,以及34个省级行政区;国外地区则统一划分为其他。在后续的时空分析中,以省级行政区省会的经纬度指标作为地理位置代表和分析依据。
图2 时间尺度划分结果[32]
为分析该舆情的时空分布和聚集类型,按照时间尺度划分,以热门微博下各省级行政区中所包含的转发和评论总量作为讨论热度[33]。采用Log函数标准化[34]对原始数据进行处理以消除数量级差异。关于空间权重矩阵的构建,由于距离是体现空间分布的重要指标,因而选取基于距离的空间权重矩阵[35]。在此基础上进行空间自相关分析。为明确各个空间热点、冷点以及不显著聚集区域之间的关系,在空间自相关分析结果基础上,进行时空网络图算法分析。以地区所包含的用户之间的社交关系作为地区节点间的边,将地区的讨论热度作为节点间边的权重,空间聚集类型作为节点的属性标签,得到节点、关系和属性表并导入Neo4j图形数据库中,以进行图算法分析确定网络结构和关键城市。
3.3.1 全局空间自相关结果
全局空间自相关分析结果如表1所示。全局Moran’s I均大于0,表明该舆情呈现空间聚集分布。其次,全局Moran’s I统计值大于0,但也比较接近0,说明这种聚集程度较弱。各个事件的P-value统计值均小于0.05,Z-score统计值均大于1.65,表明其置信度均在90%以上[36]。同时,聚集趋势呈现3个阶段,其中,第一阶段(T1~T2)和第三阶段(T3~T5)均呈现上升趋势,第二阶段(T2~T3)呈现下降趋势,但第三阶段均高于第一和第二阶段。这意味着时空分布特征整体上以聚集为主,且聚集程度不断加强。
表1 全局Moran’I及检验值
3.3.2 局部空间自相关结果
局部空间自相关分析结果如表2所示。数据结果表明,事件各个时间段内的聚集区域类型分布与事件整个时间周期呈现一致。事件时空分布中,高—高(H-H)聚集区域数量较多,表明事件存在讨论热度集中区域,即存在空间热点;低—高(L-H)聚集区域伴随着高—高(H-H)聚集区域存在,低—低(L-L)聚集区域出现频次较低,说明事件讨论热度的空间冷点不明显。同时,显著聚集区总数明显多于非显著聚集区,说明在各个时间段中事件讨论重点分布于部分地区,并不是普遍存在于全国各地。
表2 局部聚集类型统计
为了明确每个聚集类型的空间位置特征,以省会坐标为基准和代表,绘制局部聚集类型分布图,如图3所示。图中仅使用文字标注了显著聚集的省级行政区。在事件的发展过程中,高值聚集区常出现在以北京、天津为代表的华北地区,以河南、陕西为代表的华中和西北部分地区,以及以江苏、浙江、上海、福建为代表的华东地区,并且这类空间热点区域具有明显的连续分布趋势;低—高聚集类则伴随着高值聚集区存在,如东北地区的吉林、华北地区的山西、内蒙古中部,以及港澳台地区的中国台湾地区等;西北地区的内陆城市新疆作为唯一显著的低值聚集区存在,是事件的空间冷点区域。
图3 空间局部聚集类型分布图
3.3.3 时空网络平均聚类系数结果
该话题下运用时空网络平均聚类系数呈现的时空网络如图4所示。分析结果表明,该话题下舆情事件时空网络均呈现以个别区域(或城市)为核心的发散结构,核心区域(或城市)周围的关系线条较为密集,整个空间网络中的信息流围绕其展开。同时,这些区域(或城市)节点起到连接其他区域(或城市)节点的“信息桥梁”作用。通过这些区域(或城市)节点的属性标签,可以发现不显著聚集的城市同样能够在时空网络中扮演重要角色,如T1中的香港、T2中的四川等。与此同时,在这些区域(或城市)聚集类型,低—高(L-H)以及低—低(L-L)聚集区在网络中通常处于边缘位置,并且与其他区域(或城市)节点联系稀疏。
图4 舆情时空网络
时空网络平均聚类系数分析结果如表3所示。在平均聚类系数得分中,除T5的平均聚类系数为0.001外,其他事件的平均聚类系数均呈现高值。结合图4,T5的空间网络呈现以北京为核心的星型结构。除与北京之间存在直接的联系外,各个城市节点间的联系稀疏,网络中信息的交流效率较低;其他事件的平均聚类系数较高,舆情时空网络呈现网状结构特征,网络中节点间的联系紧密,网络的凝聚力也较强。
表3 时空网络平均聚类系数结果
3.3.4 时空网络局部聚类系数结果
时空网络局部聚类系数分析结果如表4所示。在结果显示中,重点关注局部聚类系数得分较低的节点,因为得分较低表明该城市在网络中是一个结构孔[28],该城市节点可能是一个与其他网络城市社区中的城市节点连接良好的节点,是网络结构中潜在的“信息桥梁”。如,T1中的香港和北京,T2中的四川等。但是,当局部聚类系数为0时,表示该城市节点的相邻节点都只与这一节点相连,彼此之间互不相连,此类节点周围的网络结构较为简单,如T1中的青海、台湾和澳门等。
表4 时空网络局部聚类系数结果
从该突发公共事件舆情演化的时空总体分布来看,舆情演化呈现空间聚集分布,且聚集程度呈现随舆情事件发展不断加强的趋势。这可能与随着舆情的不断发展,政府、媒体和意见领袖等关键用户的介入、对舆情事件信息发布的加强,以及公众对舆情信息的接受与关注程度的提升等有关[37]。在舆情发生的不同阶段,参与舆情的用户会有不同的信息需求和行为,并对舆情事件的热度和传播范围产生影响。
因此,根据舆情时空总体分布的聚集特征和趋势,舆情监管部门可以根据区域的聚集形势进行有针对性的舆情引导和监管,将舆情事件的分析与对比分解和聚焦到聚集区域上,并借助政府和官方媒体的参与不断对舆情事件波及的区域进行干预和引导,降低负面舆情在空间维度上传播扩散的可能性。同时,利用区域中高影响力用户及群体,对邻近空间内其他用户产生直接或间接的影响,提高舆情的空间聚集程度,将负面舆情带来的影响尽量控制在最小范围内。
该突发公共事件的网络舆情空间热点区域,主要分布在部分地区并非全国,网络舆情时空演化分布具有一定的地域差异性和规模性,在重点城市群区域表现出明显的聚集性特征。一方面,空间热点区域的分布情况显示出重点经济发达地区在该舆情事件中的高价值属性;另一方面,低—高(L-H)和低—低(L-L)聚集区的时空分布与该地区的人口聚集程度和地理位置有关,未受到该网络舆情直接影响的区域和靠近空间热点的区域则呈现出不同的聚集类型。
因此,根据突发公共事件的网络舆情时空聚集类型以及其分布特征,一方面,应该加强对网络舆情聚集效应显著的空间热点区域进行有针对性的分析与监测,突出空间热点区域的靶向定位作用。通过该区域内网络舆情的疏导与管控,实现社交网络舆情的精准治理和全区域网络舆情的整体控制;另一方面,对于低—高(L-H)和低—低(L-L)这类非热点聚集区,除发挥邻近热点区域的领导和影响作用外,还应结合该区域自身的发展情况和地理特征,对该区域的热点网络舆情事件的关注和舆情用户的情感、网络舆情关注行为等进行分析,明确不同区域时空特征与规律差异性的原因所在,进而制定和实施更为精准的社交网络舆情区域治理策略。
从该突发公共事件网络舆情的时空网络可视化分析结果和平均聚类系数结果来看,时空网络呈现以个别节点为核心的网络结构特征,体现了网络舆情传播和扩散的时空收缩效应。其中,平均聚类系数较低的时空网络结构较为稀疏,除核心城市外,其他区域(或城市)节点间几乎不存在关联关系,网络凝聚力较弱。平均聚类系数较高的时空网络呈现网状结构,除核心区域(或城市)外,各个区域(或城市)间存在交叉纵横链接,信息流通速度相对较快,流通效率相对较高。
因此,对于上述两种网络结构来说,核心区域(或城市)都具有较大的信息控制权,是在紧急情况下进行的社交网络舆情管控的重要节点。应该最大限度地发挥其在舆情中的风向标作用,通过对核心区域(或城市)的干预和引导,把握网络舆情引导主动权和话语权,并及时、主动地占领网络舆论的主阵地和优势高地,进而实现对全区域范围内其他区域(或城市)的网络引导,消解其他区域(或城市)在舆情发展中存在的噪音和杂音,及时排解舆情风险隐患。此外,当网络结构相对较为复杂时,还应当注重不同核心区域(或城市)之间的合作与协同,从以点带面到整体推进,进而全面提升突发公共事件的网络舆情治理能力与水平。
从该突发公共事件网络舆情的局部聚类系数结果来看,在社交网络舆情的时空网络结构中存在局部聚类系数较低的结构孔城市,与其他城市连接相对良好,在时空网络中充当着“信息桥梁”的角色。此类节点作为时空网络中的关键城市,能够促进舆情信息的流动和共享,并且能够干预和控制其他区域(或城市)之间的通信和传播,在舆情事件的时空扩散和演化中具有较强的关系优势。同时,也存在局部聚类系数为0的城市,这类城市的相邻节点都只与这一节点相连,但彼此之间互不相连,其周围的网络结构较为简单。
因此,针对该类网络舆情进行管控和治理时,关键区域(或城市)作为重要的监管节点,需要对其舆论导向进行准确识别、定向培育和积极引导,并且完善其社交网络舆情中的民意观察和分析机制,才能最大限度地发挥其在舆论引导中的领导和正面优势,从而快速、及时地调动关键区域(或城市)中的意见领袖进行正确的舆论疏导,营造正向情感和观点,实现舆情信息的正向流转。局部聚类系数为0的区域(或城市)由于周围的网络结构相对简单,其管控和治理则相对容易。
本文提出突发公共事件网络舆情时空演化分析模型和算法,将空间自相关、时空网络图算法与舆情分析相结合,对突发公共事件网络舆情的时空演化特征中的时空总体分布、时空聚集类型进行分析;通过社交网络舆情中的网络结构和关键城市(或区域)的平均聚类系数与局部聚类系数,呈现网络舆情时空演化规律。本文在理论层面,通过空间自相关分析确定了突发公共事件社交网络舆情的时空总体分布与聚集类型;利用图算法中的平均聚类系数对时空网络结构进行了分析,局部聚类系数确定了时空网络中的关键区域(或城市),从而进一步丰富了网络舆情研究的理论和方法体系。实践层面,结合新浪微博“日本核废水排海”事件下的时空数据进行实证分析,发现突发公共事件网络舆情的时空聚集效应,重点经济发达地区作为空间热点区域在舆情中的高价值属性,以及不同的时空网络结构中,核心和桥梁城市在舆情时空演化中的引导和中介作用。最后,根据以上舆情时空特征和规律提出了相应的策略,为突发公共事件网络舆情的管控与治理提供了实践参考。
本文的研究仍存在一定的局限性。本文仅以微博平台中的单一舆情事件作为数据来源,所得出的研究结论具有一定的局限性。在后续的研究中,将关注多种网络平台舆情的对比分析,以期为国家舆情治理体系的丰富和完善提供更多有意义的参考。另外,时空分析仅限于国内,未对国外地区进行探究,在后续的研究中,将考虑国内外舆情时空分布的对比,丰富和深化舆情时空规律。