爬微博数据下疫情交通管制的舆情分析*

2022-09-07 12:52丁子羿汤文蕴马健霄
计算机时代 2022年9期
关键词:交通管制主题词舆情

丁子羿,汤文蕴,马健霄

(南京林业大学汽车与交通工程学院,江苏 南京 210037)

0 引言

新冠病毒是一种高传染性的病毒,在人流量巨大的交通枢纽有广泛传播的可能性。自2021 年7 月20 日起,南京市政府为了有效控制病毒扩散,果断做出了对交通进行管控的决定。交通管控会影响人们的正常生活,因此有必要分析网民对交通管控措施的态度。

新浪微博作为现在最受中国网民青睐的社交媒体之一,每天更新、发布大量热点新闻,网民在微博平台下也可以畅所欲言,把个人观点传到网络空间。近些年,国内外学者在新浪微博、推特等平台上抓取数据并进行处理、分析,以便从文字中获得网民的真实想法。LI以“南京地铁”为关键词,抓取了2014 年1 月至2018 年4 月的微博数据,根据构建的LDA(Latent Dirichlet allocation)主题模型,分析出潜在的正面和负面话题,得到了乘客对南京市地铁系统的改善建议;为了更准确地分析突发公共事件中的舆情情感变化,李长荣构建了面向此类事件的领域情感词典;刘江月构建了融入中英文双语的细粒度情感规范词典C-ANEW,情感分析的结果相较于传统词典更加准确。

交通舆情反映了市民对城市交通问题的态度。其中既包含了交通信息,也反映了市民对交通出行环境以及城市交通建设的期待。LU通过多渠道社交信息,构建了基于Word2Vec 的舆情融合模型,用于感知、检测城市交通事故,可视化展现交通违章事件全貌;Cao提出基于中文微博用户情感分析的半监督学习方法,可用于预测交通拥道路和时间;Ali将本体论和LDA 模型方法用于分析交通舆情,研究成果可用于改善城市交通拥堵问题。目前国内外有关舆情的研究中,针对交通舆情的挖掘研究涉及较少,主要研究是从社交平台中分离出特定事件的舆情信息,文本挖掘技术尚未系统地应用到交通舆情研究中。本文拟通过分析新浪微博中南京疫情事件下的交通舆情信息,准确地把握普通群众对公共卫生事件下交通管控的态度,有助于提高交通管控的有效性和满意度。

1 相关研究

1.1 数据来源与预处理

本文选取了2021 年7 月“南京市新冠肺炎”事件作为研究对象,据相关报道,7月20日即日起南京发布严格落实交通出行疫情防控措施、积极主动配合核酸检测等防控工作的公告。两周内,本土确诊病例数直线上升,防疫指挥部发布了“非必要不离宁”的公告。8 月15 日后,疫情逐步得到控制,新增病例数降低至0 人。因此本文数据爬取时段为7月20日至9月30日,从疫情爆发初期至疫情得到控制后一个月。

数据采集是一种利用搜索引擎或数据源定向获取结构化数据的技术,它拥有十分广泛的应用领域。此次研究选取了全球最大的中文社交网络平台——微博。我们以“南京”、“疫情”、“交通管制”为关键词在新浪微博进行爬取,时间跨度为7月20日~9月30日。每条微博抓取的内容包括时间、博文、用户ID、评论数等信息,共抓取数据23475条。

微博平台的文本信息中包含了大量广告和无意义的文字信息,获取文本后,要对冗长的文本进行预处理。本文采用的预处理方式有文本删除、去停用词和中文分词。在删除与所研究内容无关的文本后,最终得到14622条博文。

1.2 情感分析

情感分析技术可针对文本自动地抽取主观情感倾向,常用于判断用户的情绪分布并统计其情感变化趋势。本文采用Python 的第三方库SnowNLP 进行情感分析,分别引入积极情感词库和消极情感词库,以朴素贝叶斯分类算法作为理论基础,如公式⑴所示:

式中,(类别)表示已经标注好的训练数据先验概率,(词|类别)表示不同分类词的出现概率,两个指标的乘积与每个词出现概率(词)相比,得到最终情感值的输出结果。

1.3 LDA模型

主题挖掘技术是文本挖掘领域中新兴的一种对具有代表性的词、短语或句子进行自动标注和抽取的技术,能快速有效地从海量数据中识别出人们感兴趣和有价值的信息,其在处理大规模文本时具备独特的优势。LDA 模型是一种具有优秀降维能力的三层贝叶斯模型。可以将原本高维的词空间缩减成由一组主题词组成的小主题空间。其模型概率如图1 所示。其中,D 为文档集合,α、β 分别为模型分布的先验参数,θ、φ 为多重分布参数,变量ω 可由给定文档数据集直接获得,Z为最终生成的主题词。

图1 LDA模型概率图

1.4 技术流程

本文的技术流程分为三个部分,如图2所示。

图2 技术流程图

⑴通过Python 抓取微博数据,对存储的文本进行数据预处理和词频统计;

⑵ 采用Python 的第三方库SnowNLP 进行情感分析,得到网民们的正负面情感值并以地理可视化的形式展现;

⑶通过困惑度分析得出最优主题词个数,构建LDA 模型分析得到积极和消极热点主题词,并引入时间节点分析主题演化趋势。

2 结果

2.1 词频统计与词云图

对博文进行预处理后进行高频词统计,统计得到23688 个不重复的原始关键词及其出现频次。将这些原始关键词按照出现的频次排序并取出现频次最高的前100个关键词进行清理和分析。首先删除和研究主题无关的词汇,然后合并语义相同或相似的关键词。最后得到60 个语义不重复且与研究主题相关的高频词,将这些关键词及其出现频次作为词云图分析的基础数据。

通过Python 中的WordCloud 包进行词云图绘制,出现频次越高,字符越大,绘制的词云图如图3 所示。由图3可知,禄口机场、防控、核酸等词出现频率的最高,高风险地区核酸情况以及疫情期间的管控最受网友重视;其次,公安、警察一类的词出现次数较高。作为疫情期间的执法人员,警察是一线人员,要维护交通秩序并排查外来人员是否发烧,市民对他们的期望值也比较高。

图3 高频词词云图

2.2 SnowNLP情感分析与地理可视化

SnowNLP 情感分析输出的每条博文的情感值区间为0 到1,大于0.5 时为积极情感,越接近1,情感越正面;小于0.5 时为消极情感,越接近0,情感越负面。情感分析的地理可视化结果如图4 所示。由图可知,全国人民对于此次突发公共卫生事件基本持积极态度。江苏其他城市与其相邻省份,因距疫情爆发城市较近,部分当地市民产生了不安情绪。此外,湖南省受南京疫情传播影响较大,因此反映出的负面情绪较多。

图4 情绪状态分布图

本研究对每日的情感分析结果做了取平均值处理,如图5所示。由图可知,网民们的情绪总体上是趋于积极的。8 月15 日以后,负面情绪出现频次明显减少了。但是,7月26日~7月31日、8月9日~8月13日,这两个时段有明显的情绪下滑的现象。结合抓取的微博文本及疫情新闻,分析了产生消极情绪的原因:

图5 情感值分布图

2021 年7 月20 日后,新冠肺炎在南京市爆发,网民们陷入了恐慌,各种消极言论在网络上传播。7 月26 日起,微博中大量涌现“南京市政府疫情管控以及城市交通管控不当,当地客运枢纽并未实施严格的管控措施,导致疫情全国大范围扩散”的言论。

8 月初期,多处收费站、高速出站口双向关闭;南京部分工地因防疫措施不严,导致市内16个工程项目停工整改;同时恶劣的天气也影响着交通管制的效率,这些消息造成了部分网民较大的情绪波动。

8月22日,江苏省自南京疫情以来,首次无新增本土确诊病例。疫情得到有效控制,网民对于南京市的疫情治理和交通管制的注意力逐渐转移到正常生活和交通出行上。疫情初期的消极情感,在经过合理的疫情防控和交通管控后逐渐转变为积极,最后趋于平和。

2.3 LDA主题模型分析

对南京市疫情期间交通管制的正面与负面评论进行了LDA 主题分析。首先,通过LibSVM 法对所有的微博评论文本进行文本分类,在预处理后的14622条数据中,与交通密切相关的文本有13803条。对分类后的文本数据进行困惑度分析,事件的主题个数随困惑度变化的折线图如图6所示。在南京疫情交通管控事件中,主题个数为5时对应的困惑度值最小,困惑度值最小时设置的主题个数最佳。因此在构建LDA模型时,将积极和消极主题数都设置为5。

图6 南京疫情交通管控事件主题词的评论困惑度

模型构建完后,分别选取消极与积极占比最高的主题词进行可视化分析,如图7(a)、图7(b)所示。

图7 南京疫情交通管控事件积极与消极热点主题词

从负面评论的潜在话题来看,“机场”、“防控”、“封锁”体现了网民们对疫情早期禄口机场封锁的迫切期望以及对当地工作人员的不满;“封城”、“出入口”、“双向”、“措施”等主题词反映出多处收费站、高速出站口双向关闭后对市民的出行产生了影响。此外,市民的出行安全与市公安局交警大队对城区道路实行交通管制等话题的讨论热度也很高。网友普遍认为,即使是在特殊时期,常规的交通规则和市公安局发布的管制措施仍应当严格遵守。

积极主题词反映出网民对于市交通局发布的公告和管控措施的实施力度比较满意。“检测”、“核酸”、“街道”体现了市民积极配合当地社区完成好多轮核酸检测。同时,城管及道路执勤人员对于各小区、路口的有序管理很重要,交管部门对于小区的合理管控也得到了网友们的认可。8 月末疫情得到控制,部分关闭的客运站解封后,市内公共交通恢复正常运营。

综上所述,在消极主题词中,多数网友对疫情期间,市内交通管控力度、人口流动以及高速路口封锁的问题十分重视。限制了人员和车辆的流动,才能降低病情传播的风险。同时,对于身处一线的医生和交警等工作人员的生命安危感到担忧。在积极主题词中,网民们对于市内警务人员对市民的管理、引导比较满意。封锁的客运枢纽重新开通也解决了市民的出行困难。

2.4 主题演化分析

结合LDA 主题分析结果,本文选取了事件下正负面占比最高的热点主题词作为研究对象。其在微博中出现的次数与时间序列的关系见图8。

图8 热点主题词随时间变化趋势

由图8 可知,南京疫情下交通管控的正负面热点话题讨论热度总体趋势相似,疫情初期网民的注意力大多放在大型枢纽的管控、人员迁徙情况上,随着疫情逐步好转及部分违规事件的产生,群众的目光才转向市内的交通问题上。在8月中旬,随着疫情的好转,开放各大交通枢纽、恢复公交班线等话题达到了峰值。恢复正常工作、出行的市民情绪趋向积极,相关话题讨论热度也逐渐下降。

3 结束语

本文通过数据采集与预处理、情感分析与地理可视化、主题挖掘及演化技术,分析了网民对突发公共卫生事件下交通管制的看法、建议。由分析的结果可知,网民对此类事件情绪总体上是积极的。疫情期间,警务人员对交通合理的管控以及疫情逐渐得到控制等信息都让网民们充满了度过疫情的信心。从主题挖掘的结果来看,安全出行、客运枢纽管控等主题词是网民关注的重点。现在新冠疫情已成为了常态化的突发公共卫生事件。根据本文舆情分析得到的结果,对今后突发公共卫生事件的管制措施提出了相应的改善建议:

⑴严格落实市交通局发布的交通管制措施。为了防止因车辆同行和人员流动导致的疫情扩散,无论是在疫情爆发期间或是疫情得到控制后,都需减少扎堆出行和不必要的外出,对于市内各个小区间实施封锁,避免不必要的人员流动或群聚行为,严惩违规的出行者。

⑵严格管控各个高速路口、车站及机场出入口。仔细排查每一位进出的本地市民和外地市民的行程以及健康情况。如有发烧或身体状况异样的市民要及时隔离观察。

⑶维护好市内正常的交通秩序。疫情期间违规行驶等情况依然存在。在特殊时期对于违规的交通行为更加不能忽视。

以上是基于研究结果总结出的突发公共卫生事件下交通管制的建议。在进行合理的交通管制的同时,也要对于微博等平台的舆情信息进行正确的引导,避免虚假舆论的传播。从舆论控制和交通管制两方面考虑,可以更有效地辅助并控制疫情的传播。

猜你喜欢
交通管制主题词舆情
民航空中交通管制进近程序间隔安全性评估模型
优化空中交通管制容量评价指标的思考研究
舆情
舆情
舆情
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引
基于新型移动式VMS的应急交通管制方案
《疑难病杂志》2014年第13卷主题词索引