交通运行状态的情感分析与主题挖掘研究*

2022-12-16 09:23丁子羿汤文蕴钟天辰
计算机时代 2022年12期
关键词:玄武主题词消极

丁子羿,汤文蕴,钟天辰

(南京林业大学汽车与交通工程学院,江苏 南京 210037)

0 引言

越来越多的网民通过各大自媒体平台发表自身对于城市交通运行状态的意见。对于交通领域的舆情信息进行挖掘和研究,能够更好地为交通管理者提供决策依据并为公众出行提供最优质的服务。程思琪[1]通过微博挖掘了城市交通事件中意见领袖在舆情传播和治理中的作用,分析出交通舆情领域单态意见领袖相较于多态领袖的不足;付志峰[2]根据城市轨道交通突发事件的特征,提出并创新了轨道交通舆情的应对策略;苑虎[3]等构建了考虑交通影响因素的应急疏散需求模型,研究出应急疏散需求曲线的宏观特征;潘攀[4]以成都市城市轨道交通突发网络舆情为例,分析了舆情引导机制中存在的问题,借鉴国外轨道交通舆情引导的经验,对现有对策提出了改进建议;汤丽华[5]基于LSTM 网络理论,提出公路交通舆情情感分析的创新方法及监测系统;滕靖[6]根据舆情周期理论构建了交通网络舆情的分析方法,相较于传统方法更具适用性。目前,国内学者针对交通舆情的挖掘研究较少,对于城市道路运行状态的研究很少与网络舆情相结合。

1 数据来源与初步分析

1.1 数据选择与获取

根据“一城三区”战略的实施,目前南京市形成了以都市区为主的交通发展经济圈,一些主要道路成为了能够明显反映交通参与者对城市道路交通满意度的热点地区。但随着机动车保有量的增加,市区道路拥堵情况日益严重,高架立交和出城公路的通行不畅,使得市区道路接近饱和。为了更好地梳理城市交通,需要了解民众对于城市道路交通的看法和建议,通过分析舆情的指向来对道路及周边交通基础设施进行改进。拟选取两个不同的交通热点地区,收集这两个地区的交通舆情信息并进行分析。

本文选择南京市玄武湖隧道和玄武大道作为城市交通运行状态舆情的研究区域,以“玄武湖隧道”、“玄武大道”、“交通”为关键词在微博抓取了2021 年2 月1日—4月1日的数据,爬取的数据以csv文件形式进行存储。

1.2 预处理与词云图分析

考虑到爬取的数据中含有大量与主题无关的内容,因此需要对抓取的文本进行预处理。本文采用的预处理方式包括文本删除、中文分词和去停用词,最终得到玄武湖隧道和玄武大道的交通运行状态舆情文本11387条。

数据预处理后,通过高频词统计和词云图绘制初步了解交通舆情文本的主题信息,采用Python 的WordCloud 包对统计得到的15683 个不重复的原始关键词进行词云图绘制[7]。由图1可知,拥堵、排队、绕行等词汇出现频率最高,作为南京市玄武区的两条主干道,每天有大量车流从两地通行,在早晚高峰时段,常常发生道路拥堵,市民们通过交通广播等途径了解到路况信息后不得不绕行来避开拥堵路段。此外,交警对城市主干道车辆的指挥和管控也受到网友们的密切关注。

图1 高频词词云图

本文的技术路线图如图2 所示,首先爬取交通运行状态的微博文本,数据预处理后以csv 文件形式存储。其次,基于SnowNLP 方法进行情感分析,展现出网民的情感状态随时间变化的趋势图。最后,通过LibSVM 法对所有文本进行分类,筛选出交通主题的文本。分别通过困惑度分析和主题强度计算得到相应的主题数量以及每个主题的占比。构建LDA主题模型,得到并分析城市道路交通运行状态的消极主题词。

图2 技术路线图

2 情感分析与主题挖掘

2.1 情感趋势分析

首先通过Python 对两个事件的数据样本进行训练,设置情感输出值大于0.55 时为积极情绪,情感输出值在0.45-0.55之间时为中性情绪,情感输出值小于0.45时为消极情绪。所得到的情感标注结果如图3所示,由分类结果可知,积极评论占多数,中性评论较少。

图3 交通运行状态数据情感分布统计

采用Python 的第三方库SnowNLP 对每条微博文本进行情感分析,对每日微博文本的情感输出结果取平均值,如图4所示。

图4 城市交通运行状态情感趋势图

由分析结果可知,2 月1 日至4 月3 日期间民众对玄武湖隧道和玄武大道交通运行状态的整体情感波动较大,2月10日至2月12日正值春节期间,因疫情原因市民出行较少,交通状态良好;2月22日由于新年期间返程高峰已过,工商业和小型餐饮业复工,导致当日的出行数量较多,两条主干道较为拥堵,情感状态偏消极;3月1日至3月4日由于是开学季和返程高峰,两地道路拥堵严重,通行效率和服务水平较低,民众情感状态偏消极;3 月24 日18 时左右玄武湖隧道由北向南方向发生交通事故,造成大面积拥堵,整体情感状态消极;其余时间段的消极情绪普遍集中于早晚高峰。

对情感分析的结果进行进一步分析,以一周的形式对微博文本进行分类,情感值统计周期图如图5所示。由图可知,两条主干道的交通参与者在周一、周五和周末的情感状态均低于0.5,结合爬取的微博原文,2月19日玄武大道由东向西发生重大交通事故,2月21日玄武大道发生车辆追尾,造成道路拥堵,导致民众情感状态较消极。周四民众的情感状态为中性,周二、周三、周六为状态积极,表明两地车辆通行顺畅,拥堵等因素对民众情绪状态的影响较小。

图5 情感值统计周期图

2.2 主题挖掘分析

主题挖掘技术是文本挖掘领域中一种新的技术,一般用于对核心词汇、短语或句子进行标识和抽取。可以定位出文本中的热门主题,将挖掘得到的主题数据与时序信息相结合,能够探究出舆情变化的规律并预测其未来的发展趋势。主题概率模型法是主题挖掘技术中的主流方法,在挖掘微博文本时能够充分考虑词与词之间的关系和语义特征[8],因此本文采用主题概率模型法进行主题挖掘分析。

首先通过LibSVM 法对预处理后的文本数据进行分类。在提取的11387 条数据中,交通路况新闻占3021 条(26.5%),交通运行状态评论5987 条(52.6%),无关数据2379条(20.9%)[9]。

LDA(Latent Dirichlet Allocation)模型是一种常见的三层贝叶斯模型,可以将原本高维的词空间缩减成由一组主题词组成的小主题空间。LDA 的模型构建过程如图6所示,其中,D 为文档集合,α 和β 分别为主题分布θD和主题词分布φ 的先验分布参数,z 和ω分别为模型生成的主题和最终的主题词[10]。

图6 LDA模型构成图

通过计算文本的主题强度分布,可以分析出各个主题词的热度占比,主题强度占比越高,表示其热度越高。计算公式如下:

其中,Sn表示主题词为n 时的强度,θni表示主题为n 时文本i的概率大小。

在建模前进行主题困惑度计算,主题个数为3 时对应的困惑度值最小,因此构建LDA 模型时将主题个数设置为3。对文本进行主题强度分析,通过LDAvis多维缩放后得到事件下的Intertopic距离,如图7所示,其中主题1占比最高,达到51.9%[11]。

图7 主题强度分布

统计出每一组主题中出现频率最高的5个消极词汇,如表1 所示。由主题1、2 可知,玄武湖隧道和玄武大道双向车流拥堵时给群众带来了不便和麻烦,上下班高峰时段的拥堵影响了道路的通行效率,影响了市民们上下班、回家的时间,产生大量消极情绪。主题3反映了网民对交通执法情况的态度,醉酒驾驶及其他违规驾驶行为都会危及其他驾驶员的生命安全,这对道路执勤人员也是一个重大挑战,网民对交警给予了很高的期望[12]。LDA 模型主题词的概率分布结果如图8~图10所示。

表1 消极主题词表

图8 消极主题词1概率分布

图9 消极主题词2概率分布

图10 消极主题词3概率分布

3 结束语

本文采用情感分析和主题挖掘协同分析的方法,对微博爬取的交通运行状态舆情文本进行了分析。根据分析结果和两条城市道路的实时路况信息,得出以下结论:

⑴玄武湖隧道花季往来车流较多,由北向南道路的拥堵情况较为严重。交通违法行为和车流堵塞是影响民众情感趋势的主要因素;

⑵玄武大道双向车道车流通行量大,内环公路和绕城公路基础设施建设良好,车流通行能力强,相关的消极主题词较少。

本文的研究为交通管理者和舆情管理人员提供了一种新思路,通过挖掘多自媒体平台交通舆情信息,可以更全面地了解城市道路交通运行状态存在的问题,舆情监管者从而可以更好地引导交通舆情的走势。

猜你喜欢
玄武主题词消极
从消极隐私保护到积极隐私保护:元宇宙中的隐私风险及其治理进路
玄武
玄武烟柳
家庭教育:你种的是积极树还是消极树?
玄武
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引
“消极保护”不如“积极改变”
《疑难病杂志》2014年第13卷主题词索引