王囝囝 , 王 健 , 唐明山 , 黄 艇 , 邬晓冬
1. 大连市气象服务中心, 辽宁 大连 116001 2. 大连市气象台, 辽宁 大连 116001
利用机器学习和自然语言处理技术分析公众对某一社会热点问题的评论情感,作为研判社会舆情和优化应对策略越来越受到相关部门的关注。对突发公共事件的政务微博回应方式研究发现回应议题对公众评论情感值影响显著(纪雪梅等,2020)。赵晓航(2016)对“天津爆炸”事件的新浪微博全量数据进行主题提取和情感分析,探求了突发事件下政府如何利用微博平台收集、研判、应对网络舆情。气象微博服务采用大数据、情感分析法研究识别情感倾向,成为气象服务效益评估方式的新依据(任芳等,2016;喻迎春等,2018;张晓美等,2019)。
注重公众情感评价的研究对于政府或气象部门做好舆情引导和社会服务有重要的现实意义。目前情感分析方法主要包括情感词典、机器学习和深度学习等方法。情感词典法基于标注好的情感词典、语法规则,利用情感词典对评论进行分类;机器学习的情感分析法主要通过统计文本中的特征,使用 SVM、随机森林和梯度提升决策树对特征进行立场检测,最后结合各类分类器进行融合;深度学习法主要是将各类文本分词转化为词向量的形式,利用LSTM(Long Short-Term Memory)模型改进的Bi-LSTM实现双向注意力机制(汤世松等,2021)进行文本情感分析。文中基于2017年1月1日—2020年7月3日大连市气象实况数据和与气象预警信息相关的热门微博数据,进行数据抓取,建立分词系统,提取热点,利用Bi-LSTM模型建模分析,创建了气象行业专业分词库,客观分析了近3 a大连市气象微博评论情感,为大连市气象灾害预警信息发布策略的制定提供参考。
文中数据包括2017年1月1日—2020年7月3日大连市气象实况数据、大连气象微博转发、点赞、评论(简称转赞评)数据及预警信息(包括气象灾害预警信号、实况、预报等)发布数据。典型重大天气事件选取对社会经济影响程度较大、社会关注度较高的3次天气过程(台风暴雨、大风、降雪)。公众评价媒体选取大连地区气象传播影响力较大的“大连气象”、“大连天气饭”、“大连气象爱好者”等。
具体的分析步骤为利用Python语言开发的全中文情感分析模块SnowNLP实时提取与天气过程预警、预报和对天气过程评述相关的微博正文、转发内容及评论内容,对非文字符号进行过滤,对文字部分进行分词处理、统计、排序,按照气象灾害种类进行分类,形成文本信息,并对热词进行相关性分析,针对单条气象预警信息话题评论进行情感词分析,计算文本信息的情感值,得到公众对气象预警信息的态度和情感状态。
计算大连市降水量、气象预警信号时空特征与气象微博转赞评数的相关系数(周艳平和朱小虎,2021),计算式为
(1)
其中,Cov(X,Y)为X与Y的协方差,D(X)为X的方差,D(Y)为Y的方差。
用双向长短时记忆网络Bi-LSTM(Bi-directional Long Short-Term Memory)(周艳平和朱小虎,2021)自然语言处理、文本挖掘以及计算机语言学方法来识别和提取微博评论中的主观信息(包括观点、情感、态度、评价、情绪等)进行提取、分析、处理、归纳和推理。文中采用朴素贝叶斯原理训练计算微博评论的情感值,计算式为
(2)
其中,评论样本数据集为X={x1,x2,...xd},xi为评论中的具体某条评论;情感类变量Y={y1,y2,...yd}为情感类别的集合,yi为某条评论所属的某种情感类别,取值0—1,0表示负面情感,1代表正面情感;P(xi|Y)为某条评论属于某种情感类别的概率值;P(Y|X)为评论属于各情感类别的概率值,即情感值;P(X)、P(Y)分别为评论样本和情感类别的先验概率。
图1为2017年1月1日—2020年7月3日“大连气象”、“大连天气饭”、“大连天气饭”、“大连气象爱好者”微博转赞评总数日变化、同期大连市实况降水、预警信号发布数日变化。分析可见,气象微博转赞评总数与降水量、预警发布数随时间变化趋势一致。大连日降水量与“大连气象”微博转赞评总数综合相关性较大,相关系数为0.71以上,与“大连天气饭”为0.59,与“大连气象爱好者”为0.43(表1)。“大连气象爱好者”因发布了一些非气象预警信息引发转赞评,导致其与降水相关系数偏小。
图1 2017年1月1日—2020年5月21日大连市气象微博转赞评(a,b,c)、日降水量(d)、预警信号日发布数(e)Fig. 1 The number of comments (a,b,c), daily precipitation (d) and the number of warning signals released by micro-blog (e) from January 1, 2017 to May 21, 2020
表1 2017年1月1日—2020年5月21日大连市逐日降水量、预警信号数与气象微博转赞评数的相关系数
气象灾害预警信号是反应大连市气象灾害发生的重要预警指标,对气象灾害预警信号评论进行情感分析,可作为舆情监控、信息预测和气象工作认可度的参考指标。2017年1月1日—2020年5月21日大连市发布的气象灾害预警信号中,大风、大雾、暴雨预警信号的数量排在前三,大风预警信号明显多于其他预警信号总和,其中大风蓝色预警信号为1 793次,平均每天发布2次大风蓝色预警信号。
分别对大连气象微博中关于大风、大雾、暴雨预警信号的评论进行提取分析,计算微博评论的情感值分布(图2)。分析发现,大风预警信号的评论中负面情感多于正面,大雾预警信号基本相当,暴雨预警信号正面评论多于负面。这可能与公众对预警信号影响公众生产、生活和对气象预报水平期望值高有关。
图2 2017年1月1日—2020年5月21日大连市大风(a)、大雾(b)、暴雨预警信号(c)和总体(d)微博评论情感值分布Fig. 2 Dalian meteorological microblog emotional value distribution for gale (a), fog (b) , rainstorm (c) and the whole comments (d) from January 1, 2017 to May 21, 2020
进一步对评论中的正、负面情感成因进行分析,分别对2017年1月1日—2020年7月3日暴雨天气情感指标大于0.5和小于0.5的3 000余条评论词,采用Python的Jieba、Gensim库进行中文分词、聚类相似度分析,通过剔除停用词、低频词,发现“天气过程本身对生产生活的影响”、“预报准确率”及“气象预警信息发布及时性”是影响评论正、负情感的主要因素,通过TF-IDF建立算法模型,得出上述三个方面的正、负评论相似度(表2)。
表2 2017年1月1日—2020年5月21日大连市气象微博中与大风、大雾、暴雨预警信号相关的正、负面评论相似度
可见,正面评论中,社会公众对天气过程带来的正面评价较高,主要是降雨过程带来的利于农业、樱桃产业、净化空气等方面的正面需求;对于预警信息发布及时性也给予了较好的评价。相反,负面评价中对气象预报准确率的反应最大,即社会公众对天气预报的准确率期待更高要求,天气过程的影响和预警发布及时性相对次之。说明公众对天气预报准确率、天气过程对于生活的影响和信息发布的及时性关注较多。
选取2017—2020年3次重大天气过程中的大连气象微博评论进行情感分析,2019年8月11—15日受9号台风“利奇马”影响,大连市区降雨量为235.6 mm,“大连气象”加密发布降雨实况和预报预警信息共计55条,转发数192次,评论数669条,“大连天气饭”评论数4 426条,“大连气象气爱好者”评论163条。2018年1月21日夜间到22日上午大连地区出现区域性降雪,降雪主要时段在22日00—12时,“大连气象”加密发布的降雪及预警信息共计18条,转发数123次,评论数43条,“大连天气饭”评论数288条,“大连气象爱好者”评论数48条。2019年1月14—15日大连地区出现了一次大风降温过程。极大风极值主要出现在15日凌晨,出现阵风10级以上的站点为13个。“大连气象”发布大风预警信息共计25条,转发数14次,评论数5条,“大连天气饭”评论数50条,“大连气象爱好者”16条。
对3次天气过程发生前后72 h内的预警发布数及微博转赞评数(图3)和评论情感进行分析,发现台风、降雪比大风天气过程更受到大众关注。台风天气过程中,3个微博账号的转赞评数随着预警发布次数发生变化,说明公众关注度同步于预警信息发布数量,变化较为一致且关注度较高。通过对评论词频分析发现,台风天气过程负面评价主要集中在关注降雨时间和台风给生活带来的影响担忧,是否停课及带来的其他影响,降雨开始后评价较多的是带来的交通影响网络传播的关于“双台风”影响的谣言。降雨过程中随着实况信息和预警信息的不断更新发布,公众确认预报结论的准确性从而担忧带来的生活和工作的影响。随着降雨结束后,公众关注的是降雨情况、灾情情况和准确率的评价。对暴雪天气过程的关注度在预警当日和结束后仍在持续,由于降雪出现在周一凌晨,评论多数担心周一上班的影响,同时前期一直未降雪,大家对降雪带来的感觉给予正面评价较多。对大风天气过程的关注度明显低于其他天气过程,且发布大风预警信号前后变化较小,评论数明显较少。因是常见的气象灾害,负面评价多为对空气质量等的评价,这是由于频繁的大风预警信号无法引起公众的足够关注。
图3 2019年8月11—15日9号台风“利奇马”天气过程(a)、2018年1月22日大连市降雪天气过程(b)、2019年1月14—15日大连市大风天气过程(c)期间各气象微博转赞评数和预警发布数日分布
综上,对于重大天气过程,预警信息应及时发布,应跟进天气事件的后续影响,发布重点应偏向天气灾害对社会及公众生产生活的影响,同时需及时发布次生灾害预警信息。
文中基于2017年1月1日—2020年7月3日大连市重大气象灾害过程,运用自然语言处理、情感分析等方法对大连气象微博中与气象预警相关的评论内容进行情感分析,并给出发布策略建议:
1) 3次典型天气过程的微博评论社会公众表现出不同的评价结果,负面评价多于正面评价,通过分析评价词频,天气过程长时间持续就会引起社会公众的高度关注,负面评价中对气象预报准确率反应最高,可见社会公众期望天气预报准确率更为迫切,气象部门要切实提高天气预报准确率。
2) 大风预警微博评论情感分析显示消极评价多于积极评价。建议考虑针对大连市大风天气特点,针对如海上交通行业、石油行业、农业大风预警等级的划分原则,修订大风预警等级,提升业务流程的高效性和社会认同感。
3) 气象预警信号的时效性决定了气象微博评论受季节和日变化影响,由于技术原因暂时无法对微博评论者的职业、身份、年龄等分类,但可以确定不同季节、不同气象预警信号对不同人群和行业的影响不同,比如秋季果农关注冰雹灾害性天气、旅游业关注海上大风、盐业关注晴雨等等,因此不同人群对同一类或不同类气象灾害预警信号会出现不同的情感评价。
情感分析本身仅仅从微博评论相关数据进行分析,无法全面客观评价一次天气过程的真实服务情况。下一步可对专业气象服务特别是对与气象关系密切的大中型企业、农业、交通等行业的影响综合评价进行研究探讨。