魏姮清,张 骏,徐 琳
(1.武汉理工大学 管理学院,湖北 武汉 430070;2.武汉大学 政治与公共管理学院, 湖北 武汉 430072)
公安微博是指各个公安部门或公安部门的公职人员为发布公安方面相关的政策信息、普及安全知识、与公众沟通互动而开设的实名认证的官方微博[1]。据新浪微博2018年的统计数据显示,截至2018年,公安部门官方微博数量达到21 411个,并逐渐成为政法领域最多的官博。
公安微博是微博中的特殊群体,在社会安全类热点舆情事件中,公安干警通常在应对热点事件的一线,可获取最直接的现场信息,具有直观描述事件真相与本质的信息特征[2-3]。学者们从不同角度对公安政务微博进行了研究,如张宸鸣[4]从基本概念入手,回顾了近年来我国警务微博和微信的发展,并对突发事件处置中警务“双微”的传播特点、原则和功能进行了阐述。欧阳红[5]对贵州省政务微博与社会管理的关联性、政务微博的实际互动情况进行了深入研究,提出政务微博与社会管理良性互动以促进舆论发展的建议。卢桦[6]基于30个省会城市公安政务微博数据,对公安政务微博公众参与行为影响因素进行了研究,提出提升公安政务微博公众参与度的建议。
公安机关使用公安微博传递信息、与公众互动,在这个过程中会产生很多有价值的数据,但这些数据资源规模庞大且多为半结构化或非结构化数据,难以从中直接获取有价值的公众观点[7]。因此,笔者通过对公安微博的评论数据进行情感分析,掌握公众观点,并构建舆情反馈模型,以服务于公安微博热点事件网络舆情的分析与管理。
Word2vec釆用三层神经网络进行语言建模,包括CBOW模型(continuous bag-of-words model)和Skim-gram模型(continuous skim-gram model)两种实现方式。在进行Word2vec的微博评论文本向量训练时,由于Skip-gram模型在判定词语间语义关系时的性能表现比CBOW模型更好,故采用Skip-gram模型对词库进行向量表达,将其转化成特征向量的格式[8]。Skim-gram模型是通过当前词预测上下文中其他词出现的概率,模型优化的目标函数如式(1)所示,Skim-gram模型结构如图1所示。
(1)
式中:w表示当前词;Context(w)表示w前后的词。
图1 Skip-gram模型结构
支持向量机(support vector machines,SVM)是一种有监督的机器学习方法[9-10],其致力于寻找一个最大间隔超平面,使得这个超平面到每边最近数据点的距离最大,这个分类器是最大间隔分类器,属于二分类器[11]。支持向量机的原理图如图2所示,其中实心圆代表正样本,空心圆代表负样本。平面H0和平面H都可区分两类样本,H表示最优超平面。平面H1上的点是与H距离最近的负类样本集合,平面H2上的点是与H距离最近的正类样本集合。最大间隔分类是H1和H2之间的垂直距离。支持向量机首先将样本数据映射到高维空间中,使得原本线性不可分的数据变得线性可分,然后在这个高维线性空间中寻找最优超平面[12]。SVM可以很好地处理高维数据集,且泛化能力较强,因此将SVM分类器用于微博情感分类问题中[13-14]。
图2 支持向量机原理图
在自动控制系统中,“反馈”控制是一种最基本的控制形式[15]。反馈控制系统的原理图如图3所示,是将输出量c(t)直接或者通过测量元件反向引入输入端,称为负反馈uf(t),再与输入量r(t)进行求和得到偏差量e(t),将偏差量输入给控制器后,控制器产生的控制作用实现消除或者减小这种偏差[16-17]。
图3 “反馈”控制系统原理图
情感分析模型主要包括数据获取、数据预处理、文本表示、训练模型、情感分类5个步骤,具体如图4所示。
图4 公安微博评论情感分析框架图
2.2.1 数据获取
在进行情感分类建模之前,需要采集分析的数据。笔者针对公安微博,基于Python网络爬虫技术获取了2019年热点舆情事件中公安微博下的评论信息。
2.2.2 数据预处理
(1)数据清洗。由于获取的微博评论文本数据中有许多异常字符,这会影响后续的文本处理,因此需删除原始数据中的异常字符。此外,微博评论中有很多内容与公安微博的帖子无关,或者无法判断评论的情绪,例如一些网络链接、“转发微博”、“转发图片”等文字。
(2)人工标注。经数据清洗后,得到10 136条微博评论,包括5 267条正向评论和4 869条负向评论。从语料库中随机选取80%的微博评论作为训练集,20%作为测试,用于公安微博情感分类模型的构建。
(3)文本分词。利用结巴分词和Python提供的成熟的工具库实现对文本的中文分词。有些词语在文本中的使用频率较高,却无检索意义,不能表达文本中心思想,称之为停用词。笔者使用哈尔滨工业大学的停用词表来匹配评论文本中的停用词,若匹配成功,则删除该词,否则保留该词。
采用Skip-gram模型对词库进行向量表达时,主要参数设置如下:①window=5。对于上下窗口,如果取值太小时则会丢失一些重要的上下文信息,上下文窗口的取值为5,能够利用好上下文信息,故将窗口值设定为5。②min_count=10。为提高情感分析的准确率,训练时对词频进行统计,当词语出现次数小于该参数时,该词被丢掉,文中将该参数设置为10。③size=300。基于精确度的考虑,词向量维度设为300,得到每个词语的向量,对句中词语向量取均值得到句向量。
笔者采用SVM算法作为微博评论的分类模型,应用Word2vec建立训练数据集,采用Python平台下的sklearn算法模块实现支持向量机模型。为了提高模型的准确率和效率,核函数采用SVC类下的径向基函数。
2019年6月发生在大连的“女子半夜遭殴打”事件描述:2019年6月22日凌晨0点44分7秒,一名女孩突然被迎面走来的男子凶残踢打。6月24日,监控视频在微博平台曝光。针对这一案情,公安机关通过公安微博及时发布案件进展。公众对于该事件的评论带有明显的情感倾向,在与公安微博的互动交流过程中网络舆情起伏跌宕,具有典型意义,故选取该事件作为案例研究对象。
2019年6月24日,监控视频流传后,“@绵阳网警巡查执法”在第一时间做出反应,安抚网民情绪,“@中国警方在线”在6月25日8时26分转发微博,并在全网寻找线索。在确定事发地点后,“@大连公安”在6月25日15时20分进行了警情通报。虽然其他网警都积极响应,但“@中国警方在线”“@大连公安”“@绵阳网警巡查执法”受到更多关注,所以选取这3个公安微博为研究对象,通过Python爬取了公众评论文本作为原始数据,共得到6月24日10时至6月26日7时公安微博15条发文下总计超145 485条有效评论,部分评论数据如表1所示。
表1 部分公安微博评论数据
通过对评论数据进行情感分析发现,该热点事件发生后,网友通过微博评论表达主观情绪随时间起伏明显,同时信息扩散过程呈现出明显的阶段性特征。与其他舆情事件不同的是,虽然视频于6月24日晚在微博上得到大量转发,但是根据用户的浏览习惯,大部分网友都处于睡眠状态,所以短时间内仅得到了少数用户的关注,潜伏期较长,公众情绪聚集后在某个时刻爆发式增长,在6月25日15:00—16:00发酵达到峰值,此时正是公安机关确定案发地点的时间,随后下降。但由于没能及时抓获犯罪嫌疑人,依然维持一定热度。事件评论的整体走势如图5所示,可根据各时段的评论走势将事件划分为潜伏期→爆发期→消散期。负面评论占比变化图如图6所示。
图5 “女子半夜遭殴打”事件评论走势图
图6 “女子半夜遭殴打”事件负面评论占比变化图
(1)潜伏期(6月24日22:00—6月25日15:00)。这一阶段视频刚流传且处于深夜,关注的人不多,很多信息都不明朗,相关讨论在微博上并未形成太大的声势。“@绵阳网警巡查执法”在第一时间转发并在全网搜集线索。然而,由于其他公安微博没有及时响应,6月25日8时26分,“@中国警方在线”对“@绵阳网警巡查执法”关于线索征集的微博进行转发,负面评论仍快速增长(见图6节点4),主要体现在对女孩的同情、对犯罪嫌疑人的愤怒、对个人生命安全的恐慌和对公安执法的不信任;9时53分“@中国警方在线”再次发声征集线索,语气强烈,负面评论随后有所回落(见图6节点5、6);11时起,“@中国警方在线”3小时内连发5条微博(见图6节点6~节点10),其中包括对当前案件线索的汇总、对办案进程的播报和对女性安全的关切,负面评论得到了有效控制。
(2)爆发期(6月25日15:00—6月26日02:00)。这一阶段的特征是受众情绪大量聚集爆发。6月25日15时20分,“@大连公安”发布警情通报,确认该事件发生地在甘井子,“@中国警方在线”迅速转发,一小时微博评论达43 087条,负面评论占比达到87.13%,由于公安部门处理案件迅速、处理案件及时,网友的情绪逐步稳定。6月25日17时30分,“@中国警方在线”对知乎等平台上的言论辟谣,负面评论虽有上升趋势,但该条微博发出后,负面评论占比减少(见图6节点13)。由于17时30分以后,无任何关于案件进展的信息通报,网络舆论再次发酵,6月25日23时39分,“@大连公安”发布警情通报称犯罪嫌疑人被抓获,“@中国警方在线”再次转发,网友对该事件的评价趋于理性,负面评论减少(见图6节点14、15)。
(3)消散期(6月26日02:00以后)。这一阶段的主要表现是相应评论数量变少。伴随着事件处理结果的公布和犯罪嫌疑人的抓获,负面评论占比减少,随后关于该事件的讨论逐渐在网络舆情中消退。
综上可知,公安微博在应对与处理网络舆情事件中具有不可替代的作用。但在很多情况下公安微博是被动应对,而不是制度约束或信息系统的自动作为,所以有必要进一步分析与设计公安微博的舆情反馈模型。
根据信息反馈理论模型构建公安微博舆情反馈系统,如图7所示,可知公安微博舆情反馈系统由一些相互联系和相互影响的部件组成,是具有特定功能的一个整体。对各级公安系统来说,反馈系统主要包括指挥中心、信息管理部门和刑事侦查、治安管理、交通警察等执行机构。
图7 公安微博舆情反馈系统
(1)指挥中心。指挥中心负责公安情报信息的汇总和研判;协助领导组织协调对各类重大舆情事件的处置;组织管理全局通讯工作;监督管理全市计算机系统安全,依法查处计算机违法案件。在公安微博情感舆情反馈系统中,指挥中心构成系统的调节器或控制器。
(2)执行机构。在公安微博舆情反馈系统中,刑侦部门、治安大队及交通警察构成系统的执行机构,负责具体的案件调查工作。
(3)反馈。信息管理部门负责全局计算机系统、网络的规划和建设;组织实施重大社会活动和治安突发事件应急通信工作和数据收集与处理,包括对公安微博用户评论进行搜集、情感分析、关键词提取。在公安微博舆情反馈系统中,信息管理部门主要承担情感分析的工作,并将结果反馈到指挥中心。
(4)扰动。扰动指在微博的实际传播过程中,公安部门传递的和公众接收的信息往往有差别,通常是由于噪音干扰造成的。噪音可以是系统外的噪音(社会因素)、人为的噪音(虚假信息等),也可以是系统内的噪音(系统故障)、自然噪音(不可抗力因素)等。
(5)相关含义说明。在舆情反馈控制系统中,不同环节的输入量、输出量的含义是不同的。①输出量:即被控对象的输出变量,也是控制系统的输出量y(t),在系统中指评论总数、负面情绪占比等。②控制量:被控对象的控制输入,也是执行机构或控制器的输出,控制量通常是一些可以对被控对象输出产生有效影响的变量。③参考输入:给定环节的输出,表示被控对象输出量的测量值应达到的数值,通常情况下参考输入也是控制系统的输入r(t)。④误差:参考输入信号与被控对象输出量的测量值之间的偏差,误差信号一般是控制器的输入信号e(t)。
4.2.1 设定参考输入
确定模型的参考输入是实现舆情反馈控制管理的首要环节。该反馈模型主要考虑公安微博评论,根据日常评论数均值,不同的公安微博设定适合自身的参考输入r1(t)。负面评论占比主要用于考察网友对信息的认同度,并判断是否需要进行持续信息发布和针对性的舆情应对。当负面评论占比小于50%时,说明事情处理有序。当负面评论占比大于50%时,需与网友积极互动的同时,归纳出问题的焦点,以发布微博集中回复、组织专家专题访谈等形式,发布更详尽的回应信息和依据。在舆情反馈模型中,公安微博需设置负面评论占比的参考输入r2(t),一般不超过50%。同时在评估负面评论时,必须要甄别情绪性和理解偏差性的负面评论,看到网友真实的反应。
4.2.2 舆情反馈控制
舆情反馈是一个动态的过程,对于公安微博舆情反馈系统,热点舆情事件发生后,若负责某公安微博的信息管理人员发现评论数e1(t)远高于参考输入r1(t),说明网友具有较强烈的评论意愿,此时应及时关注负面评论情况、收集汇总网友的质疑、采集用户评论、进行情感分析和关键词提取,并把数据传送至指挥中心。指挥中心对数据进行汇总和研判,再根据舆情事件的严重程度,协调各部门,合理调度警力,安排相应的执行机构去处理案件,处理后经公安微博进行警情通报。
当警情通报发布后,公安机关可以组织相关管理部门对舆情信息进行反馈跟踪,如信息管理部门需对一定时间间隔内(可设为1 h)的微博评论进行采集和处理。①及时跟踪反馈信息。②及时修正反馈信息:在反馈的内容上,要更多地反映公众关注点,从而根据公众需求发布更贴切的信息。③得到评论总数和负面评论占比,即系统的输出y1(t)和y2(t),并将结果反馈至指挥中心。
若系统输入接近参考输入,即e1(t)和e2(t)趋近于0,说明舆情得到了良好控制,可以减少部分警力。若仍与参考输入差别较大,即e(t)(包括e1(t)和e2(t))变化不明显,说明应对乏力,指挥中心应再次根据评论文本数据提取的关键词,在案件处理过程中考虑公众诉求,调整处理策略。若不能在限定时间内处理并公布结果,则须经公安微博在许可范围内向公众充分解释,坚持公安工作原则,把握行为限度。如此反复,直到评论总数和负面评论占比趋近于参考输入。
由于反馈系统存在一定的时延性,为了提高效率,指挥中心在处理过程中应根据舆情发展特点,对评论的正负倾向进行预测,及时在事件发酵过程中给予正面引导,先发制人,以迅速控制舆情,避免不必要的负面情绪扩散。在舆情发展过程中,还应进行谣言和次生舆情的监测,及时辟谣。
4.2.3 联动反馈
当某些舆情事件发生时,由于相关公安微博没有及时对公共诉求进行反馈,于是公众转向其他影响力较高的政务微博,例如“@人民日报”“@共青团中央”,并在这些微博上留言。如昆明大学生李心草溺亡事件,当“@李心草妈妈”表达自己的诉求后,由于短期内“@昆明公安”未回应,网友纷纷到“@人民日报”评论区留言,希望人民日报能关注该事件。
因此,公安机关需要通过公安微博及时收集数据、分析数据,协调各部门工作,并建立各公安微博的联动反馈。当某微博账号监测到非辖区内舆情时,同样应当积极回应,同时跟事发地的公安机关取得联系。当案情有进展时,不仅自身要进行信息通报,还要将结果反馈到对应微博,以促进舆情的控制。
(1)为充分挖掘舆情事件下评论文本中所蕴含的大量有价值的信息,通过Word2vec和SVM算法对2019年“女子半夜遭殴打”事件相关的公安微博评论进行文本分析,结果表明公安部门积极运用公安微博有针对性地开展微博信息发布,可以化解群众对舆情热点事件的质疑与恐慌。但公安微博在处理网络舆情事件时常存在应对不当的情况,导致公众的负面情绪不能得到及时有效的控制,故将反馈思想运用到公安微博情感分析模型中,构建公安微博舆情反馈模型,为公安机关控制舆情提供有效参考。
(2)在分类模型方面,笔者选择了基于机器学习的SVM这一模型对文本进行情感分类,为了提高文本情感分类模型的性能,未来可以尝试更多情感分类模型,还可针对文本情感分类进行深层次的模型融合,以提高文本情感分类任务的效率;为提高公安微博舆情反馈模型统的处理效率,下一步还需要通过更多的数据分析使得对不同的舆情事件进行分级处理。