◆张黎明 赵丽娟
基于SPSS Modeler的涉警网络舆情预警研究
◆张黎明1赵丽娟2
(1.中国人民警察大学(廊坊) 河北 065000;2.中国人民警察大学(廊坊) 河北 065000)
网络的飞速发展彻底改变了当下舆论传播方式,促使更多的个人、组织以不同的身份参与到网络舆论中,使网络舆情的发展更具多样性。近些年来涉警网络舆情态势愈加严峻,一方面是因为警察这一职业的特殊性,另一方面是对网络舆情评估的不准确和不全面,导致舆情管理部门不能采取有效的预警和疏导措施,甚至危及社会安全的网络舆情事例频发。本文通过利用爬取的涉警网络舆情数据,分析涉警网络舆情事件的相关维度,利用人工神经网络算法,构建涉警网络舆情热度预测模型,以期为公安机关早期处置舆情事件提供强有力的方法指引和技术支撑。
网络舆情;涉警舆情;SPSS;神经网络模型
随着新浪微博、今日头条等等网络媒介的高速发展,网络传播路径呈现裂变式扩散。网络舆情事件频繁发生,如若应对不当,极有可能对当事方以及社会产生重大负面影响。2016年2月份,习近平总书记在召开的新闻舆论工作座谈会上,将舆情引导、舆情管理上升到党和国家的战略层面。在这样的情形之下,及时展开对相关网络舆情风险的评估,进一步来加强网络舆情的监督和管理就显得非常必要。
根据CNNIC(中国互联网信息中心)发布的《中国互联网络发展状况统计报告》显示,截至2018年12月底,我国网民的用户规模约8.29亿,2018年全年新增网民数量5653万,互联网的普及率高达59.6%,较2017年底提升了3.8%。我国手机网民规模达8.17亿,2018年全年新增手机网民约6433万;网民中使用手机上网的比例由2017年年底的97.5%提升至2018年年底的98.6%,根据以上统计信息,我们不难看出,目前手机上网已经成了网民最受欢迎的、最常用的上网渠道之一。据调查统计,仅仅以2019年至2020年为例,互联网上仅百度一家公司的有关警察的咨询指数即达到了2,358,673。据调查统计,2016年热度排名前60名的热点舆情事件中,涉警舆情占17个,前十名中,涉警舆情占3个。司法部门的舆情中,负面舆情占比高达 67.7%。违纪违规、违法犯罪类事件的舆情占比高达23.3%,在各类事件中比例最高。数据表明涉警舆情的现状是受到重点关注,且形势不容乐观。因此,基于涉警网络舆情的特征,进一步研究和构建涉警网络舆情热度评估模型,加强网络舆情的管理工作,是有效防范和抵御各类重大社会风险的迫切需要。
涉警网络舆情一般是指以网络为载体,个人用户或者组织群体对公安机关或者警察个人的执法、管理、服务等活动,对公安机关出台的政策措施,对现实公安形象与警察队伍形象,以及对非现实公安机关与警察等主体与其他能够映射到现实公安机关、警察等主体所持有的情绪、态度、意见的总和。
涉警网络舆情的客体多为现实生活中的突发性事件,其具体可表现为突然发生并在网络上引起迅速关注且能够影响警察公信力、警察执法、警民关系的事件。事件的标签大多为公安机关暴力执法、执法不当、消极执法、不作为、侵犯公民个人合法利益或损害公民人身权利等;相关人员带有明显标签,如案件当事人双方地位悬殊,涉嫌利用职权关系以强凌弱等等,诸如此类事件都很容易发酵成为舆论焦点,引起网民大规模的过度关注与不理智讨论。
笔者首先通过中国知网数据库,以“涉警舆情”为检索关键词来进行搜索,结果如下图图1所示。通过分析下图我们不难看出,首篇涉警舆情相关研究文献发表于2008年,明显反映了我国针对涉警舆情领域研究的起步相对较晚的实情。截至2020年年底,相关主题文献发表数量合计为433篇,通过文献数量可知国内学者对于涉警网络舆情的研究关注度不是很高,文献研究数量也较为匮乏。在对相关文献的内容进行分析得出目前的研究主要集中于理论研究,缺乏对涉警网络舆情预测的相关技术研究。综上所述,及时地开展对涉警网络舆情预警的模型构建和预警研究,具有至关重要的现实需求和实际应用价值。
通过对近几年涉警网络舆情案例的分析发现,警察的执法行为往往成为网民热议的一个话题,网民普法意识得到提升对执法行为的关注与重视使得当他们面对一个涉警事件时往往从规范程度、道德、细节等各个方面检查警察的执法行为是否规范,这种对立的立场对涉警网络舆情处置产生较大的考验。若警察执法全都合乎规矩可能在网络上引不起较大波澜,但若警察在执法过程中存在不符合法律规范的行为则会引发网民对该事件更大的争议并由此引发更大范围的发酵。所以将警察执法维度作为分析涉警舆情事件的一个分析维度具有重要意义。
在面对涉警网络舆情事件的时候,网民或者网络主体,往往会不由自主地产生一种贴靠心理状态或者是共情的心理状态,即指心理换位、将心比心。主要体现在情绪自控、换位思考、倾听能力、情感共鸣以及表达尊重等等与情商相关的方面。又因为生命安全是人们在社会上生存的最为重要的因素之一,其重要程度也就决定了,在有关生命安全的网络舆情事件爆发时,尤其是再加上警察这一标签时,舆情事件的关注度就会更上一个台阶,这时难免会不同程度的引发网民高度甚至过度的关注。由此我们可以得出,可以把伤亡维度作为涉警网络舆情事件分析的一个重要维度。
人们的固化思维一旦被标签化,极容易轻率地根据某个人所具有的群体身份而妄下定论,这种刻板印象使得认知与现实产生偏差。对待事件的标签化处理,也同样是当前网络舆情事件中存在的重要问题。在涉警网络舆情中,由于警察本身已是一种备受关注的社会标签,如果这个时候,再出现其他类型的显著标签,或者是表示当事人身份的其他标签等,这都将影响涉警网络舆情的引导与管控,所以重视涉警网络舆情事件中的标签维度是引导与处置该类事件中不可忽视的一个重要环节。
图1 中国知网近几年涉警网络舆情文献
当前,微博作为人们日常生活中使用最频繁的网络社交平台之一,为网络舆情的产生、发展、演化提供了充分的环境。据调查统计数据表明,微博已经成为目前民众获取信息的重要渠道。与其他信息传播媒介相比,其事件搜索热度(均值107333,第二名)、事件首曝量(17.4%,第三名)、用户规模(3.16亿,第八名)、网民使用率(40.9%,第八名)等都处于较高水平。同时,微博以其信息包容的特性,为从其他传播媒介中转载信息提供了重要的渠道。也就是说,对于信息传播与网络舆情发展,微博实际中的价值与地位,要比统计结果表现得更为重要。对于信息的传播与网络舆情的生成微博都起着至关重要的作用,所以此次实验数据通过利用新浪微博平台进行爬取。
3.1.1采集范围
在数据范围的选择时用到了新浪微博的高级搜索功能来进一步精确数据范围。在高级搜索面板上选取了关键词为警察的信息,微博发文时间为2020年上半年,即2020年1月1日至2020年7月1日的全部微博,如图2所示。
图2 微博高级搜索涉警舆情信息
3.1.2数据爬取
利用Python爬虫技术对确定好范围的页面进行内容的爬取,爬取的信息分别为:发文的用户、发文内容、点赞数、转发数、评论数。通过Python爬虫抓取关键词等限定的页面信息,爬取建模所需的原始数据。如图3所示,本次涉警网络舆情的关键词限定为“警察”,时间为2020年1月1日至2020年6月1日,原始数据总量为7万1538条。当然,这里面有很多次要数据,还需要对数据进行清洗和整理。
图3 涉警信息数总数
通过对数据进行进一步的清洗和整理,我们选中该数据库中前一百名数据进行分析处理。另外,我们也不难看出,热门数据的点赞数量,远远大于其评论数量和转发数量二者之和,因此,在下一步的人工神经算法分析过程中,就会舍弃评论数和转发数这两个次要变量。
如图4所示,红色区域数据为境外涉警舆情信息,因此此类数据应该舍弃,以保证数据分析结果的精度和准确性。
图4 涉警信息原始数据
然后再选取排名前100条的有效数据进行编排分析。利用维度分析法,再次对爬取的数据进行逐条分析,每条数据都从结合自身信息内容出发通过执法维度(根据热搜案例分析,总共分为以下四种情况:暴力执法、消极执法、执法不当、正常执法)、伤亡维度(分为有人伤亡和无人伤亡)以及标签维度(是否为标签化人群)这三个维度进行确立。为了便于将爬取的信息进行建模并用于机器学习,在确立各个信息的维度时,以数字“1”代表符合该种情况,数字“0”代表与该种情况不符合。数据处理结果如图5所示(数据总量较多,此处只展示小部分数据量)。
3.2.1数据筛选
人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式为参考,来进一步进行数据信息的处理。在人工神经网络中,输入变量的取值范围一般要求是在0~1,否则输入变量的不同数量级别会直接影响权值的确定、加法器的计算结果,以及最终的分类预测结果。因此,在SPSS Modeler的系统之中,对数值型变量进行数据的标准化处理采用的是极差法。对分类型输入变量:对具有k个类别的分类型变量转化成k个取值为0或1的数值型变量后再处理。
3.2.2数据编码
基于此对数据分析得出,伤亡维度规定为有人伤亡为A、否为B;执法维度为暴力执法为1、消极执法为2、执法不当为3、正常执法为4 ;标签化维度为事件中存在标签化人员为1、否则为0,具体分类情况如下图图6所示。
图5 涉警网络舆情原始数据分组
图6 涉警网络舆情事件编码
基于SPSS Modeler的各项内置算法建立预测涉警网络舆情发展态势是一种较好的数据统计分析方法。把海量数据中的各因素各维度相关联,对数据进行训练学习,挖掘出数据的关联程度,是一种定量分析与定性分析相结合的有效方法。
人工神经网络其实就是一种类似于人脑的抽象计算模型。神经网络是由大量的、简单的处理单元和神经元,以此来广泛地互相连接从而形成的一个复杂网络计算系统,它反映出人脑功能的许多基本的特征,可以理解为是一个高度复杂的非线性的动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。由于涉警网络舆情事件的相关输入变量多样且输出变量并不是二分类型数值,所以此次涉警网络舆情模型的搭建选择SPSS Modeler中的类神经网络算法进行。
在SPSS Modeler中通过Source选项卡中的Excel节点实现对预先整理的涉警事件信息进行读取。点赞数不仅能够高效简便的反映网民对相关事件的关注度,更由于其数据本身代表的数量优势有利于提升数据模型的准确性,所以这里我们可以将点赞数作为衡量涉警网络舆情热度的唯一指标。把整理好的数据导入软件SPSS Modeler之中,将伤亡维度、执法维度、标签化作为输入变量,点赞数作为目标变量,如图7所示。
把导入好的数据进行分区处理,数据整体的90%来进行培训,数据整体的10%来进行测试,设置内容如图8所示。
在人工神经网络模型建立的过程中,是通过选择恰当的网络结构,来探索输入和输出变量间复杂关系的过程,这是实现对数据分类预测的必要前提。这样的神经网络,可以通过对已有的样本进行反复数据分析和模拟训练,以此来掌握输入变量与输出变量之间的数量关系规律,最终将数量关系规律体现在权计算中。通过可视化模型可以明显看出得到三个维度对预测变量影响值所占的权重比重,标签化维度对点赞数的影响最显著,权重比值约为0.7。其次是执法维度权重比值接近0.3.对点赞数的影响最不显著的为伤亡维度,其权重比值约为0.05,如图9所示。这也侧面反映出,我们警察在日常接处警和执行勤务期间,务必合乎法律要求,不仅做到依法依规还要做到程序正义与实体正义并行,只有这样,在受到广大人民群众实行监督权的同时,也不会给那些“键盘侠”和无良媒体等不速之客留有可乘之机。
图7 涉警网络舆情数据导入
图8 涉警网络舆情数据分区
图9 模型预测变量重要性
分析图10内容,我们得出关于该涉警网络舆情模型构建的准确度约为83.7%。以下数据说明了该模型可以较好预测涉警舆情事件发展进程,可以通过点赞数来预测出该涉警网络舆情事件的热度,模型拟合情况较好,也就是表明为公安机关早期介入涉警舆情事件提供可靠的指引与决策帮助。
图10 模型准确度检验
文章主要着眼于涉警网络舆情事件,先是从网络舆情治理现实迫切的需求出发,分析了涉警网络舆情事件的传播特点以及自身属性,剥离出其所具有的三个重要维度,初步研究了涉警网络舆情事件中具有的要素,最后尝试构建涉警网络舆情热度的发展模型,通过SPSS Modeler之中的类神经网络数据分析模型,为公安机关在面对网络上出现的信息是否会发展成舆情事件的研判提供强有力的数据支撑和技术支持,加速公安机关对网络舆情事件的处理,为涉警网络舆情事件的处理提强有力的着手点。
[1]谢耕耘.中国社会舆情与危机管理报告(2017)[M].北京:社会科学文献出版社,2017:25-27.
[2]杜琳.公安机关应对涉警网络舆情的策略研究[D].山东师范学院,2019.
[3]袁野,兰月新,夏一雪.大数据环境下涉警网络舆情风险建模与实证研究[J].新媒体研究,2018(5).
[4]姜胜洪.网络舆情热点的形成与发展、现状及舆论引导[J].学术论坛理论月谈,2008(4).
[5]梁冠华,鞠玉梅.新媒体给现代舆情管控带来的挑战——基于反沉默螺旋理论[J].情报科学,2018,36(4):155-159.
[6]孙锦露,李玫瑾.涉警事件的网络舆情形成机制与应对策略[J].中国人民公安大学学报(社会科学版),2018,34(1):112-121.
[7]欧阳茗荟.法律视野下的网络舆情规制[J]. 辽宁警察学院报,2020,22(02):79-84.