基于大数据和AI算法的社会风险智能感知系统

2020-11-24 03:29:58齐中祥

贵阳学院学报(社会科学版) 2020年5期

徐瑛，齐中祥

(沃民高新科技[北京]股份有限公司，北京海淀 100086)

一、背景和意义

2019年1月21日，习近平总书记在省部级主要领导干部“坚持底线思维着力防范化解重大风险专题研讨班”上强调：“深刻认识和准确把握外部环境的深刻变化和我国改革发展稳定面临的新情况新问题新挑战，坚持底线思维，增强忧患意识，提高防控能力，着力防范化解重大风险……既要高度警惕‘黑天鹅’事件，也要防范‘灰犀牛’事件。”习总书记还特别强调，“防范化解重大风险，需要有充沛顽强的斗争精神”，领导干部要“敢于担当、敢于斗争”，“加强斗争历练，增强斗争本领，永葆斗争精神”。

习总书记还曾指出，目前中国有三大“陷阱”：“塔西佗陷阱”“修昔底德陷阱”和“中等收入陷阱”。为什么生活在这个时代的人们普遍有一种不安全感？普遍感到焦虑，缺乏信任？事实上，这种不安全感和焦虑，不是中国独有的，而是全世界普遍存在的。

德国著名的风险社会理论开创者乌尔里希·贝克曾言：人类生活在文明的火山口上,整个人类社会已经进入到了世界风险社会阶段。联合国开发计划署(UNDP)最新公布的《2014年人类发展报告》也向世人发出了警告：当今世界,不安全感仍普遍存在,无论是在生计、人身安全、环境还是全球政治方面[1]。20世纪中叶以来,人类社会逐步凸显的政治风险、经济风险、文化风险、生态风险、基因风险及核战争风险等一系列风险图景，既无数次地印证着联合国开发计划署的警告并非危言耸听,也不断地应验着乌尔里希·贝克对世界风险社会的理论把握。那么，在世界风险社会的宏观大背景下,当代中国社会的时代处境如何呢?

互联网时代的迅速发展使各种社交网络平台相继兴起，尤其是移动终端的广泛使用让越来越多的人通过移动社交网络平台传递信息、发表言论。移动社交网络本身具有的移动性、开放性、虚拟性、匿名性等特性，一方面使信息的发布与传播更为方便快捷，另一方面也使许多失真信息与网络谣言在移动社交网络中肆意传播，移动社交网络舆情随之产生。近年来，因网络舆情引发的危机事件激增，社会的和谐与稳定受到威胁，对网络舆情的预警已经迫在眉睫。在多样化的媒体环境中，受众在接触各种倾向性媒体的同时，在使用习惯上也会受相应媒体的影响。当多种媒体力量介入网络群体性事件中，网络群体性事件的议题设置为不同权利间的博弈提供了抗争空间。为提高对群体性事件网络舆情判断的准确性和对突发事件监测的时效性，可以通过预测热点事件的舆情峰值来识别潜在风险,从而掌握舆论战的主动权和话语权。

积极有效地处置群体性事件，进而实现政府公信力的恢复与重建，已然成为国际社会共同关心的问题。对此，国外主要运用集体行动、社会运动与革命理论以及社会冲突理论进行制度化分析，同时也积累了大量有关群体性事件处置的实际经验，这对于处于快速转型期的当今中国社会具有一定的借鉴意义。

另外，针对不同国家的多种群体性事件的特点和发展趋势的识别、预测及分析等任务，为提升对大量非同源的纸媒、网络公开数据的处理和情报提取及预测能力提供了基础，为对国外群体事件态势预测和相应的决策方案提供合适策略创造了条件。

二、国内外现状和发展趋势

(一)国内外相关技术、产业和应用现状及发展趋势

随着信息技术的高速发展，公众和互联网的关系日益密切。中国互联网络信息中心(CNNIC)报告，截至2018年底，中国网民达到8.29亿。在当前飞速发展的社会转型期，因政策变化、发展不均衡、人口基数大等原因，非常规的突发事件频频发生，而网络助力了此类事件的传播速度和影响范围，若处理不当必将引起民众强烈的负面情绪，带来社会风险。如“山东疫苗问题”让全国范围内的家庭“谈苗色变”，一时间各种谣言甚嚣尘上，引发社会恐慌，造成了恶劣的影响。再如“日本福岛核泄漏事件”因谣言的传播，引发了我国沿海局部地区食盐抢购风潮。近年来“拆迁”“医闹”“公共卫生安全”类事件层出不穷，成为一种“痼疾”，不断激化干群矛盾，引起恶劣社会事件的发生。因此，当前的关键任务就是建立一套准确可用的网情风险评估体系来监控突发事件热度，作出社会风险评估和预警，从而采取及时恰当的措施来降低负面影响。

国外对社会风险的研究起步较早，美国、日本、俄罗斯等国家在舆情危机的预警和处理上已经比较成熟，许多发达国家已经成立了专门的研究机构。2016年，美国罗格斯大学的Haroon Raja使用推特流量的语言独立特性，来识别Twitter上提到的较动乱的国家与那些政治局势和平的国家在信息流方面的差异，并利用这些特征来识别政治不稳定的国家[2]。2017年，安卡拉经济技术大学的Ahmet Enis通过对使用土耳其语书写的推特的提取，实时确定最新的趋势事件的位置和时间。结果有助于预测下一个热点，并警告人们有效避险，研究结果95%的成功率证明了该方法的适用性和有效性。

在国内，中山大学的曹树金等通过对网络新词识别算法的设计，提出了基于HowNet 和网络情感词的极性词典的人工构建方法，并设计了自动识别网络新词的方法[3]。解放军信息工程大学的王铁套等依据模糊综合评价法构建网络舆情预警模型，采用混合赋权法确定各指标权重，通过选择合适的模糊算子确定指标体系中各舆情因素的数值化评价，最终得到网络舆情的预警等级[4]。2013年，中国人民武装警察部队学院的兰月新在分析突发事件网络舆情数字特征的基础上，建立数学模型研究网络舆情信息传播规律并在模型中提取关键参数——固有增长率，再对突发事件进行动态分析和预测，可以使政府对网络舆情做到及时预警[5]。

2014年，来自北京航空航天大学的范锐博士通过对大量微博数据中的“情绪”进行分类和追踪，发现愤怒是传播效果最强的情绪，并通过事件聚类发现愤怒情绪普遍跟一些舆情时间相关，如“刑事案件”“钓鱼岛事件”等。社交网络情绪分析对热点事件监测和舆情预警具有重要意义，大数据能揭示话题的时间分布规律以及与情绪的相关程度。该研究被90多个国家的数百家媒体报道[6]。中国人民武装警察部队学院的瞿志凯等人于2016年在暴恐事件及网络舆情影响因素的基础上，构建了包含暴恐事件、信息特性、媒体报道、网民反应四个维度的暴恐事件网络舆情风险预警指标体系，并运用层次分析法、ABC 分类法对风险指标进行权重计算及风险评估[7]。中国人民公安大学的陈俊通过对群体性事件网络舆情预警必要性和相关理论的解析，采用德尔菲法筛选预警指标并确立指标体系，能为公安部门从事群体性事件网络舆情预警工作提供理论支撑和实践指导[8]。2017年，解放军外国语学院的胡瑞娟在大数据背景下，以论坛、微博、博客等具有评论功能的新闻网站为研究对象，对群体性事件网络舆情进行分析研判，构建网络舆情预警机制，为预防和研判群体性事件的发生提供了有益的思路[9]。

目前针对突发社会事件的预警尝试有很多，但也存在不足，主要表现包括：一是维度单一问题。因为分类模型的缺乏，只对文本做单一的情绪分析或者主题分析。受社交网络过于娱乐化、同主题下内容繁杂等影响，大量与群体性事件不相关的娱乐事件、单纯的国际新闻、中性的社会事件等混入检测数据，大大影响了舆论分析的效率和准确度。二是缺乏实际数据问题。很多尝试往往只分析一至几个具体的事件，个案缺乏普适性，研究价值低。有些研究只是从传播学理论上分析了事件传播的破坏力的相关要素，并基于此设计了相关网情风险指数，但缺乏在实际数据上的验证，不具有可用性。三是概念宽泛问题。研究中涉及的舆论事件范围太广，缺乏具体民众的实际反映，泛泛地将自然灾害、事故灾难都设置为“危机”。根据文本的具体分析，在一些突发灾难中，由于灾害的客观非人为因素、政府有力的救援和感人的救人事迹的传播，事实上社交网络上大量用户表达的是祈福、爱心和感动等积极情绪。因此这类具体突发事件总体并不呈负面舆论危机事件，如此对事件的过粗分类影响了准确率。四是计算效率问题。一些研究的分析方法过于复杂，伴随着大规模交互网络和词网络的生成，网络舆情信息由出现到爆发时间非常短，因此难以胜任实时的风险预警任务。五是舆论检测问题。很多研究只集中在事件网络舆情特征、规律及引导机制等方面，是对历史数据进行评价再预警的模式，这种方式只能反映历史状态，很难预测舆情的发展趋势。对突发舆情危机的预警性研究仍然不够深入，缺少检测方法。

当前，互联网的飞速发展和社交媒体应用的深入，为基于公开数据开展群体性事件分析与预测奠定了坚实的数据基础；人工智能和大数据技术的快速进步，更是为基于公开数据开展群体性事件分析与预测提供了技术上的保障和算法的应用场景，为国家或地区群体事件态势预测和相应决策方案提供合适策略创造了条件。

三、破解之道

群体事件与社会风险相伴而生。群体事件有两大特点：首先是危害大，各类群体性事件层出不穷，不断激化社会矛盾，引发社会风险并影响社会稳定；其次是控制难，群体性事件往往参与人数众多，信息量大，内容纷杂，传播迅速，控制难度比较大。

伐敌制胜，贵先有谋。“人心识别AI技术”正是防范社会风险的一大“奇招”。研究证实：群体事件与愤怒情绪如影随形。沃民公司首席科学家许可教授带领的科研人员分析了20万新浪用户发布的约7000万条微博数据，并基于用户的关系和用户的情绪构建了一个网络。大数据分析的结果显示：愤怒是网络上相关性最强和最容易传播的情绪，其次是高兴情绪，最弱的是悲伤情绪的传播力。科学家们的研究结果表明引发人们愤怒的坏事往往传播得最快。

群体性事件是指由某些社会矛盾引发，特定群体或不特定多数人聚合临时形成的偶合群体，以人民内部矛盾的形式，通过没有合法依据的规模性聚集、对社会造成负面影响的群体活动、发生多数人语言行为或肢体行为上的冲突等群体行为的方式，或表达诉求和主张，或直接争取、维护自身利益，或发泄不满、制造影响，从而对社会秩序和社会稳定造成重大负面影响的各种事件。

为提高对群体性事件网络舆情判断的准确性和对突发事件监测的时效性，需要通过预测热点事件的舆情峰值来识别潜在风险,从而掌握舆论战的主动权和话语权。其中社会事件如医疗安全、拆迁纠纷等作为“内在风险”，被视为社会的“分歧性危机”。针对我国网络舆情问题的具体情况，建立一套准确可用的网络舆情评估体系来监控突发事件热度，有必要利用方差分析和逻辑回归来筛选属性，建立一套评估指数，来做舆情评估和预警，以期采取及时恰当的措施降低负面影响。

(一)事件自动检测和信息抽取

针对一些特定事件如“山东疫苗事件”等突发和持续性群体事件，为满足安全监管部门在网络中对一些特定突发事件进行风险定性、定量、监管、追踪的需要，舆论风险评估指数把网络公众对特定突发事件表达的情绪和意识形态等多维度信息集合起来，构建一套综合反映舆论风险程度的量化统计指标体系，来识别该性质事件。研究事件自动抽取技术，基于指示词等特征自动检测文本中的事件，并能对指示词进行自助式扩展，用于事件监测与发现；研究事件抽取与表示，从文本数据集中抽取出结构化的事件描述与属性信息，包括时间、地点和人物等，将其组织为目标对象和动作行为等。

如图1所示，整体系统架构分为四个主要模块：文本收集与预处理、全网舆情数据分析、地域舆情数据分析和特定事件数据分析。主要流程为先爬取社交媒体数据流，文本收集与预处理模块对其进行意识形态、情绪和主题等标记，添加属性后存储在数据库中。接着在并列的三个模块中，全网舆情数据分析对全体数据聚类找寻事件计算指数并分析，用Single-Pass算法对时序文本聚类得到关键词簇，通过聚类的关键词检索相关文本数据，再计算各个事件的舆论指数，选取那些超过阈值需要予以关注的事件，由相互间数量比例来合成总的指数。以此为基础对全网当前舆情做出分析，当指数有异常时即时预警。

图1 整体系统架构图

对筛选的该地域的数据作上述分析，通过每条文本的地域属性筛选出该地区的信息流，汇聚起来进行分析，如事件文本聚类出事件类簇，对检索的相关事件文本计算地域舆情指数。针对网络出现的突发热点议题，及时识别并确定敏感领域的监测范围。而特定事件则针对该事件的关键词对事件文本进行筛选并作事件的网评分析，判断事件的性质，对于那些需要进一步研究的特定事件，基于该事件关键词获取的时序文本，在此通过各种分类器的标签来计算网评指数POI。随着时间的推移，关于该事件的文本若越来越多，且POI呈现正值或逐渐增大趋势，应及时预警并进一步追踪该事件的舆论变化情况。

(二)多模型多源时间预测技术

基于多源数据的事件预测。该针对热点事件的预测模型设计是基于热度峰值检测系统，通过提取出热点检测系统中的历史热点事件信息，分析在发展过程特征训练测试系统中的历史热点事件信息，并在发展过程特征训练事件的预测模型中实现预测功能。

1.热点事件描述

通过观察热点事件在时序上的发展过程，可以将时间序列模型定义为三个阶段，分别是潜伏期、爆发期和消亡期，见图2。

图2 热点事件的三个阶段

潜伏期是指事件前期平稳发展的过程，是判断该事件能否成为热点事件的重要依据；爆发期是指事件的影响力迅速扩大，关注度急剧上升的阶段；消亡期是指事件在后期逐渐被人遗忘，影响力迅速下降的一个过程。对于普通事件来讲，事件不存在爆发期，只是一个平稳发展以及消亡的过程，通过提取爆发期以及潜伏期的事件特征，通过训练分类器，可以有效地区分普通事件与热点事件。

2.热点事件预测的目标分析

通过定义热点事件可以发现，热点事件监测算法，是希望能够在热点事件爆发的过程中监测到热点事件的发生。希望能够分析热点事件的相关特性，提取热点事件的相关特征，通过机器学习算法，实现对一个热点事件的预测，以便在事件还处于爆发期甚至潜伏期时就能够判断出该事件是否具有成为热点事件的趋势，最终在这个基础上，预测出该热点事件的爆发点以及爆发时间。对事件的识别来说，事件识别准确率应达到指标，并计算每个事件的舆评指数POI，对其进行统计并设置阈值，当计算出的POI超过阈值就可以对群体性负面事件进行识别，预期利用POI识别群体性事件的准确率达到指标。对多源事件预测来说，首先通过多源事件预测模型对事件进行分类，然后选择可能成为热点的事件，在这个基础上去预测该事件的爆发期，即在事件爆发前对其进行感知和预警，模型识别的准确率应达到指标。

综上，为了满足网络管理及社会安全监管部门在网络中对一些特定突发事件进行风险定性、定量、监管、追踪的需要，沃民公司的科研人员利用互联网大数据和人心识别AI技术，通过把网络空间对特定事件表达的情绪和意识形态等多维度信息集合起来，构建一套综合反映网情风险程度的量化指标体系，开发了一套网情风险指数(IERI)(见图3)。

图3 不同类型群体事件网情风险指数

根据事件性质的不同，可观察到一些有负面舆论的群体事件网情风险指数形态各异。

通过IERI值排序能够有效区分不同事件。群体负面事件集中在正区间，而其他事件聚集在负区间上(见图4)。

图4 不同事件的IERI值排序

图5 系统的查全率和查准率统计图

在0.771时，具有96.67%的查全率(覆盖性好)。在1.08时，具有96.551%的查准率(可靠性高)。

根据这个算法可以按小时、天进行实时计算，这样就可以灵敏预判社会风险是否会发生。

基于沃民公司所开发的社会风险实时感知与智能预警大数据系统，实现对某一地区社会风险问题的全面监测、风险监控、智能预警、智能分析。该系统对于政府掌握地区风险态势、研判风险发展、应对风险问题具有重要的决策支撑作用。

图6 西乡塘区社会稳定风险舆情监测与分析系统

(1)全面监测：市域风险的超强感知

城市的发展涉及方方面面，城市政治安全、政府重大决策、敏感群体动态、社会民生热点等内容均可能爆发风险，对这些风险进行监测和感知是社会治理的前提条件。西乡塘社会风险系统能够对上述风险类型进行7×24小时全网实时监测，能够对重点监测对象进行针对性的社交账号监测，同时还能够监测所需的各类语言信息，并实现自动中文转译。

(2)风险监控：市域风险的发展跟踪

城市中不同的社会风险类型都是动态的，对风险进行持续性监测并跟踪变动趋势，有助于城市管理者直观了解城市风险变化情况。西乡塘社会风险系统综合互联网社会风险舆情的监测、分析的结果，结合网情风险指数的评价技术，能够实现对各类社会风险的动态实时监控，以及对各类社会风险重大事件节点的智能预警。

图7 沃德社会风险实时感知与智能预警系统

(3)智能预警：风险事件的智能预警

城市社会风险类型涉及领域广，风险事件数量众多，在所有风险事件中识别出异常事件，对于城市管理者有针对性地解决风险问题具有重要意义。西乡塘社会风险系统基于事件检测技术和事件预测模型能够实现对舆情事件的归类及热点的预判，能够在热点事件还未爆发时就预测到该事件的爆发点以及爆发时间，实现热点事件提前预警。

(4)智能分析：群体事件的趋势研判

城市社会风险爆发后，全面、详细分析风险问题有助于城市管理者了解风险背后的问题，有助于风险问题的应对处置。西乡塘社会风险系统能够在及时、全面收集社会风险信息的基础上，对相关数据进行统计分析，主要包括态势分析、印象分析、情绪分析、满意度分析及意见领袖分析等，针对微博数据源的信息提供删帖分析功能，以可视化图表呈现分析结果。

四、应用案例

2020年6月4日，广西梧州发生的保安持刀砍伤多名学生和教职工重大恶性事件再次牵动了许多人的神经。资深社会风险管理专家孔祥涛认为：“在当前社会风险压力增加的背景下，这种恶性暴力案件发生是个危险信号，具有诱发‘示范’效应，点位层面的社会情绪及矛盾需要监测预警。”

图8 梧州近期社会风险值走势图

从沃民高新科技(北京)股份有限公司开发的“广西社会稳定风险智能监测与分析系统”上能看到，从5月25日至6月3日，互联网上就持续出现对梧州地区相关部门核心领导的举报事件，系统进行了风险提示和预警，社会风险值从0.86上升至0.95、0.96(基准值为1)。待6月4日事件爆发后，风险值再次向上攀升。

这一预警信息能让我们很清晰地感受到当地政治生态和社会生态的紧张。网络举报持续时间如此之长，举报人如此坚持不懈地发布，反映了当地政府缺乏有效的纳言谏策渠道，当地群众合法权益得不到保障，必然造成矛盾激化，甚至影响社会心态和社会风气，影响人民对基层党政组织的信任。一旦社会心态畸形，社会矛盾倍出，局部社会风险将可能失控，酿成危机事件。

受疫情冲击和经济下行影响少数地方社会矛盾增多，社会风险加大。各级政府部门应及时引入社会风险监测系统，有效感知和防范、化解潜在的社会风险。利用社会风险管理系统，随时确定当地社会风险水平层级，积极进行系统风险点自查、处理、复盘，就可防微杜渐，避免更大的社会风险发生，建设形成共建共治共享的社会治理制度，实现长治久安。

五、总结

沃民公司社会风险智能预警大数据系统通过数据—事件—预测依次深入，利用人工智能与数据挖掘实现未来事件和事件影响的有效预测，基于深度学习与自然语言处理支撑事件信息和事件关联的有效提炼。环境—算法—应用三者有机融合，通过现实应用的外需牵引，结合大数据环境的内因驱动，实现模型算法的落地，最终为社会风险的防范化解提供支撑。